banner

소식

Jan 26, 2024

불완전한 사용자의 손에 있는 AI

npj Digital Medicine 5권, 기사 번호: 197(2022) 이 기사 인용

5965 액세스

3 인용

35 알트메트릭

측정항목 세부정보

의료 분야에서 인공 지능 및 기계 학습(AI/ML)의 사용이 계속 확대됨에 따라 알고리즘이 공정하고 투명하게 사용될 수 있도록 알고리즘의 편견을 완화하는 데 많은 관심이 기울여졌습니다. AI/ML의 인간 사용자 간의 잠재적인 편견이나 사용자 의존도에 영향을 미치는 요인을 해결하는 데 관심이 덜 쏠렸습니다. 우리는 AI/ML 도구를 사용하는 동안 사용자 편견의 존재와 영향을 식별하기 위한 체계적인 접근 방식을 주장하고 의사결정 과학 및 행동 경제학의 통찰력을 활용하여 사용자가 보다 비판적이고 반성적인 방향으로 나아가도록 유도하는 임베디드 인터페이스 디자인 기능의 개발을 요구합니다. AI/ML을 활용한 의사결정.

인공 지능 및 기계 학습(AI/ML)의 사용은 의료 분야에서 지속적으로 확대되고 있으며 개인화된 임상 의사 결정을 향상시킬 수 있는 가능성이 높습니다1. AI/ML 도구가 더욱 널리 보급됨에 따라 알고리즘의 편견을 완화하여 공정하고 투명하게 사용되도록 하는 데 많은 관심이 기울여졌습니다. 그러나 AI 사용자 사이의 잠재적인 편견을 완화하는 데에는 관심이 덜 쏠렸습니다. 자동화 시스템이 질병을 예측, 선별 또는 진단하는 능력이 더욱 정교해짐에 따라 임상 의사 결정에서 자동화 시스템에 의존하려는 유혹이 커질 것입니다2. 그러나 AI에 대한 사용자 의존도에 영향을 미치는 요소는 제대로 이해되지 않았으며 의료 전문가는 AI가 의사 결정에서 수행해야 하는 역할에 대한 지침이 부족합니다. 우리는 AI 도구를 사용하는 동안 사용자 편견의 존재와 영향, 그리고 그것이 임상 의사결정과 환자 결과에 미치는 영향을 식별하기 위한 보다 체계적인 접근 방식을 주장합니다. 특히 우리는 AI 도구를 사용하여 사용자가 더욱 중요하고 반성적인 의사 결정을 내릴 수 있도록 임베디드 인터페이스 디자인 기능을 사용하고 의사결정 과학 및 행동경제학의 통찰력을 활용하여 부정적인 결과가 예상되는 편견을 완화하는 방법에 대한 더 큰 실증적 연구를 요구합니다.

고부담 의사 결정의 맥락에서 AI 시스템에 대한 과도한 의존의 잠재적인 피해를 인식한 규제 기관과 정책 입안자는 인간을 "루프" 상태로 유지하는 것을 지지하고 다음과 같은 AI/ML 시스템의 안전성을 향상시키는 데 실행 계획과 권장 사항에 초점을 맞추는 것으로 보입니다. 향상된 계산 정확도3,4,5. 한편, 개발자들은 상당한 해석 가능성 제한이 있는 딥 러닝 또는 신경망을 포함하는 "블랙박스" AI/ML의 신뢰성, 책임성 및 설명 가능성을 해결하는 새로운 방법을 혁신하고 있습니다6,7. 이러한 목표는 임상 의사 결정에서 AI/ML을 사용할 때 특히 중요한 것으로 보입니다. 분류 오류 및 환자에 대한 잠재적 피해가 높을 뿐만 아니라 과도한 회의론이나 신뢰 부족으로 인해 유망한 새로운 AI 기술에 대한 이해관계자의 채택이 줄어들 수 있기 때문입니다. 실험 환경 외부에서 사용 및 가용성을 금지합니다.

그러나 우리 중 한 명(Babic et al.8의 SG)은 최근 의료 전문가에게 블랙박스 AI/ML 모델에 대해 제시되는 설명을 주의하라고 경고했습니다.

설명 가능한 AI/ML은 블랙박스 예측에 대해 사후 알고리즘으로 생성된 근거를 제공합니다. 이는 반드시 해당 예측의 실제 이유이거나 예측과 인과관계가 있는 것은 아닙니다. 따라서 설명 가능성의 명백한 이점은 "바보의 금"입니다. 왜냐하면 블랙박스의 사후 합리화는 내부 작동에 대한 우리의 이해에 기여할 가능성이 낮기 때문입니다. 대신 우리는 그것을 더 잘 이해하고 있다는 잘못된 인상을 남길 가능성이 높습니다."

결과적으로, 의료 분야에서 AI/ML의 엄격한 조건으로 설명 가능성에 초점을 맞추는 대신, 미국 식품의약국(FDA)과 같은 규제 기관은 AI/ML 시스템의 안전성과 효율성에 직접적으로 영향을 미치는 측면에 보다 총체적으로 초점을 맞춰야 합니다. 특히 이러한 시스템이 의도된 사용자의 손에서 어떻게 작동하는지. FDA는 최근 자동화 편향9의 위험을 명시적으로 인식하는 최종 지침을 발표했으며 AI/ML 기반 소프트웨어를 의료 기기로 수정하기 위한 새로운 규제 프레임워크를 개발 중입니다(즉, 섹션에 따라 자체적으로 의료 기기로 분류되는 소프트웨어). 미국 연방 식품, 의약품, 화장품법 201(h)(1)10), Babic et al. FDA와 같은 규제 기관은 적어도 어떤 경우에는 실제 환경에서 AI를 사용하는 인적 요인과 기타 결과를 테스트하기 위해 잘 설계된 임상 시험을 강조해야 한다고 주장합니다. Gerke et al.11,12도 마찬가지로 의도된 사용 설정과 인간-AI ​​상호 작용을 반영하는 다양한 절차적 맥락에서 성능을 이해하려면 더 많은 알고리즘 도구를 전향적으로 테스트해야 한다고 주장합니다. 이 학자들이 제안하는 사용자 테스트 유형은 베타에서 AI 도구의 최종 버전에 이르는 파이프라인을 특징짓는 일반적인 유용성 및 수용성 테스트를 뛰어넘습니다. 이러한 유형의 테스트는 소수의 평가자를 사용하여 인터페이스를 검사하고 관련 사용성 원칙(예: 해석 가능성, 인지된 유용성, 탐색 가능성, 사용 만족도 등)을 준수하는지 판단하는 경험적 방식으로 가장 자주 수행됩니다13. 이러한 지표는 도구 인터페이스를 통해 근접한 사용자 경험(예: "UX" 테스트)을 측정하는 데 유용한 경우가 많지만, 발생하는 "긴급" 또는 "맥락적" 편견의 잠재적 원인을 식별하고 해결하는 데 도움이 되는 더 깊은 수준의 사용자 테스트가 필요합니다15 제품 디자인과 사용자 특성, 사용 사례 또는 사용 설정 간의 불일치로 인해 발생합니다. AI 도구의 경우 이러한 불일치는 성능이 사용자 상호 작용 및 해석에 덜 좌우되거나12 적응형 알고리즘이 지속적으로 변경되는 기존 의료 기기나 의약품에 비해 예측하고 설명하기가 더 어려울 수 있습니다. 이러한 불일치를 완화하려면 AI 성능 지표에 대한 현재 초점을 넘어 사용자 테스트 개념을 확장하고 불완전한 설정에서 불완전한 사용자가 AI 시스템이 실제로 적용되는 방식을 형성하는 인적 및 체계적 요인17,18을 조사하는 근접 유용성을 확장해야만 달성할 수 있습니다. 또한 테스트는 단순히 다양한 상황에서 개인이 AI 도구와 상호 작용하는 방식을 관찰하는 데 국한될 필요가 없습니다. 또한 아래에서 논의하는 것처럼 행동 과학의 기존 통찰력을 사용하여 이러한 상호 작용을 가장 잘 형성하는 방법을 테스트할 수도 있습니다.

공유하다