스탠퍼드 연구팀 “AI 먼저 보고 판단”…의사 진단 정확도 10%↑

동아닷컴

최현정 기자

인공지능(AI)이 의료 데이터를 분석하는 모습. 스탠퍼드대 연구에 따르면 AI를 먼저 활용한 뒤 의사가 판단할 경우 임상 판단 정확도가 더 높아지는 것으로 나타났다. 사진은 기사와 상관없는 자료 사진. 게티이미지뱅크

앞으로는 의사가 환자를 보기 전, AI가 먼저 의료 정보를 분석하는 방식이 표준이 될 수 있다는 연구 결과가 나왔다.

병을 정확히 진단하는 것보다 더 어려운 것은 ‘다음 단계’를 결정하는 일이다. 수술을 진행할지, 약물 치료를 바꿀지, 추가 검사를 할지 등 치료 방향을 정하는 과정에서 인공지능(AI)이 의사의 판단을 보완할 수 있다는 분석이다.

스탠퍼드대 연구팀은 세계적 의학 학술지 ‘네이처 메디신(Nature Medicine)’에 발표한 연구에서, AI를 활용하는 순서에 따라 의사의 임상 판단 정확도가 달라지는 것으로 나타났다고 밝혔다.

● 진단보다 어려운 ‘다음 단계’…AI, 치료 판단에서도 성과

이번 연구는 병명을 맞히는 ‘진단’이 아니라, 이후 치료 방향을 결정하는 ‘임상적 판단(clinical management)’ 능력을 중심으로 진행됐다.

연구팀은 이를 ‘지도 앱’에 비유했다. 병명을 맞히는 것은 목적지를 찾는 일이라면, 치료 방향을 정하는 것은 교통 상황을 고려해 최적의 경로를 선택하는 과정에 가깝다는 설명이다.

실험은 ▲의사 단독 ▲의사+AI 협업 ▲AI 단독 등 세 그룹으로 나눠 진행됐다. 그 결과 AI 단독은 의사 단독보다 높은 점수를 기록했고, AI와 협업한 의사는 AI 단독과 유사한 수준의 성과를 보였다.

● “AI 먼저 vs 의사 먼저”…순서 바꾸니 정확도 달라졌다

연구의 핵심은 ‘누가 먼저 판단하느냐’였다.

AI가 먼저 분석을 제시한 뒤 의사가 판단한 경우 평균 정확도는 85%로 나타났다. 반면 의사가 먼저 판단한 뒤 AI를 참고한 경우는 82%에 그쳤다. 의사가 기존 자료만 활용했을 때는 75% 수준이었다.

특히 치료 결정과 관련된 판단에서는 AI를 먼저 활용한 그룹이 약 8.9% 더 높은 성과를 보였다.

연구팀은 이를 ‘앵커링 효과(anchoring effect)’로 설명했다. 의사가 먼저 결론을 내리면 이후 AI 분석이 그 판단에 영향을 받아 비슷한 방향으로 수렴하는 경향이 나타났다는 것이다.

실제로 AI가 ‘두 번째 의견’으로 사용된 경우, 의사의 초기 진단과 AI 결과가 완전히 일치하는 비율은 48%에 달했다. 반면 AI가 먼저 분석한 경우에는 이 비율이 3%에 그쳤다.

● 정확도뿐 아니라 ‘속도’도…AI 먼저 쓰면 시간 단축

속도에서도 차이가 확인됐다. AI를 먼저 활용한 경우 평균 진단 시간은 약 631초로, 의사가 먼저 판단한 뒤 AI를 참고한 경우(688초)보다 짧았다. 추가 분석에서는 약 92초의 시간 절감 효과도 확인됐다.

이 같은 시간 단축은 단순한 효율을 넘어, 의료진의 업무 부담을 줄이고 환자 한 명 한 명에게 더 많은 시간을 할애할 수 있는 여지를 만든다는 점에서 의미가 있다.

이 같은 협업 과정에서는 의사들의 태도 변화도 관찰됐다. 일부 의사들은 AI를 단순한 도구가 아니라 ‘동료’처럼 대하며 “좋은 생각이다”, “도움이 된다”는 반응을 보였다. 실험 이후에는 참여 의사의 99%가 AI 활용에 긍정적인 입장을 보였다.

연구진은 단순히 답을 제시하는 시스템보다, 의사와 비교·비판·토론하는 구조의 AI가 더 효과적일 수 있다고 분석했다.

● “AI가 의사를 대체?”…연구진 “아직은 아니다”

다만 연구진은 결과 해석에 신중해야 한다고 강조했다.

이번 연구는 실제 환자가 아닌 가상의 임상 사례를 기반으로 진행됐으며, 현실 진료 환경을 완전히 반영하지는 못한다. 일부 사례에서는 AI 활용이 오히려 판단 정확도를 떨어뜨리는 경우도 확인됐다.

연구를 이끈 조너선 첸 스탠퍼드대 교수는 “환자가 의사를 건너뛰고 AI에 의존해서는 안 된다”면서도 “의사 역시 AI를 언제, 어떻게 활용할지에 대해 다시 생각해야 한다”고 말했다.

결국 이번 연구는 AI의 성능보다 ‘사용 방식’이 더 중요할 수 있음을 보여준다. 연구 결과는 AI를 진료 과정 어디에 배치하느냐가 의료 판단의 질에 영향을 미칠 수 있음을 시사한다.

#AI 의료 #인공지능 진단 #스탠퍼드 연구 #네이처 메디신 #의료 AI #임상 판단 #진단 정확도 #AI 협업 #앵커링 효과 #디지털 헬스

최현정 기자 phoebe@donga.com