"AI 쓰니 오진 16% 줄었다"…환자 4만 명 대상 연구 결과
아프리카 케냐의 한 병원 네트워크에서 AI가 의사들의 진료를 도와 실제로 의료 실수를 크게 줄이는 데 성공했다. 나이로비에 있는 펜다 헬스(Penda Health) 병원 15곳에서 39,849명의 환자를 대상으로 한 연구에서, AI 도우미를 사용한 의사들이 그렇지 않은 의사들보다 훨씬 적은 실수를 했다는 결과가 나왔다. 펜다 헬스는 2012년 설립된 사회적 기업으로, 하루 1,000명 이상의 환자를 치료하는 대형 의료 네트워크다. 오픈AI가 진행한 이번 연구는 2025년 1월 30일부터 4월 18일까지 약 3개월 동안 진행됐으며, 총 106명의 임상의사가 참여했다. AI를 사용한 그룹 57명과 사용하지 않은 그룹 49명으로 나뉘어 진료 결과를 비교했다. 이번 연구는 AI가 실제 병원에서 환자를 치료하는 과정에서 얼마나 도움이 되는지 확인한 첫 번째 대규모 연구다. 그동안 AI 의료 기술은 실험실에서만 테스트됐지만, 이번에는 진짜 환자들을 대상으로 한 실제 상황에서 효과를 입증했다. 3초 안에 분석하는 AI, 신호등처럼 빨강-노랑-초록으로 경고 이 AI 시스템의 이름은 'AI 컨설트(AI Consult)'다. GPT-4o 모델을 사용하며, 빠른 응답 속도를 위해 선택됐다. 의사가 환자의 주요 증상, 진료 기록, 검사, 진단, 처방 등 중요한 정보를 컴퓨터에 입력하고 다른 곳으로 이동하면 AI가 뒤에서 자동으로 분석한다. 평균 3초 이내에 결과를 내놓는다. AI는 마치 신호등처럼 초록불(문제없음), 노란불(주의필요), 빨간불(즉시 확인)로 표시해서 의사들이 한눈에 알 수 있게 했다. 특히 케냐의 임상 가이드라인과 현지에서 자주 발생하는 질병 정보를 미리 학습시켜서 현지 상황에 맞는 조언을 제공한다. 연구 결과, AI 도우미를 사용한 의사들은 그렇지 않은 의사들에 비해 병 진단을 잘못할 확률이 16% 줄었고, 치료를 잘못할 확률도 13% 감소했다. 환자에게 어떤 병이 있는지 묻고 진찰하는 과정에서 실수할 확률은 32%나 줄었다. 필요한 검사를 빼먹는 실수도 10% 줄었다. 만약 이 AI 시스템을 펜다 헬스의 연간 40만 명 환자 모두에게 적용한다면, 1년에 약 22,000건의 잘못된 진단과 28,880건의 잘못된 치료를 막을 수 있다고 연구진은 계산했다. 의사들 "AI가 옆에서 도와주는 선배 의사 같다", 해로운 사례는 0건 AI를 사용한 의사들 전원(100%)이 "AI 덕분에 환자 치료가 더 좋아졌다"고 답했다. 이 중 75%는 "매우 많이 좋아졌다"고 평가했다. AI에 대한 추천 점수도 78점으로, 일반적인 전자의무기록 시스템의 평균 만족도 33점을 크게 웃돌았다. 한 의사는 "AI가 마치 경험 많은 선배 의사가 옆에서 조언해주는 것 같다"며 "우리가 놓치기 쉬운 작은 문제들을 항상 잡아준다"고 말했다. 또 다른 의사는 "새로운 것을 많이 배우게 되고 실력이 늘었다"고 했다. "매우 유익하고 지식을 넓혀주며 기술을 연마하는 데 도움이 된다"는 평가도 있었다. 다만 의사들은 개선점도 제시했다. 현지 의료 환경에 맞는 약물 정보 업데이트와 너무 많은 알림으로 인한 피로감 해결이 필요하다고 했다. AI 사용 그룹의 진료 시간이 평균 16.43분으로 비사용 그룹의 13.01분보다 길었는데, 이는 AI 권고사항을 검토하는 시간 때문이었다. 중요한 점은 연구 기간 동안 총 12건의 환자 안전 관련 보고서가 접수됐지만, AI가 직접적으로 해를 끼친 사례는 한 건도 없었다는 것이다. 오히려 AI가 미리 경고했다면 막을 수 있었던 사고들이 여러 건 있었다. 단순히 AI만 설치하면 안 돼, 의사들이 잘 쓰도록 도와야 연구진은 AI 시스템을 그냥 설치하기만 해서는 효과가 제한적이라는 점을 강조했다. 연구 초기 1-2월의 "유도 기간"에는 치료 오류 감소가 4.3%에 그쳤지만, 3-4월의 "본격 도입 기간"에는 12.7%로 크게 늘었다. 병원 측은 세 가지 전략을 사용했다. 첫째, 연결(Connection) 전략으로 AI를 잘 사용하는 의사들을 동료 챔피언으로 임명해 다른 의사들에게 일대일 코칭을 제공했다. 둘째, 측정(Measurement) 전략으로 "빨간 신호로 남겨진" 비율을 핵심 지표로 정해 개별 의사들의 AI 활용도를 확인했다. 셋째, 인센티브(Incentives) 전략으로 AI 활용 우수 의료진과 클리닉에 인정 제도를 마련했다. 그 결과 AI가 "빨간불"로 경고했는데도 문제를 고치지 않은 진료 건수가 AI 사용 그룹에서는 40%에서 20%로 줄었다. 반면 AI를 사용하지 않은 그룹은 계속 40%를 유지했다. 특히 흥미로운 점은 시간이 지나면서 의사들이 AI의 도움 없이도 실수를 덜 하게 됐다는 것이다. AI 사용 그룹에서 처음부터 "빨간불"이 켜지는 비율이 45%에서 35%로 줄었지만, 비사용 그룹은 45-50%를 유지했다. 즉, AI가 단순히 실수를 막아주는 것을 넘어서 의사들의 실력 자체를 향상시키는 교육 효과까지 있었다. AI 평가 정확도는 의사보다 높아 흥미롭게도 AI(GPT-4.1, o3)가 의사들의 진료를 평가한 결과가 사람 의사들끼리 평가한 것보다 더 일치했다. AI 평가에서는 치료 오류 감소 효과가 19-22%로 더 크게 나타났다. 이는 AI가 진료 평가에서도 유용할 수 있음을 시사한다. 연구에서는 구체적으로 어떤 실수들이 줄었는지도 확인했다. AI 사용 그룹에서는 부적절한 약물 처방, 누락된 환자 교육 및 추적 계획, 중요한 병력 세부사항 누락, 핵심 검사 누락 등이 모두 유의미하게 감소했다. 반대로 AI 사용 그룹에서 더 많아진 실수 유형은 하나도 없었다. 연구진은 "이번 연구는 AI 시스템이 신중하게 임상 업무에 통합될 때 진료 품질을 향상시킬 수 있음을 보여준다"며 "유능한 모델, 임상에 맞는 구현, 적극적인 도입 전략 모두가 성공의 핵심"이라고 결론지었다. FAQ Q: AI 컨설트 시스템은 어떻게 작동하나요? A: AI 컨설트는 전자의무기록에 통합되어 의료진이 환자 정보를 입력할 때 백그라운드에서 자동으로 실행됩니다. 신호등 시스템(녹색-문제없음, 노란색-검토권장, 빨간색-필수검토)으로 즉각적인 피드백을 제공하며, 최종 의료 결정은 항상 의료진이 내립니다. Q: 이 연구 결과를 다른 의료 환경에도 적용할 수 있나요? A: 이번 연구는 케냐의 1차 진료 환경에서 진행되었지만, AI 기반 임상 의사결정 지원 시스템의 효과를 실증한 첫 번째 대규모 실제 임상 연구입니다. 다만 다른 의료 환경에 적용하려면 현지 임상 가이드라인과 의료 환경에 맞는 맞춤화가 필요합니다. Q: AI 시스템이 의료진을 대체할 위험은 없나요? A: AI 컨설트는 의료진을 대체하는 것이 아니라 보조하는 역할을 합니다. 모든 최종 의료 결정은 의료진이 내리며, AI는 안전망 역할을 통해 의료진이 더 나은 진료를 제공할 수 있도록 돕습니다. 연구 결과 의료진들의 만족도와 신뢰도가 매우 높게 나타났습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)