트렌드

“왜 그렇게 생각하십니까?” AI 의사에게 던질 첫 번째 질문

QoQ-Med: Building Multimodal Clinical Foundation
Models with Domain-Aware GRPO Training

AI 의사의 첫 번째 조건? 설명할 수 있어야 한다!

MIT 연구진이 발표한 QoQ-Med라는 AI 모델이 의료계에 던진 질문은 간단하면서도 근본적이다. AI가 의사가 되려면 무엇이 필요한가? 정확한 진단? 빠른 처리 속도? 아니다. 가장 중요한 것은 ‘설명’이다.

기존의 의료 AI들은 대부분 블랙박스였다. 입력된 의료 데이터를 분석해 “폐렴”이라는 결과를 내놓지만, 왜 그런 결론에 도달했는지는 알 수 없었다. 마치 예언자처럼 답만 던져주고 끝이었다. 하지만 의료 현장에서 이런 방식은 통하지 않는다. 의사는 환자에게, 동료에게, 때로는 법정에서도 자신의 판단 근거를 설명할 수 있어야 한다.

더 심각한 문제는 기존 AI들의 학습 방식에 있었다. 이들은 흔하고 명확한 케이스들에만 집중했다. 폐렴, 골절처럼 패턴이 뚜렷한 질병은 잘 맞히지만, 희귀 질환이나 복합적 증상을 보이는 환자들은 제대로 진단하지 못했다. 실제 임상에서는 이런 어려운 케이스들이 종종 생명을 좌우한다.

혁신의 핵심…어려운 문제를 외면하지 않는 AI

QoQ-Med는 이 문제를 ‘Domain-aware Relative Policy Optimization(DRPO)’이라는 새로운 학습 방법으로 해결했다. 핵심은 간단하다. AI가 쉬운 문제만 반복하려 할 때마다 시스템이 개입해 어려운 케이스들을 강제로 학습시키는 것이다.

구체적으로는 이렇게 작동한다. 시스템은 각 의료 영역별로 문제의 난이도를 평가한다. 초음파 영상 해석은 어렵고 데이터도 적은 반면, 흉부 X선 판독은 상대적으로 쉽고 데이터도 많다. DRPO는 의도적으로 어려운 케이스들에 더 많은 가중치를 부여한다. 의학 교수가 학생들에게 “흔한 감기보다는 이 희귀 증후군을 더 자세히 공부하라”고 지도하는 것과 같다.

결과는 놀라웠다. QoQ-Med는 8개 의료 영역에서 기존 AI 모델들을 압도했다. 평균 F1 스코어에서 43% 향상을 보였고, 특히 초음파나 유방촬영술 같은 소외된 분야에서 두드러진 성과를 거뒀다. 더 중요한 것은 이 모델이 자신의 판단 과정을 상세히 설명할 수 있다는 점이었다. CT 스캔을 보며 “이 부분의 밀도가 정상보다 높게 나타나므로 출혈 가능성이 있습니다”라고 말하고, 해당 부위를 빨간 박스로 표시해 보여준다.

QoQ-Med의 진짜 혁신은 다른 곳에 있다. 현재까지 유일하게 심전도 같은 시계열 데이터를 2D, 3D 의료 영상과 함께 통합 분석할 수 있는 AI라는 점이다. 숙련된 의사가 환자의 가슴 X선을 보면서 동시에 심전도 패턴을 확인하고 혈액검사 수치를 종합해 판단하는 것처럼, QoQ-Med는 이런 통합적 사고가 가능하다.

의료 현장의 변화

이런 기술이 실제 임상에 도입되면 어떤 변화가 일어날까. 먼저 의료 접근성이 혁명적으로 개선될 것이다. 심장내과 전문의가 없던 시골 병원에서도 정교한 심전도 분석이 가능해지고, 영상의학과 의사가 부족한 지역에서도 CT나 MRI 판독을 즉시 받을 수 있다. 24시간 언제든지 일관된 품질의 진료가 제공된다.

비용 측면에서도 상당한 절감 효과가 예상된다. 전문의 부족으로 인한 높은 인건비와 긴 대기시간이 의료비 상승의 주요 원인 중 하나인데, AI가 이를 상당 부분 해결할 수 있다. 정확도 면에서는 이미 일부 영역에서 인간 의사를 능가하는 성능을 보이고 있다. 특히 방사선학처럼 패턴 인식이 중요한 분야에서는 AI의 우위가 더욱 벌어질 가능성이 높다.

투명성의 딜레마

하지만 여기서 근본적인 질문이 떠오른다. 투명성이 항상 좋은 것일까. QoQ-Med가 “뇌종양 가능성 23%, 뇌졸중 가능성 45%, 단순 두통 가능성 32%”라고 정확한 확률까지 제시한다면, 환자는 어떤 기분일까. 어떤 환자는 불확실성을 명확히 아는 것을 선호하겠지만, 다른 환자는 오히려 불안감이 증폭될 수 있다.

“걱정 마세요, 괜찮을 거예요”라는 의사의 위로가 때로는 정확한 통계보다 더 치료적일 수 있다. AI는 통계적 진실을 말하지만, 인간 의사는 환자가 듣고 싶어하는 진실을 선별해서 전달할 수 있다.

또 다른 문제는 AI의 확신이다. QoQ-Med가 “99% 확률로 폐렴입니다”라고 단언했는데 실제로는 아니었다면 어떻게 될까. 통계적으로는 1%의 오류에 불과하지만, 그 1%에 해당하는 환자에게는 치명적일 수 있다. 인간 의사라면 “아마도”, “가능성이 높다”, “추가 검사가 필요하다” 같은 여지를 남기지만, AI는 그런 모호함을 허용하지 않는다.

새로운 의료의 시작

미래의 진료실에서는 이런 대화가 오갈 것이다. “AI 분석 결과 폐렴 가능성이 85%입니다. 이 부분의 음영과 혈액검사 수치를 종합한 판단입니다. 하지만 제 임상 경험으로는 단순 기관지염일 가능성도 배제할 수 없어 보입니다. 일단 항생제 처방을 하고 3일 후 다시 보시죠.”

AI의 객관적 분석과 인간 의사의 경험적 판단이 조화를 이루는 세상. 환자는 두 가지 관점을 모두 들을 수 있고, 최종 결정에 더 능동적으로 참여할 수 있는 세상. QoQ-Med는 그런 미래의 가능성을 보여준 첫 번째 시도다.

연구진이 261만 개의 학습 데이터와 추론 과정을 모두 공개한다고 밝힌 것도 의미심장하다. 이는 과학의 재현성과 투명성을 중시하는 움직임이면서, 동시에 의료 AI의 민주화를 의미한다.

물론 아직 갈 길은 멀다. 연구진도 이 모델이 실제 임상에 사용될 준비가 되지 않았다고 조심스럽게 말했다. 하지만 QoQ-Med가 던진 질문은 이미 되돌릴 수 없는 변화의 신호탄이다.

언젠가 우리는 AI 의사 앞에 앉게 될 것이다. 그때 우리가 던질 첫 번째 질문은 “정확합니까?”가 아니라 “왜 그렇게 생각하십니까?”가 될지도 모른다. 그리고 처음으로, 만족할 만한 답변을 들을 수 있을 것이다. 적어도 인간 의사가 해줄 수 있는 만큼은.

기자 / 제 눈에 스타트업 관계자들은 연예인입니다. 그들의 오늘을 기록합니다. 가끔 해외 취재도 가고 서비스 리뷰도 합니다.

댓글

Leave a Comment


관련 기사

스타트업

원라인에이아이, 다국어 AI 수학 추론으로 ACL 2025 메인 컨퍼런스 등재

스타트업

세무사 AI 에이전트 ‘택스캔버스’ 출시

글로벌 트렌드

인공지능, 과학의 문턱을 넘다

글로벌

삼전, 갤럭시 S26에 퍼플렉시티 AI 도입 추진