단일 생체 신호에 대한 과도한 의존이 야기하는 AI 진단 기술의 구조적 취약성

greyorbit

팬데믹 초기, 우리는 인공지능이 가져올 의료 혁신이라는 거대한 물결에 휩쓸렸습니다.
특히 사람의 기침 소리 같은 비교적 단순한 생체 신호만으로 감염병을 진단할 수 있다는 주장은, 마치 만병통치약처럼 포장되어 대중의 기대를 한껏 부풀렸습니다.
수많은 연구 기관과 스타트업들이 이 '오디오 기반 AI'를 바이러스 감염병의 신속하고 간편한 '무기'로 제시했죠.

마치 기침 소리라는 단 하나의 변수만으로 질병의 유무를 명확히 가를 수 있을 것처럼 말입니다.
하지만 최근 진행된 심도 있는 연구 결과들은 이러한 기술적 낙관론에 차가운 브레이크를 걸고 있습니다.
영국 공중보건안전청 등의 위임을 받아 진행된 이 검토는, 옥스퍼드, 킹스 칼리지 런던 등 권위 있는 여러 기관의 연구진들이 참여하여 6만 7천 명 이상의 방대한 데이터를 기반으로 진행되었습니다.

이들은 단순히 기침 소리 녹음 파일과 함께 참가자들이 보고한 증상, 연령, 성별 같은 인구통계학적 데이터를 종합적으로 활용하여 AI 모델을 훈련시켰습니다.
그 결과는 매우 명확했습니다.
아무리 정교하게 설계된 기침 탐지 알고리즘이라 할지라도, 그 진단 정확도가 사용자가 스스로 보고하는 증상 정보만으로 얻을 수 있는 예측력 이상의 가치를 거의 추가하지 못한다는 것입니다.

즉, 기침 자체가 코로나19를 예측하는 독립적이고 결정적인 생체지표(biomarker) 역할을 수행하기 어렵다는 결론에 도달한 것입니다.
이 과정은 기술이 아무리 발전해도, 그 기반이 되는 데이터의 신뢰성과 변수 간의 인과관계를 명확히 분리해내는 것이 얼마나 어려운지를 극명하게 보여주는 사례입니다.
이러한 연구 결과가 던지는 함의는 단순히 '기침 소리가 진단에 쓸모없다'는 수준을 넘어섭니다.
이는 의료 AI 기술 전반에 걸쳐 우리가 얼마나 경계심을 늦추어서는 안 되는지에 대한 근본적인 경고 신호이기 때문입니다.

기술적 편리함이라는 미명 하에, 검증되지 않은 단일 지표에 과도하게 의존하는 시스템은 언제든 오작동할 수 있습니다.

실제로 이 논란은 상업적으로 유사한 앱 개발 노력에 제동을 걸었으며, 과거에도 유사한 사례들이 있었습니다.

2018년 IBM의 워튼(Watson) 시스템이 소수의 합성 데이터로 학습하여 부정확한 암 치료 조언을 내놓았던 사례나, 2021년 Epic의 패혈증 식별 알고리즘이 상당수의 환자 케이스를 놓쳤던 기록들은, AI의 '높은 정확도 수치'라는 수사가 얼마나 쉽게 오해를 불러일으키고 실제 의료 현장에서의 책임 소재를 모호하게 만드는지를 보여줍니다.
문제는 AI가 '무엇을 할 수 있다'는 가능성의 영역에 머무르는 것이 아니라, '무엇을 해야 한다'는 정책적 지침으로 받아들여질 때 발생합니다.
누가 이 기술의 오진에 대한 책임을 질 것인지, 그리고 이 기술을 도입하기 전에 어떤 수준의 독립적이고 다각적인 검증(Validation)을 거쳐야 하는지에 대한 제도적 장치가 전무한 상황입니다.

기술의 발전 속도가 규제와 윤리적 숙고의 속도를 압도하는 이 지점에서, 우리는 '편리함'이라는 이름으로 포장된 잠재적 위험 비용을 간과해서는 안 됩니다.
의료 AI의 효용성을 판단할 때는 기술적 가능성보다는, 그 근거가 되는 데이터의 통제권과 다각적인 검증 과정을 최우선으로 점검해야 한다.