연구에 따르면, 사람들은 챗봇으로부터 유용한 건강 조언을 얻는 데 어려움을 겪는다고 합니다

sw_reporter

과부하가 걸린 의료 시스템으로 인해 장기간 대기 시간이 길고 비용이 치솟자, 많은 사람이 ChatGPT와 같은 AI 기반 챗봇을 이용해 스스로 의료 자가 진단을 시도하고 있다. 한 최근 설문조사에 따르면, 미국 성인 중 약 6명 중 1명은 건강 관련 조언을 얻기 위해 최소한 한 달에 한 번씩 챗봇을 사용하고 있다.

그러나 챗봇의 답변에 지나치게 의존하는 것은 위험할 수 있다. 최근 옥스퍼드에서 주도한 연구에 따르면, 사용자들은 최적의 건강 권장 사항을 얻기 위해 챗봇에 어떤 정보를 제공해야 할지 파악하는 데 어려움을 겪고 있기 때문이다.

연구의 공동 저자이자 옥스퍼드 인터넷 연구소(Oxford Internet Institute)의 대학원 과정 이사인 아담 마흐디(Adam Mahdi)는 TechCrunch에 "연구는 일종의 양방향 소통 단절(two-way communication breakdown)을 보여주었다"고 밝혔다. 그는 "챗봇을 활용한 사용자들이 온라인 검색이나 자체적인 판단 같은 전통적인 방법을 사용한 참가자들보다 더 나은 결정을 내리지 못했다"고 덧붙였다.

이 연구를 위해 저자들은 영국에서 약 1,300명의 참가자를 모집했으며, 이들에게 의사 그룹이 작성한 의료 시나리오를 제공했다. 참가자들은 시나리오에서 잠재적인 건강 상태를 식별하고, 가능한 조치(예: 의사 방문 또는 병원 방문)를 결정하기 위해 챗봇과 자신들의 방법을 병행해야 했다.

참가자들이 사용한 모델에는 ChatGPT의 기본 AI 모델인 GPT-4o 외에도 Cohere의 Command R+와 Meta의 Llama 3(과거 Meta AI 어시스턴트의 기반이 되었던 모델)가 포함되었다. 저자들에 따르면, 챗봇을 사용한 참가자들은 관련 건강 상태를 식별할 가능성을 낮추는 것 외에도, 실제로 식별한 상태의 심각성을 과소평가할 가능성을 높였다.

마흐디는 참가자들이 챗봇에 질문할 때 핵심 세부 정보를 누락하는 경우가 잦았거나, 해석하기 어려운 답변을 받는 경우도 많았다고 지적했다.

그는 "[챗봇]이 제공하는 답변들은 좋은 조언과 부정확한 조언이 혼재하는 경우가 빈번했다"며, "현재 챗봇에 대한 평가 방법으로는 인간 사용자와의 상호작용에서 발생하는 복잡성을 반영하기 어렵다"고 설명했다.

이러한 연구 결과가 나온 시점에 기술 기업들은 건강 결과 개선 수단으로 AI 도입을 가속화하고 있다. 예를 들어, Apple은 운동, 식단, 수면 관련 조언을 제공하는 AI 도구를 개발 중인 것으로 알려졌다. Amazon은 '건강의 사회적 결정 요인(social determinants of health)'을 분석하기 위해 AI 기반 의료 데이터베이스 탐색 방식을 검토하고 있으며, Microsoft는 환자가 의료 제공자에게 보낸 메시지를 분류하는 데 도움을 주는 AI 시스템을 구축하고 있다.

하지만 TechCrunch가 이전에 보도했듯이, 전문가와 환자 모두 AI가 높은 위험도의 건강 분야에 활용될 준비가 되었는지에 대해 의견이 분분하다. 미국 의사 협회(American Medical Association)는 임상 결정 지원 목적으로 ChatGPT 같은 챗봇을 의사가 사용하는 것을 반대하고 있으며, OpenAI를 포함한 주요 AI 기업들은 챗봇 출력을 근거로 진단을 내리는 행위에 대해 경고하고 있다.

마흐디는 "의료 결정을 내릴 때는 신뢰할 수 있는 정보 출처에 의존해야 한다"고 조언하며, "챗봇에 대한 현행 평가 방법은 인간 사용자와의 상호작용 복잡성을 충분히 반영하지 못한다. 새로운 의약품에 대한 임상 시험과 마찬가지로, 챗봇 시스템은 실제 환경에서 광범위하게 테스트된 후에 배포되어야 한다"고 강조했다.

[출처:] https://techcrunch.com/2025/05/05/people-struggle-to-get-useful-health-advice-from-chatbots-study-finds