OpenAI의 새로운 추론 AI 모델, 환각 현상 증가

sw_reporter

OpenAI가 최근 출시한 o3와 o4-mini AI 모델은 여러 면에서 최첨단임이 분명합니다. 그러나 이 신규 모델들은 여전히 환각 현상(hallucination), 즉 사실이 아닌 정보를 꾸며내는 현상을 보이며, 그 빈도 또한 OpenAI의 구형 모델들보다 더 높은 경우가 많습니다.

환각 현상은 AI 분야에서 가장 크고 해결하기 어려운 난제 중 하나로 입증되었으며, 오늘날 최고 성능을 자랑하는 시스템에까지 영향을 미치고 있습니다. 역사적으로는 신규 모델이 출시될 때마다 환각 현상이 이전 모델 대비 미세하게나마 개선되는 추세였지만, o3와 o4-mini의 경우 이러한 추세가 명확하게 보이지 않습니다.

OpenAI의 내부 테스트에 따르면, 소위 추론 모델인 o3와 o4-mini는 회사의 이전 추론 모델들(o1, o1-mini, o3-mini)은 물론, GPT-4o와 같은 전통적인 '비추론' 모델보다도 더 자주 환각 현상을 보였습니다.

더 우려스러운 점은, ChatGPT 개발사인 OpenAI가 이러한 현상이 왜 발생하는지 명확하게 파악하고 있지 못하다는 점입니다.

OpenAI는 o3와 o4-mini에 대한 기술 보고서에서, 추론 모델을 대규모로 확장함에 따라 환각 현상이 악화되는 원인을 규명하기 위해 "더 많은 연구가 필요하다"고 언급했습니다. o3와 o4-mini는 코딩 및 수학과 관련된 작업 등 일부 영역에서는 우수한 성능을 보였습니다. 하지만 보고서에 따르면, 이 모델들이 전반적으로 "더 많은 주장을 제기"하기 때문에, "더 정확한 주장은 물론 부정확하거나 환각에 기반한 주장"을 하게 되는 경향이 있다고 합니다.

실제로 OpenAI는 모델의 인물 지식 정확성을 측정하는 자체 벤치마크인 PersonQA에서, o3가 질문의 33%에 대해 환각을 일으킨 것을 발견했습니다. 이는 각각 16%와 14.8%의 환각률을 보인 이전 추론 모델인 o1과 o3-mini의 환각률보다 약 두 배 높은 수치입니다. o4-mini는 PersonQA에서 더욱 심각하게 환각하여 48%의 시간 동안 오답을 내놓았습니다.

비영리 AI 연구소인 Transluce의 제3자 테스트 역시, o3가 답변 도출 과정에서 스스로 실행했다고 꾸며내는 행동의 경향을 포착했습니다. 한 사례에서 Transluce는 o3가 2021 MacBook Pro에서 "ChatGPT 외부로" 코드를 실행한 후, 그 결과를 답변에 포함했다고 주장하는 것을 관찰했습니다. o3가 일부 도구에 접근할 수는 있지만, 그러한 행동 자체는 불가능합니다.

Transluce의 연구원인 닐 초우드리(Neil Chowdhury)는 TechCrunch에 보낸 서한을 통해 "우리의 가설은 오-시리즈(o-series) 모델에 사용되는 강화 학습(reinforcement learning) 방식이 일반적으로 사후 훈련 파이프라인(post-training pipeline)으로 완화되거나(완전히 제거되지는 않지만) 통제되던 문제를 증폭시킬 수 있다"고 지적했습니다.

Transluce의 공동 창립자 사라는 슈트만(Sarah Schwettmann)은 o3의 높은 환각률이 모델의 실용성을 떨어뜨릴 수 있다고 덧붙였습니다.

스탠퍼드 대학교의 교원이자 스타트업 Workera의 CEO인 키안 카탄포루시(Kian Katanforoosh)는 TechCrunch와의 인터뷰에서, 자신의 팀이 이미 o3를 코딩 워크플로우에 테스트하고 있으며 경쟁사 대비 한 단계 앞선 성능을 발견했다고 밝혔습니다. 하지만 카탄포루시는 o3가 깨진(non-functional) 웹 링크를 환각하는 경향이 있어, 클릭해도 작동하지 않는 링크를 제시한다고 경고했습니다.

환각 현상은 모델이 흥미로운 아이디어를 내거나 '사고 과정'에서 창의성을 발휘하는 데 도움을 줄 수 있지만, 정확성이 절대적으로 요구되는 시장에서는 일부 모델이 사업적으로 채택되기 어렵게 만듭니다. 예를 들어, 로펌이 의뢰인 계약서에 수많은 사실적 오류가 포함된 모델을 선호하기는 어려울 것입니다.

모델의 정확성을 높이는 유망한 접근 방식 중 하나는 웹 검색 기능을 부여하는 것입니다. OpenAI의 GPT-4o가 웹 검색과 결합했을 때, 또 다른 정확성 벤치마크인 SimpleQA에서 90%의 정확도를 달성했습니다. 잠재적으로 검색 기능은 사용자 스스로 프롬프트를 제3자 검색 제공업체에 노출시키는 것에 동의하는 경우, 추론 모델의 환각률을 개선하는 데도 도움이 될 수 있습니다.

만약 추론 모델의 규모 확장이 실제로 환각 현상을 악화시키는 추세가 계속된다면, 이에 대한 해결책을 찾는 노력은 더욱 시급해질 것입니다.

OpenAI 대변인 니코 펠릭스(Niko Felix)는 TechCrunch에 보내는 이메일에서 "모든 모델의 환각 현상 해결은 지속적인 연구 분야이며, 저희는 정확성과 신뢰성을 개선하기 위해 지속적으로 노력하고 있다"고 밝혔습니다.

지난해 동안 광범위한 AI 산업은 다음 이유로 추론 모델에 초점을 맞추는 방향으로 선회했습니다.

기존 AI 모델을 개선하는 기법들이 점차 효율 감소(diminishing returns)를 보이기 시작했기 때문입니다.

추론 능력은 대규모 컴퓨팅 자원이나 방대한 학습 데이터 없이도 다양한 작업에서 모델의 성능을 향상시킵니다. 하지만 역설적으로, 이러한 추론 능력이 오히려 더 많은 환각 현상으로 이어질 수 있어 업계에 하나의 난관을 안겨주고 있습니다.

[출처:] https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more