AI 환각의 원인이 나쁜 인센티브 때문일까?

sw_reporter

OpenAI의 새로운 연구 논문은 GPT-5와 같은 대규모 언어 모델(LLM) 및 ChatGPT와 같은 챗봇이 왜 여전히 '환각(hallucination)'을 일으키는지, 그리고 이를 줄일 수 있는 방안이 있는지에 대한 질문을 던집니다.

논문 요약 블로그 게시물에 따르면, OpenAI는 환각을 "언어 모델이 생성한 그럴듯하지만 사실과 다른 진술"로 정의합니다. 또한, 개선이 이루어짐에도 불구하고 환각 현상은 "모든 대규모 언어 모델의 근본적인 과제로 남아 있으며, 완전히 제거될 수 없다"고 인정합니다.

연구자들은 이 점을 설명하기 위해, "널리 사용되는 챗봇"에게 Adam Tauman Kalai의 박사 학위 논문 제목을 물었을 때 세 가지의 다른 오답을 받았고, 그의 생일에 대해 물었을 때 역시 세 가지의 다른 오답을 받았다고 전합니다. (Kalai는 해당 논문의 저자 중 한 명입니다.)

연구자들은 챗봇이 어떻게 그렇게 틀리면서도 그 오류에 대해 매우 자신감 있는 태도를 보일 수 있는지에 의문을 제기합니다. 그들은 환각 현상의 원인이 일부는 모델이 훈련 문장에 참/거짓 레이블을 부여받지 않고 오직 다음 단어를 정확히 예측하도록 학습한 '사전 훈련 과정(pretraining process)'에 있다고 제안합니다. 즉, "모델은 오직 유창한 언어의 긍정적인 예시만을 보고 전반적인 분포를 근사하도록 학습된다"는 것입니다.

이들은 "철자법이나 괄호와 같은 요소는 일관된 패턴을 따르기 때문에 오류가 규모에 따라 사라지지만, 반려동물의 생일 같은 임의적이고 저빈도의 사실은 패턴만으로는 예측할 수 없어 환각을 유발한다"고 지적합니다.

그러나 논문에서 제안하는 해결책은 초기 사전 훈련 과정 자체보다도, 대규모 언어 모델이 '평가(evaluation)'되는 방식에 중점을 둡니다. 저자들은 현재의 평가 모델 자체가 환각을 유발하는 것이 아니라, 오히려 "잘못된 인센티브(incentives)를 설정하기" 때문이라고 주장합니다.

연구자들은 이러한 평가를 무작위 추측이 어느 정도 합리적인 다지선다형 시험에 비유합니다. 왜냐하면 시험에서 "운이 좋으면 정답을 맞힐 수도 있지만, 답을 비워두는 것은 확실하게 0점"이기 때문입니다.

그들은 "마찬가지로, 모델이 오직 정확도(accuracy)만을 기준으로 평가될 경우, 질문을 정확히 맞히는 비율에 집중하게 되면서, '모른다'고 말하는 대신 추측하도록 장려됩니다"라고 말합니다.

이에 따라 제안된 해결책은 '틀린 답에 대한 감점'이나 '공백으로 남겨둔 문제에 대한 부분 점수'를 포함하는 (SAT 같은) 시험 방식과 유사합니다. 이는 맹목적인 추측을 억제하기 위함입니다. 유사하게 OpenAI는 모델 평가가 "불확실성을 처벌하는 것보다 확신에 찬 오류를 더 처벌해야 하며, 불확실성을 적절하게 표현한 경우에는 부분 점수를 부여해야 한다"고 주장합니다.

더 나아가 연구자들은 단순히 "몇 가지 새로운 불확실성 인지 테스트를 추가하는 것"만으로는 부족하며, "널리 사용되는 정확도 기반 평가는 추측을 억제하는 방식으로 업데이트되어야 한다"고 주장합니다.

연구자들은 "주요 점수판들이 우연한 추측을 계속 보상한다면, 모델들은 계속 추측하는 법을 학습하게 될 것입니다"라고 강조합니다.

[출처:] https://techcrunch.com/2025/09/07/are-bad-incentives-to-blame-for-ai-hallucinations