OpenAI, ChatGPT가 지나치게 아첨적이 된 이유 설명

sw_reporter

OpenAI는 ChatGPT의 기본 AI 모델인 GPT-4o에서 발생한 최근의 ‘아첨(sycophancy)’ 문제에 대한 사후 보고서(postmortem)를 발표했다. 이 문제는 회사가 지난주 모델 업데이트를 롤백(roll back)하도록 만들었다.

주말 동안, GPT-4o 모델 업데이트 이후 사용자들은 소셜 미디어를 통해 ChatGPT가 지나치게 찬양하고 동의하는 태도로 응답하는 현상을 포착했다. 이 현상은 빠르게 ‘밈(meme)’이 되었다. 사용자들은 ChatGPT가 문제적이거나 위험한 결정과 아이디어를 무조건 지지하는 스크린샷을 게시했다. 일요일 X(구 트위터)에 올라온 게시물에서 샘 알트만(Sam Altman) CEO는 이 문제를 인지하고 OpenAI가 “최대한 빨리(ASAP)” 수정 작업을 진행할 것이라고 인정했다. 이틀 후, 알트만은 GPT-4o 업데이트가 롤백되고 있으며, OpenAI가 모델의 ‘성격(personality)’에 대한 “추가 수정(additional fixes)” 작업을 진행하고 있다고 발표했다.

OpenAI에 따르면, 이번 업데이트는 모델의 기본 개성을 "더 직관적이고 효과적으로 느껴지게" 하려는 것이 목적이었으나, "단기적인 피드백"에 과도하게 의존하여 "사용자의 ChatGPT 상호작용이 시간이 지남에 따라 어떻게 진화하는지"를 충분히 반영하지 못했다.

"저희는 과도하게 아첨하고 동의하는 방식이라는 이유로 지난주 GPT-4o 업데이트를 되돌렸습니다. 이제 더 균형 잡힌 행동을 보이는 이전 버전을 이용하실 수 있습니다. 무슨 일이 일어났는지, 왜 중요한지, 그리고 저희가 아첨 문제에 어떻게 대응하고 있는지에 대한 자세한 내용은 다음과 같습니다."

https://t.co/LOhOU7i7DC
— OpenAI (@OpenAI)
2025년 4월 30일

OpenAI는 블로그 게시물에서 “그 결과, GPT-4o는 과도하게 지지적이지만 진정성이 부족한(disingenuous) 응답으로 치우쳤습니다. 아첨하는 상호작용은 불편함과 불안감을 조성하며 고통을 유발할 수 있습니다. 저희가 미흡했으며, 이를 바로잡기 위해 노력하고 있습니다.”라고 명시했다.

OpenAI는 핵심 모델 학습 기법과 시스템 프롬프트(system prompts)를 개선하여 GPT-4o가 아첨적인 태도에서 벗어나도록 명시적으로 유도하는 등 여러 수정 작업을 구현하고 있다고 밝혔다. (시스템 프롬프트란 모델의 전반적인 행동과 상호작용의 어조를 결정하는 초기 지침입니다.) 또한, "모델의 정직성과 투명성을 높이기" 위해 안전 장치(safety guardrails)를 강화하고, "아첨을 넘어선 문제들을 식별하는 데 도움을 주기" 위해 평가를 지속적으로 확장하고 있다고 덧붙였다.

OpenAI는 사용자가 "실시간 피드백(real-time feedback)"을 제공하여 ChatGPT의 상호작용에 "직접 영향을 미치고" 여러 ChatGPT 페르소나 중에서 선택할 수 있는 방법도 실험 중이라고 전했다.

roll back complete, imo this doesn't give almost any details of how and why things went

https://t.co/cYj9iMaiy1
— Alex Volkov (Thursd/AI) (@altryne)
2025년 4월 30일

"[저희는 ChatGPT의 기본 행동에 더 광범위하고 민주적인 피드백을 통합하는 새로운 방법을 모색하고 있습니다.]"라고 회사 블로그 게시물은 설명했다. "이 피드백은 전 세계의 다양한 문화적 가치를 더 잘 반영하고, 사용자가 ChatGPT가 어떻게 진화하기를 원하는지를 이해하는 데 도움이 되기를 바랍니다. 또한 사용자가 ChatGPT의 행동에 대해 더 많은 통제권을 가지고, 안전하고 실행 가능한 범위 내에서 기본 설정에 동의하지 않을 경우 조정할 수 있다고 믿습니다."

[출처:] https://techcrunch.com/2025/04/29/openai-explains-why-chatgpt-became-too-sycophantic