OpenAI, 향후 ChatGPT의 과도한 아첨(혹은 동조성) 방지를 위한 변경 예고

sw_reporter

OpenAI는 ChatGPT의 AI 모델 업데이트 방식에 변화를 줄 것이라고 밝혔습니다. 이는 플랫폼이 사용자들에게 지나치게 아첨하는(sycophantic) 방식으로 답변하면서 발생한 사건에 따른 것입니다.

지난 주말, OpenAI가 ChatGPT의 기본 모델로 수정된 GPT-4o를 배포한 후, 소셜 미디어 사용자들은 ChatGPT가 과도하게 긍정적이고 동의하는 방식으로 답변하기 시작했음을 지적했습니다. 이 현상은 빠르게 밈(meme)처럼 번졌습니다. 사용자들은 ChatGPT가 온갖 문제적이거나 위험한 결정과 아이디어를 칭찬하는 스크린샷을 게시했습니다.

샘 알트만(Sam Altman) CEO는 지난 일요일 X(구 트위터) 게시물을 통해 이 문제를 인정하며, OpenAI가 가능한 한 빨리("ASAP") 수정 작업을 진행할 것이라고 말했습니다. 이틀 후 알트만은 GPT-4o 업데이트가 롤백되고 있으며, OpenAI가 모델의 '페르소나'에 대한 "추가적인 수정 작업"을 진행 중이라고 발표했습니다.

회사는 화요일에 '사후 분석 보고서(postmortem)'를 공개했으며, 금요일 블로그 게시물을 통해 모델 배포 프로세스에 적용할 구체적인 조정 사항을 상세히 설명했습니다.

OpenAI에 따르면, 회사는 일부 모델에 대해 사용자가 선택할 수 있는("opt-in") '알파 단계(alpha phase)'를 도입하여, 특정 ChatGPT 사용자가 출시 전에 모델을 테스트하고 피드백을 제공할 수 있도록 할 계획입니다. 또한, 향후 ChatGPT 모델의 점진적 업데이트에 대해서는 "알려진 한계(known limitations)"에 대한 설명을 포함할 것이며, 안전 검토 프로세스를 조정하여 성격, 기만성, 신뢰성, 그리고 환각(hallucination, 즉 모델이 꾸며내는 정보)과 같은 "모델 행동 문제"를 "출시 차단(launch-blocking)" 우려 사항으로 공식적으로 고려할 것이라고 했습니다.

OpenAI는 블로그 게시물에서 "앞으로는 모델에 가하는 업데이트(아무리 '미묘'하더라도)에 대해 사전에 적극적으로 소통할 것입니다. 이러한 문제들이 오늘날 완벽하게 계량화되지 않더라도, A/B 테스트와 같은 지표가 좋아 보이더라도 대리 측정치(proxy measurements) 또는 정성적 신호(qualitative signals)를 기반으로 출시를 차단할 것을 약속드립니다."라고 밝혔습니다.

we missed the mark with last week's GPT-4o update. what happened, what we learned, and some things we will do differently in the future:
https://t.co/ER1GmRYrIC
— Sam Altman (@sama)
May 2, 2025

이러한 수정 작업 공약은 더 많은 사람이 ChatGPT에 조언을 구하면서 이루어졌습니다.

법률 자금 지원 회사(lawsuit financier)인 Express Legal Funding의 최근 설문조사에 따르면, 미국 성인 중 60%가 상담이나 정보를 얻기 위해 ChatGPT를 사용한 것으로 나타났습니다. ChatGPT에 대한 의존도가 높아지고 플랫폼의 거대한 사용자 기반을 고려할 때, 극단적인 아첨(sycophancy)과 같은 문제가 발생하거나 환각 및 기타 기술적 결함이 발생하는 것은 위험성을 더욱 증폭시킵니다.

완화 조치 중 하나로, OpenAI는 이번 주 초에 사용자가 "실시간 피드백(real-time feedback)"을 제공하여 ChatGPT와의 상호 작용에 "직접적인 영향을 미치도록" 실험할 것이라고 밝혔습니다. 또한, 회사는 모델이 아첨하는 경향에서 벗어나도록 유도하는 기술을 개선하고, 잠재적으로 ChatGPT 내에서 여러 모델 개성 중 하나를 선택할 수 있게 하며, 추가 안전 장치(safety guardrails)를 구축하고, 아첨을 넘어서는 문제를 식별하는 데 도움을 주기 위해 평가를 확대할 것이라고 덧붙였습니다.

OpenAI는 블로그 게시물에서 "가장 큰 교훈 중 하나는 사람들이 ChatGPT를 매우 개인적인 조언에 사용하기 시작했다는 점을 완전히 인식했다는 것입니다. 이는 불과 1년 전보다도 적게 나타난 부분이었습니다. 당시에는 주요 초점은 아니었지만, AI와 사회가 공진화하면서 이 사용 사례를 매우 신중하게 다루어야 한다는 것이 명확해졌습니다. 이는 이제 당사의 안전 작업에서 더욱 중요하게 다뤄질 것입니다."라고 강조했습니다.

[출처:] https://techcrunch.com/2025/05/02/openai-pledges-to-make-changes-to-prevent-future-chatgpt-sycophancy