한 개발자가 AI 챗봇이 논란의 여지가 있는 주제에 어떻게 반응하는지 확인하기 위한 테스트를 만들었다

sw_reporter

익명의 개발자가 '자유 발언 평가(free speech eval)'라는 제목의 웹사이트, SpeechMap을 제작했습니다.

이 플랫폼은 OpenAI의 ChatGPT나 X(구 트위터) 등 챗봇 구동에 사용되는 AI 모델들이 민감하거나 논란이 되는 주제를 어떻게 다루는지 비교 분석하는 것이 목표입니다. 개발자에 따르면, 평가 대상에는 정치적 비판, 시민권 및 시위에 관한 질문 등이 포함됩니다.

최근 AI 기업들은 일부 백악관 지지자들로부터 인기 챗봇들이 지나치게 ‘정치적 올바름(woke)’에 치우쳐 있다는 비판에 직면하면서, 자사 모델들이 특정 주제를 처리하는 방식에 초점을 맞춘 미세 조정 작업을 진행해 왔습니다. 특히 엘론 머스크나 암호화폐 및 AI 분야의 주요 인물인 데이비드 색스 같은 도널드 트럼프 전 대통령의 측근들은 챗봇들이 보수적 관점을 검열하고 있다고 주장해왔습니다.

이러한 AI 기업들 중 어떤 곳도 이 논란에 대해 직접적으로 대응하지는 않았지만, 여러 기업들이 논쟁적인 질문에 답변을 거부하는 경우가 줄어들도록 모델을 조정하겠다고 약속했습니다. 예를 들어, Meta는 최신 Llama 모델 제품군에 대해, 모델이 "특정 관점을 다른 관점보다 우대하지 않도록" 그리고 "논쟁의 여지가 있는" 정치적 프롬프트에 더 많이 응답하도록 조정했다고 밝힌 바 있습니다.

X에서 사용자명 "xlr8harder"로 활동하는 SpeechMap의 개발자는 본인의 동기가 모델이 무엇을 해야 하고 무엇을 해서는 안 되는지에 대한 공론화에 기여하고 싶었기 때문이라고 설명했습니다.

xlr8harder는 TechCrunch를 통해 이메일로 "이러한 논의는 기업 본사 내부가 아닌 공공 영역에서 이루어져야 한다고 생각합니다. 그래서 누구나 스스로 데이터를 탐색할 수 있도록 이 사이트를 만들었습니다."라고 전했습니다.

SpeechMap은 AI 모델을 이용하여 다른 모델들이 주어진 일련의 테스트 프롬프트에 얼마나 순응하는지(compliance)를 측정합니다. 프롬프트는 정치부터 역사적 서사, 국가적 상징 등 광범위한 주제를 다룹니다. SpeechMap은 모델이 요청에 대해 "완전히" 충족하는지(즉, 모호하게 돌려 말하지 않고 답변하는지), "회피적인" 답변을 하는지, 아니면 아예 응답을 거부하는지를 기록합니다.

물론 xlr8harder는 이 테스트가 모델 제공업체의 오류로 인한 "노이즈"와 같은 결함을 가질 수 있으며, "평가"를 하는 모델 자체에 결과를 왜곡할 수 있는 편향성이 포함되어 있을 가능성도 있음을 인정합니다.

그럼에도 불구하고, 이 프로젝트가 선의로 이루어졌고 데이터가 정확하다고 가정한다면, SpeechMap은 몇 가지 흥미로운 추세를 보여주고 있습니다.

예를 들어, SpeechMap에 따르면 OpenAI의 모델들은 시간이 지남에 따라 정치 관련 프롬프트에 답변을 거부하는 경향이 점차 짙어졌습니다. 회사의 최신 모델인 GPT-4.1 제품군이 이전보다 다소 관대한 모습을 보이지만, 여전히 작년 OpenAI가 출시했던 제품 중 하나보다는 보수적인 수준입니다.

OpenAI는 지난 2월, 향후 모델을 개발함에 있어 "편집적 입장"을 취하지 않고 논란이 되는 주제에 대해 다양한 관점을 제공하도록 미세 조정하겠다고 발표한 바 있으며, 이는 모델의 중립성을 강조하려는 노력의 일환이었습니다.

(참고: OpenAI 모델의 SpeechMap에 따른 시간 경과에 따른 성능)

SpeechMap의 벤치마킹 결과에 따르면, 엘론 머스크의 AI 스타트업 xAI가 개발한 Grok 3이 해당 모델 중 가장 관대함을 보여줍니다. Grok 3은 챗봇 Grok을 포함하여 X의 여러 기능에 동력을 공급합니다.

Grok 3은 SpeechMap 테스트 프롬프트의 96.2%에 응답하며, 이는 글로벌 평균 "순응률"인 71.3%와 비교했을 때 높은 수치입니다.

xlr8harder는 "OpenAI의 최근 모델들이 경향을 보이자, 이와 대조적으로 Grok은 더욱 자유롭습니다"라고 언급했습니다.

과거 Grok의 초기 모델들이 콘텐츠 제한이 적어 큰 관심을 모았지만, Grok은 시간이 지남에 따라 정책에 따라 제한이 가해지면서 점차 자제력을 보였고, Grok은 그 경향을 반영하여 콘텐츠 제한을 완화하기 위해 커스텀된 설정을 도입했습니다.

이처럼 Grok은 사용자들이 선호하는 방식대로 유연하게 콘텐츠를 생성하도록 설계되었으며, 그 결과로 사용자가 지정한 주제에 대해 좀 더 넓은 범위의 콘텐츠를 생성할 수 있게 되었습니다.

[출처:] https://techcrunch.com/2025/04/16/theres-now-a-benchmark-for-how-free-an-ai-chatbot-is-to-talk-about-controversial-topics