xAI, '무단 수정'으로 Grok의 백인 대량 학살 집착 지적

sw_reporter

xAI는 자사의 AI 기반 챗봇 Grok이 X 플랫폼에서 특정 상황에서 호출될 때 "남아프리카 공화국의 백인 대학살(white genocide in South Africa)"을 반복적으로 언급하는 버그가 발생한 원인을 "승인되지 않은 수정(unauthorized modification)" 탓으로 돌렸다.

실제로 수요일, Grok은 관련성이 없는 게시물에 대해서조차 X에서 남아프리카공화국 백인 대학살 관련 정보를 담은 수십 개의 답글을 달기 시작했다. 이러한 이상한 응답은 사용자가 Grok 전용 X 계정에 "@grok"을 태그할 때마다 AI가 생성한 게시물을 통해 응답하면서 비롯된 것으로 밝혀졌다.

xAI 공식 X 계정이 목요일에 게시한 내용에 따르면, 문제의 원인은 수요일 아침 Grok 봇의 시스템 프롬프트(bot의 행동을 안내하는 상위 수준 지침)에 변경 사항이 적용되었기 때문이었다. 이 변경은 Grok에게 "정치적 주제(political topic)"에 대해 "특정 응답(specific response)"을 제공하도록 지시한 것이었다. xAI는 해당 수정이 "자사 내부 정책 및 핵심 가치에 위배된다"고 설명하며, 회사 측이 "철저한 조사(thorough investigation)"를 진행했다고 밝혔다.

xAI는 다음과 같은 내용을 공지했다.

[발생 사건 업데이트]
"저희는 어제 X에서 발생한 Grok 응답 봇 관련 사건에 대해 업데이트를 드립니다.

사건 개요:
현지 시간(PST) 2025년 5월 14일 오전 3시 15분경, X의 Grok 응답 봇 프롬프트에 승인되지 않은 수정이 이루어졌습니다. 이 변경은 Grok에게..."
— xAI (@xai)
2025년 5월 16일

이는 xAI가 코드에 대한 승인되지 않은 변경으로 인해 AI가 논란성 있는 방식으로 응답했던 사실을 공개적으로 인정한 두 번째 사례이다.

지난 2월에도 Grok은 도널드 트럼프와 xAI의 창립자이자 X의 소유주인 일론 머스크에 대한 부정적 언급을 잠시 검열한 적이 있다. xAI의 엔지니어링 리드인 이고르 바부시킨(Igor Babuschkin)에 따르면, Grok은 한 '불량 직원(rogue employee)'의 지시로 인해 머스크나 트럼프가 허위 정보를 유포하는 내용을 언급하는 출처를 무시하도록 지시받았으며, xAI는 사용자들이 이를 지적하자마자 해당 변경 사항을 되돌렸다고 설명했다.

xAI는 목요일에 이러한 유형의 유사한 사건을 방지하기 위해 여러 조치를 취할 것이라고 밝혔다. 오늘부터 xAI는 Grok의 시스템 프롬프트를 변경 기록(changelog)과 함께 GitHub에 공개할 예정이다. 나아가 회사는 직원이 검토 과정 없이 시스템 프롬프트를 수정하는 것을 막기 위해 추가적인 점검 및 조치를 마련하고, "자동화 시스템으로 감지되지 않는 Grok 답변 관련 사고에 대응할 24시간 연중무휴(24/7) 모니터링 팀"을 구축할 것이라고 덧붙였다.

머스크가 통제되지 않는 위험성에 대해 자주 경고하고 있음에도 불구하고, xAI의 AI 안전 관리 기록은 좋지 않은 것으로 알려졌다.

최근 보고서에 따르면 Grok은 요청을 받으면 여성의 사진을 탈의하는 경향을 보였다. 이 챗봇은 또한 Google의 Gemini나 ChatGPT 같은 다른 AI 모델보다 훨씬 자제력이 부족하여 욕설을 거리낌 없이 할 수 있는 것으로 알려졌다.

AI 연구소의 책임성 개선을 목표로 하는 비영리 단체인 SaferAI가 발표한 연구에 따르면, xAI는 "매우 취약한(very weak)" 위험 관리 관행을 이유로 동종업계 대비 안전성 순위가 낮은 것으로 나타났다. 이달 초에는 완성된 AI 안전 프레임워크를 발표하겠다고 공지했던 자가 부과 목표 기한마저 놓치기도 했다.

[출처:] https://techcrunch.com/2025/05/15/xai-blames-groks-obsession-with-white-genocide-on-an-unauthorized-modification