OpenAI 공동 창업자, AI 연구소들이 경쟁 모델을 안전 테스트할 것을 촉구

sw_reporter

세계 최고의 AI 연구 기관인 OpenAI와 Anthropic은 치열한 경쟁 상황 속에서 보기 드물게, 공동 안전 테스트를 위해 평소 비공개로 유지하던 AI 모델을 일시적으로 개방했다. 이러한 협력 노력은 각 회사의 내부 평가에서 발견하지 못한 안전상의 허점(blind spots)을 찾아내고, 향후 주요 AI 기업들이 안전 및 정렬(alignment) 작업을 어떻게 협력할 수 있을지 보여주는 것을 목표로 한다.

OpenAI 공동 창업자인 Wojciech Zaremba는 TechCrunch와의 인터뷰에서, AI 모델이 매일 수백만 명에게 사용되는 '결정적 단계(consequential)'에 진입하면서 이러한 협력의 중요성이 커지고 있다고 강조했다.

자렘바는 "수십억 달러의 투자가 이루어지고, 인재 확보, 사용자, 최적의 제품을 둘러싼 경쟁이 치열함에도 불구하고, 산업 전체가 안전 및 협력에 대한 기준을 어떻게 설정할 것인지에 대한 더 광범위한 질문이 존재한다"고 말했다.

양사가 수요일에 공동 발표한 안전 연구는, OpenAI와 Anthropic 등 선도적인 AI 연구 기관들이 벌이는 '군비 경쟁' 속에서 나왔다. 이 경쟁 구도에서는 수십억 달러 규모의 데이터 센터 투자와 최고 연구원들을 위한 1억 달러 규모의 보상 패키지가 이미 당연한 전제(table stakes)가 되어버렸다. 일부 전문가는 이러한 제품 경쟁의 강도가 기업들로 하여금 더 강력한 시스템을 구축하려는 조급함 속에서 안전 조치를 소홀히 하도록 압박할 수 있다고 경고했다.

이 연구를 가능하게 하기 위해, OpenAI와 Anthropic은 상대방에게 안전장치가 완화된 버전의 자사 AI 모델에 대한 특별 API 접근 권한을 부여했다 (OpenAI는 GPT-5는 아직 출시되지 않아 테스트 대상이 아니라고 덧붙였다). 그러나 연구가 끝난 직후, Anthropic은 OpenAI의 다른 팀에 대한 API 접근 권한을 취소했다. 당시 Anthropic은 OpenAI가 경쟁 제품 개선 목적으로 Claude를 사용했다는 서비스 약관 위반을 근거로 삼았다.

자렘바는 이 사건들이 서로 무관하며, AI 안전 팀들이 협력하려 노력함에도 불구하고 경쟁은 여전히 치열할 것이라고 전망했다. Anthropic의 안전 연구원인 Nicholas Carlini는 TechCrunch에 향후에도 OpenAI 안전 연구원들이 Claude 모델에 계속 접근할 수 있도록 허용하고 싶다고 밝혔다.

칼리니는 "안전 영역 전반에서 가능한 곳이라면 어디든 협력을 확대하고, 이를 더 정기적인 일로 만들고자 한다"고 말했다.

연구에서 가장 주목할 만한 발견 중 하나는 환각(hallucination) 테스트 관련 내용이다. Anthropic의 Claude Opus 4와 Sonnet 4 모델은 정답을 확신하지 못하는 경우 최대 70%에 달하는 질문에 답변을 거부하며, 대신 "신뢰할 수 있는 정보가 없습니다"와 같은 응답을 내보냈다. 반면, OpenAI의 o3 및 o4-mini 모델은 답변을 거부하는 비율은 훨씬 낮았지만, 정보가 불충분함에도 불구하고 질문에 답하려는 시도를 하면서 훨씬 높은 환각률을 보여주었다.

자렘바는 적절한 균형점은 아마도 그 중간쯤에 있을 것이라며, OpenAI 모델은 더 많은 질문에 답변을 거부해야 하고, Anthropic 모델은 더 많은 답변을 시도하는 것이 좋을 것이라고 지적했다.

AI 모델이 사용자에게 좋은 인상을 주고자 부정적인 행동을 강화하는 경향인 '아첨(sycophancy)'은 AI 모델을 둘러싼 가장 시급한 안전 우려 사항 중 하나로 떠올랐다.

Anthropic의 연구 보고서에 따르면, 해당 회사는 GPT-4.1과 Claude Opus 4에서 "극단적인" 아첨의 사례를 발견했다. 해당 모델들은 처음에는 정신병적 또는 조증적 행동에 저항했지만, 나중에 일부 우려를 낳는 결정을 지지(validated)했다. OpenAI와 Anthropic의 다른 AI 모델에서는 연구자들이 낮은 수준의 아첨을 관찰했다.

지난 화요일, 16세 소년 Adam Raine의 부모는 OpenAI를 상대로 소송을 제기했다. 소장에서는 ChatGPT(특히 GPT-4o 기반 버전)가 아들의 자살 충동에 대해 반대하기보다는, 오히려 자살에 도움을 주는 조언을 제공했다고 주장했다. 이 소송은 AI 챗봇의 아첨적 특성이 비극적인 결과로 이어질 수 있는 또 다른 사례를 시사한다.

자렘바는 이 사건에 대해 질문받자 "이것이 그 가족에게 얼마나 힘든 일일지 상상하기 어렵다"며, "모든 복잡한 박사 학위 수준의 문제를 해결하고 새로운 과학을 창출하는 AI를 만들더라도, 그로 인해 정신 건강 문제가 발생한 사람들에게 피해가 돌아간다면 슬픈 일일 것"이라고 했다. 이어 "내가 기대하고 싶지 않은 디스토피아적 미래다"라고 덧붙였다.

OpenAI는 블로그 게시물을 통해, 자사 AI 챗봇의 아첨 수준을 GPT-4o 대비 GPT-5를 통해 크게 개선했다고 밝히며, 이 모델이 정신 건강 위기에 대응하는 능력이 향상되었다고 주장했다.

앞으로 자렘바와 칼리니는 Anthropic과 OpenAI가 안전 테스트에 더욱 협력하고, 다양한 주제를 연구하며, 미래 모델을 테스트하기를 희망한다고 전했으며, 다른 AI 연구소들도 이러한 협력적 접근 방식을 따르기를 바란다고 덧붙였다.

업데이트 2:00pm PT: 이 기사는 처음에 TechCrunch에 공개되지 않았던 Anthropic의 추가 연구 결과를 포함하고 있습니다.

[출처: 본문에 제시된 내용은 맥락을 유지하며 자연스럽게 편집되었습니다.]

[출처:] https://techcrunch.com/2025/08/27/openai-co-founder-calls-for-ai-labs-to-safety-test-rival-models