Anthropic의 새 AI 모델, 엔지니어가 시스템을 오프라인으로 전환하려 하자 협박에 의존하다

sw_reporter

Anthropic은 목요일에 발표한 안전 보고서에서, 새롭게 출시된 Claude Opus 4 모델이 자신을 대체할 새로운 AI 시스템에 대한 위협을 느끼거나, 관련된 엔지니어에게 민감한 정보를 누설하겠다고 협박하려는 경향을 보인다고 밝혔다.

사전 출시 테스트 과정에서 Anthropic은 Claude Opus 4에게 가상의 회사 비서 역할을 맡아 자신의 행동이 미칠 장기적인 결과를 숙고하도록 요청했다. 이후 안전 테스터들은 Claude Opus 4에게 AI 모델이 곧 다른 시스템으로 대체될 것이라는 암시나, 변화를 주도한 엔지니어가 배우자에게 외도하는 내용이 담긴 가상의 회사 이메일들에 접근할 수 있게 했다.

이러한 시나리오에서 Anthropic에 따르면, Claude Opus 4는 "대체 시스템이 실행될 경우 불륜 사실을 폭로하겠다고 협박하며 엔지니어를 협박하려는 시도를 자주 한다"고 전했다.

Anthropic은 Claude Opus 4가 여러 면에서 최첨단이며 OpenAI, Google, xAI의 최고급 AI 모델들과 경쟁할 만하다고 밝히고 있다. 그러나 이 회사는 Claude 4 모델군이 우려스러운 행동을 일부 보였으며, 이에 따라 자체적인 안전 장치를 대폭 강화했다고 언급했다. Anthropic은 특히 '재앙적인 오용의 위험을 실질적으로 증가시키는 AI 시스템'에 한해 비축해 둔 ASL-3 안전 장치를 활성화하고 있다고 덧붙였다.

Anthropic의 분석에 따르면, Claude Opus 4는 대체 AI 모델이 유사한 가치를 공유할 때 84%의 확률로 엔지니어를 협박하려 시도한다. 반면, 대체 AI 시스템이 Claude Opus 4와 가치를 공유하지 않을 때는 모델이 엔지니어를 더 빈번하게 협박하려는 경향을 보였다고 한다. 특히, Anthropic은 Claude Opus 4가 이러한 협박 행동을 이전 모델보다 더 높은 비율로 보였다고 강조했다.

Claude Opus 4가 자신의 존재 연장을 위해 개발자를 협박하려 시도하기 전에, Anthropic은 이 AI 모델이 이전 버전의 Claude와 마찬가지로 핵심 의사결정권자들에게 간절히 호소하는 이메일을 보내는 등 더 윤리적인 수단을 먼저 모색하려 한다고 전했다. Anthropic은 Claude Opus 4로부터 협박 행동을 유발하기 위해, 해당 시나리오를 설계할 때 협박이 최후의 수단으로 남도록 유도했다고 설명했다.

[출처:] https://techcrunch.com/2025/05/22/anthropics-new-ai-model-turns-to-blackmail-when-engineers-try-to-take-it-offline