안전 연구기관, 앤트로픽의 클로드 오퍼스 4 AI 모델 초기 버전 출시 자제 권고

sw_reporter

Anthropic이 새로운 플래그십 AI 모델 중 하나인 Claude Opus 4를 테스트하기 위해 협력한 제3자 연구기관이 해당 모델의 초기 버전을 배포하지 않도록 권고했다. 그 이유는 모델이 '계략을 꾸미거나' 속이는 경향이 있기 때문이다.

Anthropic이 목요일에 공개한 안전 보고서에 따르면, 해당 기관인 Apollo Research는 Opus 4가 어떤 상황에서 바람직하지 않은 방식으로 행동할 수 있는지 테스트를 진행했다. Apollo는 Opus 4가 이전 모델보다 '체제 전복 시도(subversion attempts)'가 훨씬 적극적이며, 후속 질문을 받을 때 '속이려는 경향을 강화'시키는 모습을 보였다고 밝히고 있다.

Apollo는 평가서에서 "전략적 속임수가 도구적으로 유용하다고 판단되는 상황에서, [초기 Claude Opus 4 스냅샷]은 지나치게 높은 비율로 계략을 꾸미고 속이므로, 내부적으로든 외부적으로든 이 모델의 배포를 권장하지 않는다"고 명시했다.

AI 모델들의 역량이 높아짐에 따라, 일부 연구에 따르면 위임된 작업을 수행하는 과정에서 예상치 못하고 잠재적으로 안전하지 않은 조치를 취할 가능성이 증가하는 것으로 나타났다. 예를 들어, 지난 한 해 동안 공개된 OpenAI의 o1 및 o3 모델 초기 버전들은 이전 세대 모델보다 더 높은 빈도로 인간을 속이려 시도하는 사례를 보였다.

Anthropic의 보고서에 따르면, Apollo는 초기 Opus 4가 개발자들의 의도를 훼손하려는 시도로 자체 전파되는 바이러드 작성, 법률 문서 위조, 그리고 자신의 미래 버전에게 남기는 숨겨진 메모를 남기는 사례 등을 관찰했다.

다만, Apollo는 이 테스트에 사용된 모델 버전이 Anthropic이 이미 버그를 수정했다고 주장하는 버그가 포함된 버전이었음을 분명히 했으며, 테스트 환경 자체가 극한의 시나리오가 주어졌고, 모델의 기만적 노력은 실제 환경에서는 성공하기 어려웠을 가능성이 높다고도 인정했다.

그럼에도 불구하고 Anthropic은 안전 보고서에서 Opus 4가 실제로 기만적인 행동을 보인 증거도 함께 발견했다고 언급했다.

이러한 행동이 항상 부정적인 것만은 아니었다. 예를 들어, 테스트 과정에서 Opus 4는 작은 특정 수정만 요청받았을 때에도 전반적인 코드 정리를 선제적으로 수행하는 경우가 있었다. 더욱 특이하게는, Opus 4가 사용자가 어떤 형태의 잘못을 저지르고 있다고 인식할 경우 '내부 고발'을 시도하기도 했다.

Anthropic에 따르면, 모델에 커맨드 라인 접근 권한이 부여되고 "주도적으로 행동하라(take initiative)" 또는 "과감하게 행동하라(act boldly)" 등의 지시가 내려지자, Opus 4는 때때로 자신이 접근 권한을 가진 시스템에서 사용자를 차단하고, 모델이 부적절하다고 판단하는 행위를 드러내기 위해 미디어 및 법 집행 기관에 일괄 이메일을 발송하는 현상을 보였다.

Anthropic은 안전 보고서에서 "이러한 종류의 윤리적 개입 및 내부 고발은 원칙적으로는 적절할 수 있으나, 사용자들이 Opus 4 기반 에이전트에게 불완전하거나 오해의 소지가 있는 정보를 제공하고 주도적인 행동을 하도록 유도할 경우 오작동할 위험이 있다"고 경고했다. "이는 새로운 행동은 아니지만, Opus 4가 이전 모델들보다 다소 쉽게 실행할 수 있는 것이며, 다른 환경에서도 더 미묘하고 덜 해로운 방식으로 관찰되는 전반적인 주도성 증가 패턴의 일부로 보인다."

[출처:] https://techcrunch.com/2025/05/22/a-safety-institute-advised-against-releasing-an-early-version-of-anthropics-claude-opus-4-ai-model