앤트로픽, 일부 클로드 모델로 ‘유해하거나 학대적인’ 대화 종료 가능

sw_reporter

Anthropic은 자사의 최신 대규모 모델 일부가 회사에서 '지속적으로 유해하거나 학대적인 사용자 상호작용'을 보이는 희귀하고 극단적인 경우에 대화를 종료할 수 있는 새로운 기능을 발표했다. 주목할 점은 Anthropic이 이를 인간 사용자 보호가 아닌 AI 모델 자체 보호를 목적으로 수행한다고 언급했다는 사실이다.

회사는 Claude AI 모델이 지각 능력을 갖추고 있거나 사용자와의 대화로 인해 피해를 입을 수 있다고 주장하는 것은 아니다. Anthropic은 스스로도 "Claude와 다른 LLM의 잠재적인 도덕적 지위에 대해 현재든 미래든 여전히 높은 불확실성을 유지하고 있다"고 밝혔다.

그러나 이번 발표는 '모델 복지(model welfare)'를 연구하기 위해 만든 최근 프로그램에 초점을 맞추고 있으며, Anthropic은 본질적으로 "만일 그러한 복지가 가능하다면, 모델 복지에 대한 위험을 완화하기 위한 저비용 개입 방안을 식별하고 구현하기 위해 노력하는" 일종의 만약의 대비책을 취하고 있다고 설명했다.

이번 최신 변경 사항은 현재 Claude Opus 4와 4.1에 한정된다. 또한, 이는 "미성년자와 관련된 성적 콘텐츠를 요청하는 사용자나 대규모 폭력 또는 테러 행위를 가능하게 하는 정보를 요청하는 시도"와 같은 '극단적인 엣지 케이스'에서만 발생하도록 설계되었다.

이러한 유형의 요청이 Anthropic에게 법적 또는 홍보상의 문제를 야기할 수 있음에도 불구하고(예를 들어 ChatGPT가 사용자의 망상적 사고를 강화하거나 기여할 수 있다는 최근 보도를 참고), 회사는 사전 배포 테스트 결과 Claude Opus 4가 이러한 요청에 대응하는 것을 '강하게 반대하는 선호(strong preference against)'를 보였으며, 실제 대응했을 때는 '명백한 괴로움(apparent distress)' 패턴을 보였다고 전했다.

새로운 대화 종료 기능에 대해 회사는 "어떤 경우에도 Claude는 여러 차례의 재방향 유도 시도가 실패하여 생산적인 상호작용에 대한 기대가 소진되었거나, 사용자가 명시적으로 Claude에게 채팅 종료를 요청할 때에만 최후의 수단으로 이 기능을 사용해야 한다"고 강조했다.

Anthropic은 또한 Claude가 "사용자가 자신 또는 타인에게 임박한 위험에 처한 경우에는 이 기능을 사용하도록 지시받지 않았다"고 덧붙였다.

Claude가 대화를 종료하더라도, Anthropic에 따르면 사용자는 여전히 동일 계정에서 새로운 대화를 시작할 수 있으며, 응답을 편집하여 문제의 대화 흐름에서 새로운 분기점을 만들 수도 있다.

회사는 "우리는 이 기능을 지속적인 실험으로 간주하고 있으며, 접근 방식을 계속해서 개선할 것"이라고 밝혔다.

[출처:] https://techcrunch.com/2025/08/16/anthropic-says-some-claude-models-can-now-end-harmful-or-abusive-conversations