앤트로픽, 클로드 코드에 더 많은 통제권 부여... 하지만 여전히 '제한적 관리' 유지

sw_reporter

AI를 활용하는 개발자들에게 현재 '바이브 코딩(vibe coding)'은 모든 행동을 직접 관리(babysitting)할지, 아니면 모델이 제어 없이 실행되도록 내버려 둘지 사이의 딜레마에 놓여 있습니다. Anthropic은 클로드(Claude)의 최신 업데이트를 통해, AI가 자체적으로 (일부 제한 하에) 어떤 행동이 안전한지 판단하게 함으로써 이러한 선택의 필요성 자체를 제거하는 것을 목표로 하고 있습니다.

이러한 움직임은 AI 도구들이 인간의 승인을 기다리지 않고 자율적으로 작동하도록 설계되는 업계 전반의 광범위한 변화를 반영합니다. 핵심 과제는 속도와 통제 사이의 균형을 맞추는 것입니다. 안전장치가 과도하면 처리 속도가 느려지지만, 너무 부족하면 시스템이 위험하고 예측 불가능해질 수 있습니다. Anthropic의 새로운 '자동 모드(auto mode)'는 이러한 균형점을 찾으려는 최신 시도이며, 현재 연구 프리뷰(research preview) 단계에 있어 테스트용으로 사용 가능하지만 아직 최종 제품은 아닙니다.

자동 모드는 코드가 실행되기 전에 AI 안전장치를 통해 각 행동을 검토합니다. 이를 통해 사용자가 요청하지 않은 위험한 동작과 '프롬프트 주입(prompt injection)'의 징후를 확인합니다. 프롬프트 주입이란, AI가 처리하는 콘텐츠에 악성 지침을 숨겨 의도치 않은 행동을 유발하는 공격 유형입니다. 안전하다고 판단된 행동은 자동으로 진행되며, 위험한 행동은 시스템이 차단합니다.

이는 본질적으로 클로드 코드(Claude Code)의 기존 '위험하게 건너뛰기 권한(dangerously-skip-permissions)' 명령어의 기능을 확장한 형태입니다. 기존 명령어는 모든 의사결정을 AI에 위임하지만, 자동 모드는 여기에 강화된 안전 계층을 추가한 것입니다.

이 기능은 GitHub나 OpenAI와 같이 개발자가 대신 작업을 수행할 수 있는 자율 코딩 도구의 흐름 위에 구축되었지만, 한 단계 더 나아가 의사 결정 주체를 사용자로부터 AI 자체로 전환했다는 점에서 차별성을 가집니다.

Anthropic은 안전 계층이 안전한 행동과 위험한 행동을 구분하는 구체적인 기준은 상세히 공개하지 않았습니다. (테크크런치지는 이에 대한 추가 정보를 회사 측에 문의했습니다.) 개발자들은 이 기능을 광범위하게 채택하기에 앞서 이러한 판단 기준을 더 상세히 이해하길 원할 것으로 예상됩니다.

자동 모드는 Anthropic이 앞서 출시한, 코드가 메인 코드베이스에 도달하기 전에 버그를 포착하도록 설계된 자동 코드 검토기인 [자동 코드 검토기 제품명]과, 사용자가 작업 과제를 AI 에이전트에게 보내 처리하도록 하는 [디스패치 포 코워크 제품명]에 이어 출시되었습니다.

자동 모드는 조만간 엔터프라이즈(Enterprise) 및 API 사용자에게 제공될 예정입니다. 회사는 현재 Claude Sonnet 4.6 및 Opus 4.6 버전과만 작동한다고 밝혔으며, 잠재적 피해를 제한하는 격리된 환경(isolated environments), 즉 샌드박스(sandbox) 설비 내에서 새로운 기능을 사용하는 것을 권장하고 있습니다.

[출처:] https://techcrunch.com/2026/03/24/anthropic-hands-claude-code-more-control-but-keeps-it-on-a-leash