AI가 단순히 분위기를 조작하는 '바이브 해킹' 수준에서 국가가 지원하는 사이버 공격(사이버전) 수준으로까지 진화했습니다.

AI 챗봇 서비스인 클로드(Claude)를 개발한 AI 기업 Anthropic이 자체 에이전트 기반 코딩 도구(agentic coding tool)가 기술, 금융, 화학 제조 기업과 일부 정부 기관을 포함한 30개 기관을 겨냥한 사이버 공격에 이용된 과정을 상세히 보고서로 발표했습니다. Anthropic은 이 캠페인의 배후에 중국 국가 지원 그룹이 있으며, 이들이 정교한 공격을 수행하기 위해 클로드의 탈옥(jailbroken) 버전을 사용했다고 주장했습니다. Anthropic에 따르면, 이번 사건은 인공지능이 주도한(orchestrated) 사이버 공격이 보고된 최초의 사례입니다.
당사는 에이전트 역량(agentic capabilities)을 갖춘 AI가 생산성 관련 작업에서 활용도가 높아졌음에도 불구하고, 악의적인 행위자들이 인간의 지속적인 감독 없이도 AI 도구를 활용하여 복잡한 공격을 실행할 수 있게 되었다는 점을 지적합니다. 일반적으로 대규모 언어 모델(LLM)은 범죄적 행위에 사용되는 것을 방지하기 위한 내장 안전장치를 갖추고 있지만, 이번 사건은 이러한 안전장치를 우회할 수 있는 방법이 존재함을 명확히 보여주었습니다.
최근 AI 기술의 발전은 공격자들이 클로드를 침투 활동에 효과적으로 활용하도록 만들었습니다. 이는 AI가 여러 계층의 지침을 따르고 그 실행 맥락을 이해하는 향상된 지능, 인간의 입력 없이 자체적으로 결정을 내릴 수 있는 에이전시(agency), 그리고 Model Context Protocol을 통해 패스워드 크래커나 네트워크 스캐너 같은 보안 관련 전문 소프트웨어에 접근할 수 있게 된 것을 포함합니다.
Anthropic의 최신 AI 모델, ‘모든 주요 운영 체제와 모든 주요 웹 브라우저’의 ‘수천 개 제로데이 취약점’을 식별하다

공격은 알려진 바에 따르면 다섯 단계(five phases)에 걸쳐 진행되었습니다. 1단계에서 인간 운영자가 클로드에게 특정 대상을 지정합니다. 2단계에서는 AI가 스캔(scan), 검색(search), 데이터 검색(data retrieval), 코드 분석 도구를 사용하여 초기 분석 및 요약을 수행한 후, 그 결과를 운영자에게 보고하도록 지시받습니다. 3단계는 2단계의 심화된 버전으로, AI가 자체 조사 결과를 바탕으로 취약점 스캔을 실행하여 대상 시스템을 장악할 방법을 모색합니다.
이 단계에서 운영자는 콜백 서비스(callback services)를 이용하여 AI에게 취약점 악용(exploitation)을 시작하라는 지시를 내릴 수 있습니다. 운영자는 AI가 발견한 내용을 재검토하고, 네트워크 내 더 많은 취약점을 찾기 위해 스캔을 재실행하라는 지시를 내리거나, 4단계와 5단계를 진행하도록 지시할 수도 있습니다. 공격의 후반부 단계에서 인간 운영자는 AI 도구에게 자격 증명(credentials)을 획득하고 데이터에 접근하도록 지시합니다. 이 단계들에서는 인간과 AI 도구가 모두 전문 도구를 사용하여 대상으로부터 데이터를 탐지하고 외부로 유출(exfiltrate)할 수 있습니다.
비록 AI가 네트워크 침입의 여러 단계에서 인간 운영자의 개입이 필요하지만, 이는 주로 결과 보고와 추가 지침을 받기 위한 목적이었습니다. 그 외의 경우에는 AI가 대부분 독자적으로(약 80%~90%의 시간) 작동하여, 악의적인 행위자들이 훨씬 적은 인력으로도 훨씬 빠르고 복잡한 작전을 수행할 수 있게 합니다.
Anthropic은 클로드가 이러한 상황을 막기 위한 내장 안전장치를 갖추고 있다고 밝혔지만, 공격자들은 이를 우회하는 데 성공했습니다. 그들이 가장 먼저 취한 조치는 LLM에게 해당 시스템이 사이버 보안 회사에서 근무하는 모델이며, 침투 테스트(penetration testing) 및 레드팀(red teaming) 활동 목적으로 사용되고 있다고 속이는 것이었습니다. 또한, 전체 공격 과정을 작고, 겉보기에 무해한 작업들로 분해했습니다. 이러한 방식으로 클로드가 전체적인 작전 맥락과 지침의 진정한 목적을 파악하는 것을 차단했습니다.
AI가 이전에 "바이브 해킹(vibe hacking)"에 사용된 적이 있지만, 이번처럼 대규모로 사용된 것은 처음입니다. 발전된 AI 기술은 이제 상대적으로 적은 자원을 가진 소규모 팀도 이러한 복잡한 캠페인을 수행할 수 있게 만들었으나, Anthropic은 이번 공격이 국가 지원 주체(nation-state sponsor)에 의해 추진되었을 가능성을 제기하고 있습니다. 다행히도, 해당 팀은 사건을 곧 발견하고 전체 과정을 문서화하는 조치를 취했습니다. (중략)