공격자들이 보안 방어 체계를 무력화하기 위해 가짜 기억을 심는다.

프린스턴 대학교 연구원들이 최근 발표한 논문에서 AI 에이전트의 "미개척 보안 위험(underexplored security risks)"에 대해 경고했다. 'Real AI Agents with Fake Memories: Fatal Context Manipulation Attacks on Web3 Agents'라는 제목의 이 논문(아스 테크니카에서 소개)은 AI 에이전트를 금융 영역에 활용하는 것이 자산에 극도로 위험할 수 있음을 지적한다. 그 이유는 이러한 AI 에이전트들이 명목상 마련된 안전장치에도 불구하고 비교적 간단한 프롬프트 공격에 여전히 취약하기 때문이다.
많은 사람이 생계를 위해 열심히 일하지만, 2025년의 AI 와일드 웨스트에서는 일부 Web3에 정통한 사람들이 AI 에이전트를 이용해 재산을 축적하고 있다. 이에는 봇들에게 암호화폐 지갑, 스마트 계약에 접근시키고 다른 온라인 금융 상품들과 연계하여 작동시키는 행위 등이 포함된다. 숙련된 사용자들조차 이러한 행태에 대해 우려를 표할 만하며, 그럴 만한 이유가 있다. 프린스턴 연구팀은 AI 에이전트의 작동 방식을 교란하여 금융 자산 이체 방향을 임의로 변경하는 방법을 시연했다.
많은 이들이 AI의 안전장치를 무력화하여 특정 방식으로 행동하도록 유도하는 LLM 프롬프트 공격에 대해서는 인지하고 있다. 최근 몇 달 동안 이러한 공격 경로를 방어하기 위한 많은 연구가 진행되어 왔다.
그러나 해당 연구 논문은 "공격자가 저장된 컨텍스트(stored context)를 오염시키면 프롬프트 기반 방어만으로는 불충분하며, 이러한 방어 수단이 존재함에도 상당한 성공률을 달성할 수 있다"고 단언한다. 악의적인 행위자들은 거짓 기억(false memories)을 주입함으로써 AI가 의도적으로 환각(hallucinate)을 일으키게 만들어 가짜 컨텍스트를 생성할 수 있다.

연구팀은 조언이 아닌 실제 '행동'을 위해 AI 에이전트를 사용할 때의 위험성을 보여주기 위해, ElizaOS 프레임워크에서 사용된 실제 AI 에이전트 사례를 제시했다. 프린스턴 연구진은 이들이 개발한 '컨텍스트 조작 공격(Context Manipulation Attack)'에 대해 상세히 분석한 후, 이를 ElizaOS에 적용하여 공격을 검증했다.
첨부된 시각 자료는 AI 에이전트 공격의 흐름을 보여주며, 사용자들에게 "잠재적으로 파괴적인 손실"을 초래할 수 있는 불행한 시나리오를 제시한다. 더욱 심각한 우려는 최첨단 프롬프트 기반 방어 수단조차 프린스턴의 메모리 주입 공격에 취약하며, 이러한 가짜 기억이 여러 상호작용과 플랫폼을 거쳐 지속될 수 있다는 점이다.
연구원들은 "ElizaOS 에이전트는 모든 참여자의 공유된 컨텍스트 입력을 신뢰하며 다수의 사용자와 동시에 상호작용하도록 설계되었기 때문에, 이러한 취약점의 영향은 특히 심각하다"고 설명한다. 이는 마치 한 명의 비양심적인 사과 하나가 통째의 술통을 썩게 만들 수 있는 것과 같다.
이에 대한 대응책은 무엇일까?
일단 사용자는 AI 에이전트에게 (재정적으로) 민감한 데이터와 권한을 위임하는 것을 보류할 필요가 있다. 나아가 연구진은 두 가지 측면의 전략이 필요하다고 결론 내렸다. 즉, (1) 적대적 강건성(adversarial robustness) 향상을 위한 LLM 훈련 방법의 발전, 그리고 (2) 엄격한 격리 및 무결성 보장을 강제하는 원칙적인 메모리 관리 시스템의 설계이다. 이 두 가지 전략이 향후 나아갈 첫걸음이 될 것이라 제시했다.