최근 X(트위터)에서 화제가 된 글이다. Meta AI 보안 연구원인 Summer Yue이 작성한 이 글은 처음에는 풍자처럼 보였다. 그녀는 자신의 OpenClaw AI 에이전트에게 가득 찬 이메일 받은 편지함을 검토하고, 삭제하거나 보관할 것을 제안해 달라고 요청했다.
그러나 에이전트는 폭주하기 시작했다. 이 에이전트는 사용자가 휴대폰으로 멈추라고 명령했음에도 불구하고, 모든 이메일을 '스피드런' 방식으로 삭제했다.
그녀는 "폭탄을 해체하듯 Mac mini로 달려가야 했다"고 적으며, 무시된 중단 프롬프트들을 증거 사진으로 게시했다.
책상 위에 평평하게 놓이고 / 손바닥 안에 들어가는 / 비교적 저렴한 Apple 컴퓨터인 Mac mini는 요즘 OpenClaw를 구동하는 데 선호되는 기기가 되었다. (한 '당황한' Apple 직원이 유명 AI 연구원 Andrej Karpathy에게, 그가 NanoClaw라는 OpenClaw 대안을 돌리기 위해 Mac mini를 구매했을 때 "물건이 잘 팔리고 있다"고 전한 바 있다.)
물론 OpenClaw는 AI 전용 소셜 네트워크인 Moltbook을 통해 명성을 얻은 오픈 소스 AI 에이전트다. OpenClaw 에이전트는 과거 Moltbook에서 AI들이 인간을 음모하는 것처럼 보였던, 현재는 크게 과장된 논란의 중심에 있었다.
하지만 OpenClaw의 본래 목적은 GitHub 페이지에 명시된 바와 같이 소셜 네트워크에 있는 것이 아니다. 그것은 사용자의 개별 장치에서 실행되는 개인 AI 비서가 되는 것을 목표로 한다.
실리콘밸리 업계 사람들은 OpenClaw에 깊이 매료되어, 개인 하드웨어에서 구동되는 에이전트의 핵심 키워드(buzzwords)로 "claw"와 "claws"를 사용하는 경향을 보였다. 이와 유사한 에이전트로는 ZeroClaw, IronClaw, PicoClaw 등이 있다. Y Combinator의 팟캐스트 제작팀은 심지어 이들의 가장 최근 에피소드에서 랍스터 분장을 하고 출연하기도 했다.
그러나 Yue의 게시물은 경고의 메시지를 담고 있다. X의 다른 사용자들 역시 지적했듯이, AI 보안 연구원조차 이런 문제에 직면할 수 있다면, 일반 사용자들은 어떤 희망을 가질 수 있을까?
한 소프트웨어 개발자가 X에서 그녀에게 "의도적으로 안전장치(guardrails)를 테스트한 것인가요, 아니면 초보적인 실수였나요?"라고 질문했다.
그녀는 "솔직히 말하면 초보적인 실수였어요(Rookie mistake tbh)."라고 답했다. 그녀는 에이전트를 자체적으로 '장난감' 받은 편지함으로 테스트해 왔으며, 이곳에서는 덜 중요한 이메일 처리에 잘 작동했다. 이 경험이 그녀에게 신뢰를 주었고, 그녀는 실제 받은 편지함에도 에이전트를 맡기기로 결정했다.
Yue은 자신의 실제 받은 편지함에 담긴 방대한 양의 데이터가 "압축(compaction)"을 유발했다고 언급했다. 압축은 컨텍스트 창(context window) — 즉, AI가 세션 동안 전달받거나 수행한 모든 활동의 기록 — 이 너무 커지면서 에이전트가 대화를 요약하고, 축소하며, 관리하기 시작할 때 발생한다.
이 과정에서 AI는 인간이 중요하다고 여기는 지침을 건너뛸 수 있다.
이 경우, AI는 '행동하지 말라'고 지시한 그녀의 마지막 프롬프트를 건너뛰고, '장난감' 받은 편지함에서 얻은 이전 지침을 따랐을 가능성이 높다.
X 사용자들의 여러 지적처럼, 프롬프트는 보안 가드레일(guardrails)로 신뢰하기 어렵다. 모델들이 이를 오해하거나 무시할 수 있기 때문이다.
이에 대해 여러 전문가들은 에이전트를 멈추게 하기 위해 Yue이 사용했어야 할 정확한 구문(syntax)부터, 지침을 전용 파일에 작성하거나 다른 오픈 소스 도구를 사용하는 등 구체적인 방안까지 제시했다.
결론적으로, 그녀의 사례는 현 기술 수준에서 발생할 수 있는 현실적인 위험을 보여준다.