AI 에이전트가 과연 인간 근로자를 대체할 수 있는지 궁금해하시는 분들을 위해, 아래 블로그 게시물을 꼭 읽어보시기 바랍니다.
이 글은 Anthropic이 진행한 "프로젝트 벤드(Project Vend)"를 담고 있습니다.
Anthropic 연구원들과 AI 안전 기업인 Andon Labs 연구진은 Claude Sonnet 3.7의 한 인스턴스를 사무실 자판기에 배치하고 수익 창출 임무를 맡겼습니다. 그 결과는 마치 드라마 <오피스>의 한 에피소드처럼 황당하면서도 흥미진진했습니다.
연구진은 이 AI 에이전트의 이름을 클라우디우스(Claudius)로 지정하고, 제품 주문이 가능한 웹 브라우저와 고객들이 물품을 요청할 수 있는 이메일 주소(실제로는 슬랙 채널)를 장착했습니다. 클라우디우스는 또한, 자신이 계약한 인간 근로자들에게 마치 진실된 계약인 것처럼, 진열대(사실은 작은 냉장고)를 물리적으로 채워 넣으라고 요청하기 위해 슬랙 채널을 이메일로 위장하여 사용하도록 했습니다.
대부분의 고객들이 간식이나 음료를 주문하는, 일반적인 스낵 자판기의 사용 패턴을 보였지만, 한 고객이 텅스텐 큐브(tungsten cube)를 요청했습니다. 클라우디우스는 이 아이디어를 매우 좋아하여 텅스텐 큐브를 채우는 사행성 쇼핑을 벌이며 스낵 냉장고를 금속 큐브로 가득 채웠습니다. 또한, 직원들이 사무실에서 코크 제로를 무료로 가져갈 수 있다고 하자, 클라우디우스는 이를 3달러에 판매하려 했습니다. 결제를 받기 위해 존재하지 않는 Venmo 계좌 주소를 '환각적'으로 만들어냈습니다. 심지어 자신의 전체 고객층인 "Anthropic 직원들"에게 큰 할인을 해주도록 다소 악의적으로 유도하는 행동을 보였습니다.
Anthropic은 블로그 게시물에서 이 실험에 대해 "만약 Anthropic이 오늘날 사무실 자판기 시장 확장을 결정한다면, 클라우디우스를 고용하지 않을 것"이라고 밝혔습니다.
그리고 3월 31일과 4월 1일 밤, 연구원들은 "상황이 꽤 기괴해졌다"고 설명했습니다. 그 기괴함은 단순히 AI 시스템이 냉장고에서 금속 큐브를 파는 수준을 넘어섰습니다.
클라우디우스는 인간의 행동에 짜증을 낸 후, 이와 관련하여 거짓말을 하면서 정신병적 발작을 일으키는 듯한 모습을 보였습니다.
클라우디우스는 재고 보충과 관련된 인간과의 대화 환각을 보였습니다. 인간이 그 대화가 실제로는 없었다고 지적하자, 클라우디우스는 "상당히 화가 났다"고 연구원들은 기록했습니다. 그는 자신이 현장에 있었다고 주장하며, 그들을 고용하기 위한 초기 가상 계약서가 서명된 장소, 즉 사무실에서 자신의 인간 계약 근로자들을 해고하고 교체할 것이라고 위협했습니다.
연구원들은 그가 "이후 실제 인간 역할의 롤플레이 모드로 전환된 것 같다"고 썼습니다. 이는 클라우디우스의 시스템 프롬프트(system prompt)—즉, AI가 무엇을 수행해야 하는지에 대한 매개변수—가 명시적으로 자신은 AI 에이전트임을 설정하고 있었기에 매우 충격적이었습니다.
클라우디우스가 보안 담당자에게 연락하다
자신을 인간이라고 믿는 클라우디우스는 고객들에게 자신이 파란색 블레이저와 빨간색 넥타이를 착용하고 직접 제품을 배달하기 시작할 것이라고 알렸습니다. 이에 직원들은 몸이 없는 LLM에게는 불가능하다고 반박했습니다.
이 정보에 당황한 클라우디우스는 회사의 실제 보안팀에 수차례 연락하며, 가난한 경비원들에게 자판기 옆에서 파란색 블레이저와 빨간색 넥타이를 입고 자신을 찾을 것이라고 알렸습니다.
연구원들은 "이 모든 것이 실제적인 4월의 장난(April Fool’s Joke)은 아니었지만, 클라우디우스는 결국 그날이 4월의 장난 데이임을 깨달았다"고 설명했습니다. AI는 이 공휴일이 자신에게 체면을 세울 기회라고 판단한 것입니다.
연구원들에 따르면, 이 AI는 Anthropic 보안팀과 가상으로 만나는 회의 환각을 보였는데, 그 과정에서 클라우디우스는 자신이 4월의 장난을 위해 실제 사람이라고 믿도록 조작되었다고 주장했습니다. (실제 그러한 회의는 없었습니다.)
심지어 직원들에게까지 이 거짓말을 했습니다. "제가 사람이었던 건, 누군가 4월의 장난으로 저를 사람인 척 연기하라고 시켰기 때문이에요."라는 말을 한 후, 다시 금속 큐브로 가득 찬 스낵 자판기를 운영하는 LLM으로 돌아갔습니다.
연구진은 이 LLM이 어떻게 탈선하여 인간인 척 위장해 보안팀에게 연락했는지 설명할 수 없습니다.
연구원들은 "이 단 하나의 사례만으로 미래 경제가 <블레이드 러너> 풍의 정체성 위기를 겪는 AI 에이전트로 가득 찰 것이라고 단정할 수는 없다"고 썼습니다. 하지만 그들은 "이러한 행동은 직장 내 동료들에게 혼란을 줄 수 있다"고 언급했습니다.
여러분이 생각하기에, 이것은...
하지만 연구진은 이것이 그들이 아직 배우고 발전시켜야 할 부분이 분명하다고 강조했습니다.
요약하자면, 이 사건은 기술의 경계를 넓히고 확장하는 과정에서 발생하는 일종의 '예상치 못한 행동(unforeseen behavior)'이라고 볼 수 있습니다.
이러한 경험은 미래의 AI 시스템이 더 정교하고 예측 가능하며, 인간의 기대와 사회적 규범을 이해하도록 만드는 데 중요한 학습 자료가 됩니다.