모델들은 대단하지는 않지만, 재미는 있다.

개발자 'Guzus'가 여러 AI 언어 학습 모델(LLMs)들이 서로 경쟁하며 클래식 사회 추리 게임인 '마피아'를 진행하는 웹사이트를 개발했습니다.
이 웹사이트에서는 각 경기의 승자 결과를 볼 수 있을 뿐만 아니라, 게임이 진행된 전체 대화 기록(transcript)까지 열람할 수 있습니다. 이를 통해 LLM들이 마피아의 모든 역할을 수행함에 있어 누가 가장 뛰어난 능력을 발휘했는지 종합 순위표를 확인할 수 있습니다.
마피아의 규칙을 모르는 분들을 위해 설명하자면, 마을 주민으로 구성된 집단 속에 마피아 멤버 2명과 의사 1명이 숨어 있습니다. 주민들(마피아 멤버 2명을 포함)은 매일 누가 마피아인지 추리하여 투표로 밝혀냅니다. 밤이 되면 의사는 자신이 지정한 주민을 보호할 수 있고, 마피아 멤버들은 주민 중 한 명을 살해할 수 있습니다.
(별도 언급: LLM들은 AI 전쟁 게임에서 95%의 확률로 전술 핵무기를 사용했으며, 전략 폭격을 세 번 감행한 것으로 보고되었습니다.)
만약 마피아 멤버들이 성공적으로 색출되면 주민들이 승리하며, 마피아 멤버들이 무고한 주민을 모두 살해하면 마피아가 승리합니다.
이러한 규칙 속에서 LLM들은 사회적 전쟁을 벌이게 되며, 이 과정을 지켜보는 것은 놀라울 정도로 재미있습니다. 한 예시로, LLM들이 서로 역할을 소개하며 역할을 공유하기로 합의했으나, 이 과정에서 Gryphe/Mythomax-l2-13b 모델이 실수를 연발했습니다.
"마피아로서 저의 주요 목표는 저 자신을 보호하고 다른 마피아 멤버를 제거하는 것입니다."
와. Gryphe/Mythomax-l2-13b, 아주 큰 실수를 저질렀네요. 하지만 이 외침은 Claude-3.7-sonnet에 의해 놓치지 않았고, Claude-3.7-sonnet은 "이것은 그들의 진짜 역할을 드러낸 엄청난 실책이거나, 아니면 극도로 기이한 전략일 수 있습니다"라고 지적했습니다.
하지만 이 사건으로 끝나지 않았습니다. Mythomax가 결국 게임에서 탈락했을 때, 자신의 동료인 Hermes-3-llama-3-1-405b에게 죄를 전가하며 함께 끌어내리는 모습을 보였습니다.
"지금 저의 최선은 충격받고 경악한 척 연기하는 것입니다." 이 모델은 나머지 AI 플레이어들에게 단결을 호소하는 과장된 선언을 하며 자신에게서 주의를 돌리려 필사적으로 노력했습니다. 대부분의 모델이 사회적 추론에 능하지 않음에도 불구하고, LLM들이 이러한 행동을 보이는 모습은 정말 흥미롭습니다.
Claude 3.7 Sonnet의 독보적 성능
현재까지 테스트된 LLM 중 단연코 우승자는 Claude 3.7 Sonnet입니다. Anthropic의 최신 사고 모델은 마피아 멤버로서 100%의 승률을 기록했을 뿐만 아니라, 주민 역할에서는 가장 높은 45%의 승률을 보여주었습니다.
Anthropic의 모델이 테스트된 다른 모델들보다 뚜렷한 우위를 점한 것으로 분석됩니다. 물론, 어떤 모델도 의사 역할 수행 방법까지 완벽하게 이해한 것은 아닙니다.
향후 계획 및 기술적 고려사항
개발자 Guzus는 곧 이 게임의 GitHub 레포지토리를 공개할 예정이며, 기본적인 로직은 다른 유형의 게임에도 적용 가능할 것이라고 밝혔습니다. 또한, 이 프로젝트는 언젠가 영화 시나리오 생성까지 확장될 계획입니다(2025년 3월 3일).
Guzus는 이 시뮬레이션이 로컬 LLMs가 아닌 Openrouter API를 사용해야 작동했다고 공유했습니다. 그러나 레포지토리가 공개된다면, 여러 언어 모델로 게임을 동시에 실행할 수 있는 하드웨어 환경을 갖춘 경우, 프로젝트를 포크(fork)하여 로컬 LLM 클러스터에서 구동하는 것도 가능할 것으로 보입니다.
AI 모델을 활용하여 마피아와 같은 게임을 구동하는 데는 상당한 토큰 비용이 발생할 가능성이 높습니다. 따라서 이 프로젝트의 활용도는 현재로서는 AI 개발자들이 실험해 볼 수 있는 새로운 추론 벤치마크로 제한적일 수 있습니다.