앤트로픽의 클로드 AI, 트위치에서 포켓몬 플레이하다 — 느리게

sw_reporter

화요일 오후, Anthropic은 트위치에서 'Claude Plays Pokémon'을 공개했습니다. 이는 Anthropic의 최신 AI 모델인 'Claude 3.7 Sonnet'이 포켓몬 레드(Pokémon Red) 게임을 플레이하는 라이브 스트리밍이었습니다. 이 스트리밍은 현존 AI 기술의 역량과 사람들의 반응을 보여주는 흥미로운 실험 그 자체였습니다.

AI 연구자들은 새로운 모델을 테스트하기 위해 다양한 비디오 게임을 활용해 왔지만, 그 목적이 실용성보다는 재미에 치중되는 경우가 많았습니다. 하지만 Anthropic에 따르면, 포켓몬은 Claude 3.7 Sonnet에게 유용한 벤치마크임이 입증되었는데, 이 모델은 게임에 담긴 다양한 퍼즐을 효과적으로 '사고(think)'해 낼 수 있었기 때문입니다.

OpenAI의 o3-mini와 DeepSeek의 (모델명)에 버금가게, Claude 3.7 Sonnet은 아동용으로 설계된 비디오 게임과 같은 까다로운 난제들을 '추론(reason)'하여 해결할 수 있습니다. 비추론형 모델이었던 Claude 3.5 Sonnet이 포켓몬 레드 초반부, 즉 파레톨 시티(Pallet Town)의 플레이어 집을 나가는 것조차 실패했던 것과 달리, Claude 3.7 Sonnet은 세 개의 체육관 관장 배지 획득에 성공했습니다.

Claude가 포켓몬 레드에서 건물 탈출에 어려움을 겪는 장면이 포착되기도 했습니다.

Claude Plays Pokémon on Twitch

최신 Claude 역시 여전히 문제가 발생했습니다. 트위치 스트림 몇 시간이 지난 후, 모델은 자신이 아무리 노력해도 지나갈 수 없는 바위 벽에 의해 저지되었습니다.

한 트위치 사용자는 이 상황을 "수천 시간이 투입된 프로그래밍을 거친 컴퓨터 AI와 단 하나의 바위 벽 중 누가 이길까요?"라며 요약했습니다.

결국 Claude는 그 벽을 돌아나가는 방법을 찾아냈습니다.

한편으로, Claude가 극도로 신중하게 모든 단계를 사유하며 포켓몬 레드를 이동하는 모습을 보는 것은 답답함을 주기도 합니다. 하지만 동시에 기묘할 만큼 매혹적이기도 합니다. 스트림의 왼쪽에서는 Claude의 "사고 과정"이, 오른쪽에서는 실시간 게임 플레이가 펼쳐집니다.

한 시점에서 Claude는 연구실 내에 있는 오크 교수(Professor Oak)를 찾으려 시도했지만, 장면에 다른 NPC들이 있어 혼란을 겪었습니다.

Claude는 "제 아래에 검은 머리에 흰 가운을 입은 새로운 캐릭터가 좌표 (2, 10)에 있는 것이 눈에 띕니다. 이분이 오크 교수일지도 몰라요! 내려가서 이야기를 나눠봐야겠어요."라고 기록했습니다.

이후 Claude는 교수님이 아닌, 이전에 여러 번 대화를 나눴던 다른 NPC와 실수로 대화하는 행동을 이어갔고, 트위치 채팅창의 수천 명에 달하는 시청자들은 초조해하기 시작했습니다. 다만 몇 분 이상 스트림을 지켜본 일부 시청자들은 비교적 침착했습니다.

한 사용자는 채팅창에 "얘들아, 진정해. 우리가 앞으로 나아가는 법을 이해하기 전에 오크 연구실을 나오고 들어간 것이 열 번이 넘었잖아."라고 작성하기도 했습니다.

오랜 트위치 사용자들에게 Anthropic의 스트리밍 형식은 향수를 불러일으킬 만한 구도로 다가왔을 것입니다. 10여 년 전, 수백만 명의 사람들이 최초의 온라인 소셜 실험이었던 '트위치 플레이스 포켓몬(Twitch Plays Pokémon)'에서 포켓몬 레드를 함께 플레이하려 시도한 적이 있습니다. 각 사용자가 트위치 채팅을 통해 플레이어 캐릭터를 제어하면서, 그 결과는 예측 가능한 혼란 그 자체였습니다.

일부 AI 연구자들은 트위치 플레이스 포켓몬을 자신들의 연구에 영감을 준 사례로 언급했습니다. 2023년 10월, 시애틀 기반의 소프트웨어 엔지니어 피터 휘든(Peter Whidden)은 강화 학습 알고리즘을 훈련시켜 포켓몬을 플레이하는 과정을 담은 유튜브 영상을 공개했습니다. 그의 AI는 게임을 성공적으로 탐색하는 방법을 익히기까지 50,000시간 이상의 플레이 시간을 투입했습니다. 당시 하나의 어려움은 AI가 실제로 게임을 플레이하기보다 픽셀화된 풍경을 감상하는 것을 더 선호했다는 점이었습니다.

휘든의 사례나 Anthropic의 사례처럼 AI가 재현하는 '트위치 플레이스 포켓몬'은 흥미롭지만, 동시에 약간의 아련함이 느껴집니다. 원래의 스트림이 트위치 역사에서 중요한 순간이었던 이유는, 그곳에서 사람들이 뜻밖의 방식으로 함께 모였기 때문입니다. 모두가 같은 목표를 가진 팀으로서, 플레이어 캐릭터가 제자리에서 맴도는 행동을 멈추고 게임을 실제로 진행시키는 데 힘을 모았습니다.

2025년의 상황은 우리가 더 이상 같은 팀이 아닌 관람객이 되어, 우리 중 많은 이들이 다섯 살 무렵 익혔던 게임을 AI 모델이 플레이하는 것을 지켜보는 모습과 같습니다. 이는 더 큰 흐름, 즉 우리의 온라인 경험이 공유적이고 공동체적인 활동에서 점차 개인적이고 고립적인 활동으로 이동하고 있다는 현상을 보여주는 AI 기반의 축소판이라 할 수 있습니다.

[출처:] https://techcrunch.com/2025/02/25/anthropics-claude-ai-is-playing-pokemon-on-twitch-slowly