구글 제미나이, 포켓몬 플레이 중 '당황' (혹은 '이상 반응')

sw_reporter

AI 기업들은 산업 지배를 위해 경쟁하고 있지만, 때로는 포켓몬 체육관에서도 치열하게 경쟁합니다.

두 모델 모두 최신 AI 모델이 초기 포켓몬 게임을 어떻게 탐색하는지 연구하고 있으며, 그 결과는 재미있을 뿐만 아니라 많은 통찰력을 제공하기도 합니다. 이번에는 Google DeepMind가 보고서를 통해 Gemini 2.5 Pro가 포켓몬의 체력이 임계치 이하로 떨어질 때 '공황' 상태에 빠지는 경향이 있다고 지적했습니다. 보고서에 따르면, 이러한 현상은 AI의 성능이 '모델의 추론 능력에서 질적으로 관찰 가능한 저하'를 겪게 할 수 있습니다.

AI 벤치마킹, 즉 서로 다른 AI 모델의 성능을 비교하는 과정은 실제 모델의 역량을 파악하는 데 충분한 맥락을 제공하지 못하는 논란의 여지가 있는 영역입니다. 그럼에도 불구하고 일부 연구자들은 AI 모델이 비디오 게임을 플레이하는 방식을 연구하는 것이 유용할 수 있다고(적어도 흥미롭기는 하다고) 보고 있습니다.

지난 몇 달 동안 Google 및 Anthropic과 무관한 두 개발자가 각각 "Gemini Plays Pokémon"과 "Claude Plays Pokémon"이라는 트위치 스트리밍 채널을 개설했습니다. 이를 통해 누구나 AI가 25년 이상 된 아동용 비디오 게임을 어떻게 탐색하는지 실시간으로 관찰할 수 있게 되었습니다.

각 스트림에서는 AI의 '추론' 과정, 즉 AI가 문제를 평가하고 응답에 도달하는 사고 과정을 자연어로 번역하여 보여주고 있어, 이러한 모델들이 실제로 작동하는 방식에 대한 통찰을 제공합니다.

이러한 AI 모델들의 발전은 인상적이지만, 포켓몬 게임을 플레이하는 능력은 아직 미흡합니다. Gemini가 아동이 훨씬 짧은 시간 내에 완료할 수 있는 게임을 추론하는 데는 수백 시간이 걸립니다.

AI가 포켓몬 게임을 플레이하는 과정을 지켜보는 흥미로움은 완료 시간이 아닌, 그 과정 전반에 걸친 '행동 양식'에 있습니다.

보고서는 "플레이 과정에서 Gemini 2.5 Pro는 모델이 '공황' 상태를 시뮬레이션하게 만드는 여러 가지 상황에 처한다"고 설명합니다.

이러한 '공황' 상태는 AI가 게임을 진행하는 동안 사용할 수 있는 특정 도구 사용을 갑작스럽게 중단하게 만들어 모델 성능 저하를 초래할 수 있습니다. AI는 실제로 생각하거나 감정을 느끼지 않지만, 그 행동은 인간이 스트레스 상황에서 부주의하고 성급하게 결정하는 방식과 유사하게 모방하는, 흥미로우면서도 불안정한 반응입니다.

보고서에 따르면, "이러한 행동 패턴은 여러 사례에 걸쳐 충분히 관찰되어 트위치 채팅 사용자들조차 이를 적극적으로 감지하고 있습니다."

Claude 역시 간토를 이동하는 과정에서 몇 가지 특이한 행동을 보였습니다. 한 사례에서 AI는 모든 포켓몬의 체력이 고갈되면 플레이어 캐릭터가 "화이트 아웃(white out)"되어 포켓몬 센터로 돌아간다는 패턴을 포착했습니다.

Claude는 Mt. Moon 동굴에 갇혔을 때, 자신의 포켓몬들을 일부러 모두 쓰러뜨리면 다음 마을의 포켓몬 센터까지 동굴을 가로질러 이동할 수 있을 것이라는 잘못된 가설을 세웠습니다.

하지만 게임의 작동 방식은 그렇지 않습니다. 포켓몬이 전멸할 경우, 지리적으로 가장 가까운 포켓몬 센터가 아닌, 가장 최근에 이용했던 포켓몬 센터로 이동하게 됩니다. 시청자들은 AI가 게임 속에서 마치 스스로 자신을 죽이려 하는 듯한 장면을 공포에 질려 지켜봤습니다.

단점에도 불구하고, AI는 인간 플레이어보다 뛰어난 몇 가지 영역을 보여줍니다. Gemini 2.5 Pro가 공개된 현재, 이 AI는 인상적인 정확도로 퍼즐을 해결할 수 있습니다.

AI는 인간의 도움을 받아, 게임의 바위 퍼즐을 풀고 목적지까지 효율적인 경로를 찾도록 특정 임무에 맞게 조정된 Gemini 2.5 Pro의 에이전트 도구(agentic tools)를 개발했습니다.

보고서에 따르면, "단순히 굴러떨어지는 물체(boulder)의 물리 현상을 설명하는 프롬프트와 유효한 경로를 검증하는 방법에 대한 설명만으로도 Gemini 2.5 Pro는 '승리의 길(Victory Road)' 진행에 필수적인 복잡한 볼더 퍼즐 중 일부를 단번에 해결할 수 있다"고 합니다.

Gemini 2.5 Pro가 이러한 도구들을 상당 부분 자체적으로 제작했기 때문에, 구글은 현재 모델이 인간의 개입 없이도 이러한 도구 제작 능력을 갖출 수 있다고 추정합니다. 누가 알겠습니까. 어쩌면 Gemini가 스스로 '패닉을 방지하는' 모듈을 생성하도록 발전할지도 모릅니다.

[출처:] https://techcrunch.com/2025/06/17/googles-gemini-panicked-when-playing-pokemon