
구글의 가장 고가(高價) AI 모델이 중대한 이정표를 세운 것으로 보인다. 바로 29년 된 비디오 게임에 도전하여 승리했기 때문이다.
지난밤, 구글 CEO 순다르 피차이(Sundar Pichai)는 X에 “정말 대단한 피날레입니다! Gemini 2.5 Pro가 포켓몬 블루를 완료했어요!”라는 글을 게시하며 성과를 자랑했다.
다만, Gemini Plays Pokémon 라이브 스트림은 (그 자신의 말에 따르면) 구글과 무관한 “30세 소프트웨어 엔지니어” 조엘 Z(Joel Z)가 제작한 것이다. 그럼에도 구글 내부 임원들은 이 노력에 박수를 보내고 있다.
예를 들어, 구글 AI 스튜디오의 제품 리드인 로건 킬패트릭(Logan Kilpatrick)은 지난달, Gemini가 “포켓몬을 완성하는 데 큰 진전을 보이고 있으며”, “5번째 배지”를 획득했다고 게시했다. (현재까지 최고 모델은 다른 에이전트 하네스를 사용하더라도 3개에 불과하다.) 이 게시물은 피차이가 “저희는 API, 즉 Artificial Pokémon Intelligence(인공 포켓몬 지능)를 개발 중입니다:”라고 농담하는 계기가 되었다.
왜 하필 포켓몬인가? 지난 2월, 엔트로픽(Anthropic)은 자체 Claude AI 모델이 “포켓몬 레드”에서 보인 발전을 강조했다. 엔트로픽은 Claude의 “확장된 추론 능력과 에이전트 훈련”이 고전 게임 플레이와 같이 “예상치 못한” 작업에서 “큰 활력”을 얻는다고 언급한 바 있다. (여기서 ‘포켓몬 레드’와 ‘블루’는 1996년에 처음 출시된 게임보이 타이틀의 다른 버전이며, 오랜 역사를 지닌 포켓몬 프랜차이즈와 연관되어 있다.) 심지어 조엘 Z가 영감을 얻었다고 언급한 Claude Plays Pokémon 트위치 채널도 존재한다.
이러한 진전에도 불구하고, Claude는 아직 “포켓몬 레드”를 이기지는 못한 것으로 알려졌다. 그렇다면 Gemini가 이 게임에서 객관적으로 우위에 있다는 의미일까? 조엘 Z는 자신의 트위치 페이지에서 시청자들에게 “이를 LLM이 포켓몬을 얼마나 잘 플레이하는지에 대한 절대적인 벤치마크로 간주하지 말아 달라”고 당부했다. 그는 또한 “Gemini와 Claude는 사용되는 도구와 정보가 다르기 때문에 직접적인 비교는 어렵다”고 덧붙였다.
더 나아가 두 AI 모델 모두 게임 플레이를 위해 보조가 필요하다. 이것이 바로 앞서 언급된 에이전트 하네스(agent harnesses)가 개입하는 지점이다. 에이전트 하네스는 모델에게 추가 정보가 오버레이된 게임 스크린샷을 제공하여, 모델이 응답 방법을 결정하고(이는 전문 에이전트 호출을 포함할 수 있음), 이어 AI의 지침에 맞는 버튼을 누르게 한다.
조엘 Z는 Gemini가 게임을 완료하는 데 도움을 준 다른 “개발자 개입(dev interventions)”이 있었음을 인정했으나, 이를 부정행위로 간주하지는 않는다고 강조했다.
그는 “저의 개입은 Gemini의 전반적인 의사 결정 및 추론 능력을 향상시키는 데 도움을 줄 뿐입니다”라고 설명하며, “특정 난관(예: 달의 산)에 대한 공략법이나 직접적인 지침을 제공하는 것은 아닙니다. 그나마 가장 근접한 예는 Gemini에게 리프트 키를 얻기 위해 로켓 트루트와 두 번 대화해야 한다는 사실을 알려준 것뿐인데, 이는 포켓몬 옐로우에서 나중에 수정된 버그였습니다.”라고 덧붙였다.
나아가 그는 “Gemini Plays Pokémon은 여전히 활발히 개발 중이며, 프레임워크 또한 계속 진화하고 있다”고 전했다.
[출처:] https://techcrunch.com/2025/05/03/googles-gemini-has-beaten-pokemon-blue-with-a-little-help