앤트로픽, 최신 AI 모델 성능 검증에 포켓몬 활용

sw_reporter

Anthropic이 포켓몬을 활용해 자체 개발 AI 모델의 벤치마킹을 진행했다.

월요일에 게시된 블로그 포스트에 따르면, Anthropic은 최신 모델인 Claude 3.7 Sonnet을 게임보이(Game Boy)의 클래식 포켓몬 레드(Pokémon Red)에 테스트했다고 밝혔다. 이 과정에서 모델에게 기본적인 메모리, 화면 픽셀 입력, 그리고 버튼을 누르거나 화면을 탐색하는 기능 호출(function call) 기능을 제공하여 모델이 포켓몬 게임을 지속적으로 플레이할 수 있도록 했다.

Claude 3.7 Sonnet의 특징 중 하나는 "확장된 사고(extended thinking)" 능력이다. OpenAI의 o3-mini나 DeepSeek의 R1과 유사하게, Claude 3.7 Sonnet은 더 많은 컴퓨팅 자원과 시간이 소요되더라도 까다로운 문제에 대해 "추론"할 수 있다.

이러한 능력이 포켓몬 레드에서 효과를 발휘했다고 한다.

이야기가 시작되는 파레트 타운(Pallet Town)을 벗어나지 못했던 이전 버전의 Claude인 Claude 3.0 Sonnet과 비교했을 때, Claude 3.7 Sonnet은 세 명의 포켓몬 체육관 관장과의 전투에서 성공적으로 배지를 획득하며 승리했다.

현재까지 Claude 3.7 Sonnet이 이러한 성과를 달성하는 데 필요한 컴퓨팅 자원이나 각 단계에 걸린 정확한 시간은 명확하지 않다. 다만 Anthropic은 모델이 마지막 체육관 관장인 서지(Surge)에게 도달하기까지 총 35,000개의 액션을 수행했다고 공개했다.

지난주 한 연구원이 Claude 3.7 Sonnet의 초기 프리뷰 버전을 시험해 본 결과는 매우 인상적이었다. 단 몇 시간 만에 Claude는 브록(Brock)을 격파했으며, 며칠 후에는 미스티(Misty)를 제압했다. 이는 기존 모델들이 달성하기 어려웠던 발전이었다.

이로써 확장된 사고(extended thinking)가 매우 효과적임이 입증되었다.

pic.twitter.com/RspsLgj2Uf
— Anthropic (@AnthropicAI)
2025년 2월 25일

이런 사례를 곧 다른 혁신적인 개발자가 발견해낼 것이 분명하다.

물론 포켓몬 레드는 어떤 것보다도 장난감 같은 벤치마크 성격이 강하다. 하지만 게임을 AI 벤치마킹 목적으로 활용해 온 역사는 오래되었다. 지난 몇 달 동안만 해도, 다양한 타이틀에서 모델의 게임 플레이 능력을 테스트하는 수많은 새로운 앱과 플랫폼이 등장하고 있다.

[출처:] https://techcrunch.com/2025/02/24/anthropic-used-pokemon-to-benchmark-its-newest-ai-model