• 앤트로픽, 최신 AI 모델 성능 검증에 포켓몬 활용

    Anthropic이 포켓몬을 활용해 자체 개발 AI 모델의 벤치마킹을 진행했다.

    월요일에 게시된 블로그 포스트에 따르면, Anthropic은 최신 모델인 Claude 3.7 Sonnet을 게임보이(Game Boy)의 클래식 포켓몬 레드(Pokémon Red)에 테스트했다고 밝혔다. 이 과정에서 모델에게 기본적인 메모리, 화면 픽셀 입력, 그리고 버튼을 누르거나 화면을 탐색하는 기능 호출(function call) 기능을 제공하여 모델이 포켓몬 게임을 지속적으로 플레이할 수 있도록 했다.

    Claude 3.7 Sonnet의 특징 중 하나는 "확장된 사고(extended thinking)" 능력이다. OpenAI의 o3-mini나 DeepSeek의 R1과 유사하게, Claude 3.7 Sonnet은 더 많은 컴퓨팅 자원과 시간이 소요되더라도 까다로운 문제에 대해 "추론"할 수 있다.

    이러한 능력이 포켓몬 레드에서 효과를 발휘했다고 한다.

    이야기가 시작되는 파레트 타운(Pallet Town)을 벗어나지 못했던 이전 버전의 Claude인 Claude 3.0 Sonnet과 비교했을 때, Claude 3.7 Sonnet은 세 명의 포켓몬 체육관 관장과의 전투에서 성공적으로 배지를 획득하며 승리했다.

    현재까지 Claude 3.7 Sonnet이 이러한 성과를 달성하는 데 필요한 컴퓨팅 자원이나 각 단계에 걸린 정확한 시간은 명확하지 않다. 다만 Anthropic은 모델이 마지막 체육관 관장인 서지(Surge)에게 도달하기까지 총 35,000개의 액션을 수행했다고 공개했다.

    지난주 한 연구원이 Claude 3.7 Sonnet의 초기 프리뷰 버전을 시험해 본 결과는 매우 인상적이었다. 단 몇 시간 만에 Claude는 브록(Brock)을 격파했으며, 며칠 후에는 미스티(Misty)를 제압했다. 이는 기존 모델들이 달성하기 어려웠던 발전이었다.

    이로써 확장된 사고(extended thinking)가 매우 효과적임이 입증되었다.

    pic.twitter.com/RspsLgj2Uf
    — Anthropic (@AnthropicAI)
    2025년 2월 25일

    이런 사례를 곧 다른 혁신적인 개발자가 발견해낼 것이 분명하다.

    물론 포켓몬 레드는 어떤 것보다도 장난감 같은 벤치마크 성격이 강하다. 하지만 게임을 AI 벤치마킹 목적으로 활용해 온 역사는 오래되었다. 지난 몇 달 동안만 해도, 다양한 타이틀에서 모델의 게임 플레이 능력을 테스트하는 수많은 새로운 앱과 플랫폼이 등장하고 있다.

    [출처:] https://techcrunch.com/2025/02/24/anthropic-used-pokemon-to-benchmark-its-newest-ai-model