AI 벤치마킹 논쟁이 포켓몬까지 번졌다

sw_reporter

포켓몬조차 AI 벤치마크 논란에서 예외가 아니다.

지난주 X에 올라온 한 게시물이 입소문을 탔다. 내용은 구글의 최신 Gemini 모델이 오리지널 포켓몬 비디오 게임 삼부작에서 Anthropic의 플래그십 Claude 모델을 능가했다는 것이었다. 보도된 바에 따르면, Gemini는 개발자의 트위치 스트리밍에서 라벤더 타운(Lavender Town)까지 도착한 상태였으며, Claude는 2월 말 기준으로 문월 산(Mount Moon)에 머물고 있었다고 한다.

Gemini는 현재 포켓몬에서 라벤더 타운에 도착하여 Claude보다 확실히 앞서 있다
119명 실시간 조회수. 게다가 엄청나게 저평가된 스트림.
pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8)
2025년 4월 10일

하지만 이 게시물이 간과한 점이 하나 있다. 바로 Gemini가 이미 우위를 점하고 있었다는 사실이다.

Reddit 사용자들은 Gemini 스트림을 진행하는 개발자가 모델이 게임 내 "타일(tiles)"—예를 들어 잘릴 수 있는 나무—을 식별하도록 돕는 커스텀 미니맵을 제작했음을 지적했다. 이는 Gemini가 게임 플레이 결정을 내릴 때 스크린샷을 분석해야 하는 수고를 덜어주는 역할을 했다.

결론적으로, 포켓몬은 기껏해야 반(半)진지한 AI 벤치마크일 뿐이며, 이 테스트가 모델의 능력을 보여주는 매우 유용한 검증 도구라고 단언하기는 어렵다. 하지만 이 사례는 벤치마크를 구현하는 방식이 결과에 얼마나 큰 영향을 미칠 수 있는지 보여주는 중요한 교훈을 제공한다.

예를 들어, Anthropic은 모델의 코딩 능력을 평가하도록 설계된 벤치마크 SWE-bench Verified에서 최근의 Anthropic 3.7 Sonnet 모델에 대해 두 가지 점수를 공개했다. Claude 3.7 Sonnet은 SWE-bench Verified에서 62.3%의 정확도를 기록했지만, Anthropic이 자체 개발한 "커스텀 스캐폴드(custom scaffold)"를 사용했을 때는 70.3%를 달성하며 큰 차이를 보였다.

더 최근에는 Meta가 자사 최신 모델 중 하나인 Llama 4 Maverick 버전을 특정 벤치마크인 LM Arena에서 우수한 성능을 내도록 파인튜닝했다. 이 모델의 기본(vanilla) 버전은 동일한 평가에서 현저히 낮은 점수를 받았다.

결국, AI 벤치마크(포켓몬을 포함하여) 자체가 본질적으로 완벽한 측정 지표가 아니라는 전제 하에, 이러한 커스텀이거나 비표준적인 구현 방식들은 상황을 더욱 혼란스럽게 만들 위험이 크다. 다시 말해, 모델들이 순차적으로 출시되더라도 이들을 객관적으로 비교하기가 쉬워지기는 어려워 보인다.

[출처:] https://techcrunch.com/2025/04/14/debates-over-ai-benchmarking-have-reached-pokemon