사람들이 AI 벤치마크에 슈퍼 마리오를 활용하고 있다

sw_reporter

포켓몬은 AI에게 까다로운 벤치마크였습니다.

하지만 한 연구 그룹은 슈퍼 마리오 브라더스가 훨씬 더 어려운 척도라고 주장합니다.

캘리포니아 대학교 샌디에이고(University of California San Diego)의 연구기관인 Hao AI Lab은 금요일, AI에게 실제 '슈퍼 마리오 브라더스' 게임을 플레이하게 했습니다. Anthropic의 Claude 3.7이 가장 우수한 성과를 보였으며, 그 뒤를 Claude 3.5가 따랐습니다. 반면 Google의 Gemini 1.5 Pro와 OpenAI의 GPT-4o는 어려움을 겪었습니다.

다만, 이 게임은 원조인 1985년판과 완전히 동일한 버전은 아니었습니다. 게임은 에뮬레이터에서 구동되었으며, AI가 마리오를 조종할 수 있도록 GamingAgent라는 프레임워크와 통합되었습니다.

Hao가 자체 개발한 GamingAgent는 AI에게 "장애물이나 적이 근처에 있다면, 회피하기 위해 왼쪽으로 이동/점프하라"와 같은 기초적인 지침과 게임 내 스크린샷을 제공했습니다. 이를 바탕으로 AI는 마리오를 제어할 수 있는 입력값(input)을 Python 코드로 생성했습니다.

그럼에도 불구하고, Hao는 이 게임을 통해 각 모델이 복잡한 기동을 "학습"하고 게임 플레이 전략을 개발하도록 강요받았다고 설명합니다. 흥미롭게도, 이 연구실은 OpenAI의 모델처럼 문제를 단계별로 '사고'를 거쳐 해결책을 도출하는 추론 모델(reasoning models)이, 비록 대부분의 벤치마크에서 더 강력한 성능을 보임에도 불구하고, '추론하지 않는' 모델보다 성능이 떨어진다는 점을 발견했습니다.

연구원들에 따르면, 추론 모델이 이처럼 실시간 게임 플레이에 어려움을 겪는 주된 이유는 행동을 결정하는 과정에 시간이 걸리기 때문이며, 일반적으로는 몇 초가 소요됩니다. 슈퍼 마리오 브라더스에서는 타이밍이 절대적입니다. 1초의 차이는 안전하게 점프하는 것과 죽음으로 떨어지는 것의 경계를 가를 수 있습니다.

게임은 수십 년 동안 AI를 테스트하는 벤치마크로 사용되어 왔습니다. 그러나 일부 전문가들은 AI의 게임 기술이 기술적 발전의 지표가 된다는 연결고리 자체에 의문을 제기해 왔습니다. 현실 세계와 달리, 게임은 본질적으로 추상적이고 비교적 단순한 경향이 있으며, 이는 AI 훈련을 위한 이론적으로 무한한 데이터를 제공하기 때문입니다.

최근 화려해진 게임 벤치마크 결과는 OpenAI의 연구 과학자이자 설립 멤버인 Andrej Karpathy가 일명 "평가 위기(evaluation crisis)"라 부르는 현상을 보여줍니다.

그는 X에 올린 게시물에서 "현재 어떤 AI 지표를 봐야 할지 정말 모르겠다"라고 적었습니다. 그는 말을 이으며 "요약하자면, 현재 이 모델들이 실제로 얼마나 좋은지 전혀 알 수 없다"고 덧붙였습니다.

적어도 우리는 AI가 마리오를 플레이하는 모습을 지켜볼 수는 있습니다.

[출처:] https://techcrunch.com/2025/03/03/people-are-using-super-mario-to-benchmark-ai-now