고등학생이 AI 모델들을 마인크래프트 건축 대결에 도전할 수 있는 웹사이트를 제작했다

sw_reporter

기존의 AI 벤치마킹 기법들이 한계에 부딪히면서, AI 개발자들은 생성형 AI 모델의 역량을 평가하기 위해 더욱 창의적인 방법을 모색하고 있습니다. 그중 한 개발 그룹에게는 마이크로소프트가 소유한 샌드박스 건설 게임인 '마인크래프트'가 그 방법을 제시하고 있습니다.

MC-Bench라는 이 웹사이트는 AI 모델들을 마인크래프트 창작물로 프롬프트에 응답하게 하는 일대일(head-to-head) 챌린지에 참여시켜 공동 개발되었습니다. 사용자는 모델 중 어느 것이 더 좋은 작업을 했는지 투표할 수 있으며, 투표가 완료된 후에야 어떤 AI가 어떤 마인크래프트 건축물을 만들었는지 확인할 수 있습니다.

MC-Bench를 시작한 12학년 학생 아디 싱(Adi Singh)에게 마인크래프트의 가치는 게임 그 자체보다는 사람들이 가진 '친숙함'에 있습니다. 마인크래프트는 역대 최고의 베스트셀러 비디오 게임이기 때문입니다. 따라서 게임을 해본 적 없는 사용자라 하더라도, 파인애플의 블록 표현이 어느 쪽이 더 잘 구현되었는지 평가하는 것이 가능합니다.

싱은 TechCrunch와의 인터뷰에서 "마인크래프트는 사람들에게 AI 발전의 진척도를 훨씬 쉽게 보여줍니다. 사람들은 마인크래프트에 익숙하고, 그 특유의 모습과 분위기에도 익숙하거든요"라고 설명했습니다.

MC-Bench 웹사이트에 따르면, 이 프로젝트는 앤트로픽(Anthropic), 구글(Google), 오픈AI(OpenAI), 알리바바(Alibaba)로부터 제품 사용을 지원받고 있으나, 해당 기업들과는 그 외의 공식적인 제휴 관계는 없습니다.

싱은 "현재는 GPT-3 시대 대비 발전 정도를 보여주는 단순한 건축물로 테스트하고 있지만, 저희는 이를 장기 계획 및 목표 지향적인 과제까지 확장할 수 있다고 생각합니다. 게임은 현실 세계보다 안전하면서도, 테스트 목적에 맞게 통제 가능한 에이전트 추론 능력을 시험하는 매체가 될 수 있어서, 제게는 매우 이상적입니다"라고 말했습니다.

포켓몬 레드(Pokémon Red)와 같은 다른 게임들 또한 AI를 위한 실험적 벤치마크로 활용되어 왔는데, 이는 AI 벤치마킹 자체가 매우 까다롭기 때문입니다.

연구자들은 AI 모델을 표준화된 평가에 테스트하는 경우가 많지만, 이러한 테스트 중 다수는 AI에게 일종의 '홈그라운드 이점(home-field advantage)'을 제공합니다. 모델들이 훈련되는 방식 탓에, 이 모델들은 특히 암기나 기본적인 외삽(extrapolation) 능력을 요구하는 좁고 특정한 분야의 문제 해결에 본능적으로 뛰어납니다.

쉽게 말해, 오픈AI의 GPT-4가 LSAT(변호사 시험)에서 상위 88퍼센타일 점수를 받았다는 사실과, 'strawberry'라는 단어에 R이 몇 개 들어 있는지 구분하지 못한다는 것 사이의 의미적 간극을 파악하기는 어렵습니다.

앤트로픽의 클로드 3.7 소네트(Claude 3.7 Sonnet)는 표준화된 소프트웨어 엔지니어링 벤치마크에서 62.3%의 정확도를 달성했지만, 포켓몬을 하는 능력은 대부분의 다섯 살짜리 아이들보다 못합니다.

MC-Bench는 프롬프트에 따라 건축물을 만들기 위해 코드를 작성하도록 모델들에게 요청하기 때문에, 본질적으로는 프로그래밍 벤치마크입니다. 예를 들어 "눈사람 프로스티(Frosty the Snowman)"나 "깨끗한 모래 해변의 매력적인 열대 휴양지 오두막"과 같은 작업이 주어집니다.

하지만 대부분의 MC-Bench 사용자들에게는 코드를 분석하는 것보다 눈사람이 더 예쁜지 여부를 평가하는 것이 더 쉽습니다. 이 덕분에 프로젝트는 폭넓은 대중적 관심을 얻게 되었고, 결과적으로 더 많은 데이터를 수집하고 있습니다.

[출처:] https://techcrunch.com/2025/03/20/a-high-schooler-built-a-website-that-lets-you-challenge-ai-models-to-a-minecraft-build-off