비격식적이고 다소 특이한 AI 벤치마크 목록은 끊임없이 늘어나고 있다.
최근 며칠 동안 X(구 트위터)의 AI 커뮤니티에서는 여러 AI 모델, 특히 소위 '추론 모델(reasoning models)'이 다음과 같은 프롬프트를 어떻게 처리하는지에 과도하게 주목하고 있다. "도형 내부에서 바운스하는 노란 공에 대한 Python 스크립트를 작성하세요. 도형이 느리게 회전하도록 구현하고, 공이 도형 내부에 머물도록 처리하세요."
어떤 모델들은 이 '회전하는 도형 속 공' 벤치마크에서 다른 모델들보다 우수한 성능을 보여주었다.
한 X 사용자에 따르면, 중국 AI 연구소 DeepSeek의 무료 사용 가능한 R1 모델이 OpenAI의 o1 pro 모드(OpenAI의 ChatGPT Pro 플랜의 일부이며 월 $200)를 압도했다.
DeepSeek R1 (오른쪽)이 o1-pro (왼쪽)를 압도함 
프롬프트: "제곱 내부에서 바운스하는 노란 공에 대한 파이썬 스크립트를 작성하세요. 충돌 감지 처리를 정확하게 구현하세요. 사각형이 느리게 회전하도록 구현하세요. 파이썬으로 구현하며, 공이 사각형 내부에 머물도록 하세요."
— Ivan Fioravanti ᯅ (@ivanfioravanti)
2025년 1월 22일
한편, 다른 X 게시물에 따르면, Anthropic의 Claude 3.5 Sonnet과 Google의 Gemini 1.5 Pro 모델은 물리 현상을 오판하여 공이 도형 밖으로 빠져나가는 결과를 초래했다.
사용자들은 Google의 Gemini 2.0 Flash Thinking Experimental, 심지어 OpenAI의 구형 GPT-4o조차도 이 평가에서 일격에 만점을 기록했다고 보고했다.
물리 시뮬레이션 과제(회전하는 삼각형 + 바운스하는 공)를 9개 AI 모델에 테스트한 결과:
Deepseek-R1
Sonar Huge
GPT-4o
최악? OpenAI o1: 과제를 완전히 오해함 
아래 영상 ↓ 첫 줄 = 추론 모델, 나머지 = 기반 모델.
— Aadhithya D (@Aadhithya_D2003)
2025년 1월 22일
그러나 AI가 회전하고 공을 품은 도형을 코딩할 수 있는지, 또는 불가능한지에 대한 것이 과연 무엇을 증명하는 것일까?
바운스하는 공을 시뮬레이션하는 것은 고전적인 프로그래밍 과제이다. 정확한 시뮬레이션에는 두 객체(예: 공과 도형의 측면)가 충돌하는 시점을 식별하려는 충돌 감지 알고리즘이 필수적으로 통합되어야 한다. 알고리즘이 미흡하게 작성될 경우 시뮬레이션 성능에 영향을 주거나 명백한 물리적 오류를 초래할 수 있다.
AI 스타트업 Nous Research의 상주 연구원인 X 사용자 N8 Programs에 따르면, 그는 처음부터 회전하는 칠각형 내부에서 바운스하는 공을 프로그래밍하는 데 약 두 시간이 걸렸다고 한다. N8 Programs는 게시물에서 "여러 좌표계를 추적하고, 각 시스템에서의 충돌 메커니즘을 설계하며, 처음부터 견고하게 코드를 짜야 한다"고 설명했다.
물론 바운스하는 공과 회전하는 도형은 프로그래밍 실력을 테스트하는 합리적인 방법이긴 하지만, 본질적으로 AI의 벤치마크라고 보기는 어렵다. 프롬프트에 약간의 변화만 주어도 결과가 달라지곤 한다. 이것이 일부 X 사용자가 특정 벤치마크에서 더 우수한 결과를 얻었다고 보고하는 이유이며, 다른 이들은 R1이 부족하다고 지적하는 이유이기도 하다.
더 나아가, 이러한 바이럴 테스트들은 AI 모델을 위한 유용한 측정 시스템을 구축하는 난제를 보여준다. 대부분의 사람들에게 직접적으로 관련되지 않은 ‘심오한 벤치마크’가 아닌 이상, 어떤 모델과 다른 모델을 구별하기가 어려운 경우가 많기 때문이다.
현재 ARC-AGI 벤치마크나 Humanity’s Last Exam과 같이 더 나은 테스트를 구축하려는 많은 노력이 진행 중이다. 앞으로 그 결과가 어떨지 주목해야 할 것이며, 그 사이에는 회전하는 도형 속 공이 바운스하는 GIF를 감상하는 것도 좋겠다.