xAI가 Grok 3의 벤치마크에 대해 거짓말을 했나?

sw_reporter

AI 벤치마크에 대한 논란, 특히 AI 연구소들이 이를 공개하는 방식에 대한 논쟁이 공론장으로 확산되고 있다.

이번 주 한 OpenAI 직원은 일론 머스크의 AI 회사인 xAI가 최신 AI 모델 Grok 3의 벤치마크 결과를 오해를 유발하는 방식으로 발표했다고 비판했다. 이에 대해 xAI의 공동 창립자 중 한 명인 이고르 바부시킨은 회사의 발표가 정당하다고 주장하기도 했다.

실제 진실은 그 중간 어딘가에 있는 것으로 보인다.

xAI는 자체 블로그에 최근 개최된 초대 수학 시험에서 출제된 까다로운 수학 문제들을 모아놓은 AIME 2025에서의 Grok 3 성능을 보여주는 그래프를 게시했다. 전문가들 사이에서는 AIME 자체가 AI 벤치마크로서 적절한지에 대한 의문이 제기되어 왔지만, 그럼에도 불구하고 AIME 2025와 이전 버전의 시험은 모델의 수학적 능력을 측정하는 데 흔히 활용된다.

xAI가 제시한 그래프는 Grok 3의 두 변형 모델인 Grok 3 Reasoning Beta와 Grok 3 mini Reasoning이 AIME 2025에서 OpenAI가 보유한 최고 성능 모델인 o3-mini-high를 능가하는 결과를 보여주었다. 하지만 X에 올라온 OpenAI 직원들은 xAI의 그래프가 "cons@64"를 적용한 o3-mini-high의 AIME 2025 점수를 제외했다는 점을 빠르게 지적했다.

cons@64란 무엇일까? 이는 'consensus@64'의 약자다. 이 방식은 기본적으로 모델에게 벤치마크의 각 문제에 대해 64번의 시도를 제공하고, 가장 자주 나온 답변을 최종 점수로 채택하는 방법이다. 상상할 수 있듯이, cons@64를 적용하면 모델의 벤치마크 점수가 상당히 높아지는 경향이 있어, 이를 그래프에서 누락하면 실제 상황과 다르게 한 모델이 다른 모델을 능가하는 것처럼 보일 수 있다.

실제로 AIME 2025에서 Grok 3 Reasoning Beta와 Grok 3 mini Reasoning의 "@1" 점수(즉, 모델이 벤치마크에서 받은 첫 번째 점수)는 o3-mini-high의 점수보다 낮다. Grok 3 Reasoning Beta는 또한 OpenAI의 'medium' 컴퓨팅에 맞춰진 o1 모델보다도 미세하게 뒤처진다. 그럼에도 xAI는 Grok 3를 "세계에서 가장 똑똑한 AI"로 홍보하고 있다.

이에 대해 한 직원은 X를 통해 OpenAI 역시 과거에 유사하게 오해를 불러일으키는 벤치마크 차트(다만 자체 모델 성능 비교에 한정)를 발표한 전례가 있다고 반박했다. 이 논쟁에 참여한 더 중립적인 제3자가 모든 모델을 cons@64 방식으로 비교한 보다 "정확한" 그래프를 공개하기도 했다.

Hilarious how some people see my plot as attack on OpenAI and others as attack on Grok while in reality it’s DeepSeek propaganda (I actually believe Grok looks good there, and openAI’s TTC chicanery behind o3-mini-high-pass@"""1″"" deserves more scrutiny.)

https://t.co/dJqlJpcJh8
pic.twitter.com/3WH8FOUfic
— Teortaxes️ (DeepSeek 推特铁粉 2023 – ∞) (@teortaxesTex)
February 20, 2025

하지만 AI 연구원 네이선 램버트(Nathan Lambert)가 게시물에서 지적했듯이, 아마도 가장 중요한 지표가 여전히 빠져 있다. 바로 각 모델이 최고 점수를 얻기 위해 투입해야 했던 계산적(그리고 금전적) 비용이다. 이 점은 대부분의 AI 벤치마크가 모델의 실제 한계—그리고 강점—에 대해 얼마나 부족한 정보를 제공하는지를 단적으로 보여준다.

[출처:] https://techcrunch.com/2025/02/22/did-xai-lie-about-grok-3s-benchmarks