OpenAI와 Google, 수학 영재들을 능가했지만 서로는 아니었다

sw_reporter

OpenAI와 Google DeepMind가 세계에서 가장 오래되고 가장 어려운 고등학교 수준 수학 경시대회 중 하나인 2025 국제수학올림피아드(IMO)에서 금메달 점수를 획득했다고 지난 며칠간 각 사가 독립적으로 발표했습니다.

이러한 결과는 AI 시스템의 발전 속도가 얼마나 빠른지를 보여줄 뿐만 아니라, AI 경쟁에서 Google과 OpenAI가 얼마나 대등한 위치에 있는지를 드러냅니다. AI 기업들은 AI 업계를 선도한다는 대중의 인식을 확보하기 위해 치열하게 경쟁하고 있으며, 이는 최고의 AI 인재 확보에 막대한 영향을 미칠 수 있습니다. 많은 AI 연구자들이 경시대 수학 배경을 가지고 있기 때문에, IMO와 같은 벤치마크는 다른 지표보다 훨씬 큰 의미를 가집니다.

작년 Google은 "정형적(formal)" 시스템을 이용해 IMO에서 은메달을 획득했습니다. 이 방식은 인간이 문제들을 기계가 읽을 수 있는 형식으로 번역해야 하는 과정을 필요로 했습니다. 그러나 올해는 OpenAI와 Google 모두 "비정형적(informal)" 시스템을 대회에 출전시켰습니다. 이 시스템은 자연어 형태로 질문을 이해하고 증거 기반의 답변을 생성할 수 있었습니다. 두 회사 모두 AI 모델이 IMO 시험의 6개 문항 중 5개에 올바르게 답했으며, 인간-기계 번역 과정 없이도 대부분의 고등학생이나 작년 Google의 AI 모델보다 높은 점수를 기록했다고 주장했습니다.

TechCrunch와의 인터뷰에서 OpenAI와 Google의 IMO 관련 연구원들은 이러한 금메달급 성과가 검증 불가능한(non-verifiable) 영역에서의 AI 추론 모델의 돌파구를 입증한다고 밝혔습니다. AI 추론 모델은 간단한 수학이나 코딩 과제처럼 직관적인 답변이 나오는 문제에서는 뛰어난 성과를 보이는 경향이 있지만, 좋은 의자를 고르거나 복잡한 연구를 돕는 것과 같이 모호성이 큰 과제에서는 어려움을 겪습니다.

하지만 Google은 OpenAI가 금메달 IMO 성과를 발표하고 진행한 방식에 의문을 제기하고 있습니다. 고등학생을 대상으로 하는 수학 대회에 AI 모델을 출전시키는 것이라면, 마치 십대들처럼 논쟁을 펼치는 것이 당연할 수도 있습니다.

OpenAI가 토요일 오전에 그 성과를 발표한 직후, Google DeepMind의 CEO와 연구원들은 소셜 미디어를 통해 OpenAI가 금메달을 너무 성급하게 발표했으며(IMO가 전날 밤 고등학생들의 우승자를 발표한 직후였음), 또한 그들의 모델이 IMO로부터 공식 평가를 받지 못했다는 점을 비판했습니다.

한편, Demis Hassabis는 2025년 7월 21일 트위터에서 "금요일에 발표하지 않은 이유는 IMO 위원회의 요청을 존중했기 때문입니다. 모든 AI 연구소의 결과를 독립 전문가가 검증하고 학생들이 마땅히 받아야 할 영광을 누린 후에야 결과를 공유하기로 한 것이었습니다."라고 언급했습니다.

Google DeepMind의 선임 연구원이자 IMO 프로젝트 책임자인 Thang Luong은 TechCrunch와의 인터뷰에서 Google이 참가 학생들을 존중하여 IMO 결과를 발표하기 위해 기다렸다고 설명했습니다.

Luong에 따르면 Google은 지난년부터 시험 준비를 위해 IMO 주최 측과 협력해 왔으며, 공식 결과를 발표하기 전에 IMO 회장의 승인과 공식적인 채점 과정을 거치고자 했습니다. 실제로 Google은 월요일 오전에 결과를 발표했습니다.

Luong은 "IMO 주최 측에는 자체 채점 지침이 있습니다. 따라서 그 지침에 근거하지 않은 어떠한 평가도 금메달급 성능이라고 주장할 수 없습니다"라고 밝혔습니다.

IMO 모델 개발에 참여한 OpenAI의 수석 연구원인 노아무 브라운(Noam Brown)은 TechCrunch에, IMO가 몇 달 전 공식 수학 경진 대회 참여를 제안했지만, OpenAI가 더 가치 있다고 판단한 자연어 시스템 개발에 집중하고 있었기 때문에 거절했다고 전했습니다. 브라운에 따르면 OpenAI는 IMO가 구글과 비공식 테스트를 진행하고 있다는 사실을 알지 못했다고 합니다.

OpenAI 측은 AI 모델 성능 채점을 위해 채점 시스템을 이해하는 전직 IMO 메달리스트 세 명의 외부 평가자를 고용했다고 밝혔습니다. OpenAI가 금메달 점수를 확보하자, 브라운은 회사가 IMO에 연락했고, 이에 IMO는 회사 측에 금요일 밤 시상식 이후로 발표를 미룰 것을 지시했다고 전했습니다.

IMO는 TechCrunch의 논평 요청에 응하지 않았습니다.

Google이 반드시 잘못했다고 보기는 어렵습니다. 실제로 구글은 금메달 점수를 달성하는 데 더 공식적이고 엄격한 과정을 거쳤기 때문입니다. 하지만 이 논쟁은 더 큰 맥락을 놓치고 있을 수 있습니다. 여러 선도적인 AI 연구소의 AI 모델들이 빠르게 발전하고 있기 때문입니다. 올해 IMO에는 전 세계 여러 국가의 최고 학생들이 참가했으며, 이들 중 OpenAI와 Google의 AI 모델과 비슷한 성적을 거둔 학생 비율은 극히 일부에 불과했습니다.

과거 OpenAI가 업계에서 상당한 우위를 점했던 것은 사실이지만, 현재는 어떤 회사도 인정하고 싶지 않을 만큼 경쟁이 치열해졌습니다. OpenAI는 가까운 시일 내에 GPT-5를 출시할 예정이며, 회사 입장에서는 여전히 AI 업계를 선도하고 있다는 인상을 심어주고 싶을 것입니다.

[출처:] https://techcrunch.com/2025/07/21/openai-and-google-outdo-the-mathletes-but-not-each-other