
주말 동안, 소프트웨어 엔지니어이자 전직 퀀트 연구원이며 스타트업 창업자인 필자는 OpenAI의 새로운 모델의 수학적 능력을 테스트하던 중 예상치 못한 발견을 했다. ChatGPT에 문제를 붙여 넣고 15분간 생각하게 한 후, 그는 완벽한 해답을 얻었다. 그는 그 증명을 평가하고 'Harmonic'이라는 도구를 사용해 공식화했는데, 그 결과는 완벽했다.
필자는 "대규모 언어 모델(LLM)이 개방된 수학 문제를 효과적으로 해결할 수 있는 기준점을 설정하고 싶었다"고 밝혔다. 놀라운 점은 최신 모델을 사용했을 때 최첨단 기술이 이전보다 한 단계 진보했다는 점이다.
ChatGPT의 '사고의 사슬(chain of thought)' 추론 능력은 게겐슈탈러 공식(Legendre’s formula), 베르트랑의 추측(Bertrand’s postulate), 다윗의 별 정리(Star of David theorem)와 같은 수학적 공식을 나열하는 것만으로도 매우 인상적이다. 결국 모델은 하버드 수학자 노암 엘키(Noam Elkies)가 유사한 문제에 대한 우아한 해법을 제시한 2013년의 'Math Overflow' 게시물을 찾아냈다. 하지만 ChatGPT가 제시한 최종 증명은 엘키의 작업과는 중요한 차이점이 있었으며, AI에게 증명장이 되어온 전설적인 수학자 파울 에르되시(Paul Erdős)가 제시한 문제 버전들에 대해 더욱 완전한 해법을 제시했다.
이러한 결과는 기계 지능에 회의적인 이들에게는 놀라운 사례이며, 유일한 경우도 아니다. AI 도구는 'Harmonic'의 아리스토텔레스와 같은 형식화(formalization) 중심의 LLM부터 OpenAI의 심층 연구(deep research)와 같은 문헌 검토 도구에 이르기까지 수학 분야 전반에 걸쳐 필수화되고 있다. 그러나 소마니가 "이전 버전보다 수학적 추론 능력이 일화적으로 더 향상되었다"고 설명한 GPT 5.2의 출현 이후, 해결된 문제의 방대한 양은 무시하기 어려워졌으며, 이는 대규모 언어 모델이 인간 지식의 경계를 확장하는 능력에 대한 새로운 질문을 던지고 있다.
소마니가 주목했던 것은 헝가리 수학자가 남긴 1,000개가 넘는 추측으로 구성된 에르되시 문제(Erdős problems)였다. 이 문제는 온라인에서 관리되고 있으며, 주제와 난이도 면에서 매우 광범위한 범주를 포괄한다. 이 때문에 AI 기반 수학을 위한 매력적인 대상이 되고 있다. 최초의 자율적인 해답은 'AlphaEvolve'라는 Gemini 기반 모델이 11월에 제시했지만, 최근에는 소마니와 다른 연구자들이 GPT 5.2가 고난도 수학 영역에서 놀라울 정도로 능숙하다는 점을 발견했다.
올해 크리스마스 이후, 에르되시 웹사이트에서 '미해결(open)' 문제 15개가 '해결됨(solved)'으로 변경되었으며, 이 중 11개 해결 사례는 구체적으로 AI 모델의 개입을 인정했다.
존경받는 수학자 테렌스 타오(Terence Tao)는 자신의 GitHub 페이지에서 진행 상황을 더욱 세밀하게 분석하며, AI 모델이 에르되시 문제에 대해 의미 있는 자율적 진전을 이룬 8개의 사례를 기록했고, 6개의 사례에서는 이전 연구를 발견하고 이를 발전시키는 과정을 보여주었다. AI 시스템이 인간의 개입 없이 순수하게 수학을 수행하기까지는 아직 갈 길이 멀지만, 대규모 모델이 핵심적인 역할을 할 것이라는 점은 명백하다.
타오는 이어서, AI 시스템의 확장성 자체가 "많은 경우 실제로 간단한 해법을 가지고 있는, 난해한 에르되시 문제의 '긴 꼬리(long tail)'에 체계적으로 적용되기에 더 적합하게 만든다"고 추측했다.
타오는 "따라서 이러한 비교적 쉬운 에르되시 문제들 중 상당수는 이제 인간이나 하이브리드 방식보다는 순수하게 AI 기반 방법으로 해결될 가능성이 더 커졌다"고 덧붙였다.
또 다른 추진 동력은 '형식화(formalization)'에 대한 최근의 변화이다. 형식화는 노동 집약적인 과정이지만, 수학적 추론을 검증하고 확장하기 쉽게 만든다. 형식화는 AI나 컴퓨터 사용을 필수로 하지는 않지만, 새롭게 개발된 자동화 도구들이 이 과정을 비약적으로 용이하게 만들었다. 2013년 Microsoft Research에서 개발된 오픈 소스 "증명 보조 프로그램(proof assistant)"인 Lean은 현재 증명 형식화의 표준 방법으로 학계에서 광범위하게 사용되고 있으며, Harmonic의 아리스토텔레스와 같은 AI 도구들은 형식화 과정의 많은 부분을 자동화할 것으로 기대된다.
Harmonic의 창립자 튜도르 아힘(Tudor Achim)에게 있어 에르되시 문제의 급격한 해결 증가보다 더 중요한 것은, 세계 최고의 수학자들이 이러한 도구들을 진지하게 받아들이기 시작했다는 사실 자체다. 아힘은 "저는 수학 및 컴퓨터 과학 교수들이 [AI 도구]를 사용한다는 사실에 더 큰 의미를 둡니다. 이분들은 보호해야 할 학문적 명성이 걸린 사람들입니다. 그래서 이들이 아리스토텔레스나 ChatGPT를 사용한다고 말한다면, 이는 실질적인 증거가 됩니다"라고 강조했다.
[출처:] https://techcrunch.com/2026/01/14/ai-models-are-starting-to-crack-high-level-math-problems