새롭고 까다로운 AGI 테스트, 대다수 AI 모델 해결에 난항 겪어

sw_reporter

프랑스의 저명한 AI 연구원 프랑수아 숄레(François Chollet)가 공동 설립한 비영리재단 Arc Prize Foundation은 월요일 블로그 게시물을 통해 주도적인 AI 모델의 일반 지능(general intelligence)을 측정할 수 있는 새롭고 난이도 높은 테스트를 개발했다고 발표했다.

현재 개발된 이 테스트, ARC-AGI-2는 대부분의 모델이 해결하기 어려워하고 있다.

Arc Prize 리더보드에 따르면, OpenAI의 o1-pro나 DeepSeek의 R1 같은 '추론(Reasoning)' 기반 AI 모델들은 ARC-AGI-2에서 1%에서 1.3% 사이의 점수를 기록했다. GPT-4.5, Claude 3.7 Sonnet, Gemini 2.0 Flash를 포함한 강력한 비추론 모델들 역시 1% 내외의 점수에 머물렀다.

ARC-AGI 테스트는 AI가 여러 색상의 사각형 집합에서 시각적 패턴을 식별하고 정확한 '정답(answer)' 격자를 생성해야 하는 퍼즐 형태의 문제로 구성되어 있다. 이 문제들은 AI가 이전에 접해보지 못한 새로운 문제에 적응하도록 강제하는 것이 특징이다.

Arc Prize Foundation은 인간의 기준점(human baseline)을 확립하기 위해 400명이 넘는 사람들에게 ARC-AGI-2를 받게 했다. 그 결과, 평균적으로 테스트 참가자 패널들은 문제의 60%를 정답 처리했는데, 이는 어떤 모델의 점수보다 훨씬 높은 수치다.

숄레는 X에 게시한 글에서 ARC-AGI-2가 테스트의 첫 번째 버전인 ARC-AGI-1보다 AI 모델의 실제 지능을 측정하는 데 더 적합한 척도라고 주장했다. Arc Prize Foundation의 테스트는 AI 시스템이 훈련 데이터 외부의 새로운 기술을 얼마나 효율적으로 습득할 수 있는지 평가하는 것을 목표로 한다.

숄레에 따르면, ARC-AGI-2는 ARC-AGI-1과 달리, AI 모델이 해결책을 찾기 위해 '무차별 대입(brute force)', 즉 막대한 컴퓨팅 파워에 의존하는 것을 방지한다. 숄레는 과거에 이 부분이 ARC-AGI-1의 주요 결함이었음을 인정한 바 있다.

이러한 첫 번째 테스트의 단점을 보완하기 위해 ARC-AGI-2는 '효율성(efficiency)'이라는 새로운 측정 기준을 도입했다. 또한 모델이 암기하는 방식에 의존하기보다 즉각적으로 패턴을 해석하도록 요구한다.

Arc Prize Foundation의 공동 설립자인 그렉 카므라트(Greg Kamradt)는 블로그 게시물에서 "지능은 단순히 문제를 해결하거나 높은 점수를 달성하는 능력만으로 정의되는 것이 아니다"라며, "그러한 능력을 습득하고 활용하는 효율성이 핵심적이고 결정적인 구성 요소다. 핵심 질문은 단순히 'AI가 과제를 해결할 [능력]을 습득할 수 있는가?'가 아니라 '얼마나 효율적이고 비용을 들여?'이다"라고 강조했다.

ARC-AGI-1은 2024년 12월 OpenAI가 고급 추론 모델 o3를 출시하여 모든 다른 AI 모델을 능가하고 평가에서 인간의 성능과 일치할 때까지 약 5년 동안 무적이었다. 하지만 당시 우리가 지적했듯이, o3의 ARC-AGI-1 성능 향상은 엄청난 컴퓨팅 비용을 수반했다.

ARC-AGI-1에서 새로운 기록에 가장 먼저 도달했던 OpenAI의 o3 모델 버전인 o3 (low)는 테스트에서 75.7%를 기록했음에도 불구하고, ARC-AGI-2에서는 과제당 200달러의 컴퓨팅 파워를 사용했음에도 불구하고 겨우 4%의 점수에 그쳤다.

ARC-AGI-2의 등장은 기술 업계에서 많은 이들이 AI 발전을 측정하기 위한 새로운 기준을 요구하는 시점에 나왔다.

이러한 흐름에 맞춰, Arc는 포트폴리오를 공개하며 산업의 변화를 주도하고자 했다.

[출처:] https://techcrunch.com/2025/03/24/a-new-challenging-agi-test-stumps-most-ai-models