AGI 테스트가 해결에 근접했으나, 결함 가능성이 있다

sw_reporter

인공 일반 지능(AGI)에 대한 잘 알려진 테스트가 해결 단계에 접어들고 있다는 평가가 나오고 있지만, 테스트 개발자들은 이를 연구의 진정한 돌파구가 아닌 테스트 설계 자체의 결함을 지적하는 것이라고 밝히고 있습니다.

AI 업계의 주요 인물 중 한 명인 프란수아 콜레(François Chollet)는 2019년 "Abstract and Reasoning Corpus for Artificial General Intelligence"의 약자인 ARC-AGI 벤치마크를 선보였습니다. 이 벤치마크는 AI 시스템이 훈련 데이터 외부에서 얼마나 효율적으로 새로운 기술을 습득할 수 있는지 평가하도록 설계되었습니다. 콜레는 ARC-AGI가 일반 지능으로의 진전을 측정하는 유일한 AI 테스트이며(다른 테스트들도 제안된 바 있지만), 그 역할을 유지하고 있다고 강조합니다.

올해까지 최고 성능을 보인 AI조차 ARC-AGI의 작업 중 3분의 1도 채 해결하지 못했습니다. 콜레는 업계가 대규모 언어 모델(LLM)에만 집중하는 경향이 있으며, LLM은 실제적인 "추론" 능력을 갖추지 못했다고 비판했습니다.

그는 지난 2월 X(구 트위터)의 일련의 게시물에서 "LLM은 완전히 암기하는 것에 의존하기 때문에 일반화에 어려움을 겪는다"며, "훈련 데이터에 없는 것이라면 무너진다"고 지적했습니다.

콜레의 지적에 따르면, LLM은 통계적 기계입니다. 수많은 예시를 학습하면서 그 예시 속 패턴을 학습해 예측을 수행하는 방식입니다. 예를 들어 이메일에서 "누구에게"라는 문구가 보통 "참고로" 앞에 오는 패턴을 학습하는 식입니다.

콜레는 LLM이 "추론 패턴"을 암기할 수는 있으나, 새로운 상황을 기반으로 "새로운 추론"을 생성하는 것은 어려울 가능성이 높다고 주장합니다. 그는 다른 게시물에서 "사용 가능한 표현을 학습하기 위해, 그것이 암묵적이라 할지라도 패턴의 수많은 예시에 훈련되어야 한다면, 그것은 곧 암기하는 것이다"라고 논증했습니다.

LLM을 넘어선 연구를 장려하기 위해, 콜레와 Zapier의 공동 창업자인 마이크 크놉(Mike Knoop)은 지난 6월에 ARC-AGI를 능가하는 오픈 소스 AI를 구축하는 100만 달러 규모의 경진대회를 개최했습니다. 총 17,789건의 제출작 중 최고 점수를 받은 작품은 55.5%를 기록했습니다. 이는 2023년 최고 점수보다 약 20% 높은 수치지만, 우승에 필요한 '인간 수준' 기준인 85%에는 한참 못 미치는 성과입니다.

하지만 크놉은 이것이 우리가 AGI에 20% 더 가까워졌다는 것을 의미하지는 않는다고 선을 그었습니다.

프란수아 콜레는 2024년 12월 6일, X를 통해 다음과 같은 내용을 발표했습니다.

"오늘 우리는 ARC Prize 2024의 우승자를 발표합니다. 또한 본 대회에서 배운 점에 대한 광범위한 기술 보고서도 게재할 예정입니다 (링크는 다음 트윗 참고)."

— François Chollet (@fchollet)

그는 블로그 게시물에서도 크놉의 주장을 인용하며, ARC-AGI에 제출된 많은 작품들이 솔루션에 "무차별 대입(brute force)" 방식으로 도달할 수 있었음을 지적했습니다. 이는 ARC-AGI 작업의 "많은 부분이" 일반 지능과 관련하여 유용한 신호를 담고 있지 않을 수 있음을 시사합니다.

ARC-AGI는 AI가 여러 가지 색깔의 사각형 모음으로부터 올바른 "정답" 그리드를 추론해 내야 하는 퍼즐 형태의 문제입니다. 이 문제들은 AI가 이전에 접하지 못한 새로운 문제에 적응하도록 강제하기 위해 고안되었습니다. 그러나 실제로 그러한 적응이 이루어지고 있는지는 불분명합니다.

크놉은 자신의 게시물에서 ARC-AGI가 "2019년 이후 변경된 바가 없으며 완벽하지 않다"고 인정했습니다.

프란수아와 크놉은 AGI 도달을 위한 벤치마크로서 ARC-AGI를 지나치게 홍보해 왔다는 비판에 직면해왔습니다. 특히 AGI의 정의 자체가 현재 논쟁의 중심에 서 있기 때문에 더욱 그렇습니다. 한 OpenAI 직원은 최근 AGI를 "대부분의 작업에서 대부분의 인간보다 뛰어난" AI로 정의할 경우, 이미 AGI가 "달성되었다"고 주장하기도 했습니다.

이에 크놉과 콜레는 이러한 문제들을 해결하고자 2세대 ARC-AGI 벤치마크와 2025년 경진대회를 개최할 계획이라고 밝히며, 콜레는 X를 통해 "우리는 AI 분야에서 가장 중요하고 미해결 문제들로 연구 커뮤니티의 노력을 지속적으로 이끌어내고, AGI까지의 시점을 앞당길 것"이라고 덧붙였습니다.

개선 과정은 순탄치 않을 가능성이 높습니다. 만약 첫 ARC-AGI 테스트의 부족함이 어떤 징조라면, AI의 지능을 정의하는 작업은 인간에게 그랬던 것처럼 난해하고 논란의 여지가 많을 것입니다.

[출처:] https://techcrunch.com/2024/12/09/a-test-for-agi-is-closer-to-being-solved-but-it-may-be-flawed