연구원들, AI '추론' 모델 벤치마킹에 NPR 일요일 퍼즐 문제 활용

sw_reporter

매주 일요일, NPR 진행자 빌 쇼츠(Will Shortz)는 <뉴욕 타임스> 십자 퍼즐 전문가로서 'Sunday Puzzle'이라는 장기 코너를 통해 수천 명의 청취자들에게 퀴즈를 출제합니다.

이 퍼즐은 사전 지식 없이도 풀 수 있도록 설계되었지만, 실제로는 숙련된 참가자들에게도 상당한 수준의 사고력을 요구하는 수수께끼들로 구성되어 있습니다.

이러한 점 때문에 일부 전문가들은 이 퀴즈가 인공지능(AI)의 문제 해결 능력을 측정할 유망한 방법이라고 보고 있습니다.

최근 한 연구에서 웰슬리 칼리지(Wellesley College), 오벌린 칼리지(Oberlin College), 텍사스 대학교 오스틴 캠퍼스(University of Texas at Austin), 노스이스터널 대학교(Northeastern University), 카를스 대학(Charles University) 및 스타트업 커서(Cursor) 출신의 연구팀이 'Sunday Puzzle' 에피소드의 수수께끼를 활용하여 AI 벤치마크를 개발했습니다. 연구팀에 따르면, 이 테스트를 통해 OpenAI의 o1 등 추론 모델들이 때때로 '포기'하며 정답이 아님에도 불구하고 답변을 내놓는 등 놀라운 통찰력을 발견했다고 합니다.

연구 공동 저자이자 노스이스터널 대학교 컴퓨터 과학 교수인 아르준 구하(Arjun Guha)는 TechCrunch와의 인터뷰에서 "우리는 일반적인 배경지식만으로도 인간이 충분히 이해할 수 있는 문제로 벤치마크를 만들고자 했습니다"라고 말했습니다.

현재 AI 업계는 벤치마킹 측면에서 일종의 난제에 직면해 있습니다. 모델 평가에 주로 사용되는 테스트들은 평균 사용자에게는 중요하지 않은, 박사 학위 수준의 수학이나 과학과 같은 특정 능력을 측정하는 경향이 있습니다. 게다가, 많은 벤치마크(비교적 최근에 출시된 것까지 포함해)들이 빠르게 포화 상태에 도달하고 있습니다.

구하는 공영 라디오 퀴즈 게임인 'Sunday Puzzle'의 장점은 그 문제들이 지엽적인 지식을 요구하지 않을 뿐만 아니라, 모델이 단순히 '암기'에 의존해서는 풀 수 있도록 고안되어 있기 때문이라고 설명했습니다.

구하는 "이 문제들이 어렵게 느껴지는 이유는, 해결에 이르기 전까지는 의미 있는 진전 자체가 매우 어려우며, 모든 것이 한순간에 연결되는 '아하!' 하는 순간이 존재하기 때문입니다. 이를 위해서는 통찰력과 제거 과정(process of elimination)의 결합이 필요합니다"라고 덧붙였습니다.

물론 완벽한 벤치마크는 없습니다. 'Sunday Puzzle'는 미국 중심적이며 영어로만 출제됩니다. 게다가 훈련 과정에서 사용된 데이터를 통해 학습했을 가능성도 있어, 모델이 정답을 추론하기보다는 패턴을 인식했을 위험도 있습니다.

연구팀은 모델이 때때로 그럴 수 있다고 설명했습니다.

연구팀은 가장 큰 문제는 데이터의 편향성이라고 지적했습니다.

이러한 문제로 인해 모델이 간혹 틀릴 수 있다고 했습니다.

연구팀은 이 문제가 재현 가능하다는 점에서 흥미롭다고 말했습니다.

이 같은 방식으로 모델의 행동을 이해하는 것이 중요하다는 점을 강조했습니다.

연구팀은 이를 활용해 모델을 더 신뢰할 수 있게 만들고, 궁극적으로 AI가 인간을 돕는 방식으로 발전할 수 있도록 기여할 것이라고 기대했습니다.

[출처:] https://techcrunch.com/2025/02/16/these-researchers-used-npr-sunday-puzzle-questions-to-benchmark-ai-reasoning-models