최고의 AI조차 이 새로운 벤치마크를 이기지 못했다

sw_reporter

비영리 단체인 AI 안전 센터(CAIS)와 다양한 데이터 라벨링 및 AI 개발 서비스를 제공하는 회사인 Scale AI가 최첨단 AI 시스템을 위한 도전적인 새로운 벤치마크를 공개했습니다.

'인류의 마지막 시험(Humanity’s Last Exam)'이라는 이름의 이 벤치마크는 수학, 인문학, 자연과학과 같은 주제를 다루는 수천 개의 크라우드소싱 질문을 포함하고 있습니다. 평가 난이도를 높이기 위해, 질문들은 다이어그램과 이미지를 통합한 형식을 포함하여 여러 형식으로 구성되어 있습니다.

예비 연구 결과, 공개적으로 이용 가능한 어떤 주요(flagship) AI 시스템도 '인류의 마지막 시험'에서 10%보다 높은 점수를 받지 못했습니다.

CAIS와 Scale AI는 연구자들이 "변화(variation)를 깊이 파고들고" 새로운 AI 모델을 평가할 수 있도록 이 벤치마크를 연구 커뮤니티에 개방할 계획이라고 밝혔습니다.

비영리 기관인 AI 안전 센터(Center for AI Safety, CAIS)와 다수의 데이터 라벨링 및 AI 개발 서비스를 제공하는 기업 Scale AI가 최첨단 AI 시스템을 위한 도전적인 새로운 벤치마크를 공개했습니다.

‘인류의 마지막 시험(Humanity’s Last Exam)’이라는 이름이 붙은 이 벤치마크는 수학, 인문학, 자연과학 등 다양한 주제를 다루는 수천 개의 크라우드소싱 질문으로 구성되어 있습니다. 평가의 난이도를 높이기 위해, 질문들은 다이어그램 및 이미지를 통합하는 등 여러 복합적인 형식으로 제시됩니다.

예비 연구 결과에 따르면, 현재 공개적으로 사용 가능한 플래그십 AI 시스템 중 어느 것도 이 시험에서 10% 이상의 점수를 획득하지 못했습니다.

CAIS와 Scale AI는 연구자들이 "다양한 변수를 심층적으로 탐구하고" 새로운 AI 모델을 평가할 수 있도록 해당 벤치마크를 연구 커뮤니티에 공개할 계획이라고 밝혔습니다.

[출처:] https://techcrunch.com/2025/01/23/even-some-of-the-best-ai-cant-beat-this-new-benchmark