일부 전문가들이 "크라우드소싱 기반 AI 벤치마크는 심각한 결함이 있다"고 지적했습니다

sw_reporter

AI 연구소들은 최신 모델의 강점과 약점을 파악하기 위해 그러한 크라우드소싱 벤치마킹 플랫폼에 점점 더 의존하고 있습니다. 그러나 일부 전문가들은 이러한 접근 방식에는 윤리적, 학문적 관점에서 심각한 문제가 있다고 지적합니다.

지난 몇 년 동안, OpenAI, Google, Meta를 포함한 연구소들은 사용자들을 모집하여 곧 출시될 모델의 역량을 평가하는 플랫폼을 이용해 왔습니다. 모델의 점수가 우수하게 나오면, 해당 연구소들은 종종 그 점수를 의미 있는 개선의 증거로 부각합니다.

하지만 워싱턴 대학교 언어학 교수이자 저서 『The AI Con』의 공저자인 에밀리 벤더(Emily Bender)에 따르면, 이는 근본적으로 결함이 있는 방식입니다. 벤더는 자원봉사자들에게 두 개의 익명 모델에 프롬프트를 제시하고 선호하는 답변을 선택하도록 하는 Chatbot Arena에 특히 문제를 제기했습니다.

벤더는 "벤치마크가 유효하려면 특정 대상을 측정해야 하며, 구성 타당성을 갖추어야 합니다. 즉, 관심 대상인 구성 개념이 명확하게 정의되어 있고 측정 결과가 실제로 그 개념과 연관되어 있다는 증거가 있어야 합니다"라고 말했습니다. "Chatbot Arena는 한 출력을 다른 출력보다 선호하는 투표 행위가 실제로 정의된 선호도와 어떤 상관관계가 있는지 보여주지 못했습니다."

AI 기업 Lesan의 공동 창립자이자 분산 AI 연구소(Distributed AI Research Institute) 연구원인 아스멜라시 테카 하드구(Asmelash Teka Hadgu)는 Chatbot Arena와 같은 벤치마크가 AI 연구소에 의해 "과장된 주장 홍보를 위해 도구화되고 있다"고 지적했습니다. 하드구는 Meta의 Llama 4 Maverick 모델과 관련된 최근 논란을 언급했습니다.

Meta는 Maverick의 버전을 미세 조정하여 Chatbot Arena에서 높은 점수를 받았으나, 결국 그 모델을 공개하지 않고 성능이 더 낮은 버전을 출시했습니다.

하드구는 "벤치마크는 정적인 데이터셋이 아니라 동적이어야 하며, 교육, 의료 등 현장 전문가들이 업무에 활용하는 고유한 사용 사례에 맞춰 조직이나 대학과 같은 여러 독립적인 주체에 분산되어야 한다"고 주장했습니다.

하드구와 애스펜 연구소(Aspen Institute)의 창발 및 지능형 기술 이니셔티브를 이끌었던 크리스틴 글로리아(Kristine Gloria)는 또한 모델 평가자들에게 노동에 대한 보상을 제공해야 한다고 주장했습니다. 글로리아는 AI 연구소들이 데이터 라벨링 산업의 실수로부터 배워야 한다고 지적했으며, 해당 산업은 착취적인 관행으로 악명이 높습니다. (일부 연구소들이 동일한 비판에 직면했습니다.)

글로리아는 "일반적으로 크라우드소싱 벤치마킹 과정은 가치가 있으며 시민 과학 이니셔티브를 연상시킨다"며, "이상적으로는 평가와 데이터 미세 조정 모두에 깊이를 더하는 추가 관점을 제공하는 데 도움이 됩니다. 하지만 그들이 가진 것은 아닐 수 있습니다."

한편, 이 과정은 때때로 그 한계에 부딪히기도 합니다.

만약 신뢰할 만한 기준이 제시되지 않는다면, 이는 신뢰성 문제로 이어지거나, 시스템적 오류를 유발할 수 있습니다.

나아가, 시장 참여자들이 이러한 시험관 환경의 결과에만 의존하여 기술 개발의 방향을 잘못 설정할 위험도 존재합니다.

결론적으로, 이러한 결과는 실제 운영 환경의 복잡성을 포착하기에는 근본적인 한계를 가질 수밖에 없습니다.

[출처:] https://techcrunch.com/2025/04/22/crowdsourced-ai-benchmarks-have-serious-flaws-some-experts-say