메타 임원, 회사(메타)가 Llama 4의 벤치마크 점수를 인위적으로 부풀렸다는 주장 부인

sw_reporter

메타(Meta)의 한 관계자가 월요일, 회사가 신규 AI 모델을 특정 벤치마크 환경에서 우수하게 보이도록 미세 조정하고 모델의 약점을 숨긴다는 루머를 부인했다.

메타의 생성형 AI 담당 부사장인 아마드 알-달레(Ahmad Al-Dahle)는 X 게시물을 통해, 메타가 Llama 4 Maverick와 Llama 4 Scout 모델을 "테스트 세트(test sets)"로 훈련시켰다는 주장은 "단순히 사실이 아니다"라고 밝혔다. AI 벤치마크에서 테스트 세트는 모델 훈련 이후 성능을 평가하는 데 사용되는 데이터 모음을 의미한다. 만약 테스트 세트로 훈련할 경우, 모델의 벤치마크 점수가 오해를 불러일으킬 정도로 부풀려져 실제보다 더 높은 성능을 보이는 것처럼 보이게 만들 수 있기 때문이다.

지난 주말 동안, 메타가 신규 모델의 벤치마크 결과를 인위적으로 부풀렸다는 근거 없는 소문이 X와 Reddit을 통해 확산되기 시작했다. 이 소문의 발원지는 메타의 벤치마킹 관행에 항의하며 사임했다는 내용의 중국 소셜 미디어 사이트 게시물로 추정된다.

Maverick과 Scout가 특정 작업을 수행하는 데 미흡하다는 보도가 소문을 부추겼으며, 또한 메타가 벤치마크 도구인 LM Arena에서 더 나은 점수를 얻기 위해 실험적이고 미공개 버전의 Maverick을 사용했다는 결정 역시 루머의 원인이 되었다. 실제로 X의 연구원들은 공개적으로 다운로드 가능한 Maverick 모델의 행동 양식과 LM Arena에 호스팅된 모델의 행동 양식 사이에 현격한 차이가 있음을 관찰했다.

알-달레는 일부 사용자들이 모델을 호스팅하는 여러 클라우드 제공업체 전반에 걸쳐 Maverick과 Scout 모두에서 "혼합된 품질"을 경험하고 있다는 점은 인정했다.

알-달레는 "모델들이 준비되는 즉시 출시했기 때문에, 모든 공개 구현 사항들이 안정화되는 데 며칠이 소요될 것으로 예상한다"며, "저희는 버그 수정과 파트너 온보딩 작업을 지속할 것입니다"라고 덧붙였다.

[출처:] https://techcrunch.com/2025/04/07/meta-exec-denies-the-company-artificially-boosted-llama-4s-benchmark-scores