메타의 신규 AI 모델 벤치마크, 다소 오해의 소지 있다

sw_reporter

Meta가 지난 토요일 출시한 새로운 플래그십 AI 모델 중 하나인 Maverick는, 모델의 출력을 인간 평가자들이 비교하여 선호하는 모델을 선택하는 테스트인 LM Arena에서 2위를 기록했습니다. 그러나 Meta가 LM Arena에 배포한 Maverick 버전은 개발자들에게 광범위하게 공개된 버전과는 차이가 있는 것으로 보입니다.

몇몇 연구자들이 X에 지적했듯이, Meta는 공식 발표를 통해 LM Arena에서 사용된 Maverick이 "실험적인 채팅 버전(experimental chat version)"이라고 명시했습니다. 한편, 공식 Llama 웹사이트의 차트에는 Meta의 LM Arena 테스트가 "대화성에 최적화된 Llama 4 Maverick"를 사용하여 진행되었다고 명시되어 있습니다.

앞서 언급했듯이, LM Arena는 다양한 이유로 AI 모델의 성능을 측정하는 가장 신뢰할 만한 지표는 아닙니다. 하지만 AI 기업들은 일반적으로 LM Arena에서 높은 점수를 받기 위해 모델을 맞춤 설정하거나 미세 조정하지 않았으며, 적어도 그렇게 했다는 사실을 인정하지 않았습니다.

모델을 특정 벤치마크에 맞춰 조정하여 사용하고, 이를 숨긴 다음, 동일 모델의 "순정(vanilla)" 변종을 출시하는 방식의 문제는 개발자들이 모델이 특정 상황에서 얼마나 잘 작동할지 정확하게 예측하기 어렵게 만들 뿐만 아니라, 오해를 불러일으킬 소지가 있다는 점입니다. 이상적으로 벤치마크는—완벽하지는 않더라도—다양한 작업을 통해 단일 모델의 강점과 약점을 한눈에 보여주어야 합니다.

실제로 X의 연구자들은 공개적으로 다운로드 가능한 Maverick의 행동 패턴과 LM Arena에 호스팅된 모델의 행동 패턴 사이에 현저한 차이점을 관찰했습니다. LM Arena 버전은 이모지 사용이 잦고 지나치게 장황한 답변을 내놓는 경향을 보입니다.

[트윗 및 출처 정보 생략]

이러한 현상에 대해, [twitter.com/y3GvhbVz65]를 게시한 Nathan Lambert는 "어떤 이유에서인지, 아레나의 Llama 4 모델이 이모지를 훨씬 많이 사용한다"고 지적했으며, [twitter.com/f74ODX4zTt]를 게시한 Tech Dev Notes는 이 모델이 더 나아 보이는 지점도 포착했다고 전했습니다.

당사는 Meta와 LM Arena를 운영하는 기관인 Chatbot Arena에 해당 사안에 대한 공식 입장을 요청했습니다.

[출처:] https://techcrunch.com/2025/04/06/metas-benchmarks-for-its-new-ai-models-are-a-bit-misleading