메타의 기본 모델 매버릭 AI, 인기 채팅 벤치마크에서 경쟁사에 뒤처져

sw_reporter

Meta는 이번 주 초, 자체 개발한 실험적이고 미출시 버전의 Llama 4 Maverick 모델을 크라우드소싱 벤치마크인 LM Arena에 사용해 높은 점수를 획득했다는 논란에 휩싸였습니다. 이 사건으로 인해 LM Arena 운영진은 공식 사과와 정책 변경을 거쳤으며, 수정되지 않은 순수(Vanilla) Maverick 버전을 평가에 반영했습니다.

하지만 알고 보니, 이 모델의 점수는 그다지 경쟁력이 뛰어나지 않았습니다.

수정되지 않은 Maverick 버전인 "Llama-4-Maverick-17B-128E-Instruct"는 금요일 기준으로 OpenAI의 GPT-4o, Anthropic의 Claude 3.5 Sonnet, Google의 Gemini 1.5 Pro 등 다른 모델들에 비해 낮은 순위를 기록했습니다. 이들 모델 중 상당수는 몇 달 전에 이미 출시된 모델들입니다.

Meta가 부정행위를 한 사실이 밝혀진 후 Llama 4의 출시 버전이 LMArena에 추가되었으나, 해당 정보는 32위권으로 내려가야 확인할 수 있어 일반 독자들은 쉽게 발견하지 못했을 것입니다.
pic.twitter.com/A0Bxkdx4LX

— ρ:ɡeσn (@pigeon__s)

2025년 4월 11일

성능이 저조했던 이유는 무엇일까요? Meta는 지난 토요일 발표한 차트에서, 실험적 Maverick 모델인 Llama-4-Maverick-03-26-Experimental가 "대화성(conversationality)"에 최적화되었다고 설명했습니다. 이러한 최적화 방향이 모델 결과물을 사람이 비교하고 선호하는 것을 선택하는 방식의 LM Arena에서 효과적으로 작용한 것으로 보입니다.

앞서 언급했듯이, LM Arena는 여러 이유로 AI 모델 성능을 측정하는 가장 신뢰할 수 있는 지표는 아니었습니다. 그럼에도 불구하고, 모델을 특정 벤치마크에 맞추는 행위는 오해를 불러일으킬 뿐 아니라, 개발자들이 모델이 실제 다양한 환경에서 얼마나 잘 작동할지 예측하기 어렵게 만듭니다.

Meta 대변인은 TechCrunch과의 성명을 통해 "Meta는 모든 유형의 맞춤형 변형을 실험하고 있습니다"라고 밝혔습니다.

대변인은 "‘Llama-4-Maverick-03-26-Experimental’는 저희가 실험한 채팅 최적화 버전이며, LM Arena에서도 우수한 성능을 보였습니다"라며, "저희는 이제 오픈 소스 버전을 공개했습니다. 개발자들이 Llama 4를 자신들의 사용 사례에 맞게 어떻게 커스터마이징할지 지켜볼 것입니다. 그들이 무엇을 구축할지 기대하며 지속적인 피드백을 기다립니다"라고 덧붙였습니다.

[출처:] https://techcrunch.com/2025/04/11/metas-vanilla-maverick-ai-model-ranks-below-rivals-on-a-popular-chat-benchmark