윌 스미스가 스파게티와 2024년 급부상한 기타 기묘한 AI 벤치마크를 먹어본다

sw_reporter

회사가 새로운 AI 비디오 생성기를 출시하면, 곧 누군가는 그 기술을 이용해 배우 윌 스미스가 스파게티를 먹는 영상을 만들 것입니다.

이러한 현상은 일종의 밈(meme)이자 하나의 성능 검증 지표(benchmark)가 되었습니다. 새로운 비디오 생성기가 스미스가 그릇 가득 국수를 후루룩 마시는 장면을 얼마나 사실적으로 구현할 수 있는지에 대한 관심이 뜨거운 것입니다. 실제로 스미스 본인도 지난 2월 인스타그램 게시물에서 이러한 트렌드를 패러디했습니다.

구글 비오 2(Google Veo 2)가 그 기대를 충족시켰습니다.

마침내 우리도 스파게티를 먹게 된 것입니다.

pic.twitter.com/AZO81w8JC0

— Jerrod Lew (@jerrod_lew)

2024년 12월 17일

윌 스미스와 파스타는 2024년 AI 커뮤니티를 강타한 여러 기묘한 "비공식" 벤치마크 중 하나에 불과합니다. 한 16세 개발자는 AI가 마인크래프트(Minecraft)를 제어하도록 하는 앱을 만들어 구조물을 디자인하는 능력을 테스트하기도 했습니다. 다른 사례로는 영국 프로그래머가 AI가 피크셔너리(Pictionary)나 연결 4(Connect 4) 같은 게임을 서로 대결시키는 플랫폼을 만든 것도 있습니다.

AI 성능에 대한 학술적 테스트가 더 많지 않다고 할 수는 없습니다. 그렇다면 왜 이러한 기묘한 벤치마크들이 엄청난 인기를 끌었을까요?

첫째, 많은 업계 표준 AI 벤치마크는 일반 사용자에게 그다지 와닿는 정보를 제공하지 못합니다. 기업들은 주로 자사 AI가 수학 올림피아드 시험 문제에 답하거나, 대학원 수준의 문제에 그럴듯한 해결책을 도출하는 능력을 근거로 내세웁니다. 하지만 대부분의 사람들은—저 역시 마찬가지입니다—챗봇을 이메일 작성이나 기초 리서치 등 일상적인 용도로 활용합니다.

크라우드소싱된 산업 측정 지표가 반드시 더 좋거나 더 유익한 것은 아닙니다.

예를 들어, AI 애호가와 개발자들이 광적으로 따르는 공개 벤치마크 중 하나인 챗봇 아레나(Chatbot Arena)를 살펴보겠습니다. 챗봇 아레나는 웹상의 누구나 AI가 웹 앱을 생성하거나 이미지를 생성하는 등 특정 작업을 얼마나 잘 수행하는지 평점을 매길 수 있게 합니다. 하지만 평가자들의 대표성이 떨어진다는 문제가 있습니다. 대부분은 AI 및 기술 업계 관계자로 구성되어 있으며, 그들의 투표는 개인적이고 명확하게 정의하기 어려운 선호도에 기반하기 때문입니다.

챗봇 아레나 인터페이스.

LMSYS

화튼(Wharton)의 경영학 교수인 이든 몰릭(Ethan Mollick)은 최근 X에 올린 게시물에서 많은 AI 업계 벤치마크에 대한 또 다른 문제점을 지적했습니다. 바로 시스템의 성능을 '일반적인 사람'의 성능과 비교하지 않는다는 점입니다.

몰릭은 "의학, 법률, 조언 품질 등 다양한 분야에서 서로 다른 기관이 만든 벤치마크가 30개나 없는 것은 정말 아쉬운 일이다. 사람들은 여전히 이런 시스템들을 사용하고 있기 때문이다"라고 언급했습니다.

연결 4, 마인크래프트, 그리고 윌 스미스가 스파게티를 먹는 것과 같은 기묘한 AI 벤치마크는 결코 경험적(empirical)이지 않으며, 심지어 일반화하기 어렵습니다. AI가 윌 스미스 테스트를 성공적으로 통과했다고 해서, 예를 들어 햄버거를 잘 생성할 수 있다는 것을 의미하지는 않습니다.

(오탈자 참고: Claude 3.6 Sonnet이라는 모델은 존재하지 않습니다.)

AI 벤치마크에 대해 이야기 나눈 한 전문가는 AI 커뮤니티가 좁은 도메인에서의 능력보다는 AI의 다운스트림 영향(downstream impacts)에 초점을 맞춰야 한다고 제안했습니다. 이는 매우 합리적인 지적입니다. 하지만 저는 기묘한 벤치마크들이 가까운 시일 내에 사라지지 않을 것 같은 느낌을 받습니다. 단순히 재미있을 뿐만 아니라—AI가 마인크래프트 성을 쌓는 것을 누가 싫어하겠습니까?—이해하기 쉬하기 때문입니다. 게다가 제 동료 맥스 제프(Max Zeff)가 최근 글에서 지적했듯이, 업계는 AI처럼 복잡한 기술을 대중이 소화하기 쉬운 마케팅 메시지로 응축하는 데 여전히 어려움을 겪고 있습니다.

제가 품고 있는 유일한 궁금증은, 과연 어떤 기이하고 새로운 벤치마크가 2025년에 폭발적인 인기를 끌게 될 것인가 하는 점입니다.

테크크런치(TechCrunch)에서 AI 관련 뉴스레터를 발행합니다!

매주 수요일에 받아보시려면 여기서 구독하세요.

[출처:] https://techcrunch.com/2024/12/31/will-smith-eating-spaghetti-and-other-weird-ai-benchmarks-that-took-off-in-2024