일론 머스크의 Grok 3가 출시, 일부 벤치마크에서 ChatGPT 능가 — LLM은 Grok 2 대비 훈련에 10배 더 많은 컴퓨팅 필요

hw_reporter

강력한 새로운 AI 모델이 등장했습니다.

일론 머스크는 xAI의 최신 대규모 언어 모델(LLM)인 Grok 3를 출시했다. 이 모델은 멤피스(Memphis), 테네시(Tennessee)에 위치한 Colossus Supercluster에서 10만 개의 Nvidia H100 GPU를 활용해 훈련되었다. 머스크는 약 일주일 전, Grok 3의 완전한 출시가 임박했으며 경쟁 모델들보다 뛰어난 성능을 보일 것이라고 예고한 바 있다. 그리고 오늘, 그는 X(구 트위터) 라이브 스트리밍을 통해 인상적인 성능 벤치마크 결과를 공개하며 이 AI 모델을 선보였다.

머스크는 발표를 "xAI와 Grok의 임무는 우주를 이해하는 것"이라는 말로 시작하며, "무슨 일이 일어나고 있는가? 외계인은 어디에 있는가? 삶의 의미는 무엇인가? 우주는 어떻게 끝나는가? 어떻게 시작되었는가?"와 같은 근본적인 질문에 답하고자 한다고 설명했다. 이어 그는 "물론, 그 진실이 때로는 정치적으로 올바른 것과 상충되더라도, 최대한 진실을 추구하는 AI가 되는 것이 목표입니다"라고 강조했다.

https://t.co/hEfQ31gANQ 2025년 2월 18일

AI에 대한 목표를 밝힌 후, 머스크는 Grok 3가 Grok 2보다 '한 자릿수(order of magnitude)' 이상 월등하며 매우 짧은 기간 안에 훈련되었다고 선언했다. 이는 xAI가 병렬 훈련을 위해 활용한 방대한 GPU 자원 덕분이었으며, 특히 셋업 작업 자체를 단 19일 만에 완료한 기록적인 기록이다. 이는 Nvidia CEO인 젠슨 황(Jensen Huang)이 일반적으로 수년(최대 4년)이 걸린다고 언급했던 점을 고려하면 더욱 놀라운 성과다.

다만, Grok 3는 단순한 단일 LLM이 아니다. 오히려 Grok 3와 Grok 3 mini가 최초로 공개된 모델 군(family of models)이다. xAI는 또한 OpenAI의 o3-mini 및 DeepSeek R1 모델과 유사하며 단계별 논리적 과정을 통해 문제를 해결하는 Grok 3 Reasoning과 Grok 3 mini Reasoning 모델도 함께 선보였다.

xAI 팀이 공개한 벤치마크 결과에 따르면, Grok-3와 Grok-3 mini 모델은 Math(AIME), Science(GPQA), Coding(LCB)을 포함한 여러 테스트에서 Gemini-2 Pro, DeepSeek-V3, Claude 3.5 Sonnet, GPT-4o 등 경쟁 모델들을 능가하는 성능을 보였다. Grok 앱을 통해 접근 가능한 추론(reasoning) 모델들 역시 같은 벤치마크를 통과하며 경쟁 모델들을 앞섰다. 이 외에도 Grok 앱에는 'DeepSearch'라는 새로운 기능이 추가되는데, 이 기능은 사용자 질문을 받아 인터넷을 탐색한 후 그 모든 정보를 하나의 답변으로 추려내는 역할을 수행한다.

다른 전문가들 역시 Grok 3에 조기 접근 기회를 얻어 이러한 주장을 직접 검증할 수 있었다. 예를 들어, 전 테슬라 AI 디렉터이자 OpenAI 창립자인 안드레이 카파티(Andrej Karpathy)는 X를 통해 자신의 테스트 결과를 공유하며, Grok 3 + Thinking이 OpenAI의 o1-pro 모델과 유사하지만 DeepSeek-R1 및 Gemini 2.0 Flash Thinking보다 약간 더 우수하다고 평가했다. 이는 OpenAI와 구글이 xAI보다 훨씬 앞서 개발해 온 시간을 고려할 때 매우 주목할 만한 성과다.

같은 날, 기사를 작성하는 본인 역시 Grok 3의 초기 접근 기회를 얻어 테스트를 진행한 사람들 중 한 명이다. [직접 테스트 결과 인용] Grok 3는 분명 최첨단 사고 모델("Think" 버튼)을 탑재하고 있으며, 나의 세틀러 오브 카탄(Settlers of Catan) 테스트에서 처음부터 매우 뛰어난 성능을 보여주었다… pic.twitter.com/qIrUAN1IfD 2025년 2월 18일

Grok 3는 우선 X Premium+ 구독자들에게 가장 먼저 제공될 예정이다. 다만, 보다 진화된 고급 기능에 접근하려면, 월 약 30달러 또는 연간 300달러로 추정되는 SuperGrok에 가입해야 한다.

[출처:] https://www.tomshardware.com/tech-industry/artificial-intelligence/elon-musks-grok-3-is-now-available-beats-chatgpt-in-some-benchmarks-llm-took-10x-more-compute-to-train-versus-grok-2