구글, 차세대 AI 추론 모델 패밀리 공개

sw_reporter

구글은 지난 화요일, 질문에 답하기 전에 '사고하는' 과정을 거치는 새로운 AI 추론 모델 제품군인 Gemini 2.5를 공개했습니다.

새로운 모델 라인업의 시작으로, 구글은 자사에서 역대 가장 지능적인 모델이라고 주장하는 멀티모달 추론 AI 모델인 Gemini 2.5 Pro Experimental을 출시합니다. 이 모델은 화요일부터 구글 개발자 플랫폼인 Google AI Studio는 물론, 유료 구독 플랜(월 $20)인 Gemini Advanced의 Gemini 앱에서도 이용할 수 있습니다.

구글 측은 앞으로 출시되는 모든 신규 AI 모델에 추론 기능이 기본적으로 탑재될 것이라고 밝혔습니다.

OpenAI가 2024년 9월 최초의 AI 추론 모델인 'o1'을 출시한 이후, 기술 업계는 각자의 모델로 그 성능을 따라잡거나 능가하기 위해 치열하게 경쟁해 왔습니다. 현재 Anthropic, DeepSeek, Google, xAI 등 주요 기업들이 AI 추론 모델을 보유하고 있으며, 이 모델들은 단순히 답변을 내놓기 전 사실 확인 및 문제 추론 과정을 거치기 위해 추가적인 컴퓨팅 자원과 시간을 사용합니다.

이러한 추론 기술은 AI 모델이 수학 및 코딩 작업에서 새로운 수준에 도달하는 데 크게 기여했습니다. 많은 기술 전문가들은 추론 모델이 인간의 개입을 최소화하며 작업을 수행하는 자율 시스템인 AI 에이전트의 핵심 구성 요소가 될 것이라고 믿고 있습니다. 다만, 이러한 모델들은 운영 비용도 더 많이 발생한다는 한계가 있습니다.

구글은 이전에도 AI 추론 모델을 실험한 경험이 있으며, 지난 12월에는 '사고하는' 버전의 Gemini를 공개한 바 있습니다. 그러나 Gemini 2.5는 구글이 OpenAI의 'o' 시리즈 모델에 필적하려는 가장 진지한 시도입니다.

구글은 Gemini 2.5 Pro가 여러 벤치마크에서 이전 세대 최고급 모델뿐만 아니라 주요 경쟁사 모델들보다 뛰어난 성능을 보인다고 주장합니다. 특히 구글은 Gemini 2.5가 시각적으로 설득력 있는 웹 앱과 에이전트 코딩 애플리케이션 생성에 탁월하도록 설계했다고 강조했습니다.

코드 편집 능력을 측정하는 'Aider Polyglot' 평가에서, 구글은 Gemini 2.5 Pro가 68.6%의 점수를 기록하며 OpenAI, Anthropic, 중국 AI 연구소 DeepSeek 등 경쟁사 최고 AI 모델들을 앞섰다고 발표했습니다.

한편, 소프트웨어 개발 능력을 측정하는 'SWE-bench Verified' 테스트에서는 Gemini 2.5 Pro가 63.8%의 점수를 기록하며 OpenAI의 o3-mini와 DeepSeek의 R1보다 우위를 점했으나, 70.3%를 획득한 Anthropic의 Claude 3.7 Sonnet에는 미치지 못했습니다.

수학, 인문학, 자연과학에 관련된 수천 개의 크라우드소싱 질문으로 구성된 멀티모달 테스트인 'Humanity’s Last Exam'에서는, 구글이 Gemini 2.5 Pro가 18.8%의 점수를 기록하며 대부분의 경쟁 플래그십 모델보다 우수한 성과를 보였다고 밝혔습니다.

구글에 따르면, Gemini 2.5 Pro는 기본적으로 100만 토큰의 컨텍스트 윈도우와 함께 제공되므로, 한 번에 약 75만 단어의 정보를 처리할 수 있습니다. 이는 소설 전체 분량인 "반지의 제왕" 시리즈보다 긴 규모입니다. 또한, Gemini 2.5 Pro는 조만간 입력 길이를 두 배로 늘린 200만 토큰까지 지원할 예정입니다.

구글은 현재 Gemini 2.5 Pro에 대한 API 가격 정보를 공개하지 않았으며, 관련 상세 내용은 추후 몇 주 내에 추가 공유할 것이라고 전했습니다.

[출처:] https://techcrunch.com/2025/03/25/google-unveils-a-next-gen-ai-reasoning-model