구글, 역대 가장 깊이 있는 AI 연구 에이전트 출시… 오픈AI, 같은 날 GPT-5.2 공개

sw_reporter

목요일, 구두쇠의 평을 받았던 최첨단 기반 모델인 Gemini 3 Pro를 기반으로 '재해석된(reimagined)' 연구 에이전트인 Gemini Deep Research가 출시되었습니다.

이 새로운 에이전트는 단순히 연구 보고서를 생성하는 기능에만 머무르지 않습니다. 기존 역할 수행은 물론, 이제 개발자들이 Google의 SATA-model 연구 역량을 자체 애플리케이션에 임베드할 수 있게 되었습니다. 이러한 기능은 개발자들에게 에이전트 AI 시대에 더 높은 수준의 통제권을 제공하도록 설계된 Google의 새로운 Interactions API를 통해 가능해졌습니다.

Gemini Deep Research 도구는 방대한 양의 정보를 종합하고 대용량의 컨텍스트 덤프(context dump)를 프롬프트 내에서 처리할 수 있도록 설계된 에이전트입니다. Google에 따르면, 이 도구는 실사(due diligence) 작업부터 약물 독성 안전성 연구에 이르기까지 다양한 고객 작업을 수행하는 데 사용됩니다.

Google은 또한 이 새로운 딥 리서치 에이전트를 Google 검색, Google Finance, Gemini 앱, 그리고 인기 서비스인 NotebookLM 등을 포함한 여러 서비스에 곧 통합할 예정이라고 밝혔습니다. 이는 인간이 더 이상 직접 검색 엔진을 이용하지 않고 AI 에이전트가 대신 검색하는 미래 시대를 대비하기 위한 또 하나의 단계로 해석됩니다.

기술 거대 기업은 Deep Research가 복잡한 과제 수행 중 환각(hallucination)을 최소화하도록 훈련된 "가장 사실적인(most factual)" 모델이라는 Gemini 3 Pro의 지위를 활용하고 있음을 강조했습니다.

LLM의 환각(LLM just making stuff up) 현상은 수 분, 수 시간, 혹은 그 이상의 긴 시간 동안 여러 자율적 결정이 필요한 심층 추론 에이전트 작업에서 특히 중요한 문제입니다. LLM이 내릴 수 있는 선택지의 수가 많을수록, 단 하나의 환각적 선택이라도 전체 결과물을 무효화할 가능성이 커지기 때문입니다.

Google은 자체적인 발전 주장을 입증하기 위해 또 하나의 벤치마크를 개발했습니다(마치 AI 업계가 새로운 벤치마크를 필요로 하는 듯한 분위기입니다). 이 새로운 벤치마크는 DeepSearchQA라는 다소 평범한 이름으로 명명되었으며, 에이전트가 복잡하고 다단계적인 정보 검색 작업을 수행하는 능력을 테스트하기 위해 고안되었습니다. Google은 이 벤치마크를 오픈 소스로 공개했습니다.

또한, 이 도구의 성능은 인류의 마지막 시험(Humanity’s Last Exam)이라는, 상상하기 어려울 정도로 전문화된 과제들로 가득 찬 매우 흥미로운 독립형 일반 지식 벤치마크와, 브라우저 기반 에이전트 작업을 위한 BrowserComp 벤치마크에서도 테스트되었습니다.

예상대로 Google의 새로운 에이전트는 자체 벤치마크와 Humanity’s의 벤치마크 모두에서 경쟁사들을 능가하는 성능을 보였습니다. 하지만 OpenAI의 ChatGPT 5 Pro는 전반적으로 놀라울 정도로 근접한 2위를 차지했으며, BrowserComp 에서는 Google을 약간 능가했습니다.

그러나 이러한 벤치마크 비교는 Google이 발표한 지 거의 순간에 이미 구시대적인 정보가 되었습니다. 왜냐하면 같은 날 OpenAI가 기대가 컸던 GPT 5.2(코드명: Garlic)를 출시했기 때문입니다. OpenAI는 자사의 최신 모델이 자사 고유 벤치마크를 포함한 일반적인 벤치마크 세트에서 경쟁자들, 특히 Google보다 우수하다고 주장했습니다.

어쩌면 이번 발표에서 가장 주목할 만했던 부분은 그 '타이밍'이었습니다. 전 세계가 Garlic의 출시를 기다리고 있다는 사실을 알았던 Google이 자체적인 AI 관련 뉴스를 던지며 시장의 이목을 집중시킨 것입니다.

[출처:] https://techcrunch.com/2025/12/11/google-launched-its-deepest-ai-research-agent-yet-on-the-same-day-openai-dropped-gpt-5-2