구글, 새로운 Gemini 기반 텍스트 임베딩 모델 공개

sw_reporter

Google은 금요일, 새로운 실험적 텍스트 임베딩 모델인 Gemini Embedding을 Gemini 개발자 API에 추가한다고 발표했습니다.

임베딩 모델은 단어나 구절과 같은 텍스트 입력을 해당 텍스트의 의미론적 의미를 포착하는 수치적 표현(임베딩)으로 변환하는 역할을 합니다. 임베딩은 문서 검색, 분류 등 광범위한 애플리케이션에 활용되며, 비용 절감과 레이턴시(지연 시간) 개선에 기여하기 때문에 특히 유용합니다.

Amazon, Cohere, OpenAI 등 여러 회사들이 자체 API를 통해 임베딩 모델을 제공하고 있습니다. 구글 역시 이전에 임베딩 모델을 출시한 적이 있으나, Gemini Embedding은 Gemini AI 모델군을 기반으로 훈련된 최초의 모델입니다.

구글은 블로그 게시물을 통해 “Gemini 모델 자체를 기반으로 훈련된 이 임베딩 모델은 Gemini가 갖춘 언어 및 미묘한 문맥 이해 능력을 계승했기 때문에 광범위한 사용처에 적용할 수 있습니다.”라고 밝혔습니다. 이어 “저희는 이 모델이 놀라울 정도로 일반적(general)이도록 훈련하여 금융, 과학, 법률, 검색 등 다양한 도메인에서 뛰어난 성능을 발휘하도록 했습니다.”라고 덧붙였습니다.

구글에 따르면, Gemini Embedding은 기존 최첨단 임베딩 모델인 text-embedding-004보다 성능이 우수하며, 인기 임베딩 벤치마크에서도 경쟁력 있는 성능을 입증했습니다. 특히 text-embedding-004와 비교했을 때, Gemini Embedding은 더 큰 양의 텍스트와 코드를 한 번에 처리할 수 있으며, 지원하는 언어 수도 두 배가 넘는 100개 이상에 달합니다.

한편, 구글은 Gemini Embedding이 현재 용량이 제한된 "실험 단계(experimental phase)"에 있으며 변경될 수 있음을 명시했습니다. 해당 회사는 블로그 게시물 말미에 “향후 몇 달 안에 안정적이고 일반적으로 사용 가능한(generally available) 릴리스를 목표로 작업하고 있다”고 덧붙였습니다.

[출처:] https://techcrunch.com/2025/03/07/google-debuts-a-new-gemini-based-text-embedding-model