구글, 음성 모델 Chirp 3를 Vertex AI 플랫폼에 추가

sw_reporter

생성형 AI의 초기 초점은 텍스트 기반 인터페이스를 활용해 텍스트나 이미지를 생성하는 데 맞춰져 왔습니다. 하지만 다음 물결은 음성(voice) 분야로 나타나고 있으며, 그 속도가 매우 빠릅니다. 최근 구글은 오늘 자체 음성 인식(speech-to-text) 및 고화질 텍스트 음성 변환(HD text-to-speech) 모델인 Chirp 3를 다음 주부터 자사의 Vertex AI 개발 플랫폼에 추가한다고 발표했습니다.

지난주 구글은 Chirp 3가 31개 언어에 걸쳐 8가지 새로운 목소리를 출시할 것이라고 조용히 전했습니다. 이 플랫폼은 음성 비서 구축, 오디오북 제작, 영상용 지원 에이전트 및 보이스 오버 개발 등 다양한 사용 사례에 활용될 수 있습니다. 이 소식은 런던에 있는 구글 DeepMind 사무실에서 열린 행사에서 발표되었습니다.

이러한 구글의 노력은 경쟁사들 역시 음성 AI 분야에서 급물살을 타고 있는 시기와 맞물려 있습니다. 지난주에는 바이럴되며 매우 사실적인 음성으로 화제가 되었던 "Maya" 및 "Miles" AI 앱의 개발사인 Sesame이, 개발자들이 자사의 기술을 기반으로 맞춤형 앱과 서비스를 개발할 수 있도록 모델을 출시한다고 발표했습니다.

한편, 구글은 오용을 막기 위해 Chirp 3에 사용 제한이 있을 것이라고 밝혔습니다. 오늘 뉴스 행사에서 구글 클라우드 CEO 토마스 쿠리안(Thomas Kurian)은 "저희 안전팀과 이러한 문제들을 현재 해결하는 과정에 있다"고 말했습니다.

ElevenLabs와 같은 주요 스타트업들은 AI 음성 서비스 분야 역량을 확장하기 위해 수억 달러에 달하는 자금을 조달하며 경쟁에 합류하고 있습니다.

이번 Chirp 3의 발표는 자사의 주력 LLM인 Gemini의 최신 버전들, 이미지 생성 모델, 그리고 고가 비디오 생성 도구인 Veo 2 등 이미 안정화된 제품군과 같은 흐름 속에 Chirp 3를 편입시킬 것입니다.

구글이 Chirp 3와 함께 출시하는 음성이 Sesame 등의 다른 AI 기술이 구현하는 것처럼 얼마나 '사실적인' 수준에 도달할지는 아직 미지수입니다. 그러나 DeepMind CEO 데미스 하사비스(Demis Hassabis)가 강조했듯이, 이는 단거리 달리기가 아닌 마라톤입니다.

그는 "단기적으로, AI가 향후 몇 년 동안 모든 문제에 대한 만병통치약이라는 생각은 아직 일어나지 않을 것이라고 봅니다. AGI(범용 인공지능)가 실현되기까지는 아직 몇 년이 남았다고 생각합니다."라며, "이는 10년 동안, 즉 중장기적인 관점에서 상황을 변화시킬 것입니다. 매우 흥미로운 전환점입니다"라고 말했습니다.

구글은 2021년 Vertex AI를 개발자들이 클라우드 환경에서 머신러닝 서비스를 구축할 수 있는 플랫폼으로 처음 출시했습니다. 이는 OpenAI의 GPT 서비스가 등장하며 생성형 AI에 대한 관심이 폭발하기 훨씬 이전이었습니다.

이후 구글은 마이크로소프트나 아마존 등 경쟁사들이 개발자용 생성형 AI 도구를 구축하는 흐름을 따라잡기 위한 수단으로 Vertex AI에 집중해 왔습니다. 개발자들은 Gemini 기반의 생성형 AI 구축 외에도 Vertex AI를 활용해 데이터를 분류하고, 모델을 훈련시키며, 모델을 프로덕션 환경에 설정할 수 있습니다. 향후 구글 자체에서 개발한 모델 영역을 넘어선 모델 영역으로 이 '폐쇄형 생태계(walled garden)'가 확장될지 여부가 주목됩니다.

구글은 과거부터 'Chirp'라는 음성 서비스를 개발해 왔으며, 이 명칭은 아마존의 Alexa 서비스에 대응하기 위한 초기 개발 노력의 코드명으로 사용된 바 있습니다.

[출처:] https://techcrunch.com/2025/03/17/google-adds-its-hd-voice-model-chirp-3-to-its-vertex-ai-platform