구글 엔터프라이즈 클라우드, 음악 생성 AI 모델 탑재

sw_reporter

구글은 수요일(Wednesday), 자사 파트너의 미디어 생성 AI 모델 여러 개에 대해 Vertex AI 클라우드 플랫폼을 통해 업데이트를 배포했습니다.

구글의 텍스트-투-뮤직(text-to-music) 모델인 [모델명 누락됨]은 현재 일부 고객을 대상으로 프리뷰가 가능하며, 회사의 비디오 생성 모델인 Veo 2는 새로운 편집 및 시각 효과 커스터마이징 옵션으로 개선되었습니다. 또한, 구글의 오디오 이해 모델인 Chirp 3를 기반으로 한 음성 클로닝 기능이 '허용 목록(allow-listed)' 사용자에게 출시되었습니다. 이와 함께, 이미지 생성기 Imagen 3는 구글이 "상당히" 향상되었다고 설명하는 성능을 보여줍니다.

클라우드 넥스트(Cloud Next)를 겨냥한 이번 업데이트는 구글이 생성형 AI 분야의 엔터프라이즈 시장을 선점하려는 최신 전략입니다. 구글은 아마존과 가장 직접적으로 경쟁하는데, 아마존은 자체 독점 생성형 AI 모델 세트를 갖춘 Bedrock이라는 유사한 클라우드 AI 플랫폼을 제공합니다.

구글은 Lyria를 로열티 프리 음악 라이브러리의 대안으로 제시하고 있습니다. 구글에 따르면, 이 모델을 이용하면 고객들은 재지 피아노 솔로부터 로파이(lo-fi) 트랙에 이르기까지 다양한 스타일과 장르의 곡을 제작할 수 있습니다.

한편, Chirp 3는 약 35개 언어로 음성 합성이 가능합니다. 올해 초 처음 프리뷰되었던 Chirp 3는 10초 분량의 오디오만으로 음성을 클로닝할 수 있는 Instant Custom Voice를 구동하며, 이는 현재 일반 사용자에게 제공됩니다. 이 모델은 또한 다수 참여자가 녹음된 음성 파일에서 화자를 분리하고 식별하는 새로운 도구인 '화자 분리 녹취(Transcription with Diarization)'의 프리뷰 기반이 됩니다.

구글에 따르면, 오용을 방지하기 위해 Instant Custom Voice는 '적절한 음성 사용 권한'을 확인하는 '엄격한 심사 절차(diligence process)'를 거쳐야 합니다.

Veo 2의 경우, 이 모델은 이제 기존 비디오에서 배경 이미지, 로고, 사물을 제거할 수 있으며, 비디오 푸티지의 프레임을 확장할 수 있습니다(예: 가로 비디오를 세로 비율로 변환). 또한 AI로 생성된 장면에서 카메라 각도와 속도 조절을 통해 타임 랩스, 드론 스타일 클립 등을 구현할 수 있으며, 지정된 시작 및 끝 프레임 간 보간(interpolate) 작업도 가능합니다.

이러한 Veo 기능들은 현재 프리뷰를 통해 이용 가능합니다.

앞서 언급된 Imagen 3 업그레이드의 경우, 구글은 이 모델이 사물 제거 능력과 손상되거나 누락된 이미지 부분을 재구성하는 능력이 향상되었다고 설명했습니다.

Imagen, Veo, Lyria를 통해 생성된 모든 미디어(Chirp 제외)는 구글의 SynthID 기술로 워터마크 처리됩니다. 회사는 모든 생성형 AI 모델이 유해 콘텐츠 생성 방지를 위한 '내장 보호 장치(built-in safeguards)'를 갖추고 있다고 밝혔습니다.

구글은 역사적으로 모델 학습에 사용되는 특정 데이터에 대해 공개적으로 명시한 바가 없었으며, 이번에도 이러한 선례를 지켰습니다. 훈련 데이터는 지적 재산권(IP) 관련 문제로 논란이 되는 주제입니다. 일부 기업들은 저작권 소유자로부터 사전 허가를 받지 않고도 저작권 보호 자료로 모델을 훈련시킵니다. 이러한 회사들은 미국 공정 사용 원칙(U.S. fair use doctrine)이 이러한 관행을 보호한다고 주장하지만, 일부 창작자들은 이에 동의하지 않습니다.

[출처:] https://techcrunch.com/2025/04/09/google-brings-a-music-generating-ai-model-to-its-enterprise-cloud