
구글의 최신 비디오 생성 AI 모델인 Veo 3는 생성된 영상 클립에 어울리는 오디오까지 제작할 수 있습니다.
구글은 지난 Google I/O 2025 개발자 컨퍼런스에서 Veo 3를 공개했습니다. 구글에 따르면, 이 모델은 영상에 배경 효과음, 주변 소음, 심지어 대화까지 생성하여 영상을 보완할 수 있는 기능이 있습니다. 또한, Veo 3는 이전 버전인 Veo 2에 비해 생성되는 영상 자체의 품질을 개선했다고 밝혔습니다.
Veo 3는 다음 주 화요일부터 구글의 Gemini 챗봇 앱을 통해 구독자 전용으로 제공되며, Google의 월 $249.99 AI Ultra 플랜을 이용하면 텍스트나 이미지를 프롬프트로 입력하여 사용할 수 있습니다.
구글 AI 연구 개발 부서의 CEO인 Demis Hassabis는 기자 간담회에서 "우리는 비디오 생성의 침묵하던 시대를 지나 벗어나고 있다"고 말했습니다. 그는 "사용자는 Veo 3에 캐릭터와 배경을 묘사하는 프롬프트를 제공하고, 원하는 소리 묘사와 함께 대화까지 지시할 수 있다"고 덧붙였습니다.
비디오 생성 도구의 광범위한 접근성은 공급자들의 폭발적인 증가를 이끌었으며, 이 시장은 포화 상태에 이르렀습니다. Genmo, Kling 같은 스타트업들은 물론, OpenAI나 Alibaba 같은 기술 대기업들까지 모델을 쏟아내고 있습니다. 이로 인해 대부분의 모델들은 큰 차별점을 갖지 못하고 있습니다.
구글이 홍보하는 Veo 3에게 있어 오디오 출력 기능은 핵심적인 차별점이 될 수 있습니다. AI 기반의 음성 생성 도구나 비디오 사운드 효과 제작 모델 자체가 생소한 것은 아니지만, 구글에 따르면 Veo 3는 영상의 원시 픽셀을 이해하고 생성된 사운드를 클립과 자동으로 동기화하는 독보적인 능력을 갖추고 있습니다.
모델 샘플 클립: cooking up something tasty for tomorrow… (사진 출처: Demis Hassabis, 2025년 5월 19일)
Veo 3는 DeepMind가 이전에 진행했던 '비디오-투-오디오(video-to-audio)' AI 연구의 결과로 탄생했을 가능성이 높습니다. DeepMind는 지난 6월에 사운드와 대본 녹취록을 비롯해 비디오 클립을 결합하여 모델을 훈련시키는 방식으로 영상에 대한 사운드트랙을 생성하는 AI 기술을 개발한다고 밝힌 바 있습니다.
DeepMind는 Veo 3 훈련에 사용된 콘텐츠의 정확한 출처는 공개하지 않았으나, YouTube가 유력한 후보로 언급됩니다. 구글이 YouTube를 소유하고 있으며, DeepMind는 이전에 TechCrunch에 구글의 Veo 같은 모델이 일부 YouTube 자료로 훈련될 '수도' 있다고 전한 바 있습니다.
딥페이크 위험을 완화하기 위해, DeepMind는 Veo 3가 생성하는 프레임에 자체 독점 워터마킹 기술인 SynthID를 이용해 보이지 않는 마커를 삽입한다고 밝혔습니다.
구글 같은 기업들이 Veo 3를 강력한 창작 도구로 포장하고 있지만, 많은 예술가들은 불안감을 느끼고 있습니다. 이는 AI가 전체 산업을 뒤흔들 위협이 되기 때문입니다. 할리우드 애니메이터와 카툰 작가들을 대표하는 노조인 Animation Guild가 위탁한 2024년 연구에 따르면, AI로 인해 2026년까지 미국 기반의 영화, 텔레비전, 애니메이션 분야에서 10만 개 이상의 일자리가 위협받을 것으로 추정됩니다.
구글은 이날 Veo 2의 새로운 기능들도 함께 공개했습니다. 여기에는 사용자가 캐릭터, 장면, 객체, 스타일의 이미지를 모델에 제공하여 일관성을 높일 수 있는 기능이 포함됩니다. 최신 Veo 2는 회전(rotations), 달리(dollies), 줌(zooms)과 같은 카메라 움직임을 이해할 수 있으며, 사용자는 비디오에서 객체를 추가하거나 제거하거나, 클립의 프레임을 세로(portrait)에서 가로(landscape)로 확장하는 등 다양한 방식으로 클립을 보정할 수 있습니다.
구글은 이처럼 개선된 모든 Veo 2 기능들이 향후 몇 주 내에 Vertex AI API 플랫폼을 통해 제공될 예정이라고 밝혔습니다.