딥마인드, 영상용 사운드트랙과 대화문 생성 AI 공개

sw_reporter

구글의 AI 연구소인 딥마인드(DeepMind)는 영상에 사용할 사운드트랙을 생성하는 AI 기술을 개발하고 있다고 밝혔다.

딥마인드는 공식 블로그 게시물을 통해 이 기술, 즉 V2A(‘video-to-audio’의 약자)를 AI 생성 미디어의 핵심 퍼즐 조각으로 보고 있다. 딥마인드를 포함한 여러 조직들이 영상 생성 AI 모델을 개발해 왔지만, 이 모델들은 자체적으로 생성한 영상에 동기화될 음향 효과를 만들 수 없었다.

딥마인드는 "비디오 생성 모델은 놀라운 속도로 발전하고 있지만, 현재 많은 시스템은 무음의 결과물만 생성할 수 있습니다"라고 전했다. 이어 "V2A 기술은 생성된 영화에 생명력을 불어넣을 수 있는 유망한 접근 방식이 될 수 있습니다"라고 덧붙였다.

딥마인드의 V2A 기술은 사운드트랙의 설명(예: "물속에서 역동적으로 움직이는 해파리, 해양 생물, 바다")을 비디오와 결합하여 음악, 음향 효과, 심지어 캐릭터와 비디오의 분위기에 맞는 대화까지 생성한다. 생성된 모든 콘텐츠는 딥마인드의 딥페이크 방지 기술인 SynthID로 워터마킹 처리된다. 딥마인드에 따르면, V2A를 구동하는 AI 모델은 확산 모델(diffusion model)이며, 사운드, 대화 녹취록, 그리고 비디오 클립의 조합을 활용하여 훈련되었다.

딥마인드는 "비디오, 오디오, 추가 주석을 함께 훈련함으로써, 당사 기술은 특정 오디오 이벤트를 다양한 시각적 장면에 연관시키고, 주석이나 녹취록에 제공된 정보를 기반으로 응답하는 방법을 학습합니다"라고 설명했다.

다만, 훈련 데이터 중 어느 부분이 저작권을 침해하는지, 그리고 데이터 생성자들에게 딥마인드의 작업이 사전에 고지되었는지 여부는 미지수다. 이에 대해 딥마인드 측에 명확한 설명을 요청했으며, 답변을 받는 대로 이 게시물을 업데이트할 예정이다.

AI 기반 사운드 생성 도구 자체는 새로운 개념만은 아니다. 스타트업 Stability AI가 지난주에 유사한 도구를 출시했으며, ElevenLabs도 지난 5월에 이와 관련된 도구를 공개한 바 있다. 비디오에 음향 효과를 만드는 모델 또한 존재한다. 마이크로소프트(Microsoft)의 프로젝트는 정지된 이미지에서 말하는 영상이나 노래하는 영상을 생성할 수 있으며, [중략]과 GenreX 같은 플랫폼들은 비디오를 입력받아 해당 장면에 적합한 음악이나 효과를 추론해내는 모델을 훈련시키기도 했다.

하지만 딥마인드는 자사의 V2A 기술이 특히 비디오의 원시 픽셀(raw pixels)을 이해하고, 설명을 요구하지 않아도(optionally sans description) 생성된 사운드를 비디오와 자동으로 동기화할 수 있다는 점에서 독보적이라고 주장한다.

물론 V2A는 완벽하지 않으며, 딥마인드 역시 그 점을 인지하고 있다. 근본 모델이 인공물이나 왜곡이 심한 영상을 충분히 학습하지 않았기 때문에, 그러한 영상에 대해서는 높은 품질의 오디오를 생성하는 데 한계가 있다. 또한 일반적으로 생성된 오디오의 설득력도 높지 않다. 동료인 나타샤 로마스(Natasha Lomas)는 이를 "고전적인 소리들이 무질서하게 뒤섞인 스모거보드(smorgasbord)"라고 묘사했으며, 필자 역시 이에 공감할 수밖에 없다.

이러한 기술적 한계점과 오용 가능성 때문에, 딥마인드는 이 기술을 단기간 내에, 또는 아예 대중에게 공개하지 않을 것이라고 밝혔다.

딥마인드는 "V2A 기술이 창작 커뮤니티에 긍정적인 영향을 미치도록 하기 위해, 선도적인 크리에이터와 영화 제작자들로부터 다양한 관점과 통찰력을 수집하고 있으며, 이 귀중한 피드백을 지속적인 연구 및 개발에 활용하고 있습니다"라고 밝혔다. "더 폭넓은 대중에게 접근을 고려하기 전에, V2A 기술은 엄격한 안전성 평가와 테스트를 거칠 것입니다."

딥마인드는 V2A 기술이 특히 기록물 관리자(archivists)나 역사적 푸티지(historical footage)를 다루는 사람들에게 유용한 도구라고 제시한다. 하지만 이러한 유형의 생성형 AI는 영화 및 TV 산업 자체를 뒤흔들 잠재적 위협을 안고 있다. 생성형 미디어 도구가 일자리, 나아가 전체 직업을 제거하는 상황을 방지하기 위해서는 매우 강력한 노동 보호 장치가 필요할 것으로 보인다.

[출처:] https://techcrunch.com/2024/06/17/deepminds-new-ai-generates-soundtracks-and-dialog-for-videos