• D-ID가 음성 복제 및 립싱크 기능을 포함한 AI 비디오 번역 도구를 출시하다

    AI 비디오 제작 플랫폼

    D-ID는 인공지능(AI) 기술을 활용하여 비디오를 다른 언어로 번역하는 도구를 출시한 최신 플랫폼 중 하나입니다. 다만, D-ID는 AI 편집 과정의 일부로 화자의 목소리를 복제(cloning)하고, 번역된 단어에 맞춰 입 모양까지 변화시키는 기능을 갖추고 있습니다.

    이 기술은 D-ID가 과거에 진행했던 작업에서 기원했습니다. 사용자들이 오래된 가족사진에 애니메이션을 입혀 사진들이 실제로 말하는 것처럼 보이게 만든 바이럴 트렌드가 큰 성공을 거둔 것이 대표적인 예시입니다. 이러한 성공에 힘입어 이 스타트업은 2022년 시리즈 B 투자 유치 자금으로 2,500만 달러를 확보했으며, 자신들의 기술을 활용하여 AI 기반 비디오를 제작하는 미국 내 기업 고객을 늘려가는 데 집중했습니다.

    회사에서 새로 출시한 AI Video Translate 기술은 현재 D-ID 구독자에게 무료로 제공되고 있어, 크리에이터들은 비디오를 다른 언어로 자동 번역하여 콘텐츠의 도달 범위를 쉽게 확장할 수 있습니다. 아랍어, 만다린어, 일본어, 힌디어, 스페인어, 프랑스어 등을 포함하여 현재 총 30개 언어를 지원합니다. D-ID의 구독료는 가장 저렴한 플랜 기준 연간 56달러부터 시작하며, AI 기능을 사용하기 위한 최소 크레딧 수부터 시작하여 엔터프라이즈(기업용) 가격으로 전환되기 전까지 최대 연간 1,293달러에 달합니다.

    D-ID는 이 새로운 AI 비디오 기술이 마케팅, 엔터테인먼트, 소셜 미디어 등 다양한 영역에서 글로벌 청중을 대상으로 캠페인을 전개할 때 현지화 비용 절감에 큰 도움을 줄 수 있다고 제시합니다. 이 기술은 더빙과 AI 비디오를 아우르는 모든 분야에서 기존 솔루션들과 경쟁할 것입니다.

    오랫동안 더빙 기술은 영상 시청자들이 자신의 모국어로 오디오를 들을 수 있게 해주었지만, 소규모 크리에이터들에게는 접근성이 낮은 편이었습니다. 그러나 기업들의 기술 접근성이 개선되면서 상황이 변화하고 있습니다. 예를 들어, YouTube는 크리에이터들이 자신의 비디오를 다른 언어로 번역하여 더욱 폭넓은 시청자층과 연결될 수 있도록 다국어 오디오 기능을 출시했습니다. 유명 크리에이터 MrBeast(지미 도널드슨)가 초기 사용자 중 한 명이었으며, 이 기능을 이용해 인기 비디오 여러 편을 11개 이상의 언어로 제작하기도 했습니다.

    AI 기술의 발전으로 음성을 생성하거나, 번역하거나, 복제하는 능력 역시 급속도로 확장되고 있습니다. 마이크로소프트는 올해 AI를 활용하여 YouTube 비디오를 번역하고 더빙하는 기능을 선보이며 시청자들이 이를 실시간으로 확인할 수 있게 했습니다. 또한, 크리에이터 플랫폼 Vimeo는 7월에 오디오와 자막을 번역하고, AI 기술로 화자의 목소리를 복제하여 이를 구현할 수 있는 도구를 공개했습니다. Descript, ElevenLabs, Speechify, Veed, Camb.ai, Captions.ai, Akool 등 수많은 회사들이 음성 클로닝 또는 AI 번역 도구(또는 둘 다)를 제공하고 있으며, HeyGen, Deepbrain AI 등과 같이 수십 개의 언어로 말할 수 있는 AI 아바타를 이용해 비디오를 제작할 수 있는 도구들도 등장하고 있습니다.

    Wav2lip과 같은 더빙 및 립싱크 AI 라이브러리 덕분에, 스타트업들은 이러한 종류의 도구를 구축하는 것이 훨씬 용이해졌으며, 크리에이터들에게 AI 기술을 사용하기 더 쉽고, 더욱 저렴하다고 홍보할 수 있는 기반을 마련했습니다. (D-ID가 새로 개발한 독점 모델인 Rosetta-1이 AI Video Translate의 작동 동력입니다.)

    D-ID는 새로운 비디오 번역 기술이 D-ID Studio와 API를 통해 이용 가능하다고 밝혔습니다. 현재 1개월 무료 체험이 제공되고 있으며, 자세한 데모 영상은 웹사이트에서 확인할 수 있습니다.

    기술 사양에 따르면, 비디오 길이는 10초에서 5분 사이여야 하며, 파일 크기는 2GB 미만이어야 합니다. 이 기능은 화면에 인물이 단 한 명만 등장할 경우에 가장 잘 작동하며, 최상의 결과를 얻기 위해서는 인물이 항상 카메라를 바라보며 얼굴이 명확하게 보여야 합니다.

    [출처:] https://techcrunch.com/2024/08/21/d-id-launches-an-ai-video-translation-tool-that-includes-voice-cloning-and-lip-sync