
매력적인 영상을 제작하려면 단순히 시각적 요소만으로는 충분하지 않습니다. 좋은 영상 콘텐츠의 매력 상당 부분은 오디오에 달려 있지만, 적절한 오디오 효과를 찾는 과정(혹은 직접 제작하는 과정)은 상당한 시간이 소요될 수 있습니다. 어도비(Adobe)는 연례 MAX 컨퍼런스에서 ‘Project Super Sonic’이라는 실험적인 프로토타입 시연을 선보였습니다. 이 프로젝트는 사용자가 텍스트-음성 변환(text-to-audio), 사물 인식 기능, 심지어 자신의 목소리를 활용해 영상 프로젝트에 필요한 배경 오디오 및 오디오 효과를 빠르고 쉽게 만들어낼 수 있는 방법을 보여줍니다.
텍스트 프롬프트만으로 오디오 효과를 생성하는 방식 자체는 흥미롭지만, 이미 ElevenLabs 등 여러 기업에서 이 기능을 상업적으로 제공하고 있기 때문에 혁신적이라고 보기는 어려울 수 있습니다.
여기서 더 주목할 만한 점은 어도비가 사운드트랙 제작을 위해 이 기능을 한 단계 발전시켜 두 가지 추가 모드를 도입했다는 것입니다. 첫 번째는 자체 사물 인식 모델을 활용하여, 사용자가 비디오 프레임의 특정 영역을 클릭하면 시스템이 자동으로 관련 프롬프트를 생성하고 해당 사운드를 산출하게 하는 것입니다. 이는 여러 AI 모델을 단일 워크플로우로 통합한 지능적인 접근 방식이라 평가할 수 있습니다.
하지만 진정한 놀라움은 세 번째 모드에서 나옵니다. 이 모드는 사용자가 찾고자 하는 소리를 실제로 녹음(영상 타이밍에 맞춰)하면, Project Super Sonic이 그에 맞는 적절한 오디오를 자동으로 생성해주는 기능입니다.
어도비 사운드 디자인 AI 팀의 책임자인 저스틴 살라몬(Justin Salamon)은 팀이 텍스트-음성 변환 모델로 작업을 시작했으며, 모든 어도비 생성형 AI 프로젝트와 마찬가지로 라이선스 데이터를만 사용했다고 설명했습니다.
살라몬은 "우리가 진정으로 원했던 것은 사용자에게 프로세스 전반에 걸쳐 통제권을 부여하는 것이었습니다. 저희는 이 도구가 크리에이터, 사운드 디자이너, 그리고 소리로 영상을 완성하고자 하는 모든 사람을 위한 도구가 되길 바랐습니다. 그래서 단순한 텍스트 기반 사운드 워크플로우를 넘어, 에너지와 타이밍에 대한 정확한 제어를 가능하게 하여 이를 표현력 있는 도구로 확장하고자 보컬 컨트롤 기능을 개발하게 된 것입니다"라고 설명했습니다.
보컬 컨트롤의 작동 원리는 사용자의 목소리 특성과 소리의 스펙트럼을 분석하여 생성 과정에 안내하는 방식으로 작동합니다. 살라몬은 데모 시연에서는 목소리를 사용했지만, 실제로는 사용자가 박수를 치거나 악기를 연주하는 등의 방식으로도 활용할 수 있다고 덧붙였습니다.
참고로, 어도비 MAX에서는 항상 '스니크(sneaks)'라고 불리는 여러 실험 기능들이 선보여집니다. Project Super Sonic과 같은 기능들은 회사가 현재 연구 중인 혁신적인 기능들을 공개하는 자리입니다. 물론 이들 프로젝트 중 상당수가 어도비 크리에이티브 스위트(Creative Suite)에 통합될 가능성이 높지만, 반드시 그렇게 되는 것은 아닙니다. Project Super Sonic이 어도비 프리미어(Adobe Premiere)와 같은 제품군에 매우 유용하게 추가될 수는 있겠지만, 영원히 시장에 출시되지 않을 가능성도 배제할 수 없습니다.
제가 이 프로젝트가 상용화될 것이라 믿는 근거 중 하나는 같은 개발 그룹이 어도비의 자체 생성형 AI 모델인 Firefly의 오디오 기능을 작업했기 때문입니다. 이 기능은 짧은 비디오 클립을 오디오 트랙과 함께 몇 초간 확장합니다. 다만, 현재 시점에서는 Project Super Sonic은 여전히 시연 단계에 머물러 있습니다.
TechCrunch에서는 AI 중심의 뉴스레터를 발행합니다!
매주 수요일에 사서함으로 받아보려면 여기에서 가입하세요.