메타의 Movie Gen 모델, 사운드와 함께 현실적인 비디오를 구현해내… 마침내 무한한 무뎅을 만날 수 있게 되다

sw_reporter

현재까지 생성형 비디오 모델이 구체적으로 어떤 용도에 유용할지는 아무도 정확히 알지 못하지만, 이러한 상황이 OpenAI나 (공개된 회사명 누락) 같은 기업들이 이 분야 개발에 수백만 달러를 쏟아붓는 것을 막지는 못하고 있다.

메타(Meta)가 최근 공개한 모델은 Movie Gen이라는 이름이 붙었으며, 이름 그대로 텍스트 프롬프트를 비교적 사실적인 사운드가 포함된 비디오로 변환한다. 다만, 아직 음성(Voice) 기능은 탑재되지 않았으며, 메타는 현명하게도 이 모델을 대중에게 공개하지 않고 있다.

Movie Gen은 여러 개의 기반 모델(foundation models) 집합체—메타가 "캐스트(cast)"라고 부르는—이며, 그중 핵심 기능이 텍스트-투-비디오(text-to-video) 부분이다. 메타는 이 기능이 Runway의 Gen3, LumaLabs의 최신 모델, 그리고 Kling1.5 등 기존 모델보다 뛰어나다고 주장한다. 하지만 늘 그랬듯이, 이러한 발표는 Movie Gen이 실제로 업계 최고라는 의미라기보다는 단순히 '우리도 이 분야에 참여하고 있다'는 것을 보여주기 위함일 가능성이 높다. 이 모델의 기술적 세부 사항은 메타가 공개한, 모든 구성 요소를 설명하는 기술 논문에서 확인할 수 있다.

오디오는 비디오 내용과 연동되어 생성된다. 예를 들어, 자동차의 움직임에 맞는 엔진 소리, 배경의 폭포 소리, 또는 필요한 순간에 터지는 천둥 소리 등을 추가한다. 관련성이 있다고 판단될 경우 음악도 포함된다.

이 모델은 메타가 "독점적/상업적으로 민감한(proprietary/commercially sensitive)" 라이선스 데이터와 공개적으로 이용 가능한 데이터셋을 조합하여 훈련했다고 밝혔으며, 이 외의 세부 정보는 제공하지 않고 있다. 그러나 우리가 추측하기로는 방대한 양의 인스타그램 및 페이스북 비디오와 일부 파트너 자료, 그리고 크롤러로부터 적절히 보호되지 않은 수많은 '공개적' 자료들이 포함되었을 것으로 보인다.

하지만 메타가 궁극적으로 목표하는 것은 단기적인 '최첨단(state of the art)' 타이틀 확보가 아니라, 매우 단순한 자연어 프롬프트만으로도 완성도 높은 결과물을 도출할 수 있는 실용적이고 종합적인 접근 방식 그 자체다. 가령 "폭풍우 속에서 반짝이는 하이포 케이크를 만드는 제빵사로 나를 상상해 줘"와 같은 요청이 그것이다.

한편, 기존 비디오 생성기들의 고질적인 문제점 중 하나는 편집의 어려움이다. 만약 길을 잃은 비행기를 생성하도록 요청했을 때, 원하는 방향으로의 수정이나 디테일한 조정이 어렵다는 점이다. 이 모델은 기본적인 틀을 제공하는 데 주력하고 있다.

이 모델은 가장 강력한 기능을 보여주며, 사용자가 텍스트 기반의 자연스러운 요청만으로도 고품질의 이미지를 생성할 수 있게 했다.

이러한 발전은 크리에이터들이 비전공자라도 전문적인 툴을 다루는 과정 없이도 고품질의 영상 콘텐츠를 제작할 수 있게 하는 혁신을 가져왔다.

이러한 기술 발전은 디지털 콘텐츠 시장에 패러다임의 변화를 가져왔다.

[출처:] https://techcrunch.com/2024/10/04/metas-movie-gen-model-puts-out-realistic-video-with-sound-so-we-can-finally-have-infinite-moo-deng