• IMAX, 오리지널 콘텐츠 도달 범위 확장을 위해 AI 도입 박차

    article image

    글로벌 콘텐츠 소비가 증가하고, 영어 콘텐츠 수요를 초과하는 비영어권 콘텐츠에 대한 수요가 늘면서, IMAX는 AI를 활용하여 오리지널 콘텐츠의 현지화 규모를 확장하고 있습니다.

    PwC 보고서에 따르면, 엔터테인먼트 및 미디어 산업은 2023년 5% 성장하여 2조 8천억 달러를 기록했습니다. 이 산업은 향후 5년간 연평균 약 4% 성장하여 3조 4천억 달러에 이를 것으로 예상됩니다. 특히 미국, 영국, 호주, 캐나다 같은 영어권 시장에서도 비영어권 콘텐츠의 성장이 두드러집니다. 실제로 넷플릭스는 지난 3년간 영국에서 비영어권 콘텐츠 시청자 수가 90% 증가했다고 보고했습니다.

    IMAX 역시 이러한 시장 변화를 반영하여, 더 많은 관객의 관심을 끌기 위해 AI를 활용한 현지화 방안을 모색하고 있습니다.

    지난 월요일, 대형 극장과 몰입형 영화 경험으로 유명한 캐나다의 영화 제작 극장 회사(production theater company)는 두바이에 본사를 둔 스타트업 Camb.ai와 파트너십을 체결했습니다. 이를 통해 다큐멘터리를 포함한 오리지널 콘텐츠 번역에 Camb.ai의 AI 음성 모델을 활용할 계획입니다.

    이미 실시간 스포츠 이벤트나 리그를 대상으로 AI 더빙 및 음성 번역을 제공해 온 Camb.ai는 음성-텍스트 번역을 위한 Boli 모델과 음성 에뮬레이션(speech emulation)을 위한 Mars 모델을 제공합니다. 이 모델들은 140개 언어를 지원하며, 인터넷상에 데이터가 부족한 다양한 저자원 언어(low-resource languages)도 포함됩니다. 이용은 Camb.ai의 DubStudio 플랫폼을 통해 가능합니다.

    Camb.ai의 공동 창립자이자 최고기술책임자(CTO)인 아크샤트 프라카시는 독점 인터뷰에서 "OpenAI나 Anthropic 같은 회사들은 사회에 대한 다른 비전을 가지고 있다"며, "그들은 매우 수평적이고 광범위한 작업을 포괄하는 모델을 만들려고 노력한다. … 그러나 우리는 그럴 필요가 없다. 우리 모델 중 일부는 매개변수가 1억 개가 채 되지 않으면서도 매우 특화되어 있다"고 말했습니다.

    프라카시는 과거 애플 엔지니어 출신으로, 시리(Siri)의 AI 및 ML 모델 개발팀에서 근무한 경력이 있습니다. 그는 작년에 아버지 아브니쉬 프라카시와 함께 Camb.ai를 공동 설립했습니다.

    CTO는 테크크런치(TechCrunch)와의 인터뷰에서 "우리는 세대를 달리하며 인도에서 자랐다. 30년의 간극을 두고 우리는 같은 언어적 어려움에 직면했다"고 전했습니다.

    그는 Camb.ai가 개발한 모델의 70%는 상업적으로 사용 가능한 학술 라이선스 데이터셋으로 사전 학습했으며, 나머지 30%는 초기 파트너들이 AI 기반 더빙 및 번역에 모델을 배치하며 제공하는 미세 조정(fine-tuning) 데이터로 구성된다고 설명했습니다.

    프라카시는 "우리가 절대 하지 않으며 매우 신중하게 피하고 있는 것은 인터넷 전체를 무차별적으로 긁어모으는(scrapping) 것이다"라며, "일부 회사들은 소비자용 앱이나 도구를 개발한다는 이유로 충분하다고 여기고, 인터넷의 10페타바이트에 달하는 데이터를 긁어모으는 것이 괜찮다고 생각하는 경향이 있다"고 강조했습니다.

    Camb.ai는 AI 기반 번역을 구현하기 위해 Boli와 Mars 모델의 기반 계층(foundation layer), 이 AI 모델들이 작동하는 인프라 계층(infrastructure layer), 그리고 프론트엔드용 DubStudio 플랫폼으로 구성된 '삼중 계층 접근 방식(three-layer approach)'을 사용합니다.

    프라카시는 Camb.ai의 Boli가 다른 AI 기반 모델들과 달리 입력 음성 토큰(speech tokens)을 받아 번역 언어로 출력 텍스트 토큰을 생성할 때 뉘앙스를 유지한다고 주장했습니다. 또한 Boli가 텍스트를 생성하면, Mars는 동일한 오디오 입력 신호를 활용하여 텍스트를 음성으로 변환함으로써, 예를 들어 스포츠 이벤트에서 관중의 환호 배경 음악 같은 주변 소리까지 실제 오디오의 연기를 포착한다고 설명했습니다.

    프라카시는 테크크런치와의 인터뷰에서 Camb.ai의 기술이 최대 10개 언어에 대해 동시에 음성 번역을 제공하며, 지연 시간(latency)은 20~30초에 불과해 스트리밍 및 방송 지연 시간(30~40초) 내에 충분히 커버 가능하다고 전했습니다.

    IMAX는 리소스가 풍부한 언어부터 단계적으로 AI 번역을 도입할 예정이며, 이는 Camb.ai의 기술을 IMAX 오리지널 콘텐츠에 내부 테스트한 후에 이루어졌습니다.

    IMAX Global 사장인 마크 웰턴(Mark Welton)은 "우리가 파트너십의 초기 단계임에도 불구하고, 이 기술의 잠재력을 최대한 탐색하고 이것이 우리를 가장 잘 발전시킬 수 있는 방법을 찾기 위해 지속적으로 협력할 것"이라고 밝혔습니다.

    웰턴은 구체적인 비용 절감 규모는 밝히지 않았으나, AI 도입이 번역 비용 절감에 기여할 것이라고 언급했습니다.

    Camb.ai는 현재 50명의 팀을 운영하고 있습니다. 이 회사는 지난 2월 Courtside Ventures가 주도한 시드 라운드에서 400만 달러를 유치했습니다. 프라카시는 TechCrunch를 통해 이 스타트업이 더 넓은 영역으로 진출하고 인력 규모를 늘리기 위해 더 큰 규모의 프리-시리즈 A 라운드(pre-Series A round)를 진행 중이라고 전했습니다.

    [출처:] https://techcrunch.com/2024/11/25/imax-embraces-ai-to-expand-original-content-reach