포켓 FM, 엘레븐랩스와 협력해 스크립트를 오디오 콘텐츠로 빠르게 변환

sw_reporter

'백업 오디오 플랫폼'으로 알려진 Pocket FM은 음성 복제(voice-cloning) 전문 기업 ElevenLabs와 파트너십을 체결하고, 스크립트와 같은 텍스트 콘텐츠를 AI를 활용하여 오디오 시리즈로 빠르고 효율적으로 변환할 수 있게 되었다고 발표했다.

지난 3월 시리즈 D 펀딩을 통해 1억 3백만 달러를 유치했던 Pocket FM은 당시 TechCrunch를 통해 이미 ElevenLabs 기술을 활용하여 텍스트 콘텐츠를 오디오로 변환하는 실험을 진행하고 있음을 밝힌 바 있다. 이제 인도 기반의 이 회사는 파트너십을 확장하여, 앞으로 몇 주 안에 이 변환 도구를 모든 크리에이터가 이용할 수 있도록 배포할 예정이다.

실험 단계에서 Pocket FM은 이미 ElevenLabs의 AI 기술을 사용해 총 3만 시간 분량의 오디오 시리즈를 제작했다. 이번 도구 출시를 계기로 이 스타트업은 올해 오디오 콘텐츠 라이브러리(10만 시간 이상)를 3배 확장할 것으로 기대한다. Pocket FM 측은 또한 실험 과정에서 AI 기반 도구 덕분에 오디오 제작 비용을 90% 절감할 수 있었다고 언급했다.

Pocket FM의 공동 창립자이자 CTO인 Prateek Dixit은 TechCrunch와의 통화에서 이번 파트너십을 통해 작가들이 자신의 원고를 오디오 시리즈로 쉽게 전환할 수 있도록 돕고자 한다고 설명했다.

그는 "저희는 25만 명 이상의 작가(회사 내부의 Pocket Novel 작성 플랫폼 이용 작가 포함)를 보유하고 있으며, 이번 파트너십은 이들을 위한 오디오 설정 및 녹음 비용을 크게 절감해 줍니다"라고 말했다.

이어 "녹음 장비와 도구를 완벽하게 갖춘 상황이라 하더라도 작가 한 명이 하루에 고품질 오디오 콘텐츠를 약 30분 분량밖에 생산할 수 없습니다. 하지만 AI 도구를 사용하면 이 제작량을 10배까지 늘릴 수 있습니다"라고 덧붙였다.

Pocket FM은 ElevenLabs 기술을 통합한 전용 도구를 구축하여, 콘텐츠 변환을 원하는 작가들에게 50가지의 음성 옵션을 제공하고 있다. ElevenLabs의 공동 창립자인 Mati Staniszewski는 자사 도구가 글의 문맥을 이해하고 감정을 목소리 톤으로 자동으로 추론해낸다고 설명했다.

Staniszewski는 "Pocket FM과 협력하면서, 저희는 글의 장르를 이해하고 감정 표현이 더욱 풍부한 최신 모델들을 배포하고 있습니다"라고 밝혔다.

Dixit은 사용자들의 콘텐츠 참여 데이터를 분석하여, 플랫폼이 특정 장르의 작가들에게 가장 적합한 목소리를 추천하는 기능을 구현할 계획도 가지고 있다고 언급했다.

Pocket FM만이 AI 기반 도구를 실험하는 오디오 시리즈 플랫폼은 아니다.

Google의 지원을 받는 Kuku FM 역시 GPT-4, Claude, BandLab는 물론 ElevenLabs까지 활용하여, 스크립트 다듬기, 썸네일 생성, 음향 효과 추가, 텍스트를 오디오로 변환하는 등 창작 과정 전반에 걸쳐 작가들을 지원하고 있다.

Kuku FM은 TechCrunch에 콘텐츠 관련 광고 제작을 위해 Midjourney나 Runway와 같은 시각 생성 도구도 실험하고 있다고 밝힌 바 있다.

콘텐츠 품질과 아티스트의 역할

AI 기반 도구의 장점은 더 빠르고 방대한 콘텐츠 생성이라는 점이지만, 그것이 곧 콘텐츠의 품질을 보장한다는 의미는 아니다. Pocket FM은 콘텐츠의 발굴을 돕고 고품질 콘텐츠를 전면에 내세우기 위해, 자체 발견 알고리즘을 정교화하고 사용자 참여도에 대한 실험을 진행하고 있다.

Dixit은 "만약 작가가 오디오 시리즈를 게시하면, 저희는 해당 콘텐츠를 소수 사용자에게 노출하여 참여 지표를 관찰합니다. 이 지표들이 긍정적일 경우, 이를 더욱 적극적으로 확산시키는 방식으로 활용합니다"라고 설명했다.

Kuku FM은 크리에이터가 AI를 사용했더라도 앱에서 고품질 콘텐츠만이 홍보되도록 품질 관리(QC) 팀과 긴밀히 협력하고 있다고 밝혔다.

회사 공동 창립자이자 CEO인 Lal Chand Bisu는 "오디오 콘텐츠 제작에 있어서는 인간 QC 팀이 의사 결정의 중심에 있는 것이 중요하다고 판단했습니다. 저희는 예술적 기준에 대한 높은 주도권과 권한을 지닌 콘텐츠 프로듀서로 구성된 핵심 팀을 구축했습니다"라고 말했다.

AI 활용은 플랫폼의 콘텐츠 생산 속도를 높이고 방대한 라이브러리를 만드는 데 기여할 수 있지만, 동시에 성우들의 역할 축소로 이어질 수 있다는 우려도 제기된다. 인도의 성우 협회(India’s Association of Voiceover Artists, AVA)는 AI가 이 분야를 대체하는 것에 대해 깊은 우려를 표명해 왔다.

협회 사무총장인 Amarinder Singh Sodhi는 인디아 매체 Scroll과의 인터뷰에서 "AI가 이 역할을 대체한다면 우리 성우들은 일자리를 잃게 됩니다. 성우로서 생계를 보호할 수 있도록 반드시 규제가 마련되어야 합니다"라고 강조했다.

소디는 또한 성우들이 본인들의 동의나 고지 없이 AI 훈련용 샘플 녹음 작업에 스튜디오로 호출된 사례에 대해서도 이야기했다.

델리에 거주하는 성우 Aditya Mattoo는 TechCrunch와의 인터뷰에서 "감정적인 측면에서 큰 두려움이 있습니다. AI를 사용한다는 것은 본질적으로 스토리텔링이 가진 인간적인 경험을 희석시키는 행위입니다. 감정적인 연결 고리를 잃게 만듭니다."라고 우려를 표명했다.

현재 시장에서 판매되는 음성 콘텐츠를 다루는 회사들 역시 이 문제에 직면해 있다. 일부 업체들은 음성 라이브러리를 판매하며 수익을 창출하고 있다. 하지만 전문가들은 AI의 발달로 인해 이러한 방식의 시장 구조 자체가 지속 가능할지에 대해 의문을 제기한다. 오히려 인간의 목소리가 가진 고유한 감성적 가치에 대한 재발견과, 기술을 활용하여 인간의 창의성을 증폭시키는 방향으로의 역할 전환이 필요하다는 것이 지배적인 시각이다.

[출처:] https://techcrunch.com/2024/06/20/pocket-fm-partners-with-elevenlabs-to-convert-scripts-into-audio-content-quickly