
팟캐스트 녹음 및 편집 플랫폼인 Podcastle이 자체 AI 모델인 Asyncflow v1.0을 출시하며, AI 기반 텍스트 음성 변환(text-to-speech) 분야에서 경쟁하는 다른 기업들과 어깨를 나란히 하게 되었습니다. 또한 개발자를 위한 API를 제공함으로써, 개발자들이 이 텍스트 음성 변환 모델을 자사 애플리케이션에 직접 통합할 수 있도록 지원합니다.
이번 신규 모델 덕분에 Podcastle은 사용자가 텍스트를 내레이션할 수 있는 450가지가 넘는 AI 음성을 제공할 수 있게 되었습니다. 이 스타트업은 훈련 및 추론 비용이 낮도록 기술과 모델을 개발했다고 밝히며, 이 점이 강력한 경쟁 우위가 된다고 강조했습니다.
이번 행보로 Podcastle은 ElevenLabs, Speechify, WellSaid 등과 함께, 모든 종류의 텍스트를 AI가 음성 클립으로 변환하는 기술과 AI 모델을 개발하는 기업 그룹에 합류했습니다. 이 기술은 마케팅, 광고, 콘텐츠 제작, 교육, 그리고 기업 교육 등 다양한 분야에서 활용됩니다.
Podcastle의 창립자인 Arto Yeritsyan은 TechCrunch과의 인터뷰에서 회사가 설립 초기부터 텍스트 음성 변환 모델 구축을 목표로 했으나, 당시 훈련 및 데이터 요구 사항의 비용이 매우 높았다고 언급했습니다.
Yeritsyan은 "우리는 설립 초기부터 견고한 텍스트 음성 변환 모델을 구축하고자 했지만, 개발 비용이 만만치 않았습니다. 하지만 최근 대규모 언어 모델(LLM)의 발전 덕분에 작년에 돌파구를 마련하여, 방대한 데이터 없이도 고품질 음성 모델을 구축할 수 있는 지점에 도달했습니다"라고 설명했습니다.
회사 측은 작년에 확보한 1,350만 달러 규모의 시리즈 A 투자를 통해서도 도움을 받았다고 전했습니다.
Yeritsyan에 따르면, Podcastle은 텍스트 음성 변환 500분에 대해 약 40달러를 청구하는 반면, ElevenLabs는 동일한 서비스에 대해 99달러를 책정하고 있습니다.
한편, Podcastle의 음성 클로닝 기능 역시 훈련 프로세스를 더욱 빠르게 만들기 위해 업그레이드되었습니다.
이전에는 음성 클로닝 훈련을 위해 약 70개의 다른 문장을 읽어야 했으나, 이제는 사용자의 몇 초 녹음만으로 음성 복제가 가능해졌습니다. 특히 이 새로운 과정에서는 작년에 공개된 Podcastle의 Magic Dust AI가 활용되어 오디오 녹음 품질을 개선했습니다.
실제 테스트에서는 생성된 음성이 사용자의 톤을 모방했음에도 불구하고 다소 기계적으로 들렸다고 합니다. 그러나 회사는 시간이 지남에 따라 이 기능을 개선해 나갈 것이라고 밝혔습니다. 아울러, 사용자는 여러 샘플로 목소리를 훈련시켜 다양한 결과를 얻을 수도 있습니다.
Podcastle은 비용적인 우위 외에도, 오디오, 비디오, 팟캐스트, AI 기반 내레이션 도구들을 하나의 재설계된 플랫폼에서 제공하는 것이 경쟁사 대비 큰 강점이라고 강조했습니다. Yeritsyan은 대다수 사용자들이 Podcastle을 오디오 콘텐츠 작업에 활용하고 있지만, 비디오 분야 역시 급속도로 성장하고 있다고 덧붙였습니다.