메타, 구글의 팟캐스트 생성기 '오픈 버전' 공개

sw_reporter

Meta가 Google의 NotebookLM에 '개방형(open)' 방식으로 바이럴 콘텐츠인 팟캐스트 생성 기능을 구현했습니다.

NotebookLlama는 놀랍지 않게도 처리 과정의 대부분에 Meta 자체 모델을 사용합니다. NotebookLM과 마찬가지로, 이 기능 역시 사용자에게 업로드된 텍스트 파일에 대해 질의응답식(back-and-forth)의 팟캐스트 형식 요약을 생성할 수 있습니다.

NotebookLlama는 먼저 파일로부터 스크립트를 작성합니다. 예를 들어, 뉴스 기사나 블로그 게시물의 PDF 파일이 해당됩니다. 그 다음에는 "더 극적인 전개(more dramatization)"와 중단(interruption) 효과를 추가한 후, 이 스크립트를 개방형 텍스트 음성 변환(text-to-speech) 모델에 공급합니다.

하지만 결과물의 품질은 NotebookLM에 미치지 못합니다. 제가 청취한 NotebookLlama 샘플에서는 음성이 매우 기계적(robotic)인 느낌을 주며, 특정 지점에서 발화가 서로 겹치는 경향이 두드러집니다.

그러나 프로젝트를 담당한 Meta 연구진은 더 강력한 모델을 사용하면 품질 향상이 가능하다고 전했습니다.

이들은 NotebookLlama의 GitHub 페이지를 통해 "현재 음성 콘텐츠가 얼마나 자연스러울지 여부가 [텍스트 음성 변환] 모델의 한계점입니다"라고 언급했습니다. 또한, "팟캐스트 작성을 위한 또 다른 접근 방식은 두 개의 에이전트가 관심 주제에 대해 토론하며 팟캐스트 개요를 작성하게 하는 것입니다. 현재는 단일 모델을 사용하여 개요를 작성하고 있습니다"라고 덧붙였습니다.

NotebookLlama가 NotebookLM의 팟캐스트 기능을 모방한 첫 시도는 아닙니다. 일부 프로젝트는 다른 것들보다 성공적이었던 경우도 있었습니다. 하지만 어떤 경우도—심지어 NotebookLM 자체도—모든 AI가 직면하는 '환각 문제(hallucination problem)'를 해결하지 못했습니다. 즉, AI가 생성한 팟캐스트에는 허위 정보가 포함될 위험이 상존하는 것입니다.

[출처:] https://techcrunch.com/2024/10/27/meta-releases-an-open-version-of-googles-podcast-generator