• 대학생 두 명, NotebookLM에 필적하는 AI 음성 모델 개발

    AI 전문 지식이 깊지 않은 학부생 두 명이 Google의 NotebookLM과 유사한 팟캐스트 스타일 클립을 생성할 수 있는 공개 AI 모델을 개발했다고 밝히면서 화제가 되고 있습니다.

    합성 음성 도구 시장은 광대하며 급성장하고 있습니다. ElevenLabs가 주요 플레이어 중 하나이지만, PlayAI 등의 경쟁자들이 끊임없이 등장하며 시장은 뜨겁습니다. 투자자들은 이러한 도구들이 막대한 잠재력을 가지고 있다고 평가합니다.

    PitchBook에 따르면, 작년에 음성 AI 기술을 개발하는 스타트업들이 3억 9,800만 달러 이상의 VC 자금을 유치했습니다.

    새로 출시된 모델의 배후 그룹의 한국 기반 공동 창립자 중 한 명인 토비 김(Toby Kim)은 자신과 공동 창립자가 약 3개월 전부터 음성 AI를 공부하기 시작했다고 전했습니다. 그들은 NotebookLM에서 영감을 받아, 생성되는 목소리에 대한 제어력을 높이고 사용자가 ‘스크립트에 대한 자유도’를 확보할 수 있는 모델을 만들고자 했습니다.

    김 씨에 따르면, 그들은 연구원들에게 회사의 TPU AI 칩을 무료로 제공하는 Google의 TPU 리서치 클라우드 프로그램을 이용해 Nari의 모델 ‘Dia’를 훈련시켰습니다. 16억 개의 파라미터를 갖춘 Dia는 스크립트를 기반으로 대화를 생성할 수 있으며, 사용자는 화자의 톤을 커스터마이징하고 말더듬기, 기침 소리, 웃음소리 등 비언어적 단서(nonverbal cues)를 삽입할 수 있습니다.

    파라미터란 모델이 예측을 수행하는 데 사용하는 내부 변수를 의미하며, 일반적으로 파라미터 수가 많을수록 모델 성능이 우수합니다.

    AI 개발 플랫폼과 GitHub에서 사용할 수 있는 Dia는 최소 10GB의 VRAM만 갖춘 대부분의 최신 PC에서도 구동이 가능합니다. 의도한 스타일을 구체적으로 설명하는 프롬프트가 제공되지 않으면 무작위 목소리를 생성하지만, 사람의 목소리 복제(voice cloning) 기능도 지원합니다.

    TechCrunch가 Nari의 웹 데모를 통해 Dia를 테스트한 결과, Dia는 전반적으로 매우 뛰어난 성능을 보여 어떤 주제에 대해서도 지치지 않고 2인 간의 양방향 대화를 성공적으로 생성했습니다. 목소리 품질은 현재 시장에 나와 있는 다른 도구들과 비교해도 경쟁력이 있으며, 특히 음성 복제 기능은 기자가 시도해 본 기능 중 가장 쉽다는 평가입니다.

    (샘플 제시)

    하지만 다른 음성 생성 도구들처럼 Dia 역시 안전장치 측면에서는 미흡한 부분이 존재합니다. 가짜 정보(disinformation)를 만들거나 사기성 녹음을 제작하는 것은 매우 용이합니다. Dia의 프로젝트 페이지에서 Nari는 모델을 이용해 사람을 사칭하거나, 속이거나, 기타 불법적인 캠페인에 활용하는 행위를 삼가줄 것을 권장하고 있으나, 그룹 측은 사용자의 오용에 대해서는 "책임지지 않는다"고 밝혔습니다.

    Nari는 또한 Dia를 훈련하는 데 사용된 데이터 출처를 공개하지 않았습니다. Dia가 저작권이 있는 콘텐츠를 활용해 개발되었을 가능성도 제기되고 있습니다. 한 Hacker News 댓글 작성자는 샘플 중 일부가 NPR 팟캐스트 "Planet Money"의 진행자 목소리와 유사하다고 지적하기도 했습니다. 저작권이 있는 콘텐츠로 모델을 훈련시키는 것은 광범위하게 이루어지지만 법적 논란이 큰 관행입니다. 일부 AI 회사들은 '공정 사용(fair use)' 원칙이 자신들을 법적 책임으로부터 보호한다고 주장하는 반면, 저작권 보유자들은 공정 사용 원칙이 모델 훈련 과정에는 적용되지 않는다고 반박합니다.

    어쨌든, 김 씨에 따르면 Nari의 계획은 Dia를 거점으로 더 크고 미래 지향적인 모델을 기반으로 "소셜 측면(social aspect)"을 갖춘 합성 음성 플랫폼을 구축하는 것입니다. Nari는 또한 Dia에 대한 기술 보고서를 발표하고, 모델 지원 범위를 영어 이외의 언어로도 확장할 계획을 가지고 있습니다.

    [출처:] https://techcrunch.com/2025/04/22/two-undergrads-built-an-ai-speech-model-to-rival-notebooklm