
AI 생성 음성 기술은 오디오북 제작, 팟캐스트 송출, 기사 음성 낭독 서비스, 기본적인 고객 지원 등 다양한 목적으로는 충분한 품질을 제공합니다. 하지만 많은 기업들은 현재의 AI 음성 기술만으로는 안정적인 배포가 어렵다고 판단하고 있습니다.
이러한 배경으로, MIT를 졸업한 모인 나딤(Moin Nadeem)과 니킬 무르티(Nikhil Murthy)(상단 사진)는 합성 음성의 신뢰도를 높이고 지연 시간(latency)을 줄이는 엔드투엔드(end-to-end) 음성 스택을 제공하는 회사, Phonic을 설립했습니다.
나딤과 무르티는 MIT에서 만나 7년 이상 알고 지낸 사이입니다. 두 사람은 작년에 Phonic을 시작했을 때, 시장에 완벽한 음성 기술 솔루션을 제공하는 기업이 많지 않다는 것을 느꼈다고 합니다.
무르티는 TechCrunch과의 인터뷰에서 “음성 AI는 자동 음성 인식(Automatic Voice Recognition)이나 텍스트-음성 변환(Text-to-Speech)과 같은 여러 구성 요소를 연결하고 여기에 지능을 통합하는 단계에 있습니다”라며, “하지만 실제 고객들과 이야기를 나누면서, 대규모로 운영할 수 있는(at scale) 신뢰할 수 있는 솔루션이 부족하다는 점을 파악했습니다”라고 전했습니다.
이전에 MosaicML에 재직했던 나딤은, 해당 회사가 2023년 Databricks에 13억 달러에 인수된 바 있다고 언급하며, 현재 음성 AI 분야에서 활동하는 많은 기업들(예: )이 개별 AI 모델들을 단순히 조합하여 워크플로우를 만드는 데 그치고 있다고 지적했습니다.
Phonic은 이와는 다른 접근 방식을 취합니다. 바로 자체적으로 모델을 엔드투엔드 방식으로 훈련시키는 것입니다. 무르티는 이러한 접근법의 몇 가지 장점을 강조했습니다.
그는 “모델을 자체적으로 소유함으로써, [우리는] 신뢰성 관련 요소를 모델 자체에 깊이 통합할 수 있습니다”라고 설명하며, “만약 그 계층을 소유하지 못한다면, 실제로 매끄럽게 연결되지 않는 이질적인 조각들을 단순히 엮어내는 것에 지나지 않습니다”라고 덧붙였습니다.
무르티는 또한 Phonic의 방식이 회사가 모델을 비용 효율적으로 호스팅하고 운영하는 데도 유리하다고 설명했습니다. 그는 Phonic이 모델의 견고성을 극대화하기 위해 악센트가 포함된 발화 녹음이나 불분명한 음성을 포함한 광범위한 녹음 자료로 모델을 훈련시킨다고 밝혔습니다.
현재 Phonic은 보험 및 헬스케어 분야의 기업들을 포함한 소수의 파트너들과 협력하고 있으며, 몇 달 안에 제품을 광범위하게 출시할 계획입니다. 나딤에 따르면, 조만간 예비 고객들은 공식 웹사이트를 통해 Phonic의 기술을 체험할 수 있을 것이라고 합니다.
Phonic은 Lux가 주도하고 Replit 공동 창업자 암자드 마사드(Amjad Masad), Hugging Face 공동 창업자 클렘 델랑그(Clem Delangue), Applied Intuition 공동 창업자 카사르 유니스(Qasar Younis), Modal Labs 설립자 에릭 베른하르드손(Erik Bernhardsson)이 참여하는 시드 라운드에서 400만 달러를 유치했습니다.
Lux Capital의 파트너인 그레이스 이스포드(Grace Isford)는 회사의 자체 모델 훈련 방식에 매력을 느꼈다고 말했습니다.
그녀는 “모인과 니킬 둘 다 놀라운 기술자입니다”라고 말하며, “두 사람은 MIT에서 머신러닝 클럽을 설립했을 뿐 아니라, 오랫동안 모델 훈련에 힘써왔습니다. 게다가, 음성 AI 분야에서 확산(diffusion) 모델과 독점 모델을 결합하는 그들의 접근 방식은 매우 독창적입니다”라고 평가했습니다.
[출처:] https://techcrunch.com/2025/04/03/end-to-end-voice-ai-solution-phonic-gets-backing-from-lux