
AI 스타트업 ElevenLabs는 최근 1억 8천만 달러 규모의 메가 펀딩 라운드를 유치하며 주된 입지를 오디오 생성 기술 분야에 두고 왔다. 그러나 회사는 최근 Scribe라는 자체 스피치-투-텍스트(speech-to-text) 모델을 출시하며 기술 영역을 확장했다.
33억 달러로 평가받는 이 스타트업은 방대한 음성 라이브러리를 통해 다수의 기업들이 텍스트-투-스피치(text-to-speech) 서비스를 제공하도록 지원해왔다. 하지만 현재 ElevenLabs는 스피치 감지(speech detection) 분야로 진출하여 AssemblyAI나 OpenAI의 Whisper 모델 등과 경쟁을 목표로 하고 있다.
ElevenLabs의 Scribe 모델은 출시와 동시에 99개 이상의 언어를 지원한다. 이 중 회사는 25개 이상의 언어를 단어 오류율(word error rate)이 5% 미만인 '우수 정확도(excellent accuracy)' 범주로 분류했다. 해당 목록에는 영어(공언 정확도 97%), 프랑스어, 독일어, 힌디어, 인도네시아어, 일본어, 칸나다어, 말라얄람어, 폴란드어, 포르투갈어, 스페인어, 베트남어가 포함된다. 그 외 언어들은 단어 오류율에 따라 '높음'(5%~10%), '좋음'(10%~20%), '보통'(25%~50%) 등의 다른 범주로 등급이 나뉘어 있다.
회사는 Scribe 모델이 FLEURS & Common Voice 벤치마크 테스트에서 다국어에 걸쳐 Google Gemini 2.0 Flash와 Whisper Large V3를 능가하는 성능을 보였다고 밝혔다.

ElevenLabs는 이전에 자체 AI 대화 에이전트 플랫폼의 스피치-투-텍스트 구성 요소를 개발하여 지난해 출시한 적이 있다. 그러나 이번 Scribe는 회사 최초의 독립형 스피치 감지 모델이다. 지난달 TechCrunch와의 인터뷰에서 CEO Mati Staniszewski는 스피치 감지 모델 개선에 대해 논했다.
그는 당시 "우리는 대화에서 무엇이 말해지고 있는지 더 잘 이해하는 것이 목표입니다. 콘텐츠 생성, 이해, 전사(transcribing)에만 머무르지 않는 방법을 연구하고 있습니다"라고 말했다. 이어 "많은 사람이 스피치-투-텍스트가 이미 해결된 문제라고 말하지만, 실제로는 많은 언어에서 성능이 매우 떨어진다. 내부 데이터 주석 팀과 신속한 피드백 시스템을 갖추고 있기 때문에 더 나은 스피치 감지 모델을 구축할 수 있다고 확신합니다"라고 덧붙였다.
Scribe 모델은 화자가 누구인지 구분하는 스마트 화자 분리(speaker diarization) 기능, 정확한 자막 생성을 위한 단어별 타임스탬프, 관중 웃음소리와 같은 사운드 이벤트를 자동으로 태그하는 기능 등을 갖추고 있다. 이 스타트업은 고객이 스튜디오를 통해 비디오 콘텐츠를 직접 전사하여 자막이나 캡션을 추가할 수 있는 방법을 제공한다.
현재 Scribe는 사전 녹음된 오디오 형식으로만 작동한다. 회사는 곧 저지연(low-latency) 실시간 버전의 모델을 출시할 예정이며, 이는 회의록 전사나 음성 메모 작성에는 아직 효과적이지 않음을 의미한다.
ElevenLabs는 Scribe의 가격을 전사된 오디오 1시간당 0.40달러로 책정하고 있다. 이 요율은 경쟁력이 있지만, 현재 일부 경쟁사들은 특정 기능 차별화 전략을 통해 오디오 전사 서비스에 더 낮은 가격을 제시하고 있는 상황이다.
[출처:] https://techcrunch.com/2025/02/26/elevenlabs-is-launching-its-own-speech-to-text-model