코히어, 전사(Transcription) 전용 오픈 소스 음성 모델 출시

sw_reporter

엔터프라이즈 AI 기업 코히어(Cohere)가 목요일 첫 음성 모델인 Transcribe를 출시했습니다. Transcribe는 메모 작성이나 음성 분석과 같은 작업에 활용 가능한 오픈 소스 자동 음성 인식(ASR) 모델입니다.

파라미터가 단 20억 개로 비교적 가볍게 설계되어, 사용자가 모델을 자체 구축(self-host)하고자 할 때 소비자용 GPU와 함께 사용할 수 있습니다. 이 모델은 현재 영어, 프랑스어, 독일어, 이탈리아어, 스페인어, 포르투갈어, 그리스어, 네덜란드어, 폴란드어, 중국어, 일본어, 한국어, 베트남어, 아랍어 총 14개 언어를 지원합니다.

코히어에 따르면, Transcribe는 Hugging Face Open ASR 리더보드에서 Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2, Qwen3-ASR-1.7B Speech 등 다른 모델들을 능가했습니다. Transcribe는 평균 단어 오류율(WER) 5.42를 기록하며, 이 벤치마크 상의 어떤 모델보다 낮은 수치를 달성했습니다.

또한 코히어는 인간 평가자들이 정확성, 일관성, 사용성 측면에서 평가한 테스트에서 Transcribe가 경쟁 모델 대비 평균 61%의 승률을 보였다고 주장합니다. 다만, 포르투갈어, 독일어, 스페인어를 전사하는 경우에는 경쟁 모델 대비 성능이 떨어진 사례도 있었습니다.

코히어는 Transcribe가 분당 525분 분량의 오디오를 처리할 수 있어, 모델 등급을 고려했을 때 높은 처리 속도를 자랑한다고 설명했습니다.

한편, 코히어는 Transcribe를 자사의 엔터프라이즈 에이전트 오케스트레이션 플랫폼에 통합할 계획이며, 해당 모델을 무료 API를 통해 제공하고 있습니다. 또한, 이 모델은 코히어의 관리형 추론 플랫폼인 [이곳]에서도 사용 가능합니다.

음성 인식 모델은 Granola나 [이곳]과 같은 메모 작성 및 받아쓰기 앱에 대한 수요가 증가함에 따라 인기가 높아지는 추세입니다.

한편, 코히어는 올해 초 투자자들에게 2025년 연간 반복 매출(ARR) 2억 4,000만 달러를 창출할 것이라고 보고했으며, CEO인 에이단 고메즈(Aidan Gomez)는 이 스타트업이 "곧" 상장할 가능성이 있다고 언급한 바 있습니다.

[출처:] https://techcrunch.com/2026/03/26/cohere-launches-an-open-source-voice-model-specifically-for-transcription