미스트랄, 최초의 오픈 소스 AI 오디오 모델 '보크스트랄' 공개

sw_reporter

AI 시스템의 발전으로 음성 기반 소통 방식이 기계와 인간 간의 기본 소통 방식으로 자리 잡고 있습니다. 프랑스 AI 스타트업 [회사명]은 자체 오픈 모델을 공개하며 오디오 시장에 진출, 폐쇄적인 기업 시스템의 지배력에 오픈 웨이트(open-weight) 대안으로 도전장을 내밀었습니다.

미스트랄(Mistral)은 지난 화요일, 기업 시장을 겨냥한 최초의 오디오 모델 제품군인 Voxtral의 출시를 발표했습니다.

미스트랄은 Voxtral을 "실제 업무 환경에서 활용 가능한 음성 지능을 구축할 수 있는 최초의 오픈 모델"이라고 소개했습니다.

즉, 개발자들은 더 이상 ▲전사(transcript)의 정확도가 낮고 발화 내용에 대한 이해도가 떨어지는 저렴한 오픈 시스템과, ▲기능은 우수하지만 폐쇄적인 구조 때문에 높은 운영 비용과 낮은 배포 통제권을 안기는 시스템 사이에서 선택할 필요가 없어졌다는 의미입니다.

기업 입장에서 이는 Voxtral이 비교 가능한 타 솔루션 대비 "절반 이하의 가격"을 제시하는 경제적인 대안임을 의미합니다.

미스트랄에 따르면 Voxtral은 최대 30분의 오디오를 전사할 수 있습니다. 여기에 LLM(거대 언어 모델) 기반인 Mistral Small 3.1의 기능을 통해 최대 40분까지 내용 이해가 가능하며, 사용자는 오디오 콘텐츠에 대해 질의를 하거나 요약본을 생성하고, API 호출 또는 함수 실행 같은 실시간 작업으로 음성 명령을 변환할 수 있습니다. 또한 Voxtral은 영어, 스페인어, 프랑스어, 포르투갈어, 힌디어, 독일어, 네덜란드어, 이탈리아어를 포함한 여러 언어의 전사 및 이해가 가능합니다.

미스트랄은 "음성 이해 모델" 두 가지 버전을 제공합니다. 첫 번째인 Voxtral Small은 프로덕션 규모 배포를 위해 240억 개의 파라미터를 갖추고 있으며, ElevenLabs Scribe, GPT-4o-mini, Gemini 2.5 Flash와 견줄 만한 성능을 보입니다.

두 번째 Voxtral Mini는 로컬 및 엣지(edge) 배포를 위해 30억 개의 파라미터를 갖추고 있습니다. 이와 더불어, 30억 파라미터 모델을 기반으로 개발된 초저가/경량화된 빠른 API 버전인 Voxtral Mini Transcribe가 있습니다. 이 모델은 전사만을 목적으로 하는 사용 사례에 최적화되었으며, OpenAI Whisper보다 저렴한 가격으로 뛰어난 성능을 약속합니다.

사용자들은 Hugging Face에서 API를 다운로드하거나 미스트랄의 챗봇인 Le Chat에서 모델 테스트를 통해 Voxtral을 무료로 체험할 수 있습니다. 회사 측에 따르면, 애플리케이션에 API를 통합하는 비용은 분당 $0.001부터 시작합니다.

이번 출시는 미스트랄이 신뢰성 향상을 위해 문제 해결 과정을 단계별로 수행하는 최초의 추론 모델 제품군인 Magistral을 발표한 지 한 달 만에 이루어졌습니다.

유럽 최고의 AI 기업 중 하나인 미스트랄은 오픈 소스 AI 모델 지지 활동으로 잘 알려져 있습니다. 이달 초 TechCrunch는 이 회사가 아부다비의 MGX 펀드와 같은 투자자들로부터 최대 10억 달러 규모의 지분 투자를 유치하기 위한 논의를 진행 중이라고 보도한 바 있습니다.

[출처:] https://techcrunch.com/2025/07/15/mistral-releases-voxtral-its-first-open-source-ai-audio-model