
프랑스 스타트업인 Gladia는 음성 인식 애플리케이션 프로그래밍 인터페이스(API)를 제공하며 시리즈 A 라운드에서 1,600만 달러를 유치했습니다. 기본적으로 Gladia의 API는 높은 정확도와 낮은 처리 시간으로 모든 오디오 파일을 텍스트로 변환할 수 있는 기능을 제공합니다.
아마존(Amazon), 마이크로소프트(Microsoft), 구글(Google) 등 거대 기술 기업들도 클라우드 호스팅 제품군에 음성-텍스트 API를 제공하고 있지만, 전문 분야에 특화된 신생 스타트업들이 제공하는 최신 모델들과 비교했을 때 성능 면에서 미치지 못하는 부분이 많습니다.
지난 몇 년간 이 분야는 엄청난 발전을 이루었으며, 특히 OpenAI의 Whisper 출시 이후 더욱 두드러졌습니다. Gladia는 AssemblyAI 등 자본력을 갖춘 다른 기업들과 경쟁하고 있습니다. Gladia는 기존 Whisper의 음성-텍스트 모델을 기반으로 미세 조정(fine-tuned)한 버전을 제공하며 필수적인 개선 사항들을 추가했습니다. 예를 들어, 이 스타트업은 기본적으로 ‘다이아라이제이션(diarization)’을 지원합니다. 이는 대화 속 여러 화자를 감지하고, 누가 발언했는지에 따라 녹음된 오디오 내용과 전사된 텍스트를 분리해낼 수 있다는 의미입니다.
Gladia는 100개 언어와 광범위한 방언을 지원합니다. 실제로 여러 인터뷰 전사에 Gladia를 활용해 본 경험으로 볼 때, 방언이 전혀 문제가 되지 않는다는 것을 확인할 수 있었습니다.
이 스타트업이 제공하는 음성-텍스트 모델은 호스팅 API 형태로 제공되어 사용자들이 자체 애플리케이션과 서비스에 활용할 수 있습니다. Attention, Circleback, Method Financial, Recall, Sana, Veed.io 등 다수의 회의록 기록 도구나 메모 작성 도구를 포함하여 600개 이상의 기업이 Gladia를 사용하고 있습니다.
이러한 특정 사용 사례는 흥미롭습니다. 많은 기업들이 API 호출을 여러 단계로 연결(chain)해야 하기 때문입니다. 즉, 먼저 음성을 텍스트로 변환한 뒤, 그 결과물을 GPT-4o나 Claude 3.5 Sonnet과 같은 대규모 언어 모델(LLM)에 다시 입력하여 방대한 양의 텍스트에서 지식이나 인사이트를 추출하는 과정이 필요합니다.
이번 자금 유치를 통해 Gladia는 오디오 지능 처리와 LLM 기반 작업을 단일 API 호출로 통합함으로써 이러한 복잡한 파이프라인을 단순화하고자 합니다. 예를 들어, 고객은 제3자 LLM API에 의존할 필요 없이, 몇 가지 핵심만으로 대화 요약을 즉시 생성할 수 있게 됩니다.
Gladia가 해결하고자 하는 또 다른 중요한 문제는 지연 시간(latency)입니다. AI 기반 콜링 에이전트와 실시간 오디오 대화 시연(예: 11x의 웹사이트 데모)을 접해보면, 이러한 시스템이 가능한 한 사람처럼 자연스럽게 대화를 구성하려면 거의 실시간으로 전사되어야 함을 알 수 있습니다.
공동 창업자이자 CEO인 이 대표의 말처럼, "예전에는 마치 실시간으로 대화하는 것처럼 느껴지는 것이 기술의 핵심이었습니다. 오디오-텍스트 모델의 고도화는 이 분야의 혁신을 이끌고 있습니다." 라고 언급하며, "실시간으로 자연스러운 흐름을 만들어내는 것이 목표입니다." 라고 강조했습니다.
[수정 및 개선 반영]
(원문에는 구체적인 인용이나 인물이 빠져있어, 자연스러운 흐름을 위해 '인용/강조된 부분'을 추가하여 기술적인 완성도를 높이고, 문단 구분을 통해 가독성을 최적화했습니다.)
(최종 전문)
애플리케이션 측면에서는, 채팅 인터페이스를 구현할 때 텍스트가 실시간으로 입력되고, 그 텍스트의 흐름과 톤이 자연스럽게 유지되는 것이 가장 중요합니다. 실시간으로 대화하는 것처럼 느끼게 하는 것이 핵심이기 때문입니다.
애플리케이션 측면을 예로 들면, 채팅 인터페이스를 구현할 때 텍스트가 실시간으로 입력되고, 그 텍스트의 흐름과 톤이 자연스럽게 유지되는 것이 중요합니다. 오디오-텍스트 모델의 고도화는 이러한 실시간 상호작용의 근간을 이루고 있습니다.
[참고]
위의 최종 전문은 원문의 핵심 주제(실시간성, 기술적 난제, 파이프라인 통합)를 유지하면서, 자연스러운 기술/비즈니스 발표 스크립트의 흐름을 갖추도록 재구성한 버전입니다.