• 아마존, 새로운 AI 음성 모델 '노바 소닉' 공개

    article image

    화요일, 아마존은 음성을 네이티브로 처리하고 자연스러운 음성을 생성하는 새로운 생성형 AI 모델인 Nova Sonic을 공개했습니다. 아마존에 따르면, Nova Sonic의 성능은 속도, 음성 인식, 대화 품질을 측정하는 벤치마크에서 OpenAI와 Google이 보유한 최첨단 음성 모델과 경쟁할 수 있는 수준입니다.

    Nova Sonic은 ChatGPT의 음성 모드(Voice Mode)를 구동하는 모델과 같이 사용자에게 보다 자연스럽게 느껴지는 최신 AI 음성 모델에 대한 아마존의 해답입니다. 최근의 기술적 혁신 덕분에 Alexa나 Apple의 Siri 같은 기존(legacy) 디지털 비서 모델들은 비교했을 때 현저히 부자연스럽게 느껴진다고 합니다.

    Nova Sonic은 엔터프라이즈 AI 애플리케이션 개발을 위한 아마존의 개발자 플랫폼인 Bedrock을 통해 새로운 양방향 스트리밍 API로 이용 가능합니다. 아마존은 보도 자료를 통해 Nova Sonic을 시장에서 "가장 비용 효율적인" AI 음성 모델이라 언급하며, OpenAI의 GPT-4o 모델보다 약 80% 저렴하다고 밝혔습니다.

    아마존 부사장 겸 AGI(인공 일반 지능) 책임 과학자인 로히트 프라사드(Rohit Prasad)에 따르면, Nova Sonic의 구성 요소는 이미 아마존이 업그레이드한 디지털 음성 비서인 Alexa+에 적용되고 있습니다.

    프라사드는 TechCrunch와의 인터뷰에서 Nova Sonic이 Alexa를 구성하는 기술적 기반인 "대규모 오케스트레이션 시스템(large orchestration systems)"에 대한 아마존의 전문성을 바탕으로 개발되었다고 설명했습니다. 그는 Nova Sonic이 경쟁사 AI 음성 모델보다 사용자 요청을 다양한 API로 효과적으로 라우팅하는 데 뛰어나다고 강조했습니다. 이 기능 덕분에 Nova Sonic은 인터넷에서 실시간 정보를 검색해야 하는 상황, 자체 독점 데이터 소스를 파싱해야 하는 상황, 또는 외부 애플리케이션에서 특정 동작을 수행해야 하는 상황을 정확히 인지하고, 상황에 맞는 적절한 도구를 사용하여 작업을 수행할 수 있습니다.

    아마존에 따르면, Nova Sonic은 양방향 대화 중 화자의 일시 정지나 끼어듦을 고려하여 "적절한 시점"에 응답을 기다립니다. 또한, 사용자의 음성 스피치에 대한 텍스트 전사본(text transcript)을 자동으로 생성하여 개발자들이 이를 다양한 애플리케이션에 활용할 수 있도록 지원합니다.

    프라사드에 따르면, Nova Sonic은 타 AI 음성 모델 대비 음성 인식 오류율이 낮아, 사용자가 웅얼거리거나 말실수를 하거나 주변 환경이 시끄러워도 사용자의 의도를 이해하는 능력이 상대적으로 뛰어납니다. 아마존은 언어 및 방언에 걸친 음성 인식 벤치마크인 Multilingual LibriSpeech에서 Nova Sonic이 영어, 프랑스어, 이탈리아어, 독일어, 스페인어에 걸쳐 평균 단어 오류율(WER, word error rate) 4.2%를 달성했다고 밝혔습니다. 이는 해당 언어권에서 모델의 단어 100개 중 약 4개가 인간이 전사한 원본과 다르다는 의미입니다.

    다중 참가자와 함께하는 환경에서 발생하는 소음 수준을 측정한 또 다른 벤치마크인 Augmented Multi Party Interaction에서는 Nova Sonic이 OpenAI의 GPT-4o-transcribe 모델 대비 WER 정확도가 46.7% 높게 나타났다고 아마존은 전했습니다. 또한, Nova Sonic은 평균 인지 지연 시간(perceived latency) 1.09초로 업계 최고 수준의 속도를 자랑합니다. 이는 OpenAI의 Realtime API를 구동하는 GPT-4o 모델이 응답하는 1.18초보다 빠른 수치입니다(Artificial Analysis 벤치마킹 기준).

    프라사드는 Nova Sonic이 아마존의 광범위한 AGI(Artificial General Intelligence, 인공 일반 지능) 구축 전략의 일환이라고 설명했습니다. 아마존은 AGI를 "컴퓨터에서 인간이 수행할 수 있는 모든 작업을 수행하는 AI 시스템"으로 정의하고 있습니다. 프라사드는 앞으로 아마존이 이미지, 비디오, 음성 등 다양한 모달리티는 물론, "물리적 세계에 사물을 도입할 때 관련되는 기타 감각 데이터"까지 이해할 수 있는 더 많은 AI 모델을 출시할 계획이라고 밝혔습니다.

    프라사드가 총괄하는 아마존의 AGI 부문이 현재 회사의 제품 전략에서 중요한 역할을 하고 있는 것으로 보입니다. 실제로 지난주에는 아마존이 Alexa+와 아마존의 'Buy for Me' 기능의 일부를 구동하는 것으로 보이는 브라우저 기반 AI 모델인 Nova Act의 미리보기를 출시했습니다. 프라사드는 Nova Sonic을 시작으로, 회사가 개발자들이 활용할 수 있도록 자체 개발한 AI 모델들을 더 많이 제공할 방침이라고 덧붙였습니다.

    [출처:] https://techcrunch.com/2025/04/08/amazon-unveils-a-new-ai-voice-model-nova-sonic