
OpenAI가 이전 버전을 개선했다고 주장하는 새로운 음성 전사 및 음성 생성 AI 모델을 API에 도입하고 있습니다.
OpenAI에게 이러한 모델들은 사용자를 대신하여 작업을 독립적으로 완수할 수 있는 자동화 시스템을 구축하는 광범위한 '에이전트 기반(agentic)' 비전에 부합합니다.
'에이전트'의 정의는 논란의 여지가 있을 수 있지만, OpenAI의 제품 총괄 책임자 올리비에 고데몽(Olivier Godement)은 그 해석 중 하나로 기업의 고객과 대화할 수 있는 챗봇을 꼽았습니다.
고데몽은 TechCrunch과의 브리핑에서 "앞으로 몇 달 동안 더 많은 에이전트들이 등장하는 것을 볼 것"이라며, "전반적인 핵심 주제는 고객과 개발자들이 유용하고, 이용 가능하며, 정확한 에이전트를 활용할 수 있도록 돕는 것"이라고 설명했습니다.
OpenAI는 새로운 텍스트-음성 변환(text-to-speech) 모델인 "gpt-4o-mini-tts"가 더 미묘하고 현실적인 음성뿐만 아니라, 이전 세대 음성 합성 모델보다 더 높은 '조종성(steerability)'을 갖추었다고 주장합니다. 개발자들은 gpt-4o-mini-tts에 자연어 명령을 내려 음성을 제어할 수 있습니다. 예를 들어, "미친 과학자처럼 말하라" 또는 "명상 선생님처럼 차분한 목소리를 사용하라"와 같은 지시가 가능합니다.
다음은 '진짜 범죄 다큐멘터리' 스타일의 거친 목소리 예시입니다:
(여기에 예시 삽입)
여기는 여성 '전문직' 목소리 샘플입니다:
OpenAI 제품 스태프 멤버인 제프 해리스(Jeff Harris)는 TechCrunch과의 인터뷰에서 목표가 개발자들이 음성 '경험'과 '맥락(context)'을 모두 맞춤 설정할 수 있도록 하는 것이라고 설명했습니다.
해리스는 "상황에 따라 단순히 평면적이고 단조로운 목소리만 원하는 것은 아닙니다"라며, "만약 고객 지원 경험 중 실수로 인해 사과하는 뉘앙스를 목소리로 담고 싶다면, 실제로 그 감정을 담아낼 수 있습니다... 저희의 큰 전제는 개발자와 사용자들이 단순히 '무슨' 말이 전달되는지뿐만 아니라 '어떻게' 전달되는지까지 통제하고 싶어 한다는 것입니다."라고 강조했습니다.
한편, OpenAI의 새로운 음성-텍스트 변환(speech-to-text) 모델인 "gpt-4o-transcribe"와 "gpt-4o-mini-transcribe"는 회사가 오랫동안 사용해 온 Whisper 전사(transcription) 모델을 효과적으로 대체합니다.
OpenAI에 따르면, 이 신규 모델들은 "다양하고 고품질의 오디오 데이터셋"으로 훈련되어, 혼란스러운 환경에서도 억양이 있거나 다양한 발음의 음성을 더 잘 포착할 수 있습니다.
해리스는 또한 모델들이 허위 정보를 만들어낼 가능성(환각, hallucination)이 줄었다고 덧붙였습니다.
Whisper는 대화 내용에서 단어— 심지어 전체 구절—를 조작하여, 인종 관련 논평부터 상상 속 의료 처치에 이르기까지 모든 것을 기록에 포함시키는 경향이 있어 악명이 높았습니다.
해리스는 "[이] 모델들은 그 측면에서 Whisper에 비해 크게 개선되었다"라며, "모델의 정확성을 확보하는 것이 신뢰할 수 있는 음성 경험에 필수적이며, (이 맥락에서) 정확하다는 것은 모델이 단어를 오해 없이 정확히 듣고 있으며, 듣지 못한 내용을 임의로 채워 넣지 않는다는 것을 의미합니다."라고 설명했습니다.
다만, 녹취되는 언어에 따라 성능은 다를 수 있습니다.
OpenAI의 내부 벤치마크에 따르면, 두 전사 모델 중 더 정확한 gpt-4o-transcribe는 타밀어, 텔루구어, 말라얄람어, 칸나다어와 같은 인도어 및 드라비다어 계열 언어에서 120개 중 30개에 육박하는 "단어 오류율(Word Error Rate, WER)"을 기록했습니다. 이는 해당 언어에서 모델의 단어 10개 중 3개가 인간의 전사 결과와 다를 수 있다는 의미입니다.
(OpenAI의 전사 벤치마킹 결과.)
전통적인 방식과는 달리, OpenAI는 신규 전사 모델들을 공개적으로 출시할 계획이 없습니다. 회사는 역사적으로 Whisper의 새로운 버전을 MIT 라이선스로 상업적 이용에 공개해 왔습니다.
해리스는 gpt-4o-transcribe와 gpt-4o-mini-transcribe가 "Whisper보다 훨씬 크기 때문에" 공개 배포하기에 적절하지 않다고 설명했습니다.
그는 "이들은 Whisper처럼 단순히 노트북에서 로컬로 구동할 수 있는 종류의 모델이 아닙니다. 저희는 오픈 소스로 무언가를 출시할 때 충분히 깊이 고민한 과정을 거치고, 그 특정 용도에 맞춰 정말 정교하게 다듬어진 모델을 갖추기를 원합니다. 그리고 엔드 유저 기기(end-user devices)가 오픈 소스 모델 측면에서 가장 흥미로운 활용 사례 중 하나라고 생각합니다."라고 덧붙였습니다.
본 자료는 Word Error Rate에 대한 용어를 명확히 하기 위해 2025년 3월 20일 오전 11시 54분(PT)에 업데이트되었으며, 벤치마크 결과 차트는 최신 버전으로 수정되었습니다.
[출처:] https://techcrunch.com/2025/03/20/openai-upgrades-its-transcription-and-voice-generating-ai-models