OpenAI, ChatGPT의 초현실적인 음성을 일부 유료 사용자에게 출시

sw_reporter

OpenAI는 화요일에 ChatGPT의 Advanced Voice Mode 출시를 시작했으며, 사용자는 이를 통해 GPT-4o의 초현실적인 오디오 응답을 처음 경험할 수 있게 되었습니다. 이 알파 버전은 오늘 소수의 ChatGPT Plus 사용자에게만 제공되며, OpenAI는 이 기능이 2024년 가을에 모든 Plus 사용자에게 점진적으로 확대될 것이라고 밝혔습니다.

OpenAI가 지난 5월 GPT-4o의 목소리를 처음 공개했을 때, 이 기능은 빠른 응답 속도와 실제 인간의 목소리와 놀랄 만큼 흡사한 유사성으로 큰 주목을 받았습니다. 특히 이 목소리는 영화 "Her"에 등장하는 인공지능 비서 역할을 맡은 배우 스칼렛 요한슨(Scarlett Johansson)의 음성을 연상시켰습니다. OpenAI가 시연을 진행한 직후, 요한슨은 샘 알트먼(Sam Altman) CEO로부터 자신의 목소리를 사용해 달라는 여러 요청을 거절했다고 밝힌 바 있으며, GPT-4o의 데모를 본 후에는 자신의 초상권을 방어하기 위해 법적 자문을 구하기도 했습니다. OpenAI는 요한슨의 목소리를 사용하지 않았다고 부인했지만, 이후 데모에서 사용된 목소리를 제거했습니다. 6월에는 OpenAI가 안전 조치를 개선하기 위해 Advanced Voice Mode의 출시를 연기한다고 공지했습니다.

한 달 만에 기다림의 끝이 다가왔습니다. OpenAI에 따르면, 봄 업데이트(Spring Update)에서 시연된 비디오 및 화면 공유 기능은 "추후 날짜"에 출시될 예정이어서 이번 알파 버전에는 포함되지 않습니다. 현재로서는 모두를 감탄시킨 GPT-4o 데모가 여전히 시연 수준에 머물러 있지만, 일부 프리미엄 사용자는 해당 데모에서 공개된 ChatGPT의 음성 기능에 접근할 수 있게 되었습니다.

ChatGPT는 이제 말하고 들을 수 있다

사용자들은 이미 ChatGPT에서 사용 가능한 Voice Mode를 경험했을 수 있지만, OpenAI는 Advanced Voice Mode가 이전과는 다르다고 설명합니다. 기존의 ChatGPT 오디오 솔루션은 세 가지 개별 모델을 사용했습니다. 즉, 사용자의 목소리를 텍스트로 변환하는 모델, GPT-4가 프롬프트를 처리하는 모델, 그리고 마지막으로 ChatGPT의 텍스트를 음성으로 변환하는 모델이었습니다. 그러나 GPT-4o는 멀티모달(multimodal) 능력을 갖추고 있어 보조 모델의 도움 없이 이러한 모든 작업을 통합 처리할 수 있으며, 이로 인해 지연 시간이 크게 줄어든 대화가 가능해졌습니다. 또한 OpenAI는 GPT-4o가 슬픔, 흥분, 노래와 같은 사용자의 감정적 억양을 감지할 수 있다고 주장합니다.

이번 파일럿 테스트를 통해 ChatGPT Plus 사용자는 OpenAI의 Advanced Voice Mode가 실제로 얼마나 초현실적인지 직접 확인할 수 있게 됩니다. TechCrunch는 본 기사 게재 전에 이 기능을 테스트하지 못했지만, 접근이 가능해지는 대로 리뷰를 진행할 예정입니다.

OpenAI는 ChatGPT의 새로운 음성 기능을 사용 현황을 면밀히 모니터링하기 위해 단계적으로 배포할 것이라고 밝히고 있습니다. 알파 그룹에 속한 사용자들은 ChatGPT 앱에서 알림을 받은 후, 사용 방법에 대한 지침이 담긴 이메일을 받게 될 예정입니다.

OpenAI는 데모 발표 이후 몇 달 동안 45개 국어를 구사하는 100명이 넘는 외부 레드팀(red teamers)을 대상으로 GPT-4o의 음성 기능을 테스트했다고 전했습니다. OpenAI에 따르면, 이러한 안전성 확보 노력에 대한 상세 보고서가 8월 초에 발표될 예정입니다.

이 회사는 Advanced Voice Mode가 유료 성우와 협력하여 제작된 ChatGPT의 네 가지 지정 음성, 즉 Juniper, Breeze, Cove, Ember로 제한될 것이라고 밝혔습니다. OpenAI가 지난 5월 시연에서 보여준 Sky 목소리는 이제 ChatGPT에서 사용할 수 없습니다. OpenAI 대변인 린다 맥칼럼(Lindsay McCallum)은 "ChatGPT는 개인이나 공인 등 타인의 목소리를 흉내 낼 수 없으며, 지정된 음성 중 하나와 다른 출력은 차단할 것입니다"라고 강조했습니다.

OpenAI는 딥페이크 논란을 피하기 위해 노력하고 있습니다. 지난 1월, AI 스타트업 ElevenLabs의 음성 복제 기술이 뉴햄프셔의 프라이머리 유권자들을 속여 바이든(Biden) 대통령을 사칭하는 데 사용되었던 사례가 대표적입니다.

OpenAI는 또한 음악 생성이나 기타 저작권 보호 오디오에 대한 특정 요청을 차단하는 새로운 필터를 도입했다고 덧붙였습니다. 지난 한 해 동안 AI 기업들은 저작권 침해로 법적 문제에 직면했으며, GPT-4o와 같은 오디오 모델은 고소장을 제기할 수 있는 완전히 새로운 범주의 법적 분쟁을 불러왔습니다. 특히 소송을 자주 거치는 기록 레이블들과는 이미 AI 노래 생성기인 Suno 및 Udio를 상대로 법적 다툼을 벌인 사례가 존재합니다.

[출처:] https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature