
지난 3월 말, OpenAI는 단 15초 분량의 음성만으로 사람의 목소리를 복제할 수 있다고 주장하는 AI 서비스인 ‘소규모 프리뷰(small-scale preview)’를 발표했습니다. 그러나 약 1년이 지난 현재까지도 이 도구는 프리뷰 상태에 머물러 있으며, OpenAI는 출시 시기나 향후 출시 여부에 대해 어떤 언급도 하지 않고 있습니다.
회사가 이 서비스를 광범위하게 출시하는 것을 주저하는 배경에는 오용에 대한 우려가 있을 수 있지만, 동시에 규제 감시를 피하려는 노력의 일환일 수도 있습니다. OpenAI는 역사적으로 안전성보다 '화려한 제품'을 우선시하고, 경쟁사에 앞서기 위해 출시를 서두른다는 비판을 받아왔습니다.
한 OpenAI 대변인은 TechCrunch에 회사 측이 현재까지도 '신뢰할 수 있는 파트너'들을 대상으로 Voice Engine을 제한적으로 테스트하고 있다고 밝혔습니다.
대변인은 "파트너들이 이 기술을 어떻게 활용하는지 배우면서 모델의 유용성과 안전성을 개선하고 있습니다"라고 말하며, "음성 치료, 언어 학습, 고객 지원, 비디오 게임 캐릭터, AI 아바타에 이르기까지 다양한 사용 사례들을 접하며 큰 기대감을 느낍니다"라고 덧붙였습니다.
OpenAI의 텍스트 음성 변환(text-to-speech) API뿐만 아니라 ChatGPT에서도 활용되는 Voice Engine은 원본 화자의 목소리와 매우 흡사한 자연스러운 음성을 생성합니다. 이 도구는 텍스트를 음성으로 변환하는 기능을 하지만, 콘텐츠에 대한 특정 가드레일(guardrails)이 존재합니다. 하지만 이 서비스는 처음부터 출시 지연과 변경되는 일정을 겪었습니다.
OpenAI가 2024년 6월 블로그 게시물에서 설명했듯이, Voice Engine 모델은 주어진 텍스트 스크립트에 대해 화자가 발음할 가장 확률 높은 소리를 예측하도록 학습합니다. 이때 다양한 목소리, 억양, 말하는 스타일을 종합적으로 고려합니다. 이를 통해 모델은 단순히 텍스트를 음성으로 변환하는 것을 넘어, 여러 유형의 화자가 텍스트를 소리 내어 읽는 방식을 반영하는 '발성된 발화물(spoken utterances)'까지 생성할 수 있게 됩니다.
TechCrunch가 입수한 초안 블로그 게시물에 따르면, OpenAI는 Voice Engine(초기 명칭: Custom Voices)을 2024년 3월 7일 자사 API에 출시할 계획이었습니다. 원래는 최대 100명의 '신뢰할 수 있는 개발자' 그룹에게 우선 접근권을 부여할 예정이었으며, 특히 '사회적 이익'을 제공하거나 기술의 '혁신적이고 책임감 있는' 활용을 보여주는 앱을 개발하는 개발자에게 우선권이 주어질 계획이었습니다. 심지어 OpenAI는 이를 상표 등록하고 가격까지 책정했는데, '표준' 목소리는 100만 원, '고급' 목소리는 150만 원이었습니다.
그러나 나중에 공개된 바에 따르면, 회사는 이를 연기했고, 개발자 커뮤니티의 반발에 부딪혔습니다. 이로 인해 회사는 서비스를 일시적으로 중단했습니다.
이후 공개된 바에 따르면, 회사는 서비스를 일시적으로 중단했습니다.
이 과정에서 회사는 서비스 중단 및 개편에 큰 어려움을 겪었습니다.
이러한 복잡한 과정은 사용자들에게 혼란과 실망감을 안겨주었습니다.
현재까지도 이 서비스의 출시 및 활용에 대한 논의가 활발하게 이루어지고 있으며, 업계의 변화에 따라 여러 차례 조정이 있었습니다.
결론적으로, 이 사례는 혁신 기술의 개발 과정에서 기술적 완성도뿐만 아니라 시장의 반응과 법적, 윤리적 고려 사항이 얼마나 중요한지를 보여주는 대표적인 사례로 남아 있습니다.
[출처:] https://techcrunch.com/2025/03/06/a-year-later-openai-still-hasnt-released-its-voice-cloning-tool