OpenAI는 월요일 Dev Day 행사에서 대규모 API 업데이트를 공개하며, 최신 언어 모델인 GPT-5 Pro와 새로운 비디오 생성 모델 Sora 2, 그리고 소형/저가형 음성 모델을 선보였다.
이번 업데이트들은 에이전트 구축 도구(agent-building tool) 출시와 ChatGPT 내 앱 구축 기능 등, 개발자들을 OpenAI 생태계로 유치하기 위한 일련의 발표의 일부다.
OpenAI CEO 샘 알트만(Sam Altman)에 따르면, GPT-5 Pro의 추가는 특히 "높은 정확성과 추론 깊이"가 요구되는 금융, 법률, 의료 산업의 개발자들에게 큰 매력이 될 것으로 예상된다.
알트만은 또한 음성 기능이 미래에 필수적일 것이라 강조하며, 이는 AI와 상호작용하는 주요 방식 중 하나가 빠르게 자리 잡고 있기 때문이라고 설명했다. 이에 OpenAI는 오디오 및 음성을 위한 저지연 스트리밍 상호 작용을 지원하는 작고 저렴한 음성 모델인 "gpt-realtime mini"를 API로 출시한다. 이 신규 모델은 기존의 고급 음성 모델보다 비용이 70% 저렴함에도 "동일한 음성 품질과 표현력"을 유지한다고 약속한다.
한편, OpenAI 개발자 생태계에 참여하는 크리에이터들은 API를 통해 Sora 2를 미리 사용해볼 수 있게 되었다. OpenAI는 지난주 Sora 앱과 함께 최신 오디오 및 비디오 생성기인 Sora 2를 공개했으며, 이 Sora 앱은 짧은 AI 생성 비디오로 가득한 틱톡(TikTok) 경쟁 서비스다. 사용자는 프롬프트만으로 자신, 친구 등 원하는 대상의 영상을 생성하고 틱톡 스타일의 알고리즘 피드를 통해 공유할 수 있다.
알트만은 "개발자들은 이제 Sora 2의 놀라운 비디오 결과물을 구동하는 것과 동일한 모델을 자신들의 앱에서 바로 이용할 수 있게 되었습니다"라고 밝혔다.
Sora 2는 이전 버전에 비해 현실적이고 물리적으로 일관된 장면을 구현할 수 있으며, 사운드 동기화 기능이 강화되고 창의적 제어 범위가 대폭 확대되었다. 이는 세밀한 카메라 연출 지시부터 스타일화된 비주얼 구현까지 가능하게 한다.
알트만은 "예를 들어, 스마트폰으로 촬영한 뷰를 가져와 Sora에 광대하고 영화적인 와이드 샷으로 확장하라고 요청할 수 있습니다. 하지만 가장 흥미로운 점은 단순히 음성뿐만 아니라 풍부한 사운드스케이프, 주변 환경 오디오, 그리고 보이는 것과 근거를 둔 동기화된 효과와 비주얼을 이 새로운 모델이 얼마나 잘 결합하는가입니다"라고 설명했다.
Sora 2는 콘셉트 개발 도구로 활용된다. 예를 들어, 제품의 전반적인 분위기를 기반으로 광고의 시각적 출발점을 만들거나, Mattel 디자이너가 스케치를 장난감 콘셉트로 변환하는 데 사용될 수 있다. 이러한 활용 가능성은 알트만이 Dev Day에서 제시한, OpenAI가 장난감 제작 파이프라인에 생성형 AI를 도입하는 바비(Barbie) 제조업체와의 계약 사례를 통해 구체적으로 설명되었다.