OpenAI, 오디오에 대규모 베팅… 실리콘밸리, 스크린에 '전쟁' 선포

sw_reporter

OpenAI는 오디오 AI에 막대한 공을 기울이고 있으며, 이는 단순히 ChatGPT의 음성 품질을 개선하는 수준을 넘어섰다. The Information의 새로운 보도에 따르면, 이 회사는 약 1년 후 출시될 오디오 중심의 개인 기기를 준비하기 위해 지난 두 달간 여러 엔지니어링, 제품, 연구팀을 통합하며 오디오 모델 전반을 개편했다.

이러한 움직임은 기술 산업 전체의 흐름, 즉 화면이 배경 소음으로 전환되고 오디오가 전면에 나서는 미래를 반영한다. 이미 스마트 스피커는 미국 가정의 3분의 1 이상에서 음성 비서가 필수적인 존재가 되었다. Meta는 Ray-Ban 스마트 글래스용 기능을 출시했는데, 이는 5개의 마이크 배열을 활용하여 소음이 많은 환경에서도 대화를 듣는 데 도움을 줌으로써, 사용자 얼굴을 일종의 방향성 청취 장치로 전환하는 것이다. 한편, Google은 지난 6월부터 검색 결과를 대화형 요약본으로 변환하는 기능을 실험하고 있으며, Tesla는 xAI의 챗봇 Grok을 차량에 통합하여 내비게이션부터 공조 시스템 제어까지 모든 것을 자연스러운 대화로 처리하는 대화형 음성 비서를 구축하고 있다.

이러한 베팅은 기술 거대 기업들만의 전유물이 아니다. 수많은 스타트업들 역시 정도의 차이는 있으나 같은 확신을 가지고 시장에 등장했다. Humane AI Pin의 제작사들은 이 화면 없는 웨어러블 장치가 교훈적인 실패 사례가 되기 전에 수억 달러를 소진했다. 또한, 자신의 삶을 기록하고 동반자 역할을 하겠다고 주장하는 목걸이 형태의 Friend AI 펜던트는 사생활 침해 우려와 실존적 불안감을 동시에 불러일으켰다. 나아가 현재 최소 두 회사가 (그리고 Pebble의 창업자가 이끄는 회사도 포함하여) 2026년에 처음 출시될 AI 링을 개발하며, 사용자가 말 그대로 손과 대화할 수 있게 만들고 있다.

장치 형태(form factors)는 다를 수 있으나, 그 근본적인 명제는 같다. 바로 '오디오가 미래의 인터페이스'라는 것이다. 가정, 자동차, 심지어 우리의 얼굴까지 모든 공간이 제어 표면(control surface)으로 변화하고 있다. 2026년 초 출시 예정인 OpenAI의 새로운 오디오 모델은 더욱 자연스럽게 들릴 것으로 전해지며, 마치 실제 대화 상대처럼 대화 중 단절을 처리하고, 심지어 사용자가 말하는 동안에도 응답하는 능력을 갖출 것으로 알려졌다. 이는 현존하는 모델들이 구현하기 어려운 기능이다. 아울러 회사는 장치라기보다는 동반자 역할을 하는 안경이나 화면 없는 스마트 스피커를 포함한 일련의 기기를 구상하고 있다고 알려졌다.

이 모든 것은 크게 놀라운 일은 아니다. The Information이 지적했듯이, 전 애플 디자인 책임자이자 5월에 자신의 회사 io를 통해 OpenAI의 하드웨어 개발에 합류한 조니 아이브(Jony Ive)는 기기 중독 문제 해결을 최우선 과제로 삼았으며, 오디오 중심의 디자인을 과거 소비자 가젯의 결함을 바로잡을 기회로 보고 있다.

[출처:] https://techcrunch.com/2026/01/01/openai-bets-big-on-audio-as-silicon-valley-declares-war-on-screens