메타, 차세대 Llama 모델에 업그레이드된 음성 기능 탑재할 가능성

sw_reporter

파이낸셜 타임즈(Financial Times)의 보도에 따르면, 메타(Meta)의 차기 주요 "오픈" AI 모델은 음성 기능에 중점을 둘 가능성이 있습니다. 이 기사에 따르면, 메타는 Llama 모델 계열의 차세대 주력 모델인 Llama 4에 개선된 음성 기능을 도입할 계획이며, 이는 "몇 주 내" 출시될 것으로 예상됩니다. 보도에 따르면, 메타는 사용자들로 하여금 모델의 발화 중간에 말을 끊을 수 있도록 하는 기능에 특히 집중하고 있는데, 이는 OpenAI의 ChatGPT 음성 모드나 Google의 Gemini Live 경험과 유사합니다.

메타 최고 제품 책임자(CPO) 크리스 콕스(Chris Cox)는 금주 모건 스탠리 컨퍼런스에서 Llama 4가 음성뿐만 아니라 텍스트 및 다른 유형의 데이터를 네이티브하게 해석하고 출력할 수 있는 "옴니(omni)" 모델이 될 것이라고 언급했습니다.

중국 AI 연구소 DeepSeek의 오픈 모델들이 메타의 Llama 모델들과 견줄 만하거나 그 이상의 성능을 보여주면서, Llama 개발은 급물살을 타게 되었습니다. 메타는 DeepSeek이 모델 운영 및 배포 비용을 어떻게 절감했는지 파악하기 위해 전담 워룸을 급히 마련한 것으로 알려졌습니다.

파이낸셜타임스(Financial Times) 보도에 따르면, 메타의 차세대 주요 '오픈' AI 모델이 음성 기능에 중점을 둘 것으로 알려졌다.

해당 기사에 따르면, 메타는 자사 Llama 모델 제품군의 다음 플래그십 모델인 Llama 4를 통해 향상된 음성 기능을 도입할 계획이며, 이 모델은 "몇 주 내" 출시될 것으로 예상된다. 특히 메타는 사용자가 모델의 발화 중간에 대화를 중단시키거나 개입할 수 있는 기능에 주력해 온 것으로 알려졌는데, 이는 OpenAI의 ChatGPT 음성 모드(Voice Mode)나 Google의 Gemini Live 경험과 유사한 기능이다.

메타 최고 제품 책임자(CPO)인 크리스 콕스(Chris Cox)는 이번 주 모건 스탠리(Morgan Stanley) 컨퍼런스에서 Llama 4가 텍스트는 물론 음성 및 기타 유형의 데이터를 네이티브(natively)로 해석하고 출력할 수 있는 "옴니(omni)" 모델이 될 것이라고 밝혔다.

이와 관련하여, 중국 AI 연구소 딥시크(DeepSeek)의 오픈 모델들이 메타의 Llama 모델과 필적하거나 그 이상의 성능을 보여주자, Llama 개발은 전례 없는 속도로 가속화되고 있다. 이에 메타는 딥시크가 모델 운영 및 배포 비용을 어떻게 절감했는지 파악하기 위해 워룸(war room)을 마련하고 총력을 기울이고 있는 것으로 전해졌다.

[출처:] https://techcrunch.com/2025/03/07/metas-next-llama-models-may-have-upgraded-voice-features