마이크로소프트, 세 가지 새로운 기반 모델로 AI 경쟁사들에 도전장 꺼내다

sw_reporter

마이크로소프트 AI는 거대 기술 기업의 연구소로서, 지난 목요일 텍스트, 음성, 이미지를 모두 생성할 수 있는 세 가지 핵심 AI 모델 출시를 발표했습니다.

이번 출시는 마이크로소프트가 여전히 OpenAI와의 파트너십에 기반하고 있음에도 불구하고, 자체적인 멀티모달 AI 모델 스택을 구축하고 경쟁사 AI 연구소와 경쟁하려는 지속적인 의지를 보여줍니다.

회사 보도 자료에 따르면, MAI-Transcribe-1은 25개 언어의 음성을 텍스트로 전사(transcribe)하는 모델로, 마이크로소프트의 Azure Fast 제품 대비 2.5배 빠른 속도를 자랑합니다. MAI-Voice-1은 오디오 생성 모델이며, 사용자가 1초 만에 60초 분량의 오디오를 생성하거나 맞춤형 목소리(custom voice)를 만들 수 있게 합니다. MAI-Image-2는 비디오 생성 모델입니다.

MAI-Image-2는 원래 새로운 거대 언어 모델 테스트 플랫폼인 MAI Playground를 통해 3월 19일에 처음 공개되었습니다. 현재 이 세 모델 모두 Microsoft Foundry에서 제공되고 있으며, 전사 모델과 음성 모델은 MAI Playground에서도 사용 가능합니다.

이 모델들은 마이크로소프트 AI CEO인 무스타파 술레이만(Mustafa Suleyman)이 이끄는 마이크로소프트의 MAI 슈퍼 인텔리전스 팀이 개발했습니다. 이 팀은 2025년 11월에 결성되어 발표되었습니다.

술레이만은 블로그 게시물에서 "마이크로소프트 AI는 '휴머니스트 AI(Humanist AI)'를 구축하고 있습니다. 저희는 AI 모델을 개발할 때 인간을 중심으로 두고, 사람들이 실제로 소통하는 방식을 최적화하며, 실질적인 활용을 염두에 두고 훈련한다는 확고한 관점을 가지고 있습니다"라고 밝혔습니다. 이어 "곧 Foundry와 마이크로소프트 제품 및 다양한 경험을 통해 더 많은 모델을 만나보실 수 있을 것"이라고 덧붙였습니다.

한편, 회사는 블로그 게시물에서 경쟁이 치열한 LLM 시장에서 MAI의 주요 강점은 이 모델들이 Google이나 OpenAI의 모델보다 저렴하다는 점이라고 언급했습니다.

MAI-Transcribe-1은 시간당 0.36달러부터 시작합니다. MAI-Voice-1은 100만 문자당 22달러부터 시작하며, MAI-Image-2는 텍스트 입력 100만 토큰당 5달러, 이미지 출력 100만 토큰당 33달러부터 책정됩니다.

자체 모델을 출시했음에도 불구하고, 술레이만은 VentureBeat와의 인터뷰에서 OpenAI와의 파트너십에 대한 마이크로소프트의 확고한 의지를 재차 강조했습니다. (최근 파트너십 재협상을 통해 마이크로소프트가 이러한 슈퍼 인텔리전스 연구를 본격적으로 추구할 수 있게 되었음에도 불구하고) 술레이만은 The Verge와의 인터뷰를 통해 마이크로소프트가 AI 연구소에 130억 달러 이상을 투자했으며, 다년 계약을 통해 다양한 제품에서 모델을 호스팅하고 있다고 설명했습니다.

마이크로소프트는 칩 분야에서도 같은 입장을 유지합니다. 자체 생산하는 칩뿐만 아니라 외부 기업의 칩도 함께 활용하는 것입니다.

[출처:] https://techcrunch.com/2026/04/02/microsoft-takes-on-ai-rivals-with-three-new-foundational-models