스테빌리티 AI, 스마트폰에서 구동 가능한 오디오 생성 모델 출시

sw_reporter

AI 스타트업 Stability AI가 '스테레오' 오디오 생성 AI 모델인 Stable Audio Open Small을 출시했습니다. 이 모델은 회사의 주장대로 시장에서 가장 빠르며 스마트폰에서도 효율적으로 구동될 수 있는 오디오 생성 AI입니다.

Stable Audio Open Small은 Stability AI와 태블릿, 스마트폰 및 기타 모바일 장치의 프로세서에 사용되는 핵심 칩을 생산하는 반도체 기업 Arm의 협력을 통해 탄생했습니다. Suno나 Udio 같은 여러 AI 기반 애플리케이션도 오디오를 생성할 수 있지만, 대부분 클라우드 처리에 의존하여 오프라인 환경에서는 사용이 불가능합니다.

Stability는 또한 Stable Audio Open Small의 학습 데이터셋이 로열티 프리 오디오 라이브러리인 Free Music Archive와 Freesound의 음악으로만 구성되었다고 강조했습니다. 이는 앞서 언급된 Suno나 Udio의 학습 데이터셋이 저작권이 있는 콘텐츠를 포함할 위험이 있어 지식재산권(IP) 문제를 초래할 수 있다는 점과 대조적입니다.

Stable Audio Open Small은 3억 4,100만 개의 파라미터 크기이며 Arm CPU에서 구동되도록 최적화되었습니다. (파라미터는 모델의 동작을 안내하는 내부 구성 요소로, 때로는 '가중치(weights)'라고도 불립니다.) Stability AI에 따르면, 짧은 오디오 샘플 및 음향 효과(예: 드럼 리프나 악기 리프)를 빠르게 생성하도록 설계된 이 모델은 스마트폰에서 8초가 채 안 되는 시간 동안 최대 11초 분량의 오디오를 생성할 수 있습니다.

[생성 샘플 예시]

[추가 샘플 예시]

이 모델이 완벽한 것은 아닙니다. Stable Audio Open Small은 영어로 작성된 프롬프트만 지원하며, Stability는 공식 문서에서 본 모델이 실제 보컬이나 고품질의 노래는 생성할 수 없다고 명시했습니다. 또한, Stability는 학습 데이터가 서구권에 편향되어 있기 때문에 모든 음악 장르에서 균일하게 좋은 성능을 내지는 못한다고 경고합니다.

개발자들에게 또 다른 고려 사항은 Stable Audio Open Small의 비교적 제한적인 사용 조건입니다. 이 모델은 연간 매출 100만 달러 미만인 연구원, 취미 사용자, 기업에게는 무료로 제공되지만, 연간 매출 100만 달러를 초과하는 개발 조직은 Stability의 유료 엔터프라이즈 라이선스를 구매해야 합니다.

한편, 인기 이미지 생성 모델 Stable Diffusion을 개발한 Stability는 지난해 Eric Schmidt와 Napster 창립자 Sean Parker를 포함한 투자자들로부터 사업 재건을 위한 신규 자금을 유치했습니다. Stability의 공동 창립자이자 전 CEO인 Emad Mostaque이 회사를 재정적 어려움에 빠뜨렸다는 소문이 돌면서, 이로 인해 직원들의 사직, Canva와의 파트너십 무산, 그리고 투자자들의 회사 전망에 대한 우려가 커졌습니다.

최근 몇 달 동안 Stability는 새로운 CEO를 선임하고, 영화 제작자 제임스 카메론을 이사회 이사로 위촉했으며, 여러 새로운 이미지 생성 모델을 출시하며 변화를 모색하고 있습니다.

[출처:] https://techcrunch.com/2025/05/14/stability-ai-releases-an-audio-generating-model-that-can-run-on-smartphones