Stability AI가 오디오 생성 모델을 Arm 칩에서 구동되도록 최적화했다

sw_reporter

AI 스타트업 Stability AI는 칩 제조사 Arm과 손잡고, 효과음을 포함한 오디오를 생성할 수 있는 자체 AI 모델인 Stable Audio Open을 Arm 칩이 탑재된 모바일 기기에서 구동되도록 했습니다.

Suno나 Udio와 같이 오디오를 생성하는 여러 AI 기반 앱이 있지만, 대부분 클라우드 처리에 의존하기 때문에 오프라인에서는 사용이 어렵습니다. 더욱이, 일부 오디오 생성 모델은 저작권이 있는 콘텐츠로 학습되어 지적 재산권(IP) 문제가 발생할 수 있습니다. 반면, Stability는 Stable Audio Open의 학습 데이터 세트가 전적으로 로열티 프리(royalty-free) 오디오와 노래로 구성되어 있다고 강조합니다.

이번 주 바르셀로나에서 열리는 모바일 월드 콩그레스(Mobile World Congress) 컨퍼런스에서 시연될 Arm 칩 기반의 Stable Audio Open은 "노을 지는 잔잔한 파도"와 같은 텍스트 설명만으로 소리를 생성할 수 있습니다. Stability 측에 따르면, 이들은 Arm과 협력하여 Stable Audio Open을 최적화하고 "증류(distill)" 과정을 거쳐 생성 시간을 30배 단축하는 데 성공했습니다. Armv9 CPU 환경에서 11초 분량의 오디오 샘플 하나를 생성하는 데는 약 8초가 소요됩니다.

물론, 최적화된 Stable Audio Open 모델은 (아직까지는) 다운로드가 불가능합니다. 하지만 Stability의 Prem Akkaraju CEO는 공식 성명을 통해 Stable Audio Open을 포함한 자사의 모델들을 향후 최종 사용자용 앱 및 기기로 확장할 계획임을 시사했습니다.

Akkaraju는 "전문 크리에이티브와 기업들이 제작 파이프라인에 생성형 AI를 도입할수록, 우리의 모델과 워크플로우가 빌더가 구축하고 크리에이터가 창작할 수 있도록 모든 곳에서 접근 가능하게 하는 것이 중요합니다"라며, "바로 이러한 이유 때문에 Arm과 파트너십을 맺게 된 것에 기대가 큽니다"라고 말했습니다.

이 회사(Stability)는 모바일 환경에 맞춰 Stable Audio Open을 더욱 최적화하고 정교하게 조정(fine-tune)하기 위해 Arm과 협력하고 있다고 밝혔습니다.

한편, 인기 이미지 생성 모델을 개발하는 Stability는 어려움을 겪어온 상황 속에서, 에릭 슈미트(Eric Schmidt)와 냅스터(Napster) 창립자 션 파커(Sean Parker)를 포함한 투자자들이 사업 회생을 목표로 지난해 새로운 자금을 유치했습니다. Stability의 공동 설립자이자 전 CEO인 Emad Mostaque은 회사 운영을 재정적 파탄 상태로 몰아넣은 것으로 알려지면서, 직원들의 사임, Canva와의 파트너십 무산, 그리고 투자자들의 회사 전망에 대한 우려를 초래했습니다.

최근 몇 달 동안 Stability는 새로운 CEO를 선임하고, 영화 <타이타닉>의 감독인 제임스 카메론(James Cameron)을 이사회에 초빙했으며, 여러 개의 새로운 이미지 생성 모델을 출시하며 사업 구조를 재편해 나가고 있습니다.

[출처:] https://techcrunch.com/2025/03/03/stability-ai-optimized-its-audio-generation-model-to-run-on-arm-chips