스태빌리티 AI, 사운드 생성기 출시

sw_reporter

AI 기반 아트 생성기 Stable Diffusion을 개발한 스타트업 Stability AI가 로열티 프리(royalty-free) 녹음물만을 독점적으로 학습했다고 밝힌 사운드 및 노래 생성용 오픈 AI 모델을 출시했습니다.

Stable Audio Open이라는 이름의 이 생성 모델은 텍스트 설명(예: "트리트된 스튜디오에서 연주되는 록 비트, 어쿠스틱 키트로 연주되는 세션 드럼")을 입력하면 최대 47초 분량의 녹음을 출력합니다. 이 모델은 무료 음악 라이브러리인 Freesound와 Free Music Archive에서 확보한 약 486,000개의 샘플을 이용해 학습되었습니다.

Stability AI는 이 모델을 활용해 드럼 비트, 악기 리프, 주변 노이즈는 물론, 영상, 영화, TV 쇼에 쓰일 "프로덕션 요소"를 만들 수 있으며, 기존 노래를 "편집"하거나 특정 노래(예: 스무스 재즈)의 스타일을 다른 노래에 적용할 수도 있다고 밝혔습니다.

Stability AI는 회사 블로그에 올린 게시물에서 "이 오픈 소스 공개의 핵심 이점은 사용자가 자체 커스텀 오디오 데이터로 모델을 미세 조정(fine-tune)할 수 있다는 것입니다"라며, "예를 들어, 드러머는 자신의 드럼 녹음 샘플로 모델을 미세 조정하여 새로운 비트를 생성할 수 있습니다"라고 설명했습니다.

하지만 Stable Audio Open에는 명확한 한계점도 있습니다. 완벽한 곡 전체, 멜로디, 또는 보컬은 생성할 수 없습니다. Stability AI는 해당 기능에 최적화되어 있지 않다며, 이러한 기능을 원하는 사용자는 회사에서 제공하는 유료 Stable Audio 서비스를 이용할 것을 권장합니다.

또한, 서비스 약관상 Stable Audio Open은 상업적으로 사용될 수 없습니다. 더불어 음악 장르와 문화권 전반에 걸쳐 성능이 균일하지 않으며, 영어 이외 언어로 된 설명에 대해서도 성능 저하가 나타나는데, Stability AI는 이러한 편향성이 학습 데이터에 기인한다고 지적했습니다.

Stability AI는 모델에 대한 설명에서 "데이터 출처의 다양성이 부족할 수 있으며 모든 문화권이 데이터셋에 동등하게 반영되어 있지 않습니다"라며, "모델이 생성하는 샘플에는 훈련 데이터의 편향이 반영될 것입니다"라고 명시했습니다.

오랫동안 경영난을 겪어온 Stability AI는 최근 생성 오디오 부문 부사장인 Ed Newton-Rex가 생성 AI 모델을 저작권이 있는 작품으로 학습시키는 것이 "공정 사용(fair use)"에 해당한다는 회사 입장과 이견을 표하며 사임하면서 논란의 중심에 섰습니다. Stable Audio Open은 이러한 논란의 흐름을 반전시키려는 시도인 동시에, 간접적으로 Stability AI의 유료 제품들을 홍보하고 있는 것으로 풀이됩니다.

실제로 지난 5월, Billy Joel, Doja Cat, Lil Nas X 등 아티스트들을 대표하는 Sony Music은 AI 회사 700곳에 자사 콘텐츠를 오디오 생성기 학습에 "무단으로 사용하는 행위"에 대한 경고장을 보냈습니다. 또한 지난 3월에는 미국 최초로 음악 분야의 AI 오용을 막기 위한 법안이 테네시주에서 법제화되었습니다.

[출처:] https://techcrunch.com/2024/06/05/stability-ai-releases-a-sound-generator