AI 기업이 매우 사실적인 음성 비서인 마야(Maya)의 구동 기반 모델을 공개했습니다.
이 모델은 10억 개의 파라미터(모델의 개별 구성 요소) 규모이며, Apache 2.0 라이선스가 적용되어 상업적 사용에 제한이 적습니다. Sesame이 AI 개발 플랫폼 Hugging Face에서 설명하기에, 이름이 CSM-1B인 이 모델은 텍스트 및 오디오 입력을 기반으로 "RVQ 오디오 코드"를 생성합니다.
RVQ는 'residual vector quantization'의 약자로, 오디오를 코드라는 이산적인 토큰으로 인코딩하는 기술입니다. 이 기술은 Google의 SoundStream이나 Meta의 Encodec 등 최근 여러 AI 오디오 기술에서 사용되고 있습니다.
CSM-1B는 Meta의 Llama 계열 모델을 백본(backbone)으로 사용하고, 오디오 "디코더" 구성 요소를 결합한 구조입니다. Sesame의 설명에 따르면, CSM을 미세 조정(fine-tuned)한 변형 모델이 마야에 활용됩니다.
Sesame은 CSM-1B의 GitHub 저장소에 "여기에 오픈소스된 모델은 기반 생성 모델"이라고 명시했습니다. "다양한 음성을 생성할 수는 있으나, 특정 음성으로 미세 조정된 것은 아닙니다. 훈련 데이터에 포함된 데이터 오염으로 인해 비영어권 언어 처리 능력은 어느 정도 있지만, 성능은 기대하기 어려울 것입니다."
Sesame이 CSM-1B 훈련에 어떤 데이터를 사용했는지에 대해서는 밝히지 않았습니다.
특히 주목할 점은, 이 모델에 실질적인 안전장치가 없다는 것입니다. Sesame은 일종의 '명예 제도(honor system)'를 채택하여, 개발자와 사용자들에게 본인의 동의 없이 사람의 목소리를 모방하거나, 가짜 뉴스 등 오해를 불러일으키는 콘텐츠를 생성하거나, "유해하거나 악의적인" 활동에 모델을 사용하는 것을 자제해 줄 것을 당부하고 있습니다.
저는 Hugging Face에서 해당 데모를 직접 사용해 본 결과, 목소리 복제에 1분도 채 걸리지 않았습니다. 이후로는 선거 결과나 러시아 선전과 같은 논쟁적인 주제를 포함하여 원하는 방식으로 음성 생성을 쉽게 할 수 있었습니다.
실제로 Consumer Reports는 최근 시장에 출시된 많은 인기 AI 음성 복제 도구들이 사기나 오용을 방지할 만한 "실질적인" 보호 장치를 갖추고 있지 않다고 경고한 바 있습니다.
Oculus 공동 창업자인 브렌든 아이라이브(Brendan Iribe)가 공동 설립한 Sesame은, 그들의 비서 기술로 인해 지난 2월 말 큰 주목을 받았는데, 이 기술은 언캐니 밸리(uncanny valley)에 근접한 수준에 이르렀습니다. 마야와 Sesame의 다른 비서인 마일스(Miles)는 호흡을 하고 말의 비유창성(disfluencies)을 보일 수 있으며, 대화 도중 중단되는 등의 특성을 보이는데, 이는 OpenAI의 Voice Mode와 매우 유사합니다.
Sesame은 Andreessen Horowitz, Spark Capital, Matrix Partners로부터 비공개 규모의 자본을 유치했습니다. 이 회사는 음성 비서 기술 구축 외에도, 자체 개발 모델이 탑재될 "하루 종일 착용하도록 설계된" AI 안경을 프로토타이핑하고 있다고 밝혔습니다.