MLCommons와 Hugging Face, AI 연구용 초대형 음성 데이터셋 공개 협력

sw_reporter

비영리 AI 안전 워킹 그룹인 MLCommons가 AI 개발 플랫폼 Hugging Face와 협력하여 AI 연구를 위한 세계 최대 규모의 퍼블릭 도메인 음성 녹음 자료 모음을 공개했습니다.

'Unsupervised People’s Speech'라는 데이터셋은 최소 89개 언어에 걸쳐 100만 시간 이상의 오디오를 담고 있습니다. MLCommons는 이 데이터셋을 "음성 기술의 다양한 분야" 연구 개발(R&D) 지원을 목표로 구축하게 되었다고 밝혔습니다.

해당 조직은 목요일 블로그 게시물에서 "영어 이외 언어의 더 폭넓은 자연어 처리 연구를 지원하는 것은 전 세계 더 많은 사람들에게 통신 기술을 제공하는 데 기여합니다"라고 언급하며, "연구 커뮤니티가 지속적으로 구축하고 발전시킬 수 있는 여러 분야를 예상하고 있으며, 특히 저자원 언어의 음성 모델 개선, 다양한 억양 및 방언에 걸친 음성 인식 능력 향상, 그리고 음성 합성의 새로운 응용 분야에서 그러합니다"라고 덧붙였습니다.

이는 분명 훌륭한 목표입니다. 하지만 'Unsupervised People’s Speech'와 같은 AI 데이터셋은 이를 활용하는 연구자들에게 잠재적 위험을 안길 수 있습니다.

데이터 편향성이 바로 그러한 위험 중 하나입니다. 'Unsupervised People’s Speech'의 녹음 자료는 웹 아카이브 도구로 유명한 비영리 단체 Archive.org에서 가져왔습니다. 공식 프로젝트 페이지의 README에 따르면, Archive.org의 기여자 중 다수가 영어권—특히 미국인—에 속하기 때문에, 해당 데이터셋의 거의 모든 녹음 자료는 미국식 억양을 지닌 영어로 구성되어 있습니다.

이는 신중한 필터링이 이루어지지 않을 경우, 'Unsupervised People’s Speech'로 훈련된 음성 인식 및 음성 합성 모델과 같은 AI 시스템이 동일한 편향성을 보일 수 있음을 의미합니다. 예를 들어, 비원어민이 말하는 영어 발화 전사에 어려움을 겪거나, 영어 이외 언어로 합성 음성 생성에 문제가 생길 수 있습니다.

또한 'Unsupervised People’s Speech'에는 자신의 목소리가 상업적 응용 분야를 포함한 AI 연구 목적으로 사용되고 있다는 사실을 알지 못하는 사람들의 녹음 자료가 포함되어 있을 가능성도 있습니다. MLCommons는 데이터셋의 모든 녹음 자료가 퍼블릭 도메인이거나 크리에이티브 커먼즈 라이선스(Creative Commons licenses) 하에 이용 가능하다고 명시하지만, 실수가 발생했을 가능성은 배제할 수 없습니다.

MIT의 분석에 따르면, 공개적으로 접근 가능한 수백 개의 AI 학습 데이터셋이 라이선스 정보가 불충분하거나 오류를 포함하고 있는 것으로 나타났습니다. AI 윤리 중심 비영리 단체 Fairly Trained의 CEO인 Ed Newton-Rex와 같은 창작자 옹호자들은, 옵트아웃(opt out) 절차가 창작자들에게 부과하는 과도한 부담 때문에, 창작자가 AI 데이터셋에서 옵트아웃해야 할 의무를 져서는 안 된다고 주장해 왔습니다.

Newton-Rex는 지난 6월 X에 게시한 글에서 "많은 창작자들(예: Squarespace 사용자)은 의미 있는 방식으로 옵트아웃할 방법이 없습니다"라고 지적했습니다. 그는 이어 "옵트아웃이 가능한 창작자의 경우, 여러 개의 중첩된 옵트아웃 방식이 존재하며, 이는 (1) 극도로 혼란스럽고 (2) 그 범위가 심각하게 불완전합니다. 설령 완벽한 보편적 옵트아웃 제도가 존재한다 하더라도, 생성형 AI가 창작자들의 저작물을 활용하여 그들과 경쟁하는 상황에서, 옵트아웃 부담을 창작자들에게 지우는 것은 매우 부당합니다. 많은 사람이 자신이 옵트아웃할 수 있다는 사실 자체를 인지하지 못할 것입니다"라고 주장했습니다.

MLCommons는 'Unsupervised People’s Speech'의 품질을 업데이트하고 유지하며 개선하기 위해 노력할 것이라고 밝혔습니다. 그러나 잠재적 결함들을 고려할 때, 개발자들은 심각한 주의를 기울이는 것이 바람직합니다.

[출처:] https://techcrunch.com/2025/01/31/mlcommons-and-hugging-face-team-up-to-release-massive-speech-data-set-for-ai-research