일루시아이(EleutherAI), 라이선스 및 공개 도메인 텍스트로 구성된 대규모 AI 학습 데이터셋 공개

sw_reporter

AI 연구 조직인 EleutherAI가 AI 모델 학습용으로 라이선스가 부여되거나 공개 도메인인 텍스트 컬렉션 중 최대 규모 중 하나를 공개했다고 주장했다.

'Common Pile v0.1'이라는 명칭의 이 데이터셋은 AI 스타트업인 Poolside, Hugging Face 등 다수의 기업과 여러 학술 기관과의 협력을 거쳐 약 2년 동안 완성되었다. 8테라바이트(TB) 규모에 달하는 Common Pile v0.1은 EleutherAI가 라이선스가 부여되지 않은 저작권 자료를 활용하여 개발된 모델과 대등한 성능을 낸다고 주장하는 두 개의 새로운 AI 모델, Comma v0.1-1T와 Comma v0.1-2T를 학습시키는 데 사용되었다.

OpenAI를 포함한 AI 회사들이 모델 학습 데이터셋을 구축하는 과정에서 웹 스크래핑(도서 및 연구 저널 등 저작권 자료 포함)에 의존하는 AI 학습 관행을 둘러싸고 법적 분쟁에 휘말리고 있다. 일부 AI 회사는 특정 콘텐츠 제공업체와 라이선스 계약을 체결하고 있지만, 대부분은 저작권 자료를 활용했음에도 불구하고 법적 책임을 지지 않는다고 주장한다.

이러한 배경 속에서, 해당 업계에서는 '저작권 문제'가 핵심 쟁점으로 부상하고 있다.

이러한 논란 속에서, 업계에서는 다음과 같은 내용을 주목하고 있다.

[논의된 주요 내용]

1. 저작권 리스크와 기술 발전의 관계

AI 모델 학습 과정에서 생성되는 저작물에 대한 법적 해석이 과제다.
저작권 침해를 최소화하면서도 방대한 데이터를 학습할 수 있는 기술적 해법 마련이 시급하다.

2. 오픈소스 데이터와 거버넌스 구축

커뮤니티 기반의 오픈소스 데이터셋을 활용하고, 데이터 출처 명시 및 활용 범위를 규정하는 거버넌스 구축이 중요하다.

3. 윤리적 책임과 투명성 강화

AI 개발 과정의 투명성을 높이고, 데이터 사용의 윤리적 기준을 확립하는 노력이 요구된다.

[결론]
법적 리스크 관리, 기술적 혁신, 그리고 윤리적 가이드라인 확립이 조화를 이루는 다각적인 접근이 필요하다.

[출처:] https://techcrunch.com/2025/06/06/eleutherai-releases-massive-ai-training-dataset-of-licensed-and-open-domain-text