
다른 기술 기업들과 마찬가지로, 어도비(Adobe)는 지난 수년간 인공지능(AI) 기술에 크게 의존해 왔습니다. 이 소프트웨어 회사는 2023년 이래로 AI 기반 미디어 생성 스위트 등을 포함하여 여러 AI 서비스를 출시했지만, 기술을 전방위적으로 수용한 것이 오히려 문제로 비화할 수 있다는 지적이 나오고 있습니다. 새로운 소송에 따르면, 어도비가 AI 모델을 훈련시키는 과정에서 출판된 도서를 무단으로 사용했다고 주장하고 있기 때문입니다.
오리건주 출신의 작가 엘리자베스 라이언(Elizabeth Lyon)을 대리하여 제기된 집단 소송은, 어도비가 그녀 본인의 저작물을 포함한 수많은 출판물의 불법 복제본(해적판)을 회사의 SlimLM 프로그램 학습에 사용했다고 주장합니다.
어도비는 SlimLM을 "모바일 기기에서 문서 지원 작업에 최적화된" 소형 언어 모델 시리즈라고 설명합니다. 또한, 어도비는 SlimLM이 2023년 6월 Cerebras가 공개한 "중복 제거(deduplicated)된 다중 코퍼스 오픈 소스 데이터셋"인 SlimPajama-627B로 사전 훈련되었다고 밝힌 바 있습니다. 비소설 분야 가이드북을 다수 집필한 라이언은 자신의 저작물 일부가 어도비가 사용한 사전 훈련 데이터셋에 포함되었다고 주장합니다.
로이터(Reuters)가 처음 보도한 라이언의 소송에 따르면, 그녀의 글은 어도비 프로그램의 기반이 된 조작된 데이터셋의 가공된 하위 집합에 포함되었습니다. 소장에 따르면, "SlimPajama 데이터셋은 RedPajama 데이터셋을 복사하고 조작하여 생성되었으며(Books3 포함). 따라서 SlimPajama는 원고와 집단 구성원의 저작권이 있는 Books3 데이터셋을 포함하고 있다."고 명시되어 있습니다.
GenAI 시스템 훈련에 사용된 방대한 191,000권의 도서 모음인 "Books3"는 기술 커뮤니티에서 지속적인 법적 분쟁의 원인이 되어 왔습니다. RedPajama 역시 여러 소송에서 언급된 바 있습니다. 지난 9월에는 애플(Apple)을 상대로 제기된 소송에서 회사가 자사 Apple Intelligence 모델 훈련에 저작권 자료를 사용했다고 지적하며, 기술 기업이 "동의나 크레딧, 보상 없이" 보호된 저작물을 복사했다고 비난했습니다. 같은 달 10월에는 Salesforce를 상대로 제기된 유사 소송에서도 회사가 훈련 목적으로 RedPajama를 사용했다고 주장한 바 있습니다.
안타깝게도 이러한 유형의 소송은 이제 기술 산업에서 비교적 흔한 일이 되었습니다. AI 알고리즘은 대규모 데이터셋으로 훈련되는데, 이 데이터셋에 불법 복제 자료가 포함된 경우가 종종 알려지기 때문입니다. 지난 9월, Anthropic은 자신의 챗봇 Claude를 훈련하는 과정에서 불법 복제본을 사용했다는 혐의로 소송을 제기한 다수의 작가들에게 15억 달러를 지불하기로 합의했습니다. 이 사건은 AI 학습 데이터에 포함된 저작권 문제와 관련하여 진행 중인 법적 분쟁의 잠재적인 중요한 전환점으로 평가받고 있습니다.