마크 저커버그, 메타의 Llama 팀에 저작권 자료로 학습할 수 있도록 허가하며 클레임 제기

sw_reporter

저작권 소송을 제기한 원고 측 변호인들은 메타(Meta) CEO 마크 저커버그가 자사 Llama AI 모델 개발팀에게 불법 복제된 전자책 및 기사 데이터 세트를 학습용으로 사용하는 것을 승인했다고 주장합니다.

‘카드리 대 메타(Kadrey v. Meta)’ 사건은 AI를 개발하는 거대 기술 기업들을 대상으로 제기된 여러 소송 중 하나로, 원고들은 해당 기업들이 저작권 보호 자료를 무단으로 사용하여 모델을 학습시킨다는 비난을 제기하고 있습니다. 대체로 메타 같은 피고들은 자신들이 충분히 ‘변형적’인 목적으로 저작물을 이용하는 것을 허용하는 미국 법률 원칙인 ‘공정 사용(fair use)’에 의해 보호받는다고 주장해 왔습니다. 그러나 많은 창작자들은 이러한 주장을 받아들이지 않고 있습니다.

지난 수요일 늦게 미국 캘리포니아 북부 지방 법원(U.S. District Court for the Northern District of California)에 제출된 새로운 자료에 따르면, 베스트셀러 작가 사라 실버만(Sarah Silverman)과 타네히시 쿠츠(Ta-Nehisi Coates) 등이 포함된 원고들은 작년 후반 메타가 증언했던 내용을 재조명했습니다. 이 증언을 통해 저커버그가 Llama 관련 학습을 위해 LibGen이라는 데이터 세트 사용을 승인한 사실이 밝혀졌습니다.

스스로를 “링크 애그리게이터(links aggregator)”라고 정의하는 LibGen은 Cengage Learning, Macmillan Learning, McGraw Hill, Pearson Education을 포함한 출판사들의 저작권 보호 자료에 접근할 수 있게 합니다. LibGen은 저작권 침해로 인해 여러 차례 소송을 당하고, 운영 중단 명령을 받았으며, 수천만 달러에 달하는 벌금형을 부과받은 전력이 있습니다.

원고 측 변호인들에 의해 전달된 메타의 증언에 따르면, 메타 내부의 AI 실행 팀과 회사 내 다른 직원들이 우려를 표명했음에도 불구하고, 저커버그는 LibGen을 사용하여 메타의 Llama 모델 중 최소한 하나를 훈련시키는 것을 승인했습니다. 원고 측이 제출한 소장에는 메타 직원들이 LibGen을 "불법 복제된 데이터 세트(data set we know to be pirated)"로 언급하고, 그 사용이 "규제 기관과의 메타의 협상 입지를 훼손할 수 있다"고 지적하는 내용이 인용되어 있습니다.

소장에는 또한 메타 AI 의사 결정권자들에게 보낸 내부 메모를 인용하고 있는데, 이 메모에는 "MZ(마크 저커버그의 약어)"에게 에스컬레이션된 후 메타 AI 팀이 "[LibGen 사용을] 승인받았다"고 명시되어 있습니다.

이러한 세부 내용은 지난 4월 뉴욕타임스(The New York Times) 보도와도 일치하는 부분이 있습니다. 해당 보도에 따르면, 메타는 자사 AI 개발을 위한 데이터를 수집하기 위해 편법을 사용했습니다. 당시 메타는 아프리카에 계약직 노동자를 고용하여 책의 요약본을 취합하는 작업을 벌이고 있었으며, 출판사 사이먼 앤 슈스터(Simon & Schuster)를 인수하는 것도 고려한 바 있습니다. 하지만 회사 경영진은 라이선스 계약을 협상하는 데 시간이 너무 오래 걸릴 것이라 판단했고, 공정 사용이 확실한 방어 수단이라고 결론지었습니다.

이번 주에 제출된 소장에는 메타가 LibGen 데이터에서 저작권 출처 표기(attribution)를 삭제하여 자신의 의제적인 침해를 은폐하려 했을 수 있다는 새로운 의혹이 제기되었습니다.

원고 측 변호인들에 따르면, Llama 연구 팀에서 근무하는 메타 엔지니어 니콜라이 바슐코프(Nikolay Bashlykov)는 LibGen의 전자책에서 "copyright"와 "acknowledgments" 같은 저작권 관련 정보를 제거하는 스크립트를 작성했습니다. 이와 별개로, 메타는 Llama에 사용한 훈련 데이터의 과학 저널 기사와 "출처 메타데이터(source metadata)"에서도 저작권 마커를 제거한 것으로 알려졌습니다.

소장에는 "이러한 발견은 메타가 [저작권 정보]를 단지 훈련 목적뿐만 아니라 자신의 저작권을 은폐하기 위해 사용했음을 보여준다"고 명시되어 있습니다.

한편, Meta의 생성형 AI와 관련된 자료에 대해서도 유사한 문제가 제기되고 있습니다. 이와 관련하여, Meta의 생성형 AI와 관련된 자료에 대해 유사한 문제가 제기되고 있습니다.

이러한 배경 속에서, 법적 조치가 취해지고 있습니다.

요약:

방어 (Meta 측): AI 개발 과정은 공공의 영역에 속하는 학습 과정이며, 기존 저작물은 공정 사용(Fair Use) 원칙에 따라 활용되었으므로 합법적임.

(이 글은 특정 사안에 대한 정보 제공 및 요약을 목적으로 작성되었으며, 법적 자문을 대체할 수 없습니다.)

[출처:] https://techcrunch.com/2025/01/09/mark-zuckerberg-gave-metas-llama-team-the-ok-to-train-on-copyrighted-works-filing-claims