메타 직원, AI 학습용으로 약 82TB에 달하는 불법 도서를 토렌트... 법원 기록, 저작권 침해 사실 밝혀

hw_reporter

그들이 빠져나갈 수 있을 거라고 생각했나?

페이스북의 모회사 메타(Meta)가 자사의 AI 모델 LLaMA 훈련 과정과 관련하여 저작권 침해 및 불공정 경쟁 등을 주장하는 집단 소송에 휘말렸다. X(구 트위터)의 vx-underground 계정 게시물에 따르면, 법원 기록에 의하면 해당 소셜 미디어 회사가 Anna’s Archive, Z-Library, LibGen 등 그림자 라이브러리(shadow libraries)에서 불법 토렌트를 이용해 81.7TB에 달하는 데이터를 다운로드한 사실이 드러났다. 이후 메타는 이 데이터를 활용하여 자사 AI 모델을 훈련시켰다.

서면으로 남아있는 증거들에는 연구원들이 메타의 불법 자료 사용에 대해 우려를 표명한 기록들이 담겨있다. 한 선임 AI 연구원은 2022년 10월경 "저희는 불법 자료를 사용해서는 안 된다고 생각합니다. 여기서 정말 선을 그어야 합니다"라고 말했다. 또 다른 연구원은 "불법 자료 사용은 우리의 윤리적 기준을 넘어선 일"이라면서, "SciHub, ResearchGate, LibGen 같은 곳들은 기본적으로 PirateBay와 유사하여 저작권 보호 콘텐츠를 유포하고 침해하고 있다"고 덧붙였다.

“회사 노트북으로 토렌트를 다운로드하는 것은 적절하지 않다.” - 메타 직원

이후 2023년 1월, 마크 저커버그 본인도 참석한 회의에서 회사는 "우리는 이 문제를 진전시켜야 합니다... 모든 것을 차단할 방법을 찾아야 합니다"라고 발언한 바 있다. 약 세 달 뒤, 메타 직원이 다른 직원에게 메타 IP 주소가 "불법 콘텐츠를 로드하는 데 사용되고 있다"며 우려를 표한 메시지를 보내기도 했는데, 이와 함께 "회사 노트북으로 토렌트를 다운로드하는 것은 느낌이 좋지 않다"는 문구와 웃음 이모티콘까지 첨부되었다.

Nvidia, AI 모델 훈련에 불법 도서 사용 부인

다만, AI 훈련 모델이 인터넷에서 정보를 무단으로 취득했다는 의혹을 받은 사례가 이번이 처음은 아니다. OpenAI는 2023년 6월부터 소설가들로부터 자사 책을 대규모 언어 모델(LLM) 훈련에 사용했다는 이유로 소송을 당했으며, 뉴욕 타임스 역시 12월에 소송에 가세했다. Nvidia 역시 196,640권의 책을 이용해 NeMo 모델을 훈련했다는 이유로 작가들로부터 소송을 받은 바 있으며, 해당 모델은 이후 중단되었다. 또한, 과거 한 전직 Nvidia 직원이 작년 8월 회사에 내부 고발을 하면서, AI 훈련에 사용하기 위해 매일 42만 6천 시간 이상의 동영상을 스크래핑했다고 폭로한 바 있다. 더 최근에는 OpenAI가 DeepSeek이 ChatGPT에서 데이터를 불법적으로 얻었는지 조사하고 있는 등, 이처럼 아이러니한 상황들이 이어지고 있다.

메타에 대한 소송은 아직 진행 중이기에, 회사가 직접적인 침해 행위를 했는지 판단하려면 법원의 최종 판결을 기다려야 한다. 설령 작가 측이 이 소송에서 승소하더라도, 막대한 재정적 자원을 보유한 메타는 판결에 대해 항소할 가능성이 높다. 따라서 최종 법적 판단을 확인하기 위해서는 수개월 또는 수년의 시간이 필요할 것으로 보인다.

[출처:] https://www.tomshardware.com/tech-industry/artificial-intelligence/meta-staff-torrented-nearly-82tb-of-pirated-books-for-ai-training-court-records-reveal-copyright-violations