• 엔비디아, 대규모 불법 복제 도서 데이터에 고속 접근을 위해 안나스 아카이브와 계약을 시도한 혐의 (LLM 구동을 위해 도난 데이터 추적 의혹)

    법원 서류에 따르면, Anna’s Archive가 경고했음에도 불구하고 Nvidia 경영진이 이 거래를 승인한 것으로 보인다.

    article image

    엔비디아(Nvidia)가 저작권 침해 자료가 가득한 악명 높은 '그림자 라이브러리(shadow library)' 포털인 애나스 아카이브(Anna’s Archive)에 대해 '고속 접근(high-speed access)'을 구매하려 했다는 의혹을 받고 있습니다. 토렌트프릭(TorrentFreak)이 보도한 문서에 따르면, 엔비디아 데이터 전략팀(Nvidia Data Strategy Team)이 애나스 아카이브의 '고속 접근'에 대한 대금 지불과 관련하여 접촉한 것으로 알려졌습니다. 더욱이, 이 문서들이 사실이라면, 이들은 지불 계획을 "일주일 이내에" 승인했다고 지적합니다.

    엔비디아를 포함한 AI 거대 기업들은 LLM(대규모 언어 모델) 훈련 품질 향상을 위해 가장 방대한 인간 지식 출처에 접근하는 데 큰 관심을 보이고 있습니다. 메타(Meta)나 앤스로픽(Anthropic) 등은 과거부터 불법 복제 콘텐츠를 활용해 왔다는 사실이 알려진 바 있습니다. 이러한 거대 기업들은 자사의 기술을 매우 민감하게 보호하는 경향이 있어, 타인의 지적 재산권을 무시하거나 경시했다는 증거는 논란의 여지(irony)를 불러일으킵니다.

    article image

    토렌트프릭은 자신들이 공유한 이메일 스니펫이 엔비디아가 북스3(Books3) 데이터셋의 콘텐츠—여기에는 피라시트 사이트인 비블리오틱(Bibliotik)에서 가져온 저작권 자료가 포함되어 있음—를 이용해 모델을 훈련하는 과정에서 저작권 침해 혐의를 받고 있는 진행 중인 집단 소송의 조사 단계에서 포착된 것이라고 언급했습니다.

    엔비디아, 피라시트 도서 이용 AI 모델 훈련 부인

    article image

    스포티파이에서 스크랩된 8,600만 개 파일의 익명 배후, 3억 2,200만 달러 법원 배상 판결 직면

    이 사건에서 엔비디아는 '공정 사용(fair use)' 원칙에 따라 자신들의 행동을 방어하고 있지만, 애나스 아카이브와의 서신을 담은 새로운 증거는 매우 강력하게 작용합니다. 실제로 토렌트프릭은 북스3 집단 소송의 원고들이 소송 범위를 크게 확장한 수정 소장을 제출했다고 밝혔습니다.

    article image

    첨부된 스니펫은 엔비디아 담당자와 애나스 아카이브 사이에 오간 가장 문제가 되는 서신 중 하나입니다. 해당 스니펫은 실명이 거론되지 않은 엔비디아 임원이 LLM 훈련 목적으로 애나스 아카이브의 자료 사용을 문의한 내용을 담고 있는 것으로 보입니다.

    하지만 더욱 심각한 부분은 새로운 법원 소장에 포함된 섹션입니다. 이 소장은 "애나스 아카이브에 연락한 지 일주일 만에, 그리고 자료의 불법성을 애나스 아가 받았습니다"라는 내용을 포함하고 있습니다.

    article image

    애널리스트들은 이 내용을 바탕으로 엔비디아가 관련 사안에 대해 대응할 것이라는 추측을 내놓고 있습니다.


    (참고: 원문의 문맥에 따라 "지라"와 같은 단어는 삭제하거나 문맥에 맞춰 보정했습니다.)

    [출처:] https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidia-accused-of-trying-to-cut-a-deal-with-annas-archive-for-high-speed-access-to-the-massive-pirated-book-haul-allegedly-chased-stolen-data-to-fuel-its-llms