최소한의 시딩이 발생할 수 있도록 구성 설정이 수정되었습니다.

메타는 이번 주 법원에 제출한 자료에서, LLaMA AI 모델 훈련을 위해 섀도우 라이브러리에서 불법 복제된 저작권 자료 82 테라바이트(TB)의 데이터를 토렌팅했음에도 불구하고, 직원들이 다운로드한 파일을 "씨앗(seed)"으로 뿌리는 행위를 취하지 않도록 "예방 조치를 취했다"고 주장했다.
토렌팅 용어에서 '씨딩(Seeding)'은 파일을 다운로드하는 과정 중, 또는 (일반적으로 그 이후에) 다른 사용자들과 해당 파일을 공유하는 행위를 의미한다. 토렌팅은 P2P(peer-to-peer, 개인 간) 시스템이기 때문에, 파일을 다운로드하는 모든 사용자는 그 파일의 일부를 다른 사용자에게 업로드할 수 있는 구조이다.
메타의 변호사들은 "메타가 원고들의 책을 씨딩했다는 사실을 입증할 증거가 없다"고 주장한다. 이는 회사가 자신들의 방어 논리를 '메타가 토렌팅 과정 중에 자료를 공유했다는 증거가 부재하다'는 점에 기대고 있음을 의미한다.
엔비디아, AI 모델 훈련에 불법 복제 도서 사용 부인
메타가 씨딩의 증거 부재를 주장했음에도 불구하고, 프로젝트 관리 담당자인 메타 임원 마이클 클라크(Michael Clark)는 당시 사용하던 설정값이 "최소한의 씨딩만 발생하도록" 수정되었다고 증언했다.
이에 메타가 왜 씨딩을 최소화했는지에 대한 질문이 제기되었으나, 변호사-의뢰인 특권(attorney-client privilege)이 언급되면서 클라크는 답변을 거부했다.
클라크의 진술 자체는 메타가 씨딩을 최소화하기 위한 방법을 모색했음을 보여주지만, 저작권 자료의 씨딩을 완전히 차단했다는 어떠한 증거도 제시하지는 못했다.
더욱이, 메타 연구원 프랭크 장(Frank Zhang)의 내부 메시지는 "시더/다운로더가 누구인지 추적될 위험"을 회피하기 위해 메타 서버로부터 잠재적 씨딩 행위를 은폐하려 했다는 주장을 뒷받침할 수 있다.
메타의 방어 전략은 AI 모델 훈련을 위해 대량으로 다운로드한 데이터를 공유하지 않았다는 증거 부재에 크게 의존하고 있는 것으로 보인다. 만약 메타가 이 방어에 성공하여, 저작권 콘텐츠를 '다운로드'하는 행위는 불법이 아니지만 '배포'하는 행위가 불법이라는 점을 입증할 수 있다면, 이는 향후 불법 복제 및 저작권 콘텐츠 무단 배포 사건 전반에 큰 파장을 일으킬 수 있다.
또한, 토렌팅 용어를 활용한 이러한 방어는 메타가 법정에서 우위를 점하기 위한 수단일 수 있다. '씨딩'에 초점을 맞춤으로써, 메타가 저작권 자료를 토렌팅하면서 법을 위반했다는 근본적인 주장을 더욱 모호하게 만들려는 의도가 있다는 비판이 나온다.
한편, 메타는 다운로드 과정에서 데이터 공유 여부에 대해 인지하고 있었는지 여부와 관련된 주장에는 아직 공식적인 답변을 내놓지 않았다.
저자들, 메타가 "불법 P2P 복제 네트워크"의 "고의적 참여자"였다고 주장
메타가 사전에 라이선스 계약 없이 취득한 것으로 추정되는 저작권 자료의 저자들은 [PDF]를 통해 "메타가 합법적인 취득 방식을 우회하여 불법 P2P 복제 네트워크에 고의적으로 가담했다"고 주장해 왔다.
법정 다툼은 계속될 것으로 예상되므로, 아직 사건에 대한 최종 판결은 나오지 않았다. 설령 최종 판결이 내려지더라도, 메타가 패소할 경우 항소할 가능성이 높아 최종적인 결론까지는 상당한 시간이 걸릴 것으로 예상된다.
다만, 이와 유사한 소송 사례는 이미 존재한다. OpenAI는 2023년 소설가들로부터 고소를 당했으며, 뉴욕 타임스 또한 OpenAI 및 마이크로소프트가 '수백만 건'의 복사된 기사로 고소한 바 있다. LLM 관련 소송이 계속되는 만큼, 메타의 이번 특정 사건이 마지막일 것이라고 단정하기는 어렵다.