레딧, 훈련 데이터 미지급 의혹으로 앤트로픽 고소

sw_reporter

북부 캘리포니아 법원에 제출된 소장에 따르면, 레딧(Reddit)이 회사의 데이터가 적절한 라이선스 계약 없이 AI 모델 훈련에 사용되었다며 앤트로픽(Anthropic)을 고소했다. 레딧은 소장을 통해 앤트로픽이 상업적 목적으로 사이트 데이터를 무단 사용한 것은 불법 행위이며, 해당 AI 스타트업이 레딧의 사용자 계약을 위반했다고 주장했다.

이번 레딧의 소송은 빅테크 기업이 자사 훈련 데이터 처리 방식에 대해 AI 모델 제공업체에게 법적 책임을 묻는 첫 사례가 되었다. 이는 비슷한 사안으로 기술 기업을 고소한 출판사들의 일련의 움직임에 합류한 것이다.

앞서 뉴욕타임즈(The New York Times)는 자사 뉴스 기사를 대가나 허가 없이 훈련에 사용한 OpenAI와 마이크로소프트(Microsoft)를 고소했다. 또한 사라 실버맨(Sarah Silverman)을 비롯한 여러 작가들은 자신의 저서를 승인 없이 AI 모델 훈련에 사용한 메타(Meta)를 상대로 소송을 제기했다. 아울러 음악 출판사 및 아티스트들 또한 자사 콘텐츠가 오용되었다고 주장하며 AI 오디오, 비디오, 이미지 생성 스타트업들을 상대로 유사한 소송을 진행했다.

레딧의 최고 법무 책임자(chief legal officer) 벤 리(Ben Lee)는 TechCrunch에 보낸 성명에서 “우리는 앤트로픽과 같은 수익 추구 주체가 레딧 콘텐츠를 사용자나 그들의 사생활에 대한 대가나 존중 없이 수십억 달러 규모로 상업적으로 착취하는 것을 용납하지 않을 것”이라고 밝혔다.

주목할 만한 사실은 레딧이 이미 OpenAI와 인포그래픽(Infograph) 등 다른 AI 모델 제공업체들과 계약을 맺고 해당 기업들이 레딧 데이터를 활용해 AI 모델을 훈련할 수 있도록 허가했다는 점이다. 이 계약에 따라 레딧의 게시물이 각 AI 챗봇의 답변에 노출되는 식이다. 다만, 소장에서 레딧은 OpenAI와 구글(Google)을 상대로 사용자 이익 및 사생활 보호를 위한 특정 조건을 부과하고 있다고 명시했다.

한편, OpenAI의 CEO인 샘 알트만(Sam Altman)은 레딧 지분의 8.7%를 보유하여 세 번째로 큰 주주가 되었으며, 과거 해당 회사의 이사회 멤버였었다.

소장에는 레딧이 앤트로픽에 접근하여 해당 AI 스타트업이 레딧 콘텐츠를 크롤링하거나 사용할 권한이 없음을 명확히 했다고 주장하는 내용이 담겨 있다. 그러나 레딧은 앤트로픽이 이 과정에서 "협조를 거부했다"고 주장한다.

앤트로픽 측 대변인 다니엘 기흘레리(Danielle Ghighlieri)는 TechCrunch에 보낸 이메일 성명에서 “우리는 레딧의 주장에 동의하지 않으며 강력하게 방어할 것”이라고 반박했다.

레딧은 소장에서 앤트로픽의 스크래퍼 봇들이 웹사이트 크롤링 금지 신호인 표준 형식인 robots.txt 파일을 무시했다고 주장한다. 이 온라인 커뮤니티 플랫폼은 앤트로픽이 2024년에 봇 차단을 주장했음에도 불구하고, 앤트로픽의 봇들이 해당 플랫폼의 콘텐츠를 10만 회 이상 무단으로 스크래핑했다고 구체적으로 지적했다.

이에 레딧은 앤트로픽이 레딧 콘텐츠를 스크래핑하여 얻은 이득에 대한 금전적 손해배상금(compensatory damages)과 부당이득 반환(restitution)을 요구하고 있다. 나아가 앤트로픽이 레딧 콘텐츠 사용을 지속하는 것을 금지하는 금지 명령(injunction)도 함께 요청했다.

[출처:] https://techcrunch.com/2025/06/04/reddit-sues-anthropic-for-allegedly-not-paying-for-training-data