
(레딧)이 사이트를 크롤링할 수 있는지 여부를 자동화된 웹 봇에게 알려주는 '로봇 배제 프로토콜(Robots Exclusion Protocol, robots.txt 파일)'을 업데이트한다고 화요일에 발표했습니다.
역사적으로 robots.txt 파일은 검색 엔진이 사이트의 콘텐츠를 스크랩하고 사용자들을 해당 콘텐츠로 안내하는 데 활용되었습니다. 그러나 AI 기술이 부상하면서, 웹사이트의 콘텐츠가 원작자가 인지하지 못하는 방식으로 스크랩되어 모델 학습에 사용되는 사례가 늘고 있습니다.
레딧은 robots.txt 파일 업데이트와 더불어, 알려지지 않은 봇이나 크롤러가 플랫폼에 접근하는 것을 지속적으로 속도 제한(rate-limiting) 및 차단할 방침입니다. 레딧은 테크크런치(TechCrunch)를 통해, 봇과 크롤러가 레딧의 '공개 콘텐츠 정책(Public Content Policy)'을 준수하지 않거나 플랫폼과 공식적인 계약 관계가 없을 경우 속도 제한되거나 차단될 것이라고 밝혔습니다.
레딧 측은 이번 업데이트가 사용자 대다수나, 인터넷 아카이브(Internet Archive)와 같은 연구원 및 공익 기관 등 선의의 이용자들에게는 영향을 미치지 않을 것이라고 설명했습니다. 대신, 이번 업데이트는 AI 기업들이 레딧 콘텐츠를 이용하여 대규모 언어 모델(large language models)을 훈련하는 것을 억제하는 데 초점을 맞추고 있습니다. 물론 AI 크롤러가 레딧의 robots.txt 파일을 우회하여 접근할 가능성은 존재합니다.
이러한 발표는 며칠 전, 와이어드(Wired)가 AI 기반 검색 스타트업 페플렉시티(Perplexity)가 콘텐츠를 무단으로 수집하고 스크랩하고 있다는 보도를 내보낸 직후 나온 것입니다. 와이어드에 따르면, 페플렉시티는 robots.txt 파일에 웹사이트 스크래핑 금지 요청이 포함되어 있었음에도 이를 무시하는 것으로 보였습니다. 이에 페플렉시티의 CEO 아라빈드 스리니바스(Aravind Srinivas)는 로봇.txt 파일이 법적 구속력을 갖는 프레임워크는 아니라고 반박한 바 있습니다.
레딧의 이번 변화는 계약을 체결한 기업들에게는 영향을 미치지 않습니다. 예를 들어, 레딧은 구글(Google)과 6,000만 달러 규모의 계약을 맺고 있으며, 이를 통해 구글은 검색 거대 기업으로서 소셜 플랫폼의 콘텐츠를 자사의 AI 모델 훈련에 사용할 수 있도록 허가받았습니다. 레딧은 이번 변화를 통해 레딧의 데이터를 AI 훈련에 사용하려는 다른 기업들에게도 비용을 지불해야 할 것임을 시사하고 있습니다.
레딧은 공식 블로그 게시물에서 "레딧 콘텐츠에 접근하는 모든 이용자는 레딧 이용자 보호를 위해 마련된 정책을 포함하여 당사의 정책을 준수해야 합니다"라고 강조했습니다. 이어 "당사는 레딧 콘텐츠에 대한 대규모 접근 권한을 가진 파트너에게는 까다롭고 신뢰를 바탕으로 협력한다"고 덧붙였습니다.
한편, 이번 발표는 레딧이 몇 주 전 상업적 주체 및 기타 파트너들이 레딧의 데이터에 접근하고 사용하는 방식을 안내하기 위해 새로운 정책을 발표한 흐름에 따른 것입니다.