• 언론사들, 웨이백 머신(Wayback Machine)이 자사 페이지를 아카이브하는 것을 차단—23개 언론사, AI 기업들이 공정 이용(fair use)을 남용하여 모델 학습에 사용할 것을 우려해

    '가짜 뉴스'와 환각 현상을 보이는 AI 시대에, 역사적 정보에 대한 접근성이 그 어느 때보다 중요합니다.

    article image

    많은 뉴스 매체들이 자신의 페이지를 Wayback Machine이 아카이빙하는 것을 막고 있는 것으로 알려졌습니다. 이는 AI 기업들이 공정 사용 정책을 남용하여 오래된 기사의 스냅샷을 모델 학습에 이용할 것을 우려하기 때문인 것으로 보입니다. 이러한 행위는 역사적 뉴스 기록뿐만 아니라 다른 중요한 정보에 대한 사회의 집단적 접근성을 저해할 위험이 있으며, 특히 허위 정보가 넘쳐나고 AI 대규모 언어 모델(LLMs)이 그럴듯한 답변을 환각(hallucinate)으로 생성하는 시대에는 더욱 심각합니다. Wired에 따르면, USA Today와 The New York Times를 포함한 23개 주요 출판사가 인터넷 아카이브(Internet Archive)의 일반 크롤러인 ia-archiverbot의 접근을 현재 차단하고 있다고 합니다. 아이러니하게도, 해당 매체들은 자신들 중 일부가 보도 자료에 Wayback Machine을 사용하고 있다는 사실을 지적했습니다.

    과거에는 많은 도서관과 신문사 사무실이 방대한 아카이브 자료를 보유하고 있었고, 사람들은 이곳을 통해 역사적 기록에 대한 통찰력을 얻었습니다. 그러나 세상이 인쇄 매체를 포기하고 온라인 신문의 편리함을 선호하면서, 이러한 아카이브는 더 이상 업데이트되지 못하고 있습니다. 따라서 우리는 이제 Wayback Machine과 같은 온라인 아카이빙 서비스에 현대 역사 기록의 역할을 맡겨야 합니다.

    article image

    출판사들로부터 아카이빙에 대한 반발이 일부 있었지만, 법률 시스템은 인터넷 아카이브의 활동이 합법적이며 공정 사용(fair use)에 해당함을 확립했습니다. 전자전선재단(Electronic Frontier Foundation)은 "법원들은 기반이 되는 자료의 복사본을 만들지 않고는 검색 가능한 색인을 구축하는 것이 종종 불가능함을 오랫동안 인정해 왔습니다"라고 밝혔습니다. 이들은 또한 "이러한 복사는 변형적인 목적을 수행했습니다. 즉, 창작물에 대한 발견, 연구, 그리고 새로운 통찰력을 가능하게 하는 것입니다"라고 덧붙였습니다.

    엔비디아, AI 모델 학습에 위조된 책을 사용하지 않았다

    신문사나 출판사 자체적으로 아카이빙을 관리할 수 있다고 주장할 수도 있습니다. 하지만 기록 보관을 중립적인 제3자가 담당하는 것이 공익에 부합합니다. 온라인 기사는 기록이 쉽게 변경될 수 있으며, 많은 매체가 신뢰할 만하더라도 일부는 역사적 서사 통제에서 잠재적으로 이익을 얻을 수 있는 대기업 소유인 경우가 있기 때문입니다. 더욱이, 매체들이 공개적이든 은밀하든 기사를 수정하거나 업데이트하는 것은 흔한 일이므로, Wayback Machine과 같은 아카이브는 이러한 변경 사항을 추적하는 데도 유용합니다. 아카이브 서비스는 나아가 폐간된 후 그 내용이 역사 속에서 사라질 뻔했던 출판물의 기록을 보존하는 데도 필수적입니다.

    article image

    AI 대규모 언어 모델을 학습하기 위해 공정 사용 정책을 남용하는 기업의 행위는 미디어 회사와 대규모 데이터를 호스팅하는 다른 플랫폼 모두에게 유효한 우려 사항임은 분명합니다. 하지만 Wayback Machine과 같은 아카이빙 서비스를 막는 것은 사회에 이익보다 더 큰 해를 끼칠 것입니다. 다행스럽게도 아카이빙 활동이 완전히 좌절된 것은 아닌 것으로 보입니다. Wayback Machine의 디렉터 마크 그레이엄(Mark Graham)은 아카이버 봇이 해당 웹사이트들에 다시 접근할 수 있도록 여러 매체들과 논의 중이라고 전해졌습니다. 한편, 기자들과 다른 이해관계자들이 연합하여 인터넷 아카이브와 모든 지식에 대한 보편적 접근성을 제공하겠다는 사명에 지지하는 서한에 서명하기도 했습니다.

    최신 뉴스, 분석 및 리뷰를 피드에서 받으려면 Google News에서 Tom's Hardware를 팔로우하거나 저희를 즐겨찾는 소스로 추가해 주세요.

    [출처:] https://www.tomshardware.com/tech-industry/big-tech/news-outlets-are-blocking-wayback-machine-from-archiving-their-pages-23-outlets-concerned-ai-companies-might-abuse-fair-use-and-use-it-to-train-their-models