• OpenAI, NY Times 저작권 소송 관련 잠재적 증거 실수로 삭제 (업데이트)

    article image

    뉴욕타임스(The New York Times)와 데일리 뉴스(Daily News)의 변호인단은 OpenAI가 자신들의 저작물을 무단으로 스크랩하여 AI 모델 학습에 사용했다고 주장하며 OpenAI를 고소했으며, 이 과정에서 OpenAI 엔지니어들이 소송과 관련될 수 있는 데이터를 실수로 삭제했다고 밝히고 있습니다.

    올가을 초, OpenAI는 자사 AI 학습 데이터셋에서 저작권 보호 콘텐츠를 검색할 수 있도록 출판사 측 변호인단에게 가상 머신(virtual machines) 두 대를 제공하는 데 동의했습니다. (가상 머신이란 다른 컴퓨터 운영체제 내에 존재하는 소프트웨어 기반 컴퓨터로, 주로 테스트, 데이터 백업, 앱 실행 등의 목적으로 사용됩니다.) 출판사 측 변호인단은 서한을 통해 자신들과 고용한 전문가들이 11월 1일 이후 OpenAI의 학습 데이터를 검색하는 데 150시간 이상을 투입했다고 밝혔습니다.

    그러나 지난 수요일 늦게 뉴욕 남부 지방 연방지방법원에 제출된 서한에 따르면, OpenAI 엔지니어들은 11월 14일 가상 머신 중 하나에 저장되어 있던 출판사들의 검색 데이터를 모두 삭제했습니다.

    OpenAI는 해당 데이터를 복구하려고 시도했으며 대부분 성공했지만, 폴더 구조와 파일 이름이 "복구 불가능하게" 손실되었기 때문에, 복구된 데이터로는 원고 측이 복사한 기사들이 [OpenAI]의 모델 구축에 사용된 출처를 "파악할 수 없다"고 서한에 명시했습니다.

    타임스와 데일리 뉴스 측 변호인단은 "원고 측은 상당한 인력과 컴퓨터 처리 시간을 들여 자신들의 작업을 처음부터 재구축해야 했습니다"라고 서한을 작성했습니다. 또한 "원고 측은 어제서야 복구된 데이터가 사용할 수 없으며, 전문가 및 변호사들의 일주일치 작업 전부를 다시 해야 한다는 것을 알게 되었기 때문에 오늘 보충 서한을 제출하게 되었습니다"라고 덧붙였습니다.

    원고 측 변호인단은 데이터 삭제가 고의적이었다고 믿을 만한 근거는 없다고 분명히 했으나, 이번 사건을 통해 OpenAI가 자체 도구를 사용하여 잠재적으로 침해하는 콘텐츠를 자사 데이터셋에서 검색할 수 있는 "최적의 위치에 있음"을 강조했습니다.

    OpenAI 대변인은 성명 거부했습니다.

    하지만 지난 11월 22일 금요일 늦게, OpenAI 측 변호인단은 수요일에 출판사 측 변호인단이 보낸 서한에 대한 답변을 제출했습니다. OpenAI 변호인단은 OpenAI가 어떠한 증거도 삭제하지 않았다고 단호하게 부인하며, 오히려 원고 측이 기술적 문제로 이어진 시스템 설정 오류의 책임이 있다고 주장했습니다.

    OpenAI 측 변호인단은 "원고 측은 학습 데이터셋을 검색하기 위해 OpenAI가 제공한 여러 머신 중 하나에 설정 변경을 요청했습니다"라고 설명했습니다. 하지만 "원고 측이 요청한 변경 사항을 구현하는 과정에서 임시 캐시로 사용되었어야 할 하드 드라이브의 폴더 구조와 일부 파일 이름이 제거되었습니다... 어쨌든, 실제로 파일이 손실되었다고 생각할 근거는 없습니다"라고 덧붙였습니다.

    OpenAI는 본 사안 및 기타 사안에서 공개적으로 이용 가능한 데이터(뉴욕타임스, 데일리 뉴스 기사 포함)를 사용하여 모델을 훈련하는 것이 공정 이용(fair use)이라고 주장해 왔습니다. 즉, "학습"을 통해 수십억 개의 전자책, 에세이 등의 예시를 활용하여 인간과 유사한 텍스트를 생성하는 GPT-4o와 같은 모델을 개발할 때, OpenAI는 해당 모델로 수익을 창출하더라도 이 예시들에 대해 라이선스를 받거나 별도의 비용을 지불할 필요가 없다고 믿는 것입니다.

    다만, OpenAI는 어소시에이티드 프레스(Associated Press), 비즈니스 인사이드의 소유주인 악셀 슈프링거(Axel Springer), 파이낸셜 타임즈(Financial Times), People의 모회사인 닷대시 메레디스(Dotdash Meredith), 뉴스 코프(News Corp)를 포함하여 점점 더 많은 신규 출판사들과 라이선싱 계약을 체결했습니다. OpenAI는 이 계약의 세부 조건을 공개하지 않았으나, 콘텐츠 파트너 중 하나인 닷대시(Dotdash)는 관련 계약에 따라 비용을 받고 있습니다.

    [출처:] https://techcrunch.com/2024/11/22/openai-accidentally-deleted-potential-evidence-in-ny-times-copyright-lawsuit