
새로운 연구 결과
최근 발표된 연구는 OpenAI가 자사의 AI 모델 중 적어도 일부를 저작권이 있는 콘텐츠를 이용해 훈련시켰다는 주장에 힘을 실어주는 것으로 나타났다.
OpenAI는 작가, 프로그래머 및 기타 권리 보유자들로부터 소송에 직면해 있다. 이들은 OpenAI가 자신들의 저작물(책, 코드베이스 등)을 허가 없이 모델 개발에 사용했다고 비난한다. OpenAI는 오랫동안 '공정 이용(fair use)' 원칙을 방어해 왔지만, 소송 원고들은 미국 저작권법상 훈련 데이터 사용에 관한 예외 규정(carve-out)이 없다고 반박하고 있다.
워싱턴 대학교, 코펜하겐 대학교, 스탠퍼드 대학교 연구자들이 공동으로 참여한 이번 연구는 OpenAI와 같은 API를 통해 구동되는 모델이 훈련 과정에서 특정 데이터를 '암기'했는지 식별하는 새로운 방법을 제안했다.
모델은 기본적으로 예측 엔진이다. 방대한 데이터로 훈련되면서 패턴을 학습하며, 이를 통해 에세이, 사진 등을 생성할 수 있다. 생성된 출력물의 대부분이 훈련 데이터의 문자 그대로 복사본은 아니지만, 모델이 '학습'하는 방식 특성상 일부는 피할 수 없이 원본을 재현하게 된다. 예를 들어, 이미지 모델은 훈련에 사용된 영화의 스크린샷을 '재현'하는 사례가 발견되었고, 언어 모델 역시 뉴스 기사를 효과적으로 표절하는 현상이 관찰되었다.
본 연구 방법론의 핵심은 공동 저자들이 '고잉여도(high-surprisal)'라고 정의한 단어에 기반한다. 즉, 전체 작업 맥락에서 통계적으로 드물게 나타나는 단어이다. 예를 들어, "Jack and I sat perfectly still with the radar humming"이라는 문장에서 "radar"는 "engine"이나 "radio"보다 "humming" 앞에 나타날 확률이 통계적으로 낮기 때문에 고잉여도로 간주된다.
공동 저자들은 소설 발췌문과 뉴욕 타임스 기사 일부를 활용하여, 고잉여도 단어를 임의로 제거한 후 여러 OpenAI 모델에 해당 단어를 '추측'하도록 테스트를 진행했다. 모델이 이 단어들을 올바르게 추측하는 데 성공할 경우, 공동 저자들은 해당 모델이 훈련 과정에서 해당 발췌문을 암기했을 가능성이 높다고 결론지었다.
(모델이 고잉여도 단어를 '추측'하는 예시.)
테스트 결과, GPT-4 모델은 BookMIA라는 저작권이 있는 전자책 샘플 데이터셋에 포함된 책의 일부를 암기했다는 징후를 보였다. 또한 이 결과는 GPT-4가 상대적으로 낮은 빈도로 뉴욕 타임스 기사 일부도 암기했음을 시사했다.
워싱턴 대학교 박사 과정 학생이자 연구 공동 저자인 아빌라샤 라비찬더는 TechCrunch과의 인터뷰에서 이번 연구 결과가 모델들이 어떤 '논란의 여지가 있는 데이터'로 훈련되었는지에 대한 단서를 제공한다고 밝혔다.
라비찬더는 "신뢰할 수 있는 대규모 언어 모델을 구축하려면, 우리가 탐지하고 감사하며 과학적으로 검증할 수 있는 모델이 필요하다"라고 말했다. 이어 "우리의 작업은 대규모 언어 모델을 탐지하는 도구를 제공하는 것을 목표로 하지만, 전체 생태계의 데이터 투명성이 더욱 확보되어야 할 필요성이 실제로 존재한다"고 덧붙였다.
OpenAI는 오랫동안 저작권 데이터를 이용한 모델 개발에 대한 규제 완화를 옹호해왔다. 회사는 자체 콘텐츠 라이선싱 계약을 체결하고 저작권 소유자가 훈련 목적 사용을 거부할 수 있는 옵트아웃 메커니즘을 제공하고 있음에도 불구하고, AI 훈련 방식에 대한 "공정 이용" 원칙을 법적으로 규정화하도록 여러 정부에 로비 활동을 펼쳐왔다.
[출처:] https://techcrunch.com/2025/04/04/openais-models-memorized-copyrighted-content-new-study-suggests