연구원들, OpenAI가 AI 모델을 유료 자료인 오라일리(O'Reilly) 도서로 학습시켰다 지적

sw_reporter

OpenAI는 여러 주체들로부터 저작권 콘텐츠를 무단으로 학습시키는 AI에 대해 비난을 받아 왔다. 최근 AI 감시 단체에서 발표한 새로운 논문은 이 회사가 더욱 정교한 AI 모델을 훈련시키는 과정에서 라이선스를 확보하지 않은 비공개 도서에 의존해 왔다는 심각한 주장을 제기했다.

AI 모델은 본질적으로 복잡한 예측 엔진이다. 책, 영화, TV 쇼 등 방대한 데이터를 학습하며 패턴을 익히고, 단순한 프롬프트로부터 새로운 방식으로 추론하는 방법을 배운다. 모델이 그리스 비극에 대한 에세이를 '작성'하거나 지브리 스타일의 이미지를 '그리는' 행위는 단순히 광범위한 지식 기반에서 가장 근접한 근사치를 도출해내는 과정일 뿐, 새로운 것을 창조하는 것은 아니다.

OpenAI를 포함한 여러 AI 연구소가 실제 데이터를 사용 가능 영역(주로 공개 웹)에서 고갈됨에 따라 생성형 데이터로 학습을 전환하고 있지만, 전적으로 현실 데이터를 배제한 사례는 드물다. 이는 순수 합성 데이터로 모델을 훈련하는 것이 성능 저하 같은 위험을 수반할 수 있기 때문인 것으로 보인다.

미디어 거물 타이므 오라일리(Tim O’Reilly)와 경제학자 일란 스트라우스(Ilan Strauss)가 2024년에 공동 창립한 비영리 기관 AI Disclosure Project가 발표한 이 논문은 OpenAI가 GPT-4o 모델을 개발하면서 오라일리 미디어(O’Reilly Media)의 유료 구독 도서(paywalled books) 자료를 학습에 활용했을 가능성이 높다고 결론 내렸다. (오라일리는 오라일리 미디어의 CEO이다.)

논문은 ChatGPT가 사용되고, GPT-4o가 기본 모델이라고 지적한다. 해당 논문에 따르면, 오라일리는 OpenAI와 라이선스 계약을 맺지 않은 상태이다.

논문의 공동 저자들은 "OpenAI의 최신이자 더 강력한 모델인 GPT-4o는 OpenAI의 이전 모델인 GPT-3.5 Turbo에 비해 유료 구독된 오라일리 책 콘텐츠에 대해 훨씬 강한 인식을 보여준다"고 밝혔다. 이어 "반면, GPT-3.5 Turbo는 공개적으로 접근 가능한 오라일리 책 샘플에 대해 상대적으로 더 높은 인식을 보였다"고 덧붙였다.

이 논문은 2024년 학술 연구에서 처음 소개된 DE-COP이라는 방법론을 사용했다. 이 방법은 언어 모델의 훈련 데이터에 저작권 콘텐츠가 포함되었는지 감지하도록 고안되었다. '멤버십 추론 공격(membership inference attack)'이라고도 불리는 이 방법은 모델이 인간이 작성한 텍스트와 동일한 텍스트를 패러프레이징하거나 AI가 생성한 버전을 얼마나 신뢰성 있게 구별해내는지 테스트한다. 만약 구별이 가능하다는 것은 해당 모델이 훈련 데이터로부터 그 텍스트에 대한 사전 지식을 가졌을 가능성을 시사한다.

논문의 공동 저자인 오라일리, 스트라우스, 그리고 AI 연구원 스루리 로젠블라트(Sruly Rosenblat)는 훈련 데이터 차단 시점 전후로 출판된 오라일리 미디어 도서에 대한 GPT-4o, GPT-3.5 Turbo, 그리고 다른 OpenAI 모델의 지식 수준을 조사했다고 설명했다. 그들은 34권의 오라일리 도서에서 발췌한 13,962개 문단으로 구성된 자료를 이용해, 특정 발췌문이 모델의 훈련 데이터셋에 포함되었을 확률을 추정했다.

논문 결과에 따르면, GPT-4o는 OpenAI의 구형 모델인 GPT-3.5 Turbo보다 훨씬 더 많은 유료 구독 오라일리 도서 콘텐츠를 '인식'했다. 저자들은 이러한 결과가 텍스트가 인간이 작성되었는지 판단하는 신모델의 성능 개선 같은 잠재적인 혼란 요인을 모두 감안한 후에도 나온 것이라고 말했다.

공동 저자들은 "GPT-4o는 훈련 차단일 이전에 출판된 다수의 비공개 오라일리 도서에 대한 인지, 즉 사전 지식을 가지고 있는 것으로 보인다"고 썼다.

다만, 공동 저자들은 이것이 결정적인 증거는 아니라고 신중히 언급했다. 그들은 자신들의 실험 방법이 완벽하지 않으며, OpenAI가 사용자들이 ChatGPT에 복사하여 붙여넣는 과정에서 유료 구독 도서 발췌문을 수집했을 가능성도 배제하지 않는다고 밝혔다.

더욱이, 공동 저자들은 GPT-4.5와 o3-mini, o1 같은 '추론' 모델을 포함하는 OpenAI의 최신 모델군에 대한 평가는 포함하지 않았다. 이 모델들이 유료 구독 오라일리 도서 데이터로 훈련되었는지, 혹은 GPT-4o보다 적은 양의 데이터로 훈련되었는지는 알 수 없다.

그럼에도 불구하고, AI 개발 모델의 저작권 데이터 사용 규제 완화를 주장해 온 OpenAI가 오랫동안 고품질의 훈련 데이터를 확보하려 해왔다는 것은 공공연한 사실이다. 이 회사는 나아가 모델 출력의 미세 조정을 돕기 위해 기자들을 고용하는 지경에 이르렀다. 이는 광범위한 산업의 추세로, AI 기업들이 과학이나 물리학 같은 전문 분야의 전문가를 영입하여 그들의 지식을 AI 시스템에 효과적으로 주입시키고 있다.

그럼에도 불구하고, OpenAI가 자사의 훈련 데이터 관리 방식과 관련하여 논란에 휩싸인 상황에서, 본 보고서는 OpenAI가 제기하는 데이터 전반에 대한 우려를 다룬다.

[출처:] https://techcrunch.com/2025/04/01/researchers-suggest-openai-trained-ai-models-on-paywalled-oreilly-books