마이크로소프트, AI 학습 데이터 기여자들에게 크레딧을 부여하는 방안 모색

sw_reporter

마이크로소프트는 생성형 AI 모델이 생성하는 텍스트, 이미지 및 기타 유형의 미디어에 특정 학습 예시가 미치는 영향을 추정하는 연구 프로젝트를 시작할 계획입니다.

이는 최근 LinkedIn에서 재배포된, 날짜가 12월로 명시된 채용 공고를 통해 알려진 내용입니다.

연구 인턴을 모집하는 해당 공고에 따르면, 이 프로젝트는 특정 데이터(예: 사진이나 도서)가 모델의 출력물에 미치는 영향을 "효율적이고 유용하게 추정"할 수 있는 방식으로 모델을 훈련하는 방법을 시연하는 것을 목표로 합니다.

공고문에는 "현재의 신경망 아키텍처는 생성 출처를 제공하는 면에서 불투명하며, 이를 변경할 충분한 이유가 있다"고 명시되어 있습니다. 공고문은 또한 "[한 가지 이유는,] 미래에 우리가 필요로 할 예상치 못한 종류의 모델에 특정 가치 있는 데이터를 제공하는 사람들에게 인센티브, 인정, 그리고 잠재적인 금전적 보상을 제공하는 것이다. 미래는 우리에게 근본적으로 놀라움을 줄 것이라고 가정할 때 말이다."라고 덧붙였습니다.

AI 기반 텍스트, 코드, 이미지, 비디오, 노래 생성기는 여러 AI 기업을 상대로 제기된 지적 재산권(IP) 소송의 중심에 있습니다. 이러한 기업들은 종종 공용 웹사이트에서 얻은 대규모 데이터를 모델 훈련에 사용하는데, 이 데이터 중 일부는 저작권이 있는 자료입니다. 많은 기업들은 "공정 사용 원칙(fair use doctrine)"이 자체적인 데이터 스크래핑 및 훈련 관행을 보호한다고 주장합니다. 그러나 예술가부터 프로그래머, 작가에 이르기까지 창작자들은 대체로 이에 동의하지 않고 있습니다.

실제로 마이크로소프트 자체도 저작권 보유자로부터 최소 두 건의 법적 도전에 직면했습니다.

《뉴욕 타임스》는 지난 12월 기술 거대 기업과 오랜 협력사인 OpenAI를 상대로 소송을 제기하며, 두 회사가 《타임스》의 기사 수백만 개를 기반으로 훈련된 모델을 배포함으로써 《타임스》의 저작권을 침해했다고 주장했습니다.

여러 소프트웨어 개발자들 또한 Microsoft를 상대로 소송을 제기하여, 해당 회사의 GitHub Copilot AI 코딩 도우미가 자신들의 보호된 저작물을 사용하여 불법적으로 훈련되었다고 주장했습니다.

공고문에서 "훈련 시점의 출처 확인(training-time provenance)"이라고 설명하는 마이크로소프트의 이번 신규 연구 노력에는, Microsoft Research 소속의 저명한 기술 전문가이자 학제 간 과학자인 Jaron Lanier가 관여하는 것으로 알려졌습니다. Lanier는 2023년 4월 《뉴요커》에 기고한 오피니언 기사에서, 자신이 생각하는 '데이터 존엄성(data dignity)' 개념에 대해 글을 썼습니다. 그에게 이는 "디지털 콘텐츠"를 "스스로의 창작물로 인정받고 싶은 인간"과 연결하는 것을 의미했습니다.

Lanier는 "데이터 존엄성 접근 방식은 거대 모델이 가치 있는 결과물을 제공했을 때 가장 독특하고 영향력 있는 기여자를 추적하게 할 것"이라고 썼습니다. 그는 "예를 들어, 모델에게 '내가 찍은 아이들이 대화하는 고양이들이 기름화가들이 그린 세계 속에서 모험하는 애니메이션 영화'를 요청한다고 가정해 보자. 그러면 특정 주요 유화 화가, 고양이 초상화가, 성우, 작가, 혹은 그들의 유산이 새로운 걸작 창작에 독특하게 필수적이었다고 계산될 수 있다. 이들은 인정받고 동기를 부여받을 것이며, 심지어 대가를 받을 수도 있다"고 덧붙였습니다.

이러한 노력은 이미 여러 회사에서 진행되고 있습니다. 최근 4천만 달러의 벤처 캐피털을 유치한 AI 모델 개발사 Bria는 데이터 소유자의 "전반적인 영향력"에 따라 "프로그래밍적으로" 보상한다고 주장합니다. Adobe와 Shutterstock 역시 데이터셋 기여자들에게 정기적인 지급액을 제공하지만, 정확한 지급액은 대체로 불분명합니다.

대형 연구소들 중에는 출판사, 플랫폼, 데이터 중개업체와 라이선스 계약을 체결하는 경우를 제외하고, 개별 기여자에게 직접 보상하는 프로그램을 구축한 곳이 거의 없습니다. 대신 이들은 저작권 소유자들에게 훈련 과정에서 '선택적으로 제외(opt out)'할 수 있는 수단을 제공하는 방식이었습니다. 하지만 이러한 제외 절차 중 일부는 복잡하고(onerous), 미래 모델에만 적용될 뿐 이미 훈련된 모델에는 적용되지 않습니다.

물론 마이크로소프트의 프로젝트는 성급한 추측에 불과할 수 있습니다. 최근 몇 년간의 사례들만 보면, 이런 식으로 문제가 발생할 수 있습니다.

한편, 해당 기술을 사용하는 회사들에게는 더 엄격한 규제를 적용하는 것이 더 합리적일 것입니다.

마지막으로, 이러한 기술의 발전은 결국 더 큰 사회적 변화를 가져올 것이며, 이는 기술을 둘러싼 이해관계자들 모두가 함께 고민해야 할 문제입니다.

[출처:] https://techcrunch.com/2025/03/21/microsoft-is-exploring-a-way-to-credit-contributors-to-ai-training-data