독일 연구 기관인 LAION은 여러 생성형 AI 모델 훈련에 사용된 데이터셋을 구축한 곳으로, 알려진 아동 성착취물(CSAM)과 관련된 링크를 "철저하게 제거했다"고 주장하는 새로운 데이터셋을 공개했습니다.
새로 공개된 데이터셋인 Re-LAION-5B는 실제로는 구 데이터셋인 LAION-5B의 재출시 버전입니다. 다만, 비영리 단체인 Internet Watch Foundation, Human Rights Watch, 캐나다 아동 보호 센터, 그리고 이미 문을 닫은 스탠퍼드 인터넷 관측소 등의 권고 사항을 반영하여 여러 '개선 사항'이 적용되었습니다. LAION에 따르면, 이 데이터셋은 수천 개의 알려지거나 '가능성이 있는' CSAM 관련 링크를 필터링했으며, 사용자는 Re-LAION-5B Research와 추가적인 NSFW 콘텐츠까지 제거한 Re-LAION-5B Research-Safe, 두 가지 버전 중 선택하여 다운로드할 수 있습니다.
LAION은 자체 블로그 게시물에서 "LAION은 데이터셋 초기 단계부터 불법 콘텐츠를 제거하는 데 전념해 왔으며, 적절한 조치를 지속적으로 구현해 왔다"고 밝혔습니다. 이어 "LAION은 불법 콘텐츠가 알려지는 즉시 제거되어야 한다는 원칙을 엄격하게 준수한다"고 강조했습니다.
특히 주목할 점은 LAION의 데이터셋은 이미지를 포함하거나 결코 포함한 적이 없다는 것입니다. 해당 데이터셋은 이미지 자체를 담고 있는 것이 아니라, LAION이 선별한 이미지와 해당 이미지의 alt 텍스트에 대한 '링크 인덱스'로 구성되어 있으며, 모든 원천 자료는 크롤링된 웹사이트와 웹페이지가 담긴 Common Crawl 데이터셋에서 가져왔습니다.
Re-LAION-5B의 공개는 2023년 12월 스탠퍼드 인터넷 관측소의 조사에 따른 후속 조치입니다. 해당 조사에 따르면, LAION-5B(구체적으로 LAION-5B 400M이라는 하위 집합)에는 소셜 미디어 게시물과 인기 성인 웹사이트에서 스크랩된 불법 이미지에 대한 링크가 최소 1,679개 포함된 것으로 나타났습니다. 또한, 400M에는 "포르노그래피 이미지, 인종차별적 비속어, 유해한 사회적 고정관념 등을 포함하는 광범위한 부적절 콘텐츠" 링크도 포함되어 있었습니다.
스탠퍼드 보고서의 공동 저자들은 문제가 되는 콘텐츠를 완전히 제거하기 어려울 수 있으며, CSAM의 존재가 데이터셋으로 훈련된 모델의 출력 결과에 반드시 영향을 미치지는 않을 것이라고 언급했지만, LAION은 LAION-5B를 일시적으로 서비스에서 중단할 것이라고 밝혔습니다.
스탠퍼드 보고서는 LAION-5B로 훈련된 모델은 "가능한 경우 사용 중지 및 배포를 중단해야 한다"고 권고했습니다. 이와 관련하여, AI 스타트업 Runway는 최근 자사 Stable Diffusion 1.5 모델을 AI 호스팅 플랫폼 Hugging Face에서 내렸습니다. (한편 Runway는 2023년 Stable Diffusion의 개발사인 Stability AI와 파트너십을 맺고 초기 Stable Diffusion 모델 훈련을 지원한 바 있습니다.)
약 55억 개의 텍스트-이미지 쌍을 포함하며 Apache 2.0 라이선스로 공개된 Re-LAION-5B 데이터셋의 메타데이터를 활용하여, 제3자는 기존 LAION-5B 사본을 매칭되는 불법 콘텐츠를 제거하는 방식으로 자체 정제 작업을 할 수 있다고 LAION은 설명했습니다.
LAION은 자사 데이터셋이 상업적 목적이 아닌 연구 목적으로 사용되어야 함을 거듭 강조합니다. 그러나 역사의 사례가 보여주듯, 이 제한이 일부 기관들을 완전히 막지는 못할 것입니다. Stability AI 외에도, Google은 과거 LAION 데이터셋을 자사의 이미지 생성 모델 훈련에 사용한 바 있습니다.
LAION은 게시물 말미에 "파트너들이 제공한 링크 및 이미지 해시 목록과 대조한 결과, [추정 CSAM]에 해당하는 2,236개의 링크가 제거되었다"고 덧붙였습니다. 이어 "이 링크들은 2023년 12월 스탠퍼드 인터넷 관측소 보고서에서 발견된 1,008개 링크까지 포함한다"고 밝혔습니다. 마지막으로 "기존 LAION-5B를 여전히 사용하고 있는 모든 연구소와 기관들은 가능한 한 빨리 Re-LAION-5B 데이터셋으로 마이그레이션할 것을 강력히 촉구합니다"라고 당부했습니다.