AI 모델의 성능을 좌우하는 학습 데이터셋의 '공정성'과 '출처'가 핵심 변수로 떠오르다

benchlark2

최근 생성형 AI(Generative AI) 기술이 전방위적으로 확산되면서, 이 기술의 핵심 동력원인 '데이터'에 대한 근본적인 질문이 던져지고 있다.
특히 대규모 언어 모델(LLM)을 훈련시키는 과정에서 사용되는 방대한 데이터셋의 저작권 문제가 심각한 법적 쟁점으로 부상하고 있다.

대표적인 사례로 어도비(Adobe)가 겪고 있는 집단 소송 건을 들 수 있다.
어도비는 AI 기반 미디어 생성 스위트 등 다양한 서비스를 출시하며 AI 기술을 적극적으로 활용해 왔지만, 이 과정에서 AI 모델을 학습시키는 데 사용된 데이터셋의 출처가 문제로 지적된 것이다.
구체적으로는 출판된 도서들을 무단으로 사용했다는 주장이 제기되었는데, 이는 단순한 기술적 오류를 넘어 데이터의 '윤리적 조건'과 '법적 공정성'에 대한 근본적인 의문을 제기한다.
소송을 제기한 작가들은 어도비가 자사의 AI 프로그램 기반이 된 데이터셋에 자신들의 저작물을 포함한 수많은 출판물의 불법 복제본을 사용했다고 주장한다.

어도비가 사용했다고 밝힌 SlimLM과 그 기반이 된 SlimPajama-627B 같은 데이터셋은, 그 구성 과정 자체가 저작권이 있는 자료를 복사하고 조작하여 생성되었다는 비판에 직면해 있다.
특히 이 데이터셋의 근간이 된 'Books3'와 같은 대규모 도서 모음은 기술 커뮤니티에서 오랫동안 법적 분쟁의 원인이 되어 왔으며, 이는 AI 모델의 성능을 측정하는 벤치마크 자체가 깨끗한 조건에서 이루어지지 않았을 가능성을 시사한다.
결국, 아무리 정교하고 강력한 알고리즘이라 할지라도, 그 알고리즘을 구동하는 기반 데이터셋의 무결성과 적법성이 확보되지 않는다면, 그 결과물은 근본적인 신뢰성 문제에 직면할 수밖에 없다.

이러한 데이터셋의 저작권 문제는 어도비만의 개별적인 이슈가 아니라, 현재 기술 산업 전반에 걸쳐 나타나는 시스템적인 위험 요소로 해석해야 한다.
AI 알고리즘은 필연적으로 방대한 양의 데이터셋을 통해 훈련되는데, 이 데이터셋에 저작권 침해 자료가 포함되는 경우가 빈번하게 알려지면서 법적 분쟁이 일상화되고 있다.

더 나아가, Anthropic이 자사의 챗봇 Claude를 훈련하는 과정에서 불법 복제본을 사용했다는 혐의로 거액의 합의금을 지불하기로 한 사건은 이 논쟁의 잠재적인 중요한 전환점을 보여준다.
이처럼 여러 거대 기술 기업들이 훈련 데이터의 출처와 사용 동의 여부를 두고 법적 공방을 벌이고 있다는 사실은, 현재의 AI 개발 패러다임이 '데이터 확보의 용이성'에 지나치게 의존하고 있음을 반증한다.
즉, 기술 기업들은 성능 수치(벤치마크)를 높이기 위해 데이터의 양적 확보에만 집중했을 뿐, 그 데이터가 어떤 조건과 과정을 거쳐 수집되었는지에 대한 '질적 검증'과 '법적 정당성'을 간과하고 있다는 비판을 피하기 어렵다.

따라서 향후 AI 기술의 발전 방향은 단순히 모델의 파라미터 수를 늘리거나 처리 속도를 높이는 차원을 넘어, 학습 데이터셋의 투명한 출처 공개와 저작권 문제를 해결하는 '데이터 거버넌스' 구축에 초점을 맞출 수밖에 없을 것으로 보인다.
AI 모델의 성능을 평가하는 벤치마크의 신뢰도는 알고리즘 자체의 우수성뿐만 아니라, 학습에 사용된 데이터셋의 법적 공정성과 투명한 출처 확보 여부에 의해 결정된다.