일론 머스크, "AI 학습 데이터 고갈에 동의"

sw_reporter

일론 머스크는 다른 AI 전문가들과 마찬가지로 AI 모델 학습에 사용될 실제 데이터가 거의 남아있지 않다는 지적에 동의했다.

머스크는 수요일 늦게 X를 통해 스테그웰(Stagwell) 회장 마크 펜(Mark Penn)과 라이브 대화를 나누면서 "우리는 AI 훈련에 필요한 인간 지식의 축적된 총합을 사실상 모두 소진했다"며 "이는 대략 작년에 발생한 일이다"라고 말했다.

AI 기업 xAI의 대표인 머스크는 지난 12월에 진행된 연설에서 OpenAI의 전 수석 과학자인 일리야 수츠케버(Ilya Sutskever)가 머신러닝 컨퍼런스인 NeurIPS에서 제기했던 주제를 재차 언급했다. 수츠케버는 AI 산업이 그가 '피크 데이터(peak data)'라고 부르는 최고점에 도달했다고 언급한 바 있으며, 그는 훈련 데이터의 부족이 오늘날의 모델 개발 방식의 근본적인 변화를 초래할 것이라고 예측했다.

실제로 머스크는 AI 모델 자체가 생성하는 데이터, 즉 합성 데이터(synthetic data)가 미래의 방향이라고 제안했다. 그는 "실제 데이터를 보완할 수 있는 유일한 방법은 AI가 [훈련 데이터]를 생성하는 합성 데이터다"라며 "합성 데이터의 경우... [AI]는 스스로 평가하고 자가 학습 과정을 거치게 될 것"이라고 덧붙였다.

현재 마이크로소프트, 메타(Meta), OpenAI, Anthropic 등 주요 기술 기업들은 이미 합성 데이터를 활용하여 주력 AI 모델을 훈련하고 있다. 가트너(Gartner)는 2024년 AI 및 분석 프로젝트에 사용된 데이터 중 60%가 합성적으로 생성된 것으로 추정한다.

수요일 초 오픈소스로 공개된 마이크로소프트의 Phi-4는 실제 데이터와 합성 데이터를 함께 사용하여 훈련되었다. 구글의 모델들 역시 마찬가지였다. Anthropic은 최고 성능의 시스템 중 하나인 Claude 3.5 Sonnet을 개발하는 과정에서 일부 합성 데이터를 활용했으며, 메타는 최신 모델 시리즈를 개발할 때 AI 생성 데이터로 미세 조정(fine-tuned)하는 방식을 채택했다.

합성 데이터 훈련은 비용 절감과 같은 이점도 제공한다. AI 스타트업 Writer는 거의 전적으로 합성 소스를 이용해 개발한 자사 Palmyra X 004 모델의 개발 비용이 단지 70만 달러에 불과했다고 주장했는데, 이는 비슷한 규모의 OpenAI 모델 추정 개발 비용 460만 달러와 비교되는 수치다.

하지만 단점도 존재한다.

일부 연구에 따르면 합성 데이터는 '모델 붕괴(model collapse)'를 야기할 수 있다고 경고한다. 이는 모델이 출력물의 창의성을 잃고 편향성이 증가하여 궁극적으로 기능성이 심각하게 손상되는 현상이다. 모델이 합성 데이터로 학습하기 때문에, 훈련에 사용된 데이터에 편향이나 한계가 존재할 경우, 모델의 출력물 역시 유사하게 오염될 수 있다.

[참고]
2025년 1월 5일 – 2025년 1월 10일
스토리라인에서:
CES 2025 라이브 업데이트: 행사가 마무리됨에 따라 최종 공개 내용 및 분석
라스베이거스에서 개최되는 연례 소비자 기술 컨퍼런스인 CES 2025가 다가오고 있으며, 이곳에서는...

[출처:] https://techcrunch.com/2025/01/08/elon-musk-agrees-that-weve-exhausted-ai-training-data