딥시크가 최신 모델 훈련에 구글의 제미나이를 사용했을 수 있다

sw_reporter

지난주 중국의 연구소 DeepSeek은 여러 수학 및 코딩 벤치마크에서 뛰어난 성능을 보이는 R1 추론 AI 모델의 업데이트된 버전을 공개했다. 회사는 모델 훈련에 사용된 데이터의 출처는 밝히지 않았으나, 일부 AI 연구원들은 최소한 일부 데이터가 구글의 Gemini AI 계열에서 유래했을 것이라고 추측하고 있다.

AI를 위한 "감성 지능" 평가를 개발하는 멜버른 기반 개발자 샘 파에흐(Sam Paech)는 DeepSeek의 최신 모델이 Gemini의 출력물로 훈련되었다는 증거라고 주장하는 자료를 공개했다. 파에흐는 X 게시물에서 DeepSeek의 모델인 R1-0528이 구글의 Gemini 2.5 Pro가 선호하는 단어나 표현과 유사한 패턴을 보인다고 지적했다.

[샘 파에흐 (@sam_paech)의 트윗, 2025년 5월 29일]
새로운 DeepSeek R1 모델이 이전과 약간 다르게 느껴진다면, 아마도 합성된 OpenAI 학습 데이터에서 합성된 Gemini 출력물로 훈련 방식이 변경되었기 때문일 겁니다.

그것이 결정적인 증거는 아니지만, 또 다른 개발자인 ‘SpeechMap’이라 불리는 AI 자유 연설 평가 제작자는 DeepSeek 모델이 결론을 도출하는 과정에서 생성하는 ‘사고 과정(thought)’의 흔적들이 "Gemini의 추적 기록과 유사하게 읽힌다"고 언급했다.

DeepSeek은 과거에도 경쟁 AI 모델의 데이터를 학습했다는 비난을 받아왔다. 작년 12월에는 개발자들이 DeepSeek의 V3 모델이 자신을 OpenAI의 AI 기반 챗봇 플랫폼인 ChatGPT로 자주 식별하는 것을 관찰한 바 있으며, 이는 ChatGPT 채팅 로그를 통해 훈련되었을 가능성을 시사했다.

더 앞선 시점에는 OpenAI가 파이낸셜 타임스에 DeepSeek이 더 크고 강력한 AI에서 데이터를 추출하여 AI 모델을 훈련하는 '증류(distillation)' 기술을 사용한 증거를 발견했다고 밝힌 바 있다.

블룸버그(Bloomberg)에 따르면, OpenAI의 긴밀한 협력사이자 투자자인 마이크로소프트는 2024년 후반, OpenAI 개발자 계정을 통해 대량의 데이터가 유출되는 현상을 감지했으며, OpenAI 측은 이 계정들이 DeepSeek과 연관되어 있다고 보고 있다.

증류 자체가 드문 관행은 아니지만, OpenAI의 서비스 약관은 고객이 회사의 모델 출력을 사용하여 경쟁 AI를 구축하는 것을 명시적으로 금지하고 있다.

물론 많은 모델들이 스스로를 오인식(misidentify)할 수 있으며, 동일한 단어와 구절의 흐름으로 수렴하는 경향이 있다. 이는 AI 기업들이 훈련 데이터의 대부분을 확보하는 원천인 공개 웹이 'AI 슬롭(AI slop)'으로 범람하고 있기 때문이다. 콘텐츠 공장들이 AI를 이용해 클릭베이트(clickbait)를 대량 생산하고, 봇들이 레딧(Reddit)을 범람시키면서, 이러한 "오염(contamination)" 상태는 훈련 데이터 세트에서 AI 출력을 완전히 필터링하는 것을 매우 어렵게 만들고 있다.

그럼에도 불구하고, 비영리 AI 연구 기관 AI2의 연구원인 네이선 램버트(Nathan Lambert)와 같은 AI 전문가들은 DeepSeek이 구글 Gemini의 데이터를 학습했을 가능성을 배제하지 않고 있다.

램버트는 X 게시물을 통해 “제가 DeepSeek이라면 현존하는 최고의 API 모델에서 합성 데이터가 엄청날 정도로 많이 나올 것입니다. DeepSeek은 GPU가 부족하고 현금 흐름이 원활합니다. 이는 그들에게 문자 그대로 효과적인 컴퓨팅 파워가 됩니다.”라고 의견을 밝혔다.

[네이선 램버트 (@natolambert)의 트윗, 2025년 6월 3일]
만약 제가 DeepSeek이라면 현존 최고의 API 모델에서 합성 데이터를 엄청나게 만들 것입니다. GPU가 부족하고 현금 흐름이 풍부합니다. 이는 그들에게 문자 그대로 효과적인 컴퓨팅 파워입니다. (Gemini 증류 관련 질문에 대한 답변입니다).

이러한 증류 방지 노력의 일환으로, AI 기업들은 보안 조치를 강화하고 있다.

지난 4월, OpenAI는 특정 고급 모델에 접근하려는 조직들에게 ID 인증 절차 완료를 의무화했다. 이 절차를 위해서는 OpenAI API가 지원하는 국가 중 한 곳에서 발급된 정부 발행 신분증이 필요하며, 중국은 지원 목록에 포함되어 있지 않다.

한편, 구글은 최근 자체 AI 스튜디오(AI Studio) 개발자 플랫폼을 통해 이용 가능한 모델들이 생성하는 추적 기록을 관리하며, 경쟁 모델에 대한 정보를 수집하고 있다.

이러한 기술적 움직임들은 AI 산업의 투명성과 출처 문제를 제기하고 있다.

[출처:] https://techcrunch.com/2025/06/03/deepseek-may-have-used-googles-gemini-to-train-its-latest-model