마이크로소프트와 OpenAI, DeepSeek의 ChatGPT 데이터 불법 취득 여부 조사

hw_reporter

지식재산권 도난인가?

블룸버그 통신은 소식통을 인용해 중국 인공지능(AI) 스타트업인 DeepSeek과 연계된 집단이 OpenAI의 애플리케이션 프로그래밍 인터페이스(API)를 무단으로 이용해 OpenAI 데이터를 접근했는지 조사하고 있다고 보도했다. OpenAI의 파이낸셜 타임즈(Financial Times) 소식통은 해당 그룹이 데이터 절도의 증거를 회사 측이 보유하고 있다고 전했다. 한편, 미국 관리들은 DeepSeek이 OpenAI의 출력을 사용하여 모델을 훈련시켰으며, 이를 '증류(distillation)' 방식이라고 의심하고 있다.

마이크로소프트의 보안팀은 DeepSeek과 연관된 것으로 추정되는 그룹이 OpenAI의 API에서 대규모 데이터를 추출하는 행위를 감지했다. 이 API는 개발자들이 수수료를 지불하고 OpenAI의 독점 모델을 애플리케이션에 통합하고 일부 데이터를 검색할 수 있도록 허용하는 기능이다. 그러나 마이크로소프트 연구원들이 발견한 이 과도한 데이터 추출은 OpenAI의 이용 약관을 위반할 뿐만 아니라, OpenAI의 제한을 우회하려는 시도로 해석된다.

이번 조사는 DeepSeek이 R1 AI 모델을 출시한 이후에 이루어졌다. 이 회사는 R1이 추론, 수학, 일반 지식 등의 분야에서 선도적인 모델들과 동등하거나 그 이상의 성능을 보이며, 자원 소비는 현저히 적다고 주장했다. DeepSeek의 발표 직후, 알파벳(Alphabet), 마이크로소프트(Microsoft), 엔비디아(Nvidia), 오라클(Oracle) 등은 약 1조 달러에 달하는 시장 손실을 겪었다. 투자자들은 DeepSeek의 급속한 발전이 AI 분야에서 미국 기업들의 지배력에 위협이 될 수 있다는 우려를 표명했다. 다만, 만약 DeepSeek이 타인으로부터 불법적으로 확보한 데이터를 사용했다는 사실이 밝혀진다면, 이는 회사가 수십억 달러 규모의 투자를 거치지 않고도 이러한 성과를 달성할 수 있었던 이유를 설명해 줄 수 있다.

미국 정부의 AI 자문가인 데이비드 색스(David Sacks)는 DeepSeek이 '증류(distillation)' 과정을 통해 OpenAI가 생성한 콘텐츠를 모델 훈련에 사용했다는 강력한 증거가 있다고 밝혔다. 이 방법은 한 AI 시스템이 다른 시스템의 출력을 분석함으로써 학습할 수 있도록 하는 방식을 의미한다. 다만, 색스는 이와 관련한 구체적인 증거에 대해서는 언급하지 않았다.

OpenAI와 마이크로소프트 모두 이번 조사에 대해 공식 성명을 내지 않았다. DeepSeek과 이 회사의 초기 상장에 도움을 준 헤지펀드 하이플라이어(High-Flyer) 측 역시 블룸버그의 논평 요청에 응하지 않았다. 그러나 블룸버그와 파이낸셜 타임즈가 공동 발표한 성명에서 OpenAI는 중국 기반 기업들이 미국 기업의 모델을 증류하려는 경향이 있으며, 회사는 자사 모델 보호에 최선을 다하고 있음을 인정했다.

해당 성명에는 "우리는 PRC(중화인민공화국) 기반 기업들과 다른 회사들이 선도적인 미국 AI 기업들의 모델을 지속적으로 증류하려고 시도하고 있다는 것을 알고 있습니다"라고 명시되어 있다. 이어 "AI 분야의 선도적인 개발사로서, 우리는 공개되는 모델에 포함될 최첨단 기능에 대한 신중한 프로세스를 포함하여 IP를 보호하기 위한 대응책을 수행하고 있으며, 나아가 적대 세력이나 경쟁자들이 미국 기술을 이용하려는 시도로부터 가장 강력한 모델들을 보호하기 위해 미국 정부와 긴밀히 협력하는 것이 매우 중요하다고 믿습니다"라고 덧붙였다.

[출처:] https://www.tomshardware.com/tech-industry/artificial-intelligence/microsoft-and-open-ai-investigate-whether-deepseek-illicitly-obtained-data-from-chatgpt