중국제 DeepSeek AI 모델, 방대한 온라인 사용자 데이터 기록 및 중국 기반 서버 저장

hw_reporter

딥시크는 무엇을 수집하지 않는가?

DeepSeek의 최신 R1 대규모 언어 모델(LLM)은 출시 직후 AI 주가를 폭락시키면서 이미 주목받았는데, 그 개인정보 보호 정책에 대한 폭로는 더욱 논란을 야기할 수 있다. 이 회사는 온라인 사용자의 키 입력, 비밀번호, 이미지 및 텍스트 검색어 등 광범위한 데이터를 기록하여 중국 기반 서버에 저장하는 것으로 알려졌다.

DeepSeek에 따르면, 생년월일, 이메일 주소, 전화번호, 비밀번호 등의 개인 정보는 모두 수집 대상이다. 사용자가 R1 LLM에 입력하는 텍스트나 오디오 프롬프트부터 업로드 파일까지 모든 콘텐츠가 DeepSeek에 의해 수집될 수 있다. 또한 사용자가 DeepSeek에 연락할 경우, 회사 측은 사용자의 신분증(예: 운전면허증)과 같은 본인 확인 기록도 보관할 수 있다고 밝히고 있다.

이것만이 아니다. DeepSeek은 사용자의 하드웨어와 관련된 모든 정보를 기록한다. IP 주소, 휴대폰 모델, 사용 언어 등이 포함된다. 데이터 수집 과정은 매우 철저하여, 회사는 심지어 "키 입력 패턴 또는 리듬(keystroke patterns or rhythms)"까지 기록한다고 언급했다. 인터넷에서 사용자를 추적하는 고전적인 방법인 쿠키 역시 사용자 데이터 수집에 기여한다.

한편, R1이 '오픈 소스' 모델이기 때문에 어떤 장치에서도 구동할 수 있어 일반적으로 개인정보 보호 측면에서는 긍정적이다. 즉, 모델을 자체 하드웨어에서 로컬로 실행한다면 데이터 수집으로 이어지지는 않을 것으로 추측된다. 그러나 DeepSeek은 R1의 온라인 접근을 웹사이트와 모바일 앱을 통해 제공하고 있으며, 이는 AI 회사가 온라인 사용자 데이터를 직접 처리하고 저장함을 의미한다. 다행히 DeepSeek은 온라인 사용자로부터 어떤 데이터를 수집하고, 어디에 저장하며, 이를 어떻게 활용하는지 매우 투명하게 공개하고 있다. 회사 개인정보 보호 정책 페이지에 모든 것이 상세히 명시되어 있으나, 그 내용에 따르면 회사가 수집하지 않는 정보는 거의 없다.

많은 사용자 데이터를 보유한 기업이 광고 회사 등 관심 있는 제3자에게 데이터를 판매하는 것이 일반적인 관행임에도 불구하고, DeepSeek은 잠재적으로 그렇게 할 수 있다고 밝히면서도, 다음과 같이 인정했다. "광고업체, 측정업체 및 기타 파트너들이 서비스 외부에서 수행한 귀하에 대한 정보 및 행동, 예를 들어 다른 웹사이트나 앱, 혹은 매장에서 구매한 제품이나 서비스 활동과 관련된 정보를 저희와 공유합니다." 이 모든 정보가 이용 가능한 것으로 미루어 보아, DeepSeek은 사용자들을 매우 사적인 수준까지 파악할 잠재력을 가지고 있다.

또한 DeepSeek의 "기업 그룹"은 "저장, 콘텐츠 전송, 보안, 연구 및 개발, 분석, 고객 및 기술 지원, 콘텐츠 조정과 같은 특정 기능"을 제공하기 위해 수집된 데이터에 접근할 수 있다.

개인정보 보호 정책에 따르면 이 모든 정보는 중국에 위치한 서버에 보관되어 있으며, 이는 심각한 논란을 야기할 수 있는 지점이다. 미국인의 개인 상세 정보가 중국 정부의 손에 들어간다는 우려는 바이든 행정부가 틱톡(TikTok)을 금지하려 했던 주요 요인이었으며, 이로 인해 DeepSeek 역시 유사한 수준의 조사 대상이 될 가능성이 높아졌다.

물론 전직 대통령 바이든은 재임 말년에 틱톡 금지 조치를 되돌리려 했고, 트럼프 대통령 역시 취임 직후 이 앱의 운명에 대해 주저한 바 있다. 따라서 DeepSeek 역시 적절한 상황에서는 어느 정도 관대하게 다뤄질 수도 있다.

반면, 트럼프 대통령의 지지자들 사이에는 Meta의 마크 저커버그와 OpenAI의 샘 알트만도 포함되어 있는데, 이들 모두 R1 LLM이 자신들의 LLM을 압도하는 상황에 만족하지 않을 것으로 보인다. 게다가 DeepSeek이 여러 미국 기업에 큰 영향을 줄 수 있는 상황에 놓여 있어, 정치적 논란의 중심에 서 있다.

Deep Learning Model의 강력한 성능에 힘입어 산업 전반의 발전을 이끌고 있으나, 그만큼 윤리적 문제에 대한 감시가 강화되고 있다.

이러한 복잡한 환경 속에서, 개인정보보호권과 기술의 발전 속도 간의 균형점을 찾는 것이 핵심 과제로 떠오르고 있다.

[출처:] https://www.tomshardware.com/tech-industry/artificial-intelligence/chinese-made-deepseek-ai-model-collects-extensive-user-data-stores-it-on-china-based-servers