딥시크(DeepSeek), '추론' 모델로 OpenAI의 o1을 특정 벤치마크에서 능가했다고 주장

sw_reporter

중국 AI 연구소 딥시크(DeepSeek)가 자사의 '추론 모델(reasoning model)'로 명명한 DeepSeek-R1의 오픈 버전을 공개했습니다. 딥시크는 이 모델이 특정 AI 벤치마크에서 OpenAI의 모델과 견주어도 손색이 없다고 주장합니다.

R1은 AI 개발 플랫폼 허깅 페이스(Hugging Face)에서 MIT 라이선스로 제공되어 상업적으로 제한 없이 사용 가능합니다. 딥시크에 따르면, R1은 AIME, MATH-500, SWE-bench Verified 벤치마크에서 OpenAI의 o1 모델을 능가하는 성능을 보였습니다. AIME은 다른 모델을 활용하여 모델 성능을 평가하는 시험이며, MATH-500은 유형의 단어 문제 모음집입니다. SWE-bench Verified는 프로그래밍 작업 능력에 중점을 둡니다.

추론 모델인 R1은 자체적으로 사실 확인을 수행하는 능력을 갖추고 있어, 일반 모델들이 흔히 빠지는 오류들을 회피하는 데 도움이 됩니다. 다만, 추론 모델은 일반적인 비추론 모델 대비 솔루션을 도출하는 데 시간이 더 소요되는데, 이는 보통 몇 초에서 몇 분 정도 걸리는 수준입니다. 하지만 이러한 과정 덕분에 물리학, 과학, 수학과 같은 특정 영역에서는 더 높은 신뢰성을 보입니다.

딥시크는 기술 보고서를 통해 R1이 6,710억 개의 매개변수를 포함하고 있다고 공개했습니다. 매개변수는 모델의 문제 해결 능력과 상당 부분 연관되며, 일반적으로 매개변수가 많을수록 성능이 우수합니다.

6,710억 개의 매개변수는 엄청난 규모이지만, 딥시크는 또한 15억 개에서 700억 개 사이의 매개변수를 가진 R1의 "증류(distilled)" 버전도 함께 출시했습니다. 가장 작은 버전은 노트북에서도 구동할 수 있습니다. 전체 R1 버전은 고성능 하드웨어를 요구하지만, 딥시크의 API를 통해 OpenAI의 o1보다 90~95% 저렴한 가격으로 이용할 수 있습니다.

허깅 페이스의 CEO인 클렘 델랑그(Clem Delangue)는 월요일 X(구 트위터)를 통해 게시한 글에서, 플랫폼 개발자들이 R1의 500개가 넘는 '파생 모델'을 만들어냈으며, 이 모델들이 합산하여 250만 건의 다운로드를 기록했다고 언급했습니다. 이는 공식 R1이 기록한 다운로드 수보다 다섯 배 많은 수치입니다.

클렘 델랑그는 "불과 며칠 만에 파생 모델 500개가 넘는 모델들이 전 세계 업로드되어 250만 건의 다운로드(오리지널 가중치의 5배)를 기록했다"고 전했습니다. 이는 분산된 오픈 소스 AI의 강력한 힘을 보여줍니다.

다만 R1에는 한계점도 존재합니다. 중국의 모델인 R1은 중국 인터넷 규제 당국의 검증을 받아 응답이 "사회주의 핵심 가치"를 구현하는지 감시를 받기 때문입니다. 예를 들어, R1은 톈안먼 광장에 대한 질문이나 대만의 자치권 문제 등 규제 당국의 심기를 건드릴 수 있는 주제에 대해서는 응답을 거부합니다.

이러한 규제는 DeepSeek과 같은 중국 AI 시스템들이 체제에 대한 추측 등 민감한 주제에 대해 답변을 거부하는 방식으로 나타납니다.

R1이 공개된 시점은 바이든 행정부가 중국 관련 AI 기술에 대한 수출 규칙 및 규제 강화안을 제안한 지 얼마 지나지 않았습니다. 중국 기업들은 이미 첨단 AI 칩 구매가 제한되고 있었으며, 새로운 규제가 그대로 시행될 경우, 기업들은 정교한 AI 시스템 구동에 필요한 반도체 기술과 모델 모두에 걸쳐 더 엄격한 제약을 받게 될 전망입니다.

앞서 OpenAI는 정책 문건에서 미국 정부가 중국 모델에 능가하거나 추월할 수 있는 미국 AI 개발 지원을 촉구했습니다. 또한 OpenAI의 정책 담당 부사장 크리스 레하네(Chris Lehane)는 매체와의 인터뷰에서 딥시크의 모기업인 하이플라이어 캐피털 매니지먼트(High Flyer Capital Management)를 특별히 우려하는 조직으로 지목했습니다.

현재까지 딥시크, 알리바바, 그리고 중국 유니콘 기업 문샷 AI(Moonshot AI)가 소유한 기관을 포함하여 최소 세 개의 중국 연구소에서 o1에 필적한다고 주장하는 모델들이 개발되었습니다. (참고로, 딥시크가 가장 먼저였으며 지난 11월 말에 R1 프리뷰 버전을 발표했습니다.) 조지 메이슨 대학교의 AI 연구원인 딘 볼(Dean Ball)은 X에 올린 글에서 이러한 추세가 중국 AI 연구소들이 계속해서 "빠른 추종자(fast followers)" 역할을 할 것임을 시사한다고 지적했습니다.

볼은 "딥시크의 증류 모델이 보여주는 인상적인 성능은 매우 유능한 추론자들이 계속해서 널리 퍼지고 로컬 하드웨어에서도 구동 가능하게 될 것임을 의미한다"라며, "이는 어떠한 중앙 통제 체제의 눈에도 포착되지 않을 것이다"고 작성했습니다.

본 기사는 원래 1월 20일에 게재되었으며, 1월 27일 추가 정보가 업데이트되었습니다.

[출처:] https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-certain-benchmarks