딥시크(DeepSeek)의 증류된 신규 R1 AI 모델, 단일 GPU로 구동 가능

sw_reporter

DeepSeek이 업데이트한 R1 추론 AI 모델이 이번 주 인공지능 커뮤니티의 큰 관심을 받을 것으로 예상됩니다. 하지만 중국 AI 연구소는 새로운 R1의 더 작고 '증류(distilled)'된 버전인 DeepSeek-R1-0528-Qwen3-8B를 추가로 공개했습니다. DeepSeek에 따르면 이 모델은 특정 벤치마크에서 유사 규모의 모델들을 능가하는 성능을 보입니다.

Qwen3-8B 모델을 기반으로 구축된 이 소형 업데이트 모델은 5월에 알리바바(Alibaba)가 출시한 모델이며, 까다로운 수학 문제 모음인 AIME 2025에서는 구글의 Gemini 2.5 Flash보다 우수한 성능을 기록했습니다.

딥시크-R1-0528-Qwen3-8B는 또 다른 수학 능력 테스트인 HMMT에서도 마이크로소프트(Microsoft)가 최근 공개한 Phi 4 reasoning plus 모델과 거의 동등한 수준을 보여주었습니다.

이처럼 소위 '증류 모델'은 일반적으로 원래 모델보다 성능이 낮은 경향이 있습니다. 하지만 장점으로, 요구되는 컴퓨팅 자원이 훨씬 적다는 것이 있습니다.

클라우드 플랫폼 NodeShift에서 Qwen3-8B를 구동하려면 40GB~80GB RAM을 갖춘 GPU(예: Nvidia H100)가 필요합니다. 반면, 전체 버전의 새로운 R1 모델은 약 12개의 80GB GPU가 필요합니다.

DeepSeek은 업데이트된 R1이 생성한 텍스트를 활용하여 Qwen3-8B를 파인튜닝(fine-tuning)함으로써 DeepSeek-R1-0528-Qwen3-8B를 훈련했습니다. AI 개발 플랫폼 Hugging Face에 올라온 해당 모델 전용 웹페이지에서 DeepSeek은 DeepSeek-R1-0528-Qwen3-8B를 "추론 모델에 대한 학술 연구는 물론, 소형 모델에 중점을 둔 산업 개발 분야 모두에 적합하다"고 설명했습니다.

DeepSeek-R1-0528-Qwen3-8B는 관대한 MIT 라이선스 하에 배포되어 상업적으로 제한 없이 사용할 수 있습니다. 현재 LM Studio를 포함한 여러 호스팅 업체에서 이미 API를 통해 해당 모델을 제공하고 있습니다.

[출처:] https://techcrunch.com/2025/05/29/deepseeks-distilled-new-r1-ai-model-can-run-on-a-single-gpu