무어 스레드 GPU, DeepSeek 모델에서 '매우 뛰어난' 추론 성능을 보였다는 주장 제기

hw_reporter

하지만 성능 수치는 발표되지 않았다.

DeepSeek 오픈소스 AI 모델의 획기적인 특징 중 하나는 Raspberry Pi와 같은 비교적 저렴한 하드웨어로도 로컬 구동이 가능하다는 점이다. ITHome의 보도에 따르면, DeepSeek V3 및 R1 모델은 심지어 중국에서 개발된 Moore Threads GPU에서도 실행할 수 있다고 한다. 만약 이 내용이 사실이라면, 하드웨어 설계자인 DeepSeek과 중국 모두에게 주요한 성과가 될 수 있으며, Moore Threads에게 새로운 기회를 열어주고 DeepSeek과 중국의 Nvidia 하드웨어 의존도를 낮출 잠재력을 지닌다.

Moore Threads는 자체 MTT S80 클라이언트 그래픽 카드와 MTT S4000 데이터센터급 그래픽 카드에서 DeepSeek-R1-Distill-Qwen-7B 증류 모델을 성공적으로 배포했다고 보도했다. 이 회사는 사용자들이 MacOS, Linux, Windows 기기에서 대규모 언어 모델(LLM)을 직접 구동할 수 있게 하는 경량 프레임워크인 Ollama와 최적화된 추론 엔진을 활용하여 '높음(high)' 성능을 달성했다고 밝혔다.

보고서는 DeepSeek-R1-Distill-Qwen-7B 증류 모델을 사용한 MTT S80과 MTT S4000의 성능을 설명하며 '우수함(excellent)'과 '높음(high)' 성능을 언급하고 있지만, 실제 성능 수치나 타 하드웨어와의 비교는 구체적으로 명시하지 않았다. 따라서 제시된 주장의 객관적인 평가가 불가능할 뿐만 아니라, MTT S80의 현지 외 가용성 문제까지 고려할 때 주장을 검증하는 것 역시 어려운 상황이다.

Ollama는 Llama 3.3, DeepSeek-R1, Phi-4, Mistral, Gemma 2와 같은 모델을 지원하며, 클라우드 기반 서비스에 의존하지 않고 효율적인 로컬 실행을 가능하게 한다. Ollama는 주로 macOS 환경에 최적화되어 있으며, Apple GPU 가속을 위해 Metal을, Nvidia GPU 가속을 위해 CUDA를, AMD GPU 가속을 위해 ROCm을 지원한다.

공식적으로 Ollama는 Moore Threads의 GPU를 지원하지 않으나, 해당 회사는 자체 그래픽 프로세서가 CUDA GPU용으로 컴파일된 코드를 실행할 수 있다고 주장한다. 이를 통해 Moore Threads의 GPU가 실제로 CUDA와 호환성이 입증되었으며, 특히 중국어 애플리케이션 등의 AI 워크로드에 적합하다는 결과가 확인되었다.

성능 향상을 위해 Moore Threads는 맞춤형 컴퓨팅 최적화 및 향상된 메모리 관리 기능이 포함된 독자적인 추론 엔진을 적용했다. 보고서에 따르면, 이러한 소프트웨어-하드웨어 통합은 컴퓨팅 성능과 자원 효율성을 크게 증대시키며 원활한 배포 프로세스를 보장하고 향후 AI 모델 지원을 가능하게 한다고 한다. 물론 현재 논의의 대상은 증류 모델(distilled model)이므로, Moore Threads GPU의 성능을 AMD, Apple, 또는 Nvidia의 솔루션 성능과 직접적으로 비교하기는 어렵다.

[출처:] https://www.tomshardware.com/tech-industry/artificial-intelligence/moore-threads-gpus-allegedly-show-excellent-inference-performance-with-deepseek-models