화웨이의 무차별 AI 전술이 효과를 보는 듯하다 - CloudMatrix 384가 DeepSeek R1을 구동하는 엔비디아 프로세서를 능가했다고 주장

hw_reporter

화웨이에게 네 배의 에너지를 사용하는 것이 많은 문제를 해결하는 것으로 밝혀졌다.

화웨이의 CloudMatrix AI 클러스터는 엔비디아(Nvidia)를 능가하기 위해 비교적 단순한 접근 방식을 취하고 있으며, 이 회사 연구원들과 외부 기관들은 최소 한 사례에서 실제 작동에 성공했다고 주장합니다. 최근 발표된 기술 논문에 따르면, Ascend 910C 칩 클러스터가 DeepSeek의 R1 LLM을 구동하는 성능 면에서 엔비디아의 H800 칩 성능을 능가한 것으로 나타났습니다.

화웨이는 중국 AI 스타트업 SiliconFlow와 협력하여 기술 논문을 발표했는데, 해당 논문은 CloudMatrix 384 클러스터가 DeepSeek 모델 구동에서 엔비디아 대비 우위를 점할 수 있음을 제시했습니다. 이 클러스터의 하드웨어 및 소프트웨어 스택은 DeepSeek의 6,710억 매개변수 R1 모델을 구동할 때, 엔비디아의 H100(중국 수출을 위해 성능이 조정된 H100의 변종)를 사용하는 시스템은 물론, H100 자체를 구동하는 시스템보다도 성능이 뛰어난 것으로 밝혀졌습니다.

CloudMatrix 384는 첨단 칩 생산 단계 접근이 제한된 화웨이에게 제시하는 강력한 대안 솔루션입니다. CloudMatrix는 랙 규모 시스템으로, 16개 서버 랙에 걸쳐 384개의 이중 칩렛 HiSilicon Ascend 910C NPU와 192개의 CPU를 결합했습니다. 이 시스템은 모든 서버 내부 및 서버 간 통신에 광학 연결을 사용하여 극도로 빠른 상호 연결성을 확보했습니다.

중국 자체 실리콘 공급업체의 부상과 엔비디아의 난항

연구 논문은 CM384의 개발 목표가 "AI 인프라의 근본적인 재편"에 있다고 설명하며, 또 다른 화웨이 과학자는 해당 논문 자체가 "중국 개발 NPU를 활용하여 엔비디아 GPU를 능가한다는 점을 국내 기술 생태계에 신뢰를 심어주기 위해" 출판되었다고 밝힌 바 있습니다.

이론적으로 CloudMatrix 384 클러스터는 엔비디아의 GB200 NVL72 시스템보다 높은 원시 컴퓨팅 성능을 자랑합니다. BF16 연산 기준으로 300 PFLOPs를 제공하는 반면, NVL72는 180 BF15 PFLOPS를 제공합니다. 또한 화웨이는 LLM 구동에 필요한 소프트웨어 경쟁력도 갖추고 있습니다. CloudMatrix-Infer LLM 솔루션은 TFLOP당 초당 4.45 토큰으로 프롬프트 사전 채우기(pre-fill)가 가능하며, TFLOPS당 초당 1.29 토큰으로 응답 생성이 가능하다고 주장됩니다. 이 효율성은 논문에 따르면 엔비디아의 SGLang 프레임워크를 능가하는 것으로 알려졌습니다.

물론 CloudMatrix 384가 모든 면에서 엔비디아 솔루션보다 우수하다고 할 수는 없으며, 주요 단점은 전력 소비와 효율성입니다. CloudMatrix는 엔비디아 GB200 NVL72보다 네 배에 달하는 전력을 사용하며, 총 100W를 소비합니다. 이는 효율성 면에서 아쉬운 부분이기도 합니다.

이러한 맥락에서, 주말에 작성된 기사에는 해당 내용이 포함되어 있습니다.

(참고: 본 문맥상 '주말에 작성된 기사'라는 정보는 문맥상 필요한 정보가 아니며, 작성된 기사의 내용이 주말에 작성되었다는 정보만 주어진 것으로 판단되어, 해당 정보는 생략함. 만약 '주말에 작성된 기사'라는 문장이 문맥상 중요한 전제 조건이라면 명확한 지시를 부탁드립니다.)

(원문이 '주말에 작성된 기사'가 언급되었으므로, 그 부분까지 포함하여 마무리합니다.)

(만약 제시된 내용 전체가 기사 내용의 일부라면, 위 내용은 '이러한 맥락으로 주말에 작성된 기사에서 다룬 내용' 정도로 연결되어야 합니다. 만약 단순히 정보를 요약하는 것이 목적이라면, 위에서 제시한 내용들이 주요 결론입니다.)

[출처:] https://www.tomshardware.com/pc-components/gpus/huaweis-brute-force-ai-tactic-seems-to-be-working-cloudmatrix-384-claimed-to-outperform-nvidia-processors-running-deepseek-r1