• 딥시크(DeepSeek) 연구에 따르면 화웨이(Huawei)의 Ascend 910C가 엔비디아(Nvidia) H100 추론 성능의 60%를 구현하는 것으로 나타났다.

    구형 칩이 중국의 엔비디아(Nvidia) GPU 의존도를 낮추는 데 성공할 수 있다.

    article image

    화웨이의 하이실리콘 Ascend 910C는 2019년 발표된 당사 Ascend 910 AI 학습용 프로세서의 후속 모델이다. 현재까지 Ascend 910의 성능은 대규모 AI 모델을 비용 효율적으로 학습시키기에는 간신히 충분한 수준에 머물러 있다. 그럼에도 불구하고, 딥시크(DeepSeek) 연구원들의 분석에 따르면, Ascend 910C는 추론 성능 면에서 엔비디아(Nvidia) H100의 성능을 60% 수준으로 구현한다.

    Ascend 910C가 절대적인 성능 우위를 점한다고 보기는 어렵지만, 중국이 엔비디아 GPU에 대한 의존도를 낮추는 데는 성공적일 수 있다. 실제로 딥시크의 테스트 결과, 910C 프로세서는 추론 성능에서 기대치를 상회하는 결과를 보여주었다. 또한, CUNN 커널에 대한 수동 최적화를 통해 효율성을 추가로 개선할 여지가 있다. 딥시크가 제공하는 Ascend 프로세서 네이티브 지원과 PyTorch 레포지토리는 최소한의 노력만으로 CUDA-to-CUNN 변환을 가능하게 하여, 화웨이 하드웨어를 AI 워크플로우에 통합하는 과정을 매우 용이하게 한다. 이는 미국 정부의 제재와 TSMC의 최첨단 공정 기술 접근성 부족이라는 어려움에도 불구하고, 화웨이 AI 프로세서의 역량이 급속도로 발전하고 있음을 시사한다.

    화웨이와 SMIC이 2019년~2020년경 TSMC의 기술 수준을 따라잡아 엔비디아 A100 및 H100 프로세서와 경쟁 가능한 칩을 생산했음에도 불구하고, Ascend 910C는 AI 학습 전반에 걸쳐 최적의 선택은 아니다. AI 학습 분야는 여전히 엔비디아가 확고한 선두를 유지하는 영역이다. 딥시크의 Yuchen Jin은 장기적인 학습 신뢰성이 중국 프로세서의 핵심 약점이라고 지적했다. 이러한 어려움은 지난 20년간 축적된 엔비디아의 하드웨어 및 소프트웨어 생태계가 매우 깊이 통합되어 있기 때문에 발생한다. 추론 성능은 최적화가 가능하지만, 지속적인 학습 워크로드(workload)를 위해서는 화웨이의 하드웨어 및 소프트웨어 스택 전반에 추가적인 개선이 요구된다.

    원래의 Ascend 910과 마찬가지로, Ascend 910C 역시 칩렛(chiplet) 패키징 방식을 사용하며, 메인 컴퓨팅 SoC는 약 530억 개의 트랜지스터를 탑재하고 있다. Ascend 910의 기존 컴퓨팅 칩렛이 TSMC가 N7+ 제조 공정(EUV를 사용한 7나노급)으로 제작된 것과 달리, Ascend 910C의 컴퓨팅 칩렛은 SMIC이 N+2로 알려진 2세대 7나노급 공정 기술을 기반으로 제작되었다.

    장기적인 관점에서 볼 때, 일부 전문가들은 AI 모델이 트랜스포머 아키텍처로 수렴함에 따라 엔비디아의 소프트웨어 생태계에 대한 의존성이 점차 낮아질 수 있다고 예측한다. 딥시크의 하드웨어 및 소프트웨어 최적화 전문성은 또한 엔비디아에 대한 의존도를 크게 줄이고, 특히 추론(inference) 분야에 특화된 AI 기업들에게 더욱 비용 효율적인 대안을 제시할 수 있다. 하지만 글로벌 규모로 경쟁하기 위해서는 중국이 학습 안정성 문제를 극복하고 AI 컴퓨팅 인프라를 더욱 정교하게 구축해야 하는 과제를 안고 있다.

    [출처:] https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseek-research-suggests-huaweis-ascend-910c-delivers-60-percent-nvidia-h100-inference-performance