• 화웨이, Ascend AI GPU에 DeepSeek 최적화 추론 지원 추가

    엔비디아, 중국에서 경쟁 심화

    article image

    1월 27일, 시장이 중국 LLM(거대 언어 모델)이 업계에 미치는 영향을 충분히 인정하면서 엔비디아의 주가가 폭락한 바로 그날, 중국 기반 기업 화웨이는 체리식 R1 AI 모델이 ModelArts Studio 플랫폼을 통해 무료로 이용 가능해졌다고 발표하는 기사를 게재했다. 해당 기술 기업은 이 버전이 화웨이의 Ascend 데이터 센터 GPU를 지칭하는 'Ascend 적응형(Ascend-adapted)'이라고 명시했다.

    화웨이는 ModelArts Studio에 사용되는 Ascend GPU의 종류, 특히 R1에 대한 정확한 세부 정보는 밝히지 않았으나, 유촨진(Yuchen Jin)과 같은 AI 업계 관계자들은 최신 Ascend 910C일 것으로 추측한다. 이 신형 GPU는 9월에 고객들에게 샘플링된 것으로 알려져 있어, 910C가 이미 화웨이의 클라우드 서버에 탑재되었을 가능성이 크다.

    R1 모델이 Nvidia의 H800 GPU 수천 개 이상으로 훈련되었다는 보도에도 불구하고, 화웨이에게 중요한 점은 자사의 GPU가 LLM을 실제로 구동하는 명시적인 지원을 갖추었다는 것이다. 이는 중국의 AI 기업들이 어려움을 겪던 과정 중, 고성능 덕분에 훈련과 추론 모두에서 수요가 높은 서방 기업(이 경우 Nvidia와 AMD)에 의존해야 했던 또 다른 단계를 우회할 수 있음을 의미한다. 하지만 화웨이가 빠르게 추격하고 있는 상황일 수도 있다.

    엔비디아가 시장 칩 공급에 난항을 겪는 사이, 중국 자체 실리콘 공급업체들이 주목받다

    진 씨는 X(구 트위터)를 통해 "개발자 경험에 비춰 볼 때, 화웨이 910C의 추론 성능은 H100의 성능을 60% 달성합니다. 또한, 수작업으로 작성된 CUNN 커널 및 최적화 덕분에 실제 성능은 더욱 높습니다"라고 밝혔다. 진 씨는 910C가 훈련용으로도 활용될 수 있다고 언급했지만, R1은 공식적으로 H800 칩으로 훈련되었으며, 이것이 DeepSeek이 영구적으로 H800을 계속 사용할 것이라는 의미는 아니다.

    현재 성능은 중국 시장에서 엔비디아에게 주요 문제로 작용한다. 미국 정부가 발령한 바이든 행정부 시대의 제재로 인해 '지나치게 빠르다'고 판단되는 프로세서의 판매가 금지되었기 때문이다. Nvidia의 최고 데이터 센터 GPU인 H200이나 B200과 같은 여러 제품들이 중국으로 합법 수출할 수 없어, 엔비디아는 겨우 성능 제한 기준에 부합하도록 중국 전용의 새로운 모델을 개발할 수밖에 없는 상황이다.

    실제로 DeepSeek이 R1 LLM 훈련에 사용했다고 주장한 H800은 바이든 행정부가 중국에 대한 1차 GPU 수출 규제를 시작한 후, 금지된 H100의 대안을 제시하기 위해 출시된 바 있다. 그러나 이후 라운드의 제재가 발효되면서, 중국에서 합법적으로 판매 가능한 칩의 성능 제한이 낮아졌고, 이에 따라 H800을 포함한 다른 Nvidia GPU들마저 금지 목록에 올랐다.

    미국 정부의 수출 규제 때문에 엔비디아는 중국에서 성능이 낮은 하드웨어로 경쟁할 수밖에 없다. 이 칩 회사의 중국용 주력 제품인 H20은 최고급 Hopper 기반 카드인 H200과 비교했을 때 메모리 용량, 메모리 대역폭, TFLOPs 모두 현저히 낮다.

    이는 중국 내 엔비디아의 시장 상황에 매우 현실적인 영향을 미쳤다. 실제로 2024년 5월, Nvidia는 H20을 화웨이의 Ascend 910B보다 낮은 가격에 판매하기도 했다. 다만, H20 판매 실적은 작년 하반기에 더 좋았던 것으로 알려져 있으며, 연속적인 호실적에 힘입어 4분기 매출이 3분기 대비 50% 증가하기도 했다. 어느 쪽이든, 엔비디아가 최고 성능의 GPU를 중국에 판매할 수만 있다면 중국 경쟁사 대비 확실히 유리한 위치를 점할 수 있을 것이다.

    하지만 문제는 엔비디아가 중국에서 경쟁할 수 있는지 여부에만 그치지 않는다. 중국 프로세서로 첨단 성능을 구현하는 중국 LLM을 구동할 수 있다는 것은 중국의 기술적 자립(autarky) 달성 경로에 있어 중대한 이정표가 될 수 있다. 만약 Ascend 910C나 다른 중국 GPU가 훈련과 추론 모두에 충분하다는 것이 입증된다면, H20과 같은 프로세서에 대한 의존도는 더욱 낮아질 가능성이 크다. 물론 중국이 칩 제조 분야에서 완전한 진전을 이루기 전까지는 서방 칩을 완전히 배제하기는 어렵지만, 화웨이와 같은 기업들이 이러한 목표를 위해 노력하고 있다.

    [출처:] https://www.tomshardware.com/tech-industry/artificial-intelligence/huawei-adds-deepseek-inference-support-for-its-ascend-ai-gpus