화웨이, 1.56 PFLOPS FP4 컴퓨팅 및 최대 112GB HBM 탑재 'Atlas 350 AI 가속기' 공개... 엔비디아 H20보다 2.8배 높은 성능 주장

hw_reporter

Ascend 950PR 실리콘 기반.

중국의 인공지능(AI) 분야 완전 자립화 목표가 새로운 이정표를 달성했습니다. 화웨이 중국 파트너 컨퍼런스 2026(Huawei China Partner Conference 2026)에서 발표된 바에 따르면, 화웨이는 최신 AI 가속기인 Atlas 350을 공개했습니다. 이 새로운 NPU는 사내 개발한 Ascend 950PR 칩을 기반으로 하며, 이는 이전 세대의 Ascend 910급 실리콘 대비 상당한 성능 향상을 의미합니다.

화웨이는 Atlas 350을 AI 배포의 프리필 단계(추론)에 최적화된 고효율 워크호스로 마케팅하고 있습니다. 이에 따라 Atlas 350은 1.56 PFLOPS의 FP4 처리량을 제공하며, 화웨이 주장에 따르면 이는 엔비디아의 중국 전용 H20보다 2.87배 높은 수치입니다. 이 수치는 하퍼(Hopper) 시대 카드들이 FP4를 네이티브로 지원하지 않기 때문에 검증하기는 어렵습니다. 그 이유는 Atlas 350이 FP4 정밀도에 최적화된 최초의 중국산 가속기이기 때문입니다.

이는 이미 큰 성과입니다. 엔비디아조차도 블랙웰(Blackwell) GPU를 통해서야 이 형식을 최근에 지원하기 시작했기 때문입니다. FP4는 더 적은 메모리를 요구하면서도 동일한 하드웨어에서 더 큰 규모의 모델을 배포할 수 있게 해주는 이점이 있습니다. 참고로, Atlas 350에는 화웨이의 독자적인 HBM인 "HiBL 1.0" 112GB가 탑재되어 있습니다.

중국 자체 실리콘 공급업체 부상 vs. 엔비디아 시장 공급 난항

Ascend 950PR은 원래 1.6 TB/s의 대역폭과 128GB 메모리를 갖춘 사양을 보여주지만, Atlas 350에 대한 현재 보고서에 따르면 최대 1.4 TB/s로 제한되는 것으로 알려졌습니다. 메모리 접근 세분성(granularity) 역시 512바이트에서 128바이트로 줄었습니다. 또한, 새로운 LingQu 프로토콜을 활용하여 2 TB/s의 인터커넥트(상호 연결) 대역폭을 지원하는데, 이는 기존 Ascend 910 시리즈 대비 2.5배 높은 수치입니다. Atlas 350의 정격 전력은 H20보다 200W 높은 600W로 설정되었습니다.

이러한 사양은 특히 미국 제재가 걸린 상황에서 제작된 자국산 칩임에도 매우 인상적인 성과를 보여줍니다. 화웨이는 엔비디아가 GPU 옆에 HBM을 적층하는 데 사용되는 TSMC의 CoWoS 기술에 접근할 수 없기 때문에, 대체 첨단 패키징 기술을 활용하고 있습니다. 메모리 자체는 사내 개발 제품으로, SK하이닉스나 마이크론 같은 글로벌 기업들과 경쟁하는 것이 목표인 것으로 알려져 있으나, 실제 공급업체는 아직 확인되지 않았습니다.

정확한 가용 시기는 발표되지 않았습니다. (AI 가속기의 특성상 흔한 일입니다.) 다만, 화웨이는 Ascend 950PR의 2026년 1분기 출시라는 이전 약속을 지켰습니다. BigGo Finance에 따르면 이 NPU의 예상 가격은 111,000 위안(약 $16,000)으로 책정되었으며, 이는 해당 지역에서 $15,000에서 $25,000 사이로 가격대가 형성되는 엔비디아 H20과 비교됩니다. 다만, AI GPU의 스트리트 프라이싱(Street pricing)은 실제로 존재하지 않으므로, 이 부분은 참고 자료로만 받아들이는 것이 좋습니다.

앞서 별도의 기사에서 다루었듯이, 파이프라인에는 더 많은 Ascend 칩이 준비되어 있습니다. 외국 하드웨어로부터의 독립을 목표로 하고 있지만, 중국 기업들은 여전히 성능이 저하된 제품이 아닌 엔비디아 GPU를 조달하고 있습니다. 이는 현지 실리콘이 아직 충분한 경쟁력을 확보하지 못했거나, CUDA 소프트웨어 스택이 워낙 성숙했기 때문으로 분석됩니다. 따라서 화웨이의 최신 노력들은 이 기술적 격차를 메우려는 매우 진지한 시도로 해석됩니다.

[이 부분은 원문 요청에 따라 생략 가능하며, 일반적으로 결론이나 후속 기사를 안내합니다.]

[출처:] https://www.tomshardware.com/pc-components/gpus/huawei-unveils-new-atlas-350-ai-accelerator-with-1-56-pflops-of-fp4-compute-and-up-to-112gb-of-hbm-claims-2-8x-more-performance-than-nvidias-h20