알리바바의 AI 칩, 국가 지원 벤치마크 데모에서 엔비디아 H20와 정면 대결

hw_reporter

국영 TV 방송이 알리바바의 PPU와 엔비디아의 H20를 나란히 배치했지만, 해당 주장은 전적으로 시각적 연출에만 의존한다.

알리바바의 반도체 사업 부문인 T-Head가 성능이 엔비디아(Nvidia)의 H20과 맞먹는 새로운 AI 프로세서를 개발했다고 보도되었습니다. H20은 현재 지정학적 어려움에 직면한 중국 시장만을 위해 특화 설계된 GPU입니다.

이 시연은 지난 9월 16일 화요일, 중국 중앙 텔레비전(CCTV)이 리창(Li Qiang) 총리의 칭하이(Qinghai) 우커모(China Umicom) 산장위안 에너지 인텔리전트 컴퓨팅 센터 방문을 다룬 보도 과정에서 방영되었습니다. 이 보도 내용에서 T-Head의 새로운 "PPU" 가속기가 엔비디아 H20 및 A800, 그리고 화웨이(Huawei)의 Ascend 910B와 직접 비교되었으며, 제시된 차트에는 알리바바와 엔비디아 제품 간 성능 동등성이 암시되었습니다. 사우스차이나모닝포스트(South China Morning Post)에 따르면, 이 칩은 AI 워크로드에 최적화된 ASIC(Application-Specific Integrated Circuit)이며, 96GB HBM2e 메모리, 700GB/s의 칩 간 상호 연결(chip-to-chip interconnect), PCIe 지원, 그리고 400W의 보드 전력을 특징으로 합니다. 비록 방송이 테스트 방법론의 구체적인 내용이나 원시 데이터를 공개하지는 않았지만, 알리바바의 하드웨어를 엔비디아의 데이터센터급 GPU와 동등한 수준으로 제시한 최초의 공개 벤치마크라는 점에서 큰 의미를 지닙니다.

한편, 로이터(Reuters)에 따르면 중국 우니콤(China Unicom)은 이미 이 인프라에 알리바바의 PPU 카드 16,384개를 배치했으며, 이는 칭하이 시설에 설치된 약 23,000개의 국내 가속기 중 절반 이상을 차지합니다. 해당 카드는 총 3,579 페타플롭스(petaflops)의 컴퓨팅 성능을 제공하며, 이 시설은 모든 단계가 완료되면 20,000 페타플롭스 이상으로 확장될 것으로 예상됩니다.

CCTV 시연 뒤에는 순전히 기술적인 배경만 존재하는 것이 아닙니다. 엔비디아 H20은 미국이 중국에 고성능 실리콘 판매를 제한하는 수출 통제 규정을 준수하기 위해 도입되었습니다. 호퍼(Hopper) 아키텍처를 기반으로 하되 제한 규격에 맞춰 성능이 조정된 H20은 96GB HBM3와 약 4.0TB/s의 메모리 대역폭을 갖추고 있습니다. 이는 알리바바가 제시한 96GB HBM2e 용량에 어느 정도의 참고점은 되지만, 실질적인 성능을 보장하지는 못합니다.

현재 가장 큰 불확실성은 소프트웨어 측면입니다. 알리바바가 내부 역량으로 AI 하드웨어 요구 사항을 충족시키고자 하는 것은 당연하지만, 회사는 프레임워크, 툴체인, 그리고 기존 모델 스택과의 호환성에 대한 세부 정보를 공개하지 않았습니다. 따라서 독립적인 벤치마크와 개발자 지원 생태계가 갖춰지기 전까지, PPU가 엔비디아 하드웨어와 동등하다는 주장은 중국 국영 TV와 중국 정부가 배경을 제공하고 지지하는 주장 수준에 머물러 있습니다.

[출처:] https://www.tomshardware.com/pc-components/gpus/alibaba-ai-chip-goes-head-to-head-with-nvidia-h20