피가트론, 128 AMD MI350X GPU 탑재 1,177 PFLOP AI 랙 준비

hw_reporter

물 냉각 방식이 당연하죠.

Pegatron은 Computex에서 성능 집약적인 AI 추론 및 훈련 애플리케이션을 위해 설계된 AMD의 차세대 Instinct MI350X 가속기 기반의 독특한 랙 스케일 솔루션을 선보였다. 이 시스템은 AMD가 자체 설계한 랙 스케일 솔루션보다 한 세대 앞선 것이기에, Pegatron에게는 약 1년 후에 출시될 랙 스케일 AMD Instinct MI450X 기반의 IF64 및 IF128 솔루션을 구축하기 위한 중요한 시험대 역할을 할 것이다.

Pegatron의 AS501-4A1/AS500-4A1 랙 스케일 시스템은 총 8개의 5U 컴퓨팅 트레이로 구성되어 있으며, 각 트레이에는 AMD EPYC 9005 시리즈 프로세서 1개와 AI 및 고성능 컴퓨팅(HPC)을 위한 AMD Instinct MI350X AI 가속기 4개가 탑재되어 있다. CPU와 가속기는 액체 냉각 방식으로 구성되어 높은 부하에서도 최대적이며 예측 가능한 성능을 보장한다. 이 시스템은 51OU ORV3 폼팩터로 제공되어 OCP 표준(예: Meta)을 활용하는 클라우드 데이터센터에 적합하다.

이 장비는 AMD가 Infinity Fabric 연결을 위한 독점 스위치를 보유하고 있지 않기 때문에 400 GbE를 활용하여 다른 섀시에 위치한 GPU들을 연결한다 (한편, 오늘날 AMD Instinct의 최대 확장 규모는 8개의 프로세서이다). 이는 자체 초고속 NVLink 연결을 통해 72개의 GPU를 상호 연결하는 Nvidia의 GB200/GB300 NVL72 플랫폼과는 대조적이다. 따라서 Instinct MI350X 시스템은 확장성 면에서 GB200/GB300 NVL72에 겨우 근접하는 수준이다.

이 새로운 장비는 OCP 채택 기업들이 즉각적인 워크로드를 처리하고, 하드웨어 및 소프트웨어 양측 관점에서 GPU 다수를 갖춘 AMD Instinct 기반 시스템을 구축하는 방법을 학습하는 데 사용될 것이다. Pegatron의 장비는 여러 이유로 과소평가할 수 없는데, 그 핵심은 랙 스케일 AI 솔루션 분야에서 Nvidia의 지배력에 도전하는 발판을 마련했다는 점이다.

AMD Instinct MI350X에 대한 정보를 바탕으로 볼 때, Pegatron의 이 128개 GPU 랙 스케일 시스템은 선형적인 확장성이 가정될 경우, 추론 작업에 최대 이론적 피크 성능인 1,177 PFLOPs의 FP4 컴퓨팅을 제공한다. MI350X 각각이 최대 288GB의 HBM3E를 지원하기 때문에, 이 시스템은 36.8TB의 고속 메모리를 제공하여 현재 Nvidia의 Blackwell 기반 GPU의 용량을 능가하는 대규모 AI 모델 구동을 가능하게 한다.

그러나 GPU 간 통신에 이더넷을 사용한다는 점은 시스템의 확장성 측면에서 한계를 갖는다. 최대 확장 도메인이 8개의 GPU로 제한되므로, 이 시스템은 Nvidia의 NVL72 시스템이 뛰어난 성능을 보이는 타이밍 동기화가 필요한 LLM 훈련보다는, 추론 워크로드나 다중 인스턴스 훈련에 더 적합한 것으로 분석된다. 그럼에도 불구하고, 본 시스템은 현시점에서 고성능의 대용량 메모리 기반 솔루션 역할을 수행하며, 향후 AMD의 차세대 Instinct MI400 시리즈 솔루션으로 나아가는 전초 기지 역할을 할 것으로 평가된다.

최신 뉴스와 분석, 리뷰를 받으려면 Google News에서 Tom's Hardware를 팔로우하십시오. '팔로우' 버튼을 클릭하는 것을 잊지 마십시오.

[출처:] https://www.tomshardware.com/pc-components/gpus/pegatron-preps-1-177-pflop-ai-rack-with-128-amd-mi350x-gpus