마이크로소프트, 최초 '슈퍼컴퓨터급' GB300 NVL72 Azure 클러스터 배치 — 4,608개 GB300 GPU 연결로 단일 통합 가속기 구성, 92.1 엑사플롭스 FP4 추론 구현

hw_reporter

많은 AI FLOPS군요

마이크로소프트가 엔비디아의 Blackwell Ultra를 탑재하여 자사의 Azure 클라우드 플랫폼을 업그레이드하면서, 세계 최초의 대규모 GB300 NVL72 슈퍼컴퓨팅 클러스터를 전개했습니다. 이 클러스터는 총 4,608개의 GB300 GPU가 배치된 여러 랙으로 구성되어 있으며, GPU들은 NVLink 5 스위치 패브릭으로 연결되고, 클러스터 전체는 엔비디아의 Quantum-X800 InfiniBand 네트워킹 패브릭을 통해 상호 연결됩니다. 이를 통해 단일 NVL72 랙은 총 130 TB/s의 메모리 대역폭을 확보할 수 있으며, 각 랙은 GPU당 800 Gb/s의 상호 연결 대역폭을 제공합니다.

세계 최초의 AI 워크로드를 위한 대규모 @nvidia GB300 NVL72 슈퍼컴퓨팅 클러스터가 마이크로소프트 Azure에서 가동되었습니다. 이 배포는 차세대 InfiniBand 네트워크를 활용하여 4,600개 이상의 NVIDIA Blackwell Ultra GPU를 연결함으로써, 이전보다 더욱 빠르게 첨단 AI 모델을 훈련하고 배포할 수 있게 합니다.

엔비디아가 제시한 4,608이라는 수치는 여기에 투입된 64x GB300 NVL72 시스템을 의미합니다. 이는 각 랙이 72개의 Blackwell GPU와 36개의 Grace CPU(총 2,592개 Arm 코어)로 구성되어 있기 때문입니다. 기술적으로 볼 때 이 규모가 완전한 하이퍼스케일 확장에 미치지 못한다고 할 수 있으나, 최근 추론 성능에서 새로운 벤치마크 기록을 수립한 엔비디아의 Grace Blackwell GB300에게는 여전히 중요한 이정표입니다. 마이크로소프트에 따르면, 이 클러스터는 OpenAI 워크로드를 전담할 예정이며, 이를 통해 고급 추론 모델의 구동 속도가 대폭 빨라지고 모델 훈련 기간이 '개월 단위에서 주 단위'로 단축될 것입니다.

랙(rack) 레벨에서 각 NVL72 시스템은 37 테라바이트의 통합된 '고속 메모리'를 기반으로 1,440 페타플롭스의 FP4 텐서 성능을 제공합니다. 이 메모리는 GPU용 20 TB HBM3E와 Grace CPU용 17 TB LPDDR5X로 구성되어 있습니다. 앞서 언급했듯이, 이 메모리들은 NVLink 5로 통합되어 각 랙이 130 TB/s의 직접 대역폭을 갖는 단일 통합 가속기처럼 기능하게 합니다. 메모리 처리량은 GB300 NVL72의 가장 주목할 만한 요소 중 하나이므로, 이 작동 원리를 이해하는 것이 중요합니다.

한편, 마이크로소프트는 최신 자사 AI 칩인 Maia 200을 공개했으며, 이 칩은 TSMC 3nm 공정 기반이며 216GB의 HBM3e를 탑재하여 다른 맞춤형 엔비디아 경쟁 제품보다 뛰어난 성능을 자랑합니다.

Quantum-X800 InfiniBand 플랫폼은 4,608개의 내부 연결된 GPU 각각에 랙-대-랙(rack-to-rack) 레벨에서 800 Gb/s의 대역폭을 제공합니다. 결과적으로, 모든 단일 GPU가 랙 내부와 랙 간에 완벽하게 연결됩니다.

GB300 NVL72 클러스터는 액체 냉각 방식을 채택했으며, 고강도 워크로드를 구동하면서도 물 사용량을 최소화하도록 설계된 독립형 열교환기와 시설 루프를 사용합니다. 엔비디아는 이번 배포를 위해 마이크로소프트가 데이터 센터의 모든 계층을 재구상해야 했다고 밝힌 바 있으며, 마이크로소프트 역시 이것이 전 세계에 걸쳐 GB300을 확장하여 완전한 하이퍼스케일 데이터센터 환경을 구축하는 데 활용될 것임을 강조했습니다.

마지막으로, 이 시설은 미래의 데이터센터를 위한 기반이 됩니다.

[출처:] https://www.tomshardware.com/tech-industry/artificial-intelligence/microsoft-deploys-worlds-first-supercomputer-scale-gb300-nvl72-azure-cluster-4-608-gb300-gpus-linked-together-to-form-a-single-unified-accelerator-capable-of-1-44-pflops-of-inference