• 마이크로소프트, 최초 '슈퍼컴퓨터급' GB300 NVL72 Azure 클러스터 배치 — 4,608개 GB300 GPU 연결로 단일 통합 가속기 구성, 92.1 엑사플롭스 FP4 추론 구현

    많은 AI FLOPS군요

    article image

    마이크로소프트가 엔비디아의 Blackwell Ultra를 탑재하여 자사의 Azure 클라우드 플랫폼을 업그레이드하면서, 세계 최초의 대규모 GB300 NVL72 슈퍼컴퓨팅 클러스터를 전개했습니다. 이 클러스터는 총 4,608개의 GB300 GPU가 배치된 여러 랙으로 구성되어 있으며, GPU들은 NVLink 5 스위치 패브릭으로 연결되고, 클러스터 전체는 엔비디아의 Quantum-X800 InfiniBand 네트워킹 패브릭을 통해 상호 연결됩니다. 이를 통해 단일 NVL72 랙은 총 130 TB/s의 메모리 대역폭을 확보할 수 있으며, 각 랙은 GPU당 800 Gb/s의 상호 연결 대역폭을 제공합니다.

    세계 최초의 AI 워크로드를 위한 대규모 @nvidia GB300 NVL72 슈퍼컴퓨팅 클러스터가 마이크로소프트 Azure에서 가동되었습니다. 이 배포는 차세대 InfiniBand 네트워크를 활용하여 4,600개 이상의 NVIDIA Blackwell Ultra GPU를 연결함으로써, 이전보다 더욱 빠르게 첨단 AI 모델을 훈련하고 배포할 수 있게 합니다.

    엔비디아가 제시한 4,608이라는 수치는 여기에 투입된 64x GB300 NVL72 시스템을 의미합니다. 이는 각 랙이 72개의 Blackwell GPU와 36개의 Grace CPU(총 2,592개 Arm 코어)로 구성되어 있기 때문입니다. 기술적으로 볼 때 이 규모가 완전한 하이퍼스케일 확장에 미치지 못한다고 할 수 있으나, 최근 추론 성능에서 새로운 벤치마크 기록을 수립한 엔비디아의 Grace Blackwell GB300에게는 여전히 중요한 이정표입니다. 마이크로소프트에 따르면, 이 클러스터는 OpenAI 워크로드를 전담할 예정이며, 이를 통해 고급 추론 모델의 구동 속도가 대폭 빨라지고 모델 훈련 기간이 '개월 단위에서 주 단위'로 단축될 것입니다.

    랙(rack) 레벨에서 각 NVL72 시스템은 37 테라바이트의 통합된 '고속 메모리'를 기반으로 1,440 페타플롭스의 FP4 텐서 성능을 제공합니다. 이 메모리는 GPU용 20 TB HBM3E와 Grace CPU용 17 TB LPDDR5X로 구성되어 있습니다. 앞서 언급했듯이, 이 메모리들은 NVLink 5로 통합되어 각 랙이 130 TB/s의 직접 대역폭을 갖는 단일 통합 가속기처럼 기능하게 합니다. 메모리 처리량은 GB300 NVL72의 가장 주목할 만한 요소 중 하나이므로, 이 작동 원리를 이해하는 것이 중요합니다.

    article image

    한편, 마이크로소프트는 최신 자사 AI 칩인 Maia 200을 공개했으며, 이 칩은 TSMC 3nm 공정 기반이며 216GB의 HBM3e를 탑재하여 다른 맞춤형 엔비디아 경쟁 제품보다 뛰어난 성능을 자랑합니다.

    Quantum-X800 InfiniBand 플랫폼은 4,608개의 내부 연결된 GPU 각각에 랙-대-랙(rack-to-rack) 레벨에서 800 Gb/s의 대역폭을 제공합니다. 결과적으로, 모든 단일 GPU가 랙 내부와 랙 간에 완벽하게 연결됩니다.

    GB300 NVL72 클러스터는 액체 냉각 방식을 채택했으며, 고강도 워크로드를 구동하면서도 물 사용량을 최소화하도록 설계된 독립형 열교환기와 시설 루프를 사용합니다. 엔비디아는 이번 배포를 위해 마이크로소프트가 데이터 센터의 모든 계층을 재구상해야 했다고 밝힌 바 있으며, 마이크로소프트 역시 이것이 전 세계에 걸쳐 GB300을 확장하여 완전한 하이퍼스케일 데이터센터 환경을 구축하는 데 활용될 것임을 강조했습니다.

    마지막으로, 이 시설은 미래의 데이터센터를 위한 기반이 됩니다.

    [출처:] https://www.tomshardware.com/tech-industry/artificial-intelligence/microsoft-deploys-worlds-first-supercomputer-scale-gb300-nvl72-azure-cluster-4-608-gb300-gpus-linked-together-to-form-a-single-unified-accelerator-capable-of-1-44-pflops-of-inference