구글 클라우드, 최초의 Blackwell AI GPU 기반 인스턴스 출시 — 72-way GB200 (72 B200 GPU 및 36 Grace CPU 탑재)

hw_reporter

수만 개의 Blackwell GPU가 탑재된 클러스터 구성이 가능합니다.

Google Cloud가 Nvidia의 GB200 기반 NVL72 시스템을 활용하는 A4X 가상 머신(VM)을 출시했습니다. 이 랙 규모 시스템은 72개의 B200 GPU와 36개의 Grace CPU로 구성됩니다. Google에 따르면, A4X VM은 긴 컨텍스트 창을 갖는 대규모 언어 모델(LLM), 추론 모델, 그리고 대규모 동시성을 요구하는 워크로드 등 대규모 AI 환경에 최적화되었습니다. 구글은 또한 일반적인 AI 훈련 및 개발 목적을 위한 A4 VM도 함께 제공합니다.

A4X VM은 72개의 B200 GPU와 36개의 72코어 Grace CPU(2,596개 Armv9 기반 Neovers V2 코어)가 NVLink으로 상호 연결된 Nvidia의 NVL72 머신을 기반으로 합니다. 이를 통해 모든 72개 GPU 간 메모리 공유가 원활하게 이루어져 응답 시간과 추론 정확도가 향상됩니다. 이 시스템은 다중 모드(multimodal) AI 애플리케이션에 적합하도록 동시 추론 요청을 지원합니다.

성능 측면에서, A4X VM은 Nvidia H100 GPU를 사용했던 이전 A3 VM 대비 4배 높은 훈련 효율성을 제공합니다. 특히, Google Cloud는 GB200 NVL72 시스템당 '1 ExaFLOPS가 넘는' 컴퓨팅 성능을 보장하며, 이는 동시 워크로드를 처리하는 훈련 및 추론에 적합한 1,440 PetaFLOPS (FP8/INT8/FP6) 성능을 구현할 수 있습니다.

(참고: 마이크로소프트가 최신 사내 AI 칩인 Maia 200을 공개했습니다. Maia 200은 TSMC 3nm 공정을 기반으로 216GB HBM3e를 탑재했으며, 기타 맞춤형 Nvidia 경쟁 제품보다 뛰어난 성능을 자랑합니다.)

A4X VM은 또한 빠르고 안전하며 확장 가능한 ML 성능을 보장하는 Nvidia ConnectX-7 NIC를 기반으로 구축된 Titanium ML 네트워크 어댑터를 갖추고 있습니다. 이 어댑터는 RoCE를 활용하여 28.8 테라비트/초(72 × 400 Gbps)의 중단 없는 저지연 GPU-to-GPU 트래픽을 가능하게 합니다. Google Cloud의 Jupiter 네트워크 패브릭은 여러 NVL72 도메인들을 연결하여, 클러스터 내에서 수만 개의 Blackwell GPU까지 블로킹 없이 원활하게 확장할 수 있도록 지원합니다. 특히 AI 팀은 최대 65,000 노드를 지원하는 Google Kubernetes Engine(GKE)을 통해 A4X VM을 배포할 수 있으며, 구글은 대규모 배포를 위해 GPU 활용도를 극대화하는 고급 공유 및 파이프라인 기술도 제공합니다.

또한, A4X VM은 Google Cloud 서비스와 완벽하게 통합됩니다. 구글은 훈련 데이터 처리량을 2.9배 향상시키는 Cloud Storage FUSE를 지원하며, Hyperdisk ML을 통해 모델 로드 시간을 11.9배 가속화합니다.

현재 Google Cloud는 서로 다른 AI 워크로드에 맞춰 A4와 A4X VM을 모두 제공합니다. GB200 NVL72 시스템을 갖춘 A4X는 대규모 AI, 장문 컨텍스트 언어 모델 및 고동시성 애플리케이션을 목표로 하는 반면, B200 GPU 및 기타 프로세서로 구동되는 A4는 일반 AI 훈련 및 미세 조정에 더욱 적합합니다. (A4X와 A4의 가격 정보는 공개되지 않았습니다.)

[출처:] https://www.tomshardware.com/tech-industry/artificial-intelligence/google-cloud-launches-first-blackwell-ai-gpu-powered-instances-72-way-gb200-with-72-b200-gpus-and-36-grace-cpus