다양한 인기 오픈 소스 모델을 실행할 때 성능이 크게 향상됩니다.

NVIDIA는 최신 세대 Blackwell Ultra GB300 NVL72 랙 규모 시스템을 활용한 MLPerf 벤치마크에서 자체 기록을 경신했습니다. 특히 DeepSeek R1 테스트에서 Blackwell 기반 GB200 플랫폼 대비 45% 향상된 추론 성능을 달성했다고 발표했습니다. NVIDIA는 하드웨어 개선과 소프트웨어 최적화의 결합을 통해 다양한 모델 실행에서 최고 성능을 입증하며, 이러한 기술력이 매출 증대에 기여할 수 있기에 "AI 팩토리"를 구축하는 개발자들에게 핵심 고려 사항이 되어야 한다고 강조했습니다.
NVIDIA의 Blackwell 아키텍처는 게이밍 분야에서 최고의 성능을 제공하는 최신 세대 RTX 50 시리즈 그래픽 카드의 핵심 동력원입니다. 물론 AMD의 RX 9000 시리즈가 가성비 측면에서 우위를 점할 수도 있습니다. 그러나 이 아키텍처는 차세대 AI 애플리케이션에 전력을 공급하기 위해 전 세계 데이터 센터에 구축되고 있는 GB200 플랫폼과 같은 대규모 AI 구동 GPU 스택의 근간이기도 합니다. Blackwell Ultra GB300은 이보다 더 높은 성능을 갖춘 향상된 버전이며, NVIDIA는 이를 통해 인상적인 MLPerf 기록을 성공적으로 테스트했습니다.
최신 버전의 MLPerf 벤치마크에는 DeepSeek R1, Llama 3.1 405B, Llama 3.1 8B, Whisper 모델을 사용한 추론 성능 테스트가 포함되었으며, GB300 NVL72가 모든 테스트에서 압도적인 성능을 기록했습니다. NVIDIA는 DeepSeek 모델 실행 시 GB200 대비 45%의 성능 향상, 그리고 구형 Hopper GPU 대비 최대 5배의 성능 향상을 주장했습니다. 다만, NVIDIA는 이러한 비교 결과는 검증되지 않은 제3자로부터 나온 것임을 분명히 밝혔습니다.
한편, NVIDIA는 AI 발전에 힘입어 패스 트레이싱(path tracing) 분야에서 100만 배 향상을 약속하기도 했습니다.
이러한 성능 향상 중 일부는 Blackwell Ultra와 함께 사용되는 더욱 강력해진 텐서 코어 덕분입니다. NVIDIA는 이로 인해 "어텐션 레이어 가속이 2배, AI 컴퓨트 FLOPS가 1.5배 증가"했다고 주장합니다. 하지만 이러한 성과는 광범위하게 이루어진 중요한 소프트웨어 개선 및 최적화가 뒷받침되었기에 가능했습니다.
NVIDIA는 이번 벤치마크에서 NVFP4 형식을 광범위하게 활용했습니다. 이 형식은 DeepSeek R1 가중치를 전반적인 모델 용량을 줄이는 방식으로 양자화하여, Blackwell Ultra가 정확도를 유지하면서도 높은 처리량을 달성하도록 계산을 가속화하는 데 기여했습니다.
또한 Llama 3.1 405B와 같은 초대형 모델을 테스트한 다른 벤치마크의 경우, NVIDIA는 모델을 여러 GPU에 동시에 "샤드(shard)"하여 레이턴시(지연 시간) 기준을 유지하면서 높은 처리량을 구현했습니다. 이는 72개 GPU 각각 사이에 구축된 1.8 TBps의 NVLink 패브릭과 총 130 TBps에 달하는 대역폭 덕분에 가능했습니다.
이 모든 성과들은 Blackwell Ultra가 "AI 팩토리" 개발에 경제적으로 혁신적인 역할을 할 것이라는 NVIDIA의 비전의 일부입니다. 하드웨어와 소프트웨어 최적화를 통해 향상된 추론 능력은 GB300을 데이터 센터 워크로드를 위한 토큰화된 미래라는 NVIDIA의 관점에서 더욱 잠재적으로 수익성 높은 플랫폼으로 만듭니다. GB300 출하가 이달에 시작될 예정인 만큼, 이번 새로운 벤치마크 결과가 나온 시점은 결코 우연이 아닌 듯 보입니다.
Tom's Hardware를 Google News에서 팔로우하거나 선호 출처로 추가하여 최신 뉴스, 정보를 받아보세요.