DGX B200 블랙웰 노드가 전 세계 기록 경신, 사용자당 1,000 TPS 돌파

hw_reporter

엔비디아, AI 분야에서 또 다른 세계 신기록 경신

에이아이 분석(Artificial Analysis)이 링크드인(LinkedIn)에 올린 게시물에 따르면, 엔비디아(Nvidia)가 메타(Meta)의 Llama 4 Maverick 대규모 언어 모델을 활용하여 사용자당 초당 1,000 토큰(TPS)의 경계를 깨며 또 다른 AI 세계 기록을 경신한 것으로 알려졌다. 이 획기적인 돌파구는 Blackwell GPU 8개가 탑재된 엔비디아의 최신 DGX B200 노드를 사용해 달성되었다.

엔비디아는 이전 기록 보유자인 SambaNova보다 31% 향상된 성능을 보여주며, AI 칩 제조사 SambaNova의 기존 기록인 사용자당 792 TPS 대비 1,038 TPS를 달성했다. 에이아이 분석의 벤치마크 보고서에 따르면, 이 성능 지표에서 엔비디아와 SambaNova가 다른 경쟁사들보다 월등한 성능을 보였다. 아마존(Amazon)과 Groq는 사용자당 약 300 TPS에 가까운 점수를 기록했으며, Fireworks, Lambda Labs, Kluster.ai, CentML, 구글 버텍스(Google Vertex), Together.ai, Deepinfra, Novita, 그리고 Azure는 모두 사용자당 200 TPS 미만의 점수를 기록했다.

Blackwell을 이용한 기록 경신 결과는 Llama 4 Maverick 아키텍처에 맞게 특별히 설계된 다수의 성능 최적화를 통해 이루어졌다. 엔비디아는 TensorRT를 사용하여 광범위한 소프트웨어 최적화를 수행했으며, LLM의 추론 속도를 시간상 토큰 예측(speculative decoding)을 통해 가속화하도록 설계된 Eagle-3 기술로 투기적 디코딩(speculative decoding) 초안 모델을 훈련했다. 이 두 가지 최적화만으로도 Blackwell의 이전 최고 기록 대비 4배의 성능 향상을 달성할 수 있었다.

정확도 측면에서도 개선이 이루어졌는데, BF16 대신 FP8 데이터 유형과 어텐션 연산(Attention operations)이 활용되었으며, DeepSeek R1 모델과 함께 처음 등장했을 때 큰 주목을 받았던 Mixture of Experts AI(MoE) 기술이 사용되었다. 또한 엔비디아는 소프트웨어 엔지니어가 성능을 더욱 최적화하기 위해 CUDA 커널에 적용한 공간 분할(spatial partitioning)이나 GEMM 가중치 셔플링(GEMM weight shuffling)과 같은 다양한 기타 최적화 기법들도 공개했다.

TPS/사용자(TPS/user)는 '사용자당 초당 토큰(tokens per second per user)'을 의미하는 AI 성능 지표이다. 토큰은 Copilot이나 ChatGPT와 같은 LLM 기반 소프트웨어의 기본 단위로, 사용자가 ChatGPT나 Copilot에 질문을 입력할 때 사용자의 개별 단어와 문자들이 모두 토큰으로 계산된다. LLM은 이 토큰들을 바탕으로 프로그램된 방식에 따라 답변을 출력한다.

이 지표의 '사용자' 부분은 배치(batching) 처리가 아닌 단일 사용자 중심의 벤치마킹을 목표로 한다. 이러한 벤치마킹 방식은 AI 챗봇 개발자가 사용자에게 더 우수한 경험을 제공하는 데 매우 중요하다. GPU 클러스터가 사용자당 초당 더 많은 토큰을 빠르게 처리할수록, AI 챗봇은 사용자에게 더 신속하게 응답할 수 있기 때문이다. 최신 뉴스, 분석, 리뷰를 받아보려면 구글 뉴스에서 Tom's Hardware를 팔로우하세요. 팔로우 버튼을 클릭해 주시기 바랍니다.

[출처:] https://www.tomshardware.com/tech-industry/artificial-intelligence/dgx-b200-blackwell-node-sets-world-record-breaking-over-1-000-tps-user