엔비디아 루빈 CPX, 새로운 '분산형(disaggregated)' AI 추론 아키텍처의 절반 구성… 최적 성능을 위해 작업 부하를 컴퓨팅 최적화 칩과 대역폭 최적화 칩으로 분할하는 방식 채택

hw_reporter

Nvidia의 "비분리형" 추론 전략은 HBM 탑재 루빈 GPU와 새로운 루빈 CPX 칩을 결합할 것입니다.

Nvidia는 오늘 '장문맥 AI 워크로드 요구 사항을 충족하도록 설계된 목적형 GPU'인 새로운 Rubin CPX GPU를 발표했습니다. Rubin CPX GPU는 일반 Rubin GPU와는 구별되며, 다가오는 Vera Rubin NVL144 CPX 랙의 추론 성능을 극대화하는 데 초점을 맞춘 AI 가속기/GPU입니다.

AI 워크로드가 진화함에 따라, 이를 구동하는 컴퓨팅 아키텍처 역시 함께 발전하고 있습니다. Nvidia는 추론 성능을 끌어올리는 새로운 전략을 '분산 추론(disaggregated inference)'이라고 명명했으며, 이는 최고의 성능을 달성하기 위해 여러 이질적인 유형의 GPU가 유기적으로 협력하는 방식에 의존합니다. 구동 계산에 중점을 둔 GPU가 '컨텍스트 단계(context phase)'를 처리하는 동안, 메모리 대역폭에 초점을 맞춘 다른 칩들은 처리 집약적인 '생성 단계(generation phase)'를 처리합니다.

회사는 AI 비디오 생성이나 에이전트 AI처럼 다단계 추론과 지속 메모리가 필요한 최첨단 AI 워크로드가 방대한 컨텍스트 정보 가용성 덕분에 큰 이점을 얻는다고 설명합니다. 이러한 대규모 AI 모델의 추론이 모델 학습을 대체하며 AI 하드웨어 개발의 새로운 전장(frontier)이 되었습니다.

Nvidia Groq 3 LPU 및 Groq LPX 랙이 GTC에서 Rubin 플랫폼에 합류 — SRAM 기반 가속기가 '모든 토큰의 AI 모델 계층을 부스트'

이러한 배경 속에서, Rubin CPX GPU는 분산 추론의 계산 집약적인 컨텍스트 단계에 필요한 작업용 핵심(workhorse)으로 설계되었으며(자세한 내용은 아래 참조), 표준 Rubin GPU가 메모리 대역폭 제약이 더 큰 생성 단계를 담당합니다.

Rubin CPX는 회사의 새로운 NVFP4 데이터 유형에서 30 petaFLOPs의 순수 컴퓨팅 성능을 제공하며 128 GB의 GDDR7 메모리를 탑재했습니다. 비교하자면, 표준 Rubin GPU는 50 PFLOPs의 FP4 컴퓨팅에 도달할 수 있으며, 288 GB의 HBM4 메모리가 장착됩니다.

위의 초기 렌더링 이미지에서 볼 수 있듯이, Rubin CPX GPU는 단일 다이(single-die) GPU 설계를 채택한 것으로 보입니다. 반면, Rubin GPU는 이중 다이 칩렛(dual-die chiplet) 디자인입니다. ComputerBase가 언급했듯이, 표준 Rubin의 절반이 25 PFLOPs의 FP4를 출력한다는 점을 감안하면, 일부 전문가들은 Rubin CPX가 완전한 Rubin GPU의 초최적화된 단일 슬라이스일 것으로 추측하고 있습니다.

HBM4 대신 GDDR7을 채택한 것 역시 최적화 전략 중 하나입니다. 언급했듯이, 분산 추론 워크플로우는 추론 과정을 Rubin과 Rubin CPX GPU 간에 분할합니다. 계산 최적화된 Rubin CPX가 특정 작업의 컨텍스트를 구축하고 (이때 GDDR7 성능 파라미터가 충분한 경우), 고대역폭 메모리 사용의 이점이 큰 생성 단계는 Rubin GPU로 작업을 넘기는 방식으로 작동합니다.

Rubin CPX는 2026년 Vera Rubin과 함께 Nvidia의 Vera Rubin NVL144 CPX 랙 내부에서 사용할 수 있게 됩니다. 이 랙은 144개의 Rubin GPU, 144개의 Rubin CPX GPU, 36개의 Vera CPU, 100TB의 고속 메모리, 그리고 1.7 PB/s의 메모리 대역폭을 포함할 예정이며, 총 8 exaFLOPs의 NVFP4를 처리할 것으로 예상됩니다. 이는 현세대 GB300 NVL72보다 7.5배 높은 성능이며, CPX가 적용되지 않은 기본 Vera Rubin NVL144의 3.6 exaFLOPs를 뛰어넘는 수치입니다.

Nvidia는 Rubin CPX가 적용된 AI 시스템에 1억 달러가 투자될 경우 50억 달러의 매출로 전환될 수 있다고 주장합니다. 다가오는 Vera Rubin AI 플랫폼에 대한 더 자세한 정보는 Nvidia 로드맵 관련 프리미엄 보도를 참고하십시오. 우리는 오는 3월 GTC 2026에서 Nvidia 프레젠테이션을 통해 Rubin, Rubin CPX, Vera Rubin 세 가지가 모두 공개되는 것을 기대합니다.

최신 뉴스, 분석 및 리뷰를 받아보려면 Google News에서 Tom's Hardware를 팔로우하거나 선호 출처로 추가해 주세요. 팔로우 버튼을 클릭하는 것을 잊지 마세요!

[출처:] https://www.tomshardware.com/tech-industry/semiconductors/nvidia-rubin-cpx-forms-one-half-of-new-disaggregated-ai-inference-architecture-approach-splits-work-between-compute-and-bandwidth-optimized-chips-for-best-performance