엔비디아, 루빈 CPX 가속기를 로드맵에서 제외 — CPX가 제거되면서 Groq 3 LPU가 핵심으로 부상

hw_reporter

Groq가 그 역할을 맡을까요?

지난 월요일 GTC 2026에서 젠슨 황(Jensen Huang)이 진행한 기조연설 중 눈에 띈 점 중 하나는 회사가 지난해 베라 루빈(Vera Rubin) 플랫폼의 핵심 요소로 홍보했던 루빈 CPX 컨텍스트 단계 가속기(Rubin CPX context phase accelerator)에 대한 언급이 전혀 없었다는 것입니다. 루빈 CPX는 또한 기조연설에서 시연된 슬라이드에서도 빠졌으나, 해당 슬라이드에는 엔비디아의 차기 Groq 3 LPU 프로세서와 LPX 랙이 언급되었는데, 이는 Groq 3 LPU 프로세서가 엔비디아의 로드맵에서 CPX를 대체할 수 있음을 시사할 수 있습니다.

엔비디아의 루빈 CPX GPU는 회사의 베라 루빈(Vera Rubin) 및 베라 루빈 울트라(Vera Rubin Ultra) 플랫폼의 일부로 기획되었습니다. 이 GPU는 쿼리 입력 데이터를 처리하여 첫 번째 출력 토큰을 생성하는 초기 컴퓨팅 집약적인 컨텍스트 단계(context phase)를 가속화하도록 설계되었습니다. 컨텍스트 단계 가속기의 주요 장점은 HBM3E나 HBM4처럼 극도의 대역폭을 제공하지는 않지만, 전력 소모가 현저히 적은 GDDR7 메모리에 의존한다는 점이었습니다. 이는 추론(inference) 워크로드에서 엔비디아 루빈 플랫폼의 경쟁력을 크게 높일 것으로 기대되었습니다.

하지만 엔비디아는 GTC에서 루빈 CPX 제품 대신 Groq 3 LPU를 포함한 슬라이드를 시연하며, 회사의 현재 관심사가 이전 제품군(CPX)보다 후자(LPU)에 더 집중하고 있음을 보여주고 있습니다.

엔비디아 Groq 3 LPU 및 Groq LPX 랙, 루빈 플랫폼에 합류 — SRAM 기반 가속기가 '모든 토큰의 모든 AI 모델 레이어'를 강화

엔비디아의 Groq 3 저지연 추론 가속기—엔비디아에서 LPU(Low-Power Unit)라고 부름—는 주로 내부 SRAM에 의존하기 때문에, 정의상 모든 종류의 DRAM보다 빠르고, 낮은 지연 시간이며, 낮은 전력 소모를 달성하며 상당한 추론 성능을 제공하도록 설계되었습니다. 예를 들어, 엔비디아의 LP30 프로세서는 512MB의 SRAM을 탑재하고 1.23 FP8 PFLOPS의 성능을 제공하며, 이는 Groq 3 LPX 컴퓨팅 트레이당 9.6 PFLOPS, 랙당 315 FP8 PFLOPS에 달합니다. 반면, 루빈 CPX 가속기는 최대 30 NVFP4 PetaFLOPS의 컴퓨팅 처리량을 제공할 예정이었으나, 지연 시간 측면에서 상당한 차이가 있었습니다.

현재로서는 엔비디아가 실제로 루빈 CPX 가속기를 제공할지, 아니면 Groq 3 LPU 저지연 추론 가속기로 노력을 완전히 전환할지 주목됩니다. 최근 엔비디아가 스타트업 Groq의 칩 기술 및 인재를 200억 달러(약 20조 원) 규모의 비독점 라이선스로 확보한 점을 고려할 때, LPU 중심으로의 전환은 매우 자연스러운 흐름으로 보입니다. 로드맵 슬라이드에서 루빈 CPX가 빠지고 LPU 프로세서가 공개적으로 강조되는 것은 회사의 우선순위에 대한 명확한 지표입니다. 그럼에도 불구하고, 이미 자체 소프트웨어를 수정하여 배포에 투자한 엔비디아의 일부 고객사들은 CPX 가속기를 계속 사용할 가능성도 있습니다. 결국, 산업계에서는 로드맵 외의(off-roadmap) 부품 도입 사례가 흔하기 때문입니다.

최신 뉴스, 분석, 리뷰를 받아보시려면 구글 뉴스에서 톰즈 하드웨어(Tom's Hardware)를 팔로우하거나, 저희를 즐겨찾는 출처로 추가하세요.

[출처:] https://www.tomshardware.com/pc-components/gpus/nvidia-removes-rubin-cpx-accelerators-from-its-roadmap-groq-3-lpus-take-center-stage-as-cpx-is-removed