• 엔비디아 GB300 서버 대규모 출하 9월 시작 임박—광범위한 냉각수 누출 보고에도 GB200 수요 '견조' 유지

    GB300이 곧 출시됩니다.

    article image

    Dell과 기타 Nvidia 파트너사들 역시 GB300 기반 서버의 초기 생산에 돌입했으나, 해당 장비의 대규모 출하는 2025년 9월에나 시작될 것으로 DigiTimes가 보도했다. 이번 출시 과정은 전략적 설계 재사용과 공급망 전반에 걸친 개선된 조정 덕분에 이전 세대보다 훨씬 순조롭게 진행될 것으로 예상된다. 그럼에도 불구하고, 액체 냉각(liquid cooling)은 여전히 원래 설계 제조업체(ODM)들에게 해결해야 할 과제이다.

    DigiTimes에 따르면, 전환을 가속화하는 주요 요인 중 하나는 Nvidia가 현재 GB200 플랫폼에서 사용하던 마더보드 설계를 유지하기로 결정했다는 점이다. 하지만 Nvidia는 파트너사들에게 이전보다 훨씬 더 많은 자율성을 부여하고 있다. SemiAnalysis에 따르면, GB300의 경우 Nvidia는 더욱 모듈식 접근 방식을 채택하고 있다. Nvidia는 완전히 조립된 마더보드를 제공하는 대신, B300 GPU를 SXM Puck 모듈 형태로, Grace CPU는 별도의 BGA 패키지로, 하드웨어 관리 컨트롤러(HMC)는 Axiado로부터 공급받도록 한다. 고객들은 나머지 마더보드 구성 요소들을 자체 조달하며, CPU 메모리는 다양한 공급업체에서 구할 수 있는 표준 SOCAMM 메모리 모듈을 사용한다. 다만, 스위치 트레이와 구리 백플레인은 기존과 동일하게 Nvidia가 공급한다. 이러한 재사용 방식은 전면적인 재설계가 필요 없게 함으로써 생산 공정을 간소화하고 리스크를 줄이는 효과를 가져온다.

    GB200 시스템의 경우, Nvidia는 B200 GPU, Grace CPU, 512GB LPDDR5X 메모리, 그리고 전력 공급 구성 요소까지 모두 단일 인쇄 회로 기판(PCB)에 통합한 완전한 Bianca 마더보드를 제공한다. 이 시스템에 필요한 스위치 트레이와 구리 백플레인 역시 Nvidia가 공급한다.

    GB300이 현재 검증 및 초기 생산 단계에 접어들면서, ODM들은 심각한 난관에 봉착하지 않고 있다고 DigiTimes는 전했다. 파트너사들의 피드백에 따르면, 부품 검증은 계획대로 진행 중이며, Nvidia는 3분기 내내 꾸준히 생산량을 늘릴 예정이다. DigiTimes는 2025년 4분기에는 출하량이 크게 증가할 것으로 전망했다.

    핵심 컴퓨트 보드 공급업체인 Wistron은 보고서에 따르면, GB200과 GB300 사이의 세대적 중복으로 인해 이번 분기 매출은 정체세를 보일 것이라고 밝혔다. 긍정적인 측면은, 이번 전환 과정이 Nvidia의 실리콘 문제, 고밀도 서버 레이아웃, 냉각 요구 사항 등으로 인해 여러 지연을 겪었던 현행 플랫폼으로의 전환보다 순조롭게 진행되는 것으로 보인다. 이제 서버 ODM들은 자신들에게 적용되는 모든 난관을 관리하는 방법을 터득한 것으로 분석된다.

    냉각 누수 문제

    GB200이 데이터센터에 대량 출하되고 있음에도 불구하고, DigiTimes에 따르면 액체 냉각 시스템에서 지속적인 문제가 제기되고 있다. 주요 고장 지점은 공장 스트레스 테스트를 거쳤음에도 불구하고 누수 경향을 보이는 빠른 연결 피팅(quick-connect fittings)이다. 데이터센터 운영사들은 국지적 전원 차단(localized shutdowns) 및 광범위한 누수 테스트 등의 조치로 대응하고 있으며, 이는 하드웨어의 신뢰성보다는 배포 속도와 성능을 우선시하는 경향을 보여준다.

    GB300 이후의 플랫폼

    Nvidia는 GB300 외에도 AI 서버용 차세대 플랫폼인 코드명 Vera Rubin을 준비하고 있다. 이 플랫폼은 두 단계에 걸쳐 순차적으로 출시될 예정이다. 첫 번째 단계에서는 Grace CPU를 Vera CPU로, Blackwell GPU를 Rubin GPU로 대체하지만, 기존 Oberon 랙을 유지하며 해당 랙은 NVL144 명칭을 사용한다(72개 듀얼 컴퓨트 지펫 패키지 사용에도 불구하고). 두 번째 단계에는 완전히 새로운 Kyber 랙이 도입되며, 여기에 Vera CPU와 네 개의 컴퓨트 지펫이 장착된 Rubin Ultra GPU가 사용될 예정이다.

    Rubin GPU가 Blackwell GPU보다 높은 전력 소모가 예상됨에 따라, 차세대 플랫폼은 액체 냉각 시스템에 대한 의존도가 더욱 높아질 것이다. 그러나 DigiTimes 보고서에 따르면, 필수적인 성능을 구현하는 데에도 불구하고 액체 냉각 방식은 신뢰성 있게 구현하기 여전히 어려운 것으로 나타났다. GB200 시스템의 경우, 배포 위치별로 배관 설치와 수압에 편차가 발생하여 누수를 완전히 제거하기 어려웠으며, 이는 상당한 수준의 사후 서비스 및 인건비 지출을 초래했다.

    Tom's Hardware의 최신 뉴스, 분석 및 리뷰를 구글 뉴스에서 받아보려면 '팔로우' 버튼을 클릭하세요.

    [출처:] https://www.tomshardware.com/tech-industry/artificial-intelligence/large-scale-shipments-of-nvidia-gb300-servers-tipped-to-start-in-september-gb200-demand-remains-robust-despite-widespread-coolant-leak-reports