더 큰 성능, 더 비싼 냉각.

모건 스탠리가 최근 발표한 보고서에 따르면, 엔비디아(Nvidia)의 GB300 NVL72 랙 규모 AI 시스템에 사용되는 액체 냉각 부품의 총 가치는 49,860달러입니다. 보고서는 이 회사의 차세대 Vera Rubin NVL144 솔루션용 액체 냉각 시스템 비용이 차세대 Rubin GPU와 NVSwitch가 더 많은 전력을 소모하게 되면서 17% 증가한 55,710달러에 달할 것으로 전망했습니다.
모건 스탠리는 최신 보고서에서 단일 GB300(NVL72) 서버 캐비닛의 냉각(열) 부품 총 가치가 약 49,860달러에 달한다고 밝힌 바 있습니다.
차세대 Vera Rubin(NVL144) 플랫폼의 경우, 컴퓨팅 트레이와... (발췌)
엔비디아의 NVL72 'Oberon' 랙용 냉각 시스템 자재 명세서(BOM) 비용은 18개 컴퓨팅 트레이(각각 최소 6.6kW* 전력 소모, 냉각 요구량은 6.2kW*)와 9개 스위치 트레이를 포함하여 총 49,860달러로 책정되었습니다.
컴퓨팅 트레이의 냉각 구성품 가치는 약 2,260달러이며, 따라서 18개 컴퓨팅 트레이의 냉각 부품 비용은 40,680달러입니다. 이와 대조적으로, NVSwitch 트레이용 냉각 시스템은 1,020달러이며, 모든 스위치 트레이의 냉각 부품은 약 9,180달러에 가격이 책정되었습니다. 예상대로, AI 서버에서 가장 비싼 냉각 부품은 CPU 및 GPU용으로 맞춤 설계된 고성능 콜드 플레이트(개당 300달러)와 NVSwitch ASIC용 부품(개당 200달러)입니다.
중국의 AI 인프라 확충은 액체 냉각 기술의 급격한 전환을 요구하고 있다.

수랭식 CPU에 96코어급 고성능을 탑재한 칩이 자동차 및 산업 부품에 적용되며 2,000W의 직접 다이 냉각 구성을 구현한다.
모건 스탠리에 따르면, Vera Rubin NVL144 플랫폼은 더 높은 발열을 가진 Vera CPU, Rubin GPU(개당 최대 1,800W), 차세대 NVSwitch 6.0 ASIC을 사용하게 되면서 발열량이 더욱 증가할 것입니다. 이로 인해 랙 규모 냉각 시스템 비용은 GB300 대비 17% 증가한 55,710달러에 달할 것으로 예상됩니다.
모건 스탠리는 컴퓨팅 트레이의 냉각 시스템 비용이 18% 상승하여 트레이당 2,660달러가 될 것이며, 총 랙당 컴퓨팅 냉각 비용은 47,880달러에 이를 것으로 전망합니다. 트레이 개수는 동일하지만, 각 트레이에 사용되는 콜드 플레이트는 개당 400달러로 용량이 높아졌습니다. 반면, 스위치 트레이 냉각 시스템은 트레이당 870달러, 랙당 7,830달러로 비용이 절감될 것으로 예상됩니다.
CPU와 GPU가 성능을 향상시킬수록 전력 소비량도 증가하므로, 더욱 진보된 냉각 솔루션이 필수적입니다. GB200 NVL72에서 GB300 NVL72로의 전환(+20% 냉각 시스템 비용 증가)와 GB300 NVL72에서 Vera Rubin NVL144로의 전환(+17% 증가)은 이러한 상향 추세를 명확하게 보여줍니다.
루빈 Ultra GPU를 시작으로, 엔비디아는 패키지당 컴퓨팅 칩렛 4개와 HBM4E 칩렛 16개로 전환할 예정이며, 이로 인해 TDP가 3,600W까지 증가합니다. 이 경우, 적어도 일부 사용 사례에서는 새로운 콜드 플레이트나 심지어 침수 냉각(immersion cooling) 또는 임베디드 냉각을 사용해야 할 것입니다. 엔비디아는 자체적으로 144개 GPU 패키지를 갖춘 완전히 새로운 액체 냉각 NVL576 'Kyber' 랙 규모 솔루션을 준비하고 있습니다. 이 솔루션은 Vera Rubin NVL144(72개 GPU 패키지 탑재) 대비 성능을 두 배로 높일 것이지만, 그만큼 훨씬 높은 열 발열량을 수반합니다. 엔비디아의 루빈 Ultra GPU를 위한 특수 콜드 플레이트 및 냉각 시스템의 기타 개선 사항들은 NVL576의 냉각 시스템 비용을 높일 가능성이 높습니다. 정확한 비용은 미정이나, GPU 패키지에서 3.6kW의 열 에너지를 제거할 수 있는 고성능 콜드 플레이트는 확실히 개당 400달러보다 훨씬 비쌀 것입니다.
*각 Blackwell Ultra 데이터 센터 GPU는 1,400W를 소비하며, Grace CPU는 300W를 소비하고, SOCAMM 메모리는 소켓당 200W를 소비합니다. 액체 냉각은 트레이당 CPU 2개와 GPU 8개에 사용되며, 메모리에는 히트 스프레더가 장착됩니다.