• 공급업체들이 AI 서버 과열 및 액체 냉각 누수 문제에 대응하면서 엔비디아 GB200 생산이 본격화됩니다

    소프트웨어 버그 및 칩 간 연결 문제도 보고되었습니다

    article image

    블랙웰(Blackwell) AI 서버 랙을 구축하는 엔비디아의 공급업체들이 일련의 기술적 난관을 해결하여 GB200 AI 랙의 생산을 가속화할 수 있게 된 것으로 알려졌다. 파이낸셜 타임스(Financial Times, FT)에 따르면, 폭스콘(Foxconn), 인벤텍(Inventec), 델(Dell), 위스트론(Wistron) 등 공급업체들은 출하를 개시할 수 있도록 "일련의 돌파구"를 마련했다.

    지난해 말 발생한 기술적 문제로 인해 GB200 출하가 지연되었으며, 이는 생산에 차질을 빚었다. FT는 엔비디아의 대만 파트너들이 Computex 2025에서 GB200 랙 출하가 2025년 1분기 말에 시작되었으며, "생산 역량이 현재 빠르게 확장되고 있다"고 발표했다고 보도했다.

    한편, 엔비디아의 이름 없는 파트너 제조사 엔지니어 한 명은 FT에 내부 테스트 과정에서 연결성 문제가 발견되어 2~3개월 전부터 엔비디아와 공급망 협력이 필요했다고 전한 것으로 알려졌다.


    AMD, MI455X 지연 보도 부인... 엔비디아 VR200 시스템 조기 도착 루머에도 '헬리오스 시스템은 2026년 하반기 목표'

    중국의 AI 인프라 구축이 액체 냉각으로의 급격한 전환을 강제

    FT는 공급망 파트너들이 GB200 랙과 관련하여 과열 및 액체 냉각 시스템의 누수 문제를 포함해 "수개월" 동안 다양한 난제를 해결하는 데 주력했다고 보도했다. 엔지니어들이 언급한 다른 문제들로는 "이처럼 많은 프로세서를 동기화하는 복잡성에서 비롯된 소프트웨어 버그 및 인터칩 연결성 문제" 등이 포함되었다고 전해졌다.

    한 분석가는 FT에 "엔비디아가 공급망이 완전히 준비될 충분한 시간을 주지 않았다"고 지적했으며, GB200의 재고 위험은 하반기에 완화될 것으로 전망했다.

    보도에 따르면, 엔비디아는 GB300(3분기 출시 예정) 출시를 준비하며 GB300 디자인의 일부 사양을 조정했다. FT는 엔비디아가 GB200에서 사용된 구형 Bianca 디자인을 채택하며 Cordelia 칩 보드 레이아웃을 폐기했다고 주장했다. 보도에 따르면 두 공급업체가 설치 문제를 보고했지만, 이 변경 사항으로 인해 시스템 내 개별 GPU를 교체하는 것이 불가능해진다.

    이는 엔비디아가 원래 Blackwell Ultra GB300에 계획했던 SOCAMM 메모리 기술 도입을 지연시키고 있다는 5월 초의 보도 내용과 일치하며, 당시 보도에서는 Cordelia에서 Bianca로 전환하는 것이 연기 원인으로 언급된 바 있다.

    그러나 앞선 초기 보도와 FT의 최신 보도를 종합할 때, 엔비디아는 여전히 차세대 Rubin 칩에 Cordelia를 구현할 계획인 것으로 파악된다.

    (최신 뉴스와 분석, 리뷰를 피드에서 받아보려면 Google News에서 Tom's Hardware를 팔로우하세요. 반드시 '팔로우' 버튼을 클릭하세요.)

    [출처:] https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidia-gb200-production-ramps-up-after-suppliers-tackle-ai-server-overheating-and-liquid-cooling-leaks