중고 A100 및 H100 가속기를 맞춤형 추론 시스템으로 재구축하고 있다.

중국 AI 산업이 엔비디아의 최신 규제 조치에 대응하여, 재생(refurbished) 및 중고 엔비디아 GPU에 의존하는 추세입니다. 원래 H20은 미국의 수출 규제를 준수하기 위해 특별히 설계된 하퍼(Hopper) 기반의 축소형 GPU로, 엔비디아의 중국 시장 점유 유지를 위한 목적이었습니다. 그러나 중국 당국이 데이터 보안 우려를 제기하며 H20 구매를 사실상 금지한 이후, H20의 수출이 재개되었음에도 불구하고 해당 칩은 사실상 외면받고 있습니다.
디지타임스(Digitimes)의 최근 보고서에 따르면, 이러한 상황은 기업들이 구형 A100 및 H100 카드를 분해하고 "저비용, 고성능"의 맞춤형 추론(inference) 시스템으로 재구성하는 움직임을 촉발하며, 구형 카드에 대한 수요가 급증하는 원인이 되었습니다.
중고 실리콘이 유효한 이유
추론 작업은 AI 학습(training) 작업에 비해 컴퓨팅 집약도가 낮습니다. 모델이 완전한 부동 소수점 정밀도(full floating-point precision)를 필수적으로 요구하지 않으며, 작업 부하(workloads)가 축소되거나 재구성된 하드웨어에서도 효율적으로 구동될 수 있기 때문입니다. 이것이 2020년에 출시된 A100조차도 특정 사용 사례에서 여전히 가치를 지니는 이유입니다.
- 중국 기업들은 현재 국경에 묶여 있는 칩 사태로 인해 블랙 마켓에서 H200 칩 확보를 검토하고 있다는 보도가 나오고 있습니다.
- 엔비디아의 공급 난항 속에서, 중국 자체 실리콘 공급업체들의 입지가 커지고 있습니다.
A100은 엔비디아의 암페어(Ampere) 아키텍처를 기반으로 하며, 최대 80GB의 HBM2e 메모리와 2 TBps의 대역폭을 갖추고 있습니다. 비록 호퍼(Hopper)의 최고 처리량(peak throughput)에는 미치지 못하지만, 풍부한 메모리 용량과 성숙한 CUDA 소프트웨어 생태계 덕분에 추론 작업에는 여전히 매우 효과적입니다. 챗봇이나 추천 엔진 같은 워크로드의 경우, 최첨단 실리콘이 아니더라도 비용 효율적인 결과를 달성할 수 있습니다.
반면, 2022년에 출시된 H100은 HBM3 메모리를 탑재하여 A100 대비 성능을 대폭 향상시켰으며, AI 학습 처리량 면에서는 A100보다 최대 6배 높은 성능을 자랑합니다. 반면, H20은 추론에 최적화하기 위해 과도하게 성능이 제한되어, 완전한 H100 대비 AI 성능은 3배에서 최대 7배가량 낮고, FP64 슈퍼컴퓨팅 작업에서는 30배 이상 느린 성능을 보입니다. 실제로 이러한 성능 격차는 중국 구매자들에게 재활용된 A100이 신형 H20보다 훨씬 매력적인 선택지로 보이게 만듭니다.
엔비디아의 CUDA 생태계가 여전히 독보적이기 때문에, 구형 카드는 개발자들에게 가장 간편하게 활용 가능한(plug-and-play) 선택지입니다. 또한, 추론 하드웨어는 정확도 손실 위험이 적어 24시간 가동이 용이하기 때문에, 중국 데이터 센터들은 신뢰성 저하 리스크에도 불구하고 재생 보드에 기꺼이 투자를 아끼지 않고 있습니다.
엔비디아가 직면한 딜레마
이 상황은 엔비디아를 딜레마에 빠뜨립니다. 워싱턴이 중국 수출에 대한 라이선스 요건을 도입했을 때, 엔비디아는 막대한 규모의 재고 손실을 감수했습니다. 그러나 아이러니하게도 이는 역설적인 시장 역동성을 만들어냈습니다. 현재 상황에서 그들의 우위는 점차 약화되고 있습니다.
이 모든 역동성은 시장 수요의 변화와 결합하며, 기업들에게 예측하기 어려운 새로운 시장 국면을 제시하고 있습니다.
[출처:] https://www.tomshardware.com/pc-components/gpus/china-repurposes-used-nvidia-gpus