• AMD, 지원 나서… 존 카마크, 엔비디아 DGX Spark 4,000달러 제품 비판: "성능 주장 미달, 과열, 100W 전력 제한까지", 개발자 포럼에 다운 및 종료 보고서 쇄도

    4,000달러짜리 Grace Blackwell 개발 키트는 240W 전력과 1 PF의 희소 FP4 컴퓨팅 성능이 가능하다고 평가되지만, 초기 사용자들은 지속적인 부하 상태에서 100W 한계 및 재부팅 문제를 보고하고 있습니다.

    article image

    엔비디아의 DGX Spark는 회사가 새롭게 출시한, Grace Blackwell GB10 슈퍼칩을 탑재한 4,000달러짜리 미니 PC 플랫폼이다. 그러나 오큘러스 VR의 전 최고기술책임자(CTO)였던 존 카맥(John Carmack)이 실제 성능 및 전력 소비에 의문을 제기하면서 비판에 직면했다. 카맥의 지적은 프레임워크(Framework)와 AMD 같은 기술 지원 업계의 주목까지 끌어냈으며, 그 결과 AMD 기반의 Strix Halo를 탑재한 대안 모델이 제시되기도 했다.

    카맥은 X(구 트위터)에 올린 게시물을 통해 DGX Spark가 정격 전력 240와트의 절반도 안 되는 100와트 수준에서 작동하는 것처럼 보인다고 지적했다. 엔비디아가 희소 FP4 연산으로 1 페타플롭(petaflop)을 광고했음에도 불구하고, 카맥은 이 밀도 등가치가 125 테라플롭(teraflops)에 가까워야 하며, 실제 성능은 그보다 훨씬 낮다고 밝혔다. 또한 그는 "장시간 구동 시 자발적인 재부팅 현상"을 언급하며, 시스템이 "출시 전에 성능 제한(de-rated)을 거쳤는지" 질문했다. (상세 내용은 아래 트윗을 확장하여 확인할 수 있다.)

    카맥은 "DGX Spark는 정격 240와트보다 낮은 100와트 수준의 전력을 소모하는 것으로 보이며, 이는 표기된 성능의 절반가량만을 제공하는 것 같다 (1 PF 희소 FP4 = 125 TF 밀도 BF16 가정). 이 정도 전력만 사용해도 상당한 발열이 발생하며, 저는 다음과 같은 보고를 접했다..."라며 글을 시작했다. (2025년 10월 27일).

    마찬가지로, 독립적인 테스트를 진행한 ServeTheHome의 결과에 따르면, 일반 소비자용 Spark 장치는 CPU와 GPU를 함께 부하로 구동했을 때 200와트 미만의 전력을 소모했으며, 테스트한 어떤 워크로드에서도 최대 240W의 최대치에 도달하지 못했다고 보고되었다.

    이러한 주장들에 자극받은 프레임워크는 카맥의 게시물 스레드에 참여하여 대안으로 AMD Strix Halo 기반 시스템을 제시했고, AMD의 애누시 엘랑고반(Anush Elangovan) 부사장(AI 소프트웨어 담당) 역시 논쟁에 합류하며 "Strix Halo에서의 탐색 활동을 지원하기 위해 대기하겠습니다"라고 덧붙였다.

    article image

    카맥의 게시물은 엔비디아가 실제로 어떤 성능을 보장했는지에 대한 광범위한 재검토를 촉발했다. 페타플롭 수치는 2:4 구조적 희소성(structured sparsity)을 가진 FP4 형태로 여러 페이지에 걸쳐 언급되는데, 이는 2:4 구조적 희소성을 의미한다. 이 기술은 유효 처리량(throughput)을 두 배로 높일 수 있는 방법이지만, 특정 행렬 연산에만 국한된다. 따라서 FP8이나 BF16과 같은 더 밀도 높은 형식으로 평가될 경우, 이론적인 성능 상한선은 급격히 하락한다. 엔비디아의 공식 사양은 20개 ARM 코어의 Nvidia Grace CPU와 공유되는 128GB의 통합 LPDDR5X 메모리와 273GB/s의 메모리 대역폭을 제시하고 있다. 이는 Spark가 HBM을 탑재한 GPU에 비해 대역폭이 현저히 낮은, 용량(capacity) 중심의 시스템임을 시사한다.

    Spark는 초당 토큰 속도를 겨루기보다는 대규모 모델을 메모리 내에서 온전히 호스팅하는 데 중점을 둔 장치이다. 엔비디아 마케팅 자료는 이 장치가 블랙웰 아키텍처 덕분에 200억 개 파라미터 규모의 모델을 로컬에서 실행할 수 있다고 홍보하기도 했다. 하지만 재부팅 문제가 빈번하게 제기되고 명확한 전력 제한 현상이 보고되면서, 150mm 섀시라는 제한된 공간 안에서 엔비디아의 전력 및 열 관리가 어려움을 겪고 있는 것으로 보인다. 특히 대부분의 사용자가 더 나은 성능과 충분한 냉각을 위해서는 Spark가 더 큰 폼팩터로 출하되기를 원했기 때문에 더욱 그렇다.

    이러한 최적화되지 않은 성능 저하(펌웨어 수준의 제한이나 열 스로틀링 등)의 원인은 명확하지 않다. 엔비디아는 카맥의 게시물이나 사용자들로부터 제보된 불안정성에 대해 공식적으로 언급한 적이 없다. 한편, 엔비디아 개발자 포럼의 여러 스레드에는 지속적인 부하 운용 시 GPU 충돌 및 예기치 않은 시스템 종료 보고가 올라오고 있다.

    DGX Spark는 여전히 초기 단계의 제품이지만, 사용자들의 GB10에 대한 기대치가 매우 높은 만큼, 엔비디아는 자사 플래그십 개발 키트가 왜 그렇게 많은 성능 잠재력을 충분히 발휘하지 못하고 있는지 설명할 필요가 있다.

    최신 뉴스, 분석 및 리뷰를 받아보려면 Google News에서 Tom's Hardware를 팔로우하거나 즐겨찾기 출처로 추가해 주세요.

    [출처:] https://www.tomshardware.com/tech-industry/semiconductors/users-question-dgx-spark-performance