근접 메모리 컴퓨팅은 놀라운 혁신을 가져올 수 있습니다.

디지타임스(DigiTimes) 보도에 따르면, 중국반도체산업협회(China Semiconductor Industry Association) 부회장 겸 칭화대학교 교수인 웨이 샤오쥔(Wei Shaojun)은 업계 행사에서 중국에서 개발된 14nm 로직 치프릿과 18nm 기반 DRAM으로 구성된 AI 가속기가 TSMC의 맞춤형 4nm급 공정 기술로 제작된 엔비디아(Nvidia)의 블랙웰(Blackwell) 프로세서와 경쟁할 수 있다고 밝혔다.
웨이 샤오쥔은 ICC 글로벌 CEO 서밋 연설 자리에서 성능 효율성 돌파의 핵심은 중국 가속기 설계에 사용되는 첨단 3D 스태킹(3D stacking) 기술에 달려 있다고 강조했다.
웨이는 과거 '중국제조 2025(Made in China 2025)' 프로그램의 목표는 달성 불가능하다고 지적한 바 있으며, 나아가 중국이 엔비디아 H20과 같은 외산 AI 가속기 사용을 중단하고 국내 솔루션을 채택해야 한다고 촉구한 바 있다. 이날 그는 14nm 로직과 18nm DRAM을 3D 하이브리드 본딩(3D hybrid bonding)으로 결합하는 가상의 '완전히 자립 가능한 국내 솔루션'을 제시했다. 다만, 해당 솔루션이 실제로 존재하거나 중국에서 사용 가능한 기술로 구현될 수 있다는 증거는 없으므로, 이 발언은 전적으로 가설에 기반한다.
중국 반도체 산업, 2026년 말까지 국내 HBM3 생산 준비 박차

웨이의 주장에 따르면, 이 가상의 구성은 구형 기술을 사용함에도 불구하고 엔비디아의 '4nm GPU' 수준의 성능에 근접하는 것을 목표로 한다. 그는 이 솔루션이 구체적인 정밀도를 밝히지 않더라도 120 TFLOPS의 성능을 구현할 수 있을 것으로 기대한다. 특히, 이 솔루션은 소비 전력이 약 60W에 불과해 인텔(Intel) 제온(Xeon) CPU 대비 2 TFLOPS/W로 훨씬 높은 성능 효율성을 제공할 것이라고 주장했다. 비교하자면, 엔비디아 B200 프로세서는 1200W에서 10,000 NVFP4 TFLOPS를 제공하며 와트당 8.33 NVFP4 TFLOPS를 기록한다. B300의 경우 와트당 10.7 NVFP4 TFLOPS로, 가상의 AI 가속기가 제공할 수 있는 성능보다 다섯 배 높은 수치다.
가상의 중국 AI 가속기의 성능 효율을 혁신적으로 높일 핵심 기술로는 3D 하이브리드 본딩(구리 대 구리 및 산화물 본딩)과 근접 메모리 컴퓨팅(near-memory computing)이 제시됐다. 3D 하이브리드 본딩은 솔더 범프(solder bumps)를 제거하고 10µm 미만의 피치(pitch)에서 직접적인 구리 상호연결(copper interconnects)을 구현한다. 이러한 하이브리드 본딩은 고대역폭 저지연 상호연결을 위한 마이크로미터 규모의 신호 경로와 함께, mm²당 수십 개에서 수십만 개의 수직 연결을 가능하게 한다.
3D 하이브리드 본딩 디자인의 대표적인 예로 AMD의 3D V-Cache가 있으며, 이는 0.05 pJ/bit I/O 에너지로 2.5 TB/s의 대역폭을 제공한다. 웨이는 자신의 가상 설계도 이와 유사한 수치를 목표로 하는 것으로 보인다. 기기당 2.5 TB/s는 HBM3E가 제공하는 대역폭을 크게 상회하는 수치이기에, 근접 메모리 컴퓨팅 개념에 의존하는 AI 가속기에게는 획기적인 발전이 될 수 있다. 또한 웨이는 이 개념이 이론적으로 제타플롭스(ZetaFLOPS)급 성능까지 확장될 수 있다고 언급했지만, 이러한 성능 수준에 도달하는 시점이나 구체적인 방법론은 제시하지 않았다.
한편, 웨이는 Nvidia의 CUDA 플랫폼이 자신이 제시한 가상 대안뿐만 아니라 비(非)Nvidia 하드웨어 플랫폼 전반에 걸쳐 위험 요소가 될 수 있다고 지적했다. 소프트웨어, 모델, 하드웨어가 단일 독점 플랫폼에 수렴할 경우, 대안 프로세서를 도입하기가 극도로 어려워지기 때문이다. 그는 중국 AI 하드웨어의 경쟁력을 높이는 방안으로 근접 메모리 컴퓨팅을 제시한 만큼, 이러한 생태계 의존성을 강조했다.