하지만 141GB 메모리를 탑재한 엔비디아의 H200을 능가할 수 있을까요?

AMD는 CES 전시회에서 AI 및 HPC(고성능 컴퓨팅) 워크로드용 최신 Instinct MI325X 가속기를 선보였습니다. 이 제품은 온보드 HBM3E 메모리 256GB를 탑재한 세계 유일의 프로세서이며, 추론(inference) 작업에 가장 효율적인 GPU 중 하나가 될 것으로 기대됩니다.
컨슈머 일렉트로닉스 쇼(CES)는 소비자용 최신 전자기기 시연을 목적으로 하지만, 반도체 기업들은 오랫동안 CES를 자신들이 선보이고자 하는 기술을 전시하는 장소로 활용해 왔습니다. 엔비디아(Nvidia)가 기조연설 대부분을 AI에 할애한 것과 달리, AMD는 원래 클라이언트 PC용 프로세서 제품군을 소개했지만, 이는 회사가 보여줄 것이 전혀 없다는 의미는 아닙니다. 실제로 AMD는 완전히 새로운 Instinct MI325X를 시연했습니다.
AMD의 Instinct MI325X는 Instinct MI300X를 구동하는 것과 동일한 듀얼-칩렛 GPU를 탑재하고 있으며, 최대 2.10GHz로 작동하는 19,456개 스트림 프로세서(304개의 컴퓨트 유닛)를 특징으로 합니다. 특히, 이 새로운 가속기는 밴드폭 6TB/s를 제공하는 256GB HBM3E 메모리를 갖추고 있어, 밴드폭 5.3TB/s의 192GB HBM3 메모리를 탑재한 모델과 차별점을 보입니다.

엔비디아 H200이 '단지' 4.8TB/s 밴드폭의 141GB HBM3E 메모리를 탑재한 것에 비해, AMD의 Instinct MI325X는 온보드 HBM3E 메모리 용량 면에서 업계 최고 수준을 달성했습니다. 흥미롭게도 AMD는 이전에 MI325X가 288GB HBM3E를 탑재할 것이라고 발표했으나, 나중에 알려지지 않은 이유로 사용 가능한 용량을 256GB 메모리로 축소하기로 결정했습니다.
이론적으로만 보더라도, 온보드 메모리 용량이 클수록 AI 가속기에게는 필수적인 요소입니다.
현대 AI 모델은 보통 수백억 개의 매개변수(parameter)를 보유하고 있으며, 훈련을 위해서는 수만 개의 GPU가 필요합니다. 이러한 매개변수뿐만 아니라 중간 데이터, 경사도(gradient) 등을 저장하려면 상당한 메모리가 요구됩니다. 모든 모델을 GPU의 온보드 메모리에 수용할 수 없기 때문에, 개발자들은 모델 병렬화(model parallelism)나 텐서 슬라이싱(tensor slicing)과 같은 기법을 사용해야 하며, 이는 계산 및 통신 오버헤드를 발생시킵니다. GPU 메모리가 더 클수록 오버헤드가 감소하여 훈련에 필요한 GPU 개수를 줄일 수 있습니다.

게다가 AI 가속기는 데이터를 배치(batch) 단위로 처리합니다. 온보드 메모리 용량이 크면 더 큰 배치가 가능해져, 더 높은 처리량(throughput)과 더욱 빠르고 효율적인 훈련 및 추론을 이끌어낼 수 있습니다. 반면, 메모리가 작으면 모델이 더 작은 배치 크기로 구동되도록 강제되어 효율성이 떨어집니다.
하지만 실제 현장 상황은 다소 다른 양상을 보였습니다. AMD와 엔비디아가 8월 말 기준으로 제출한 데이터에 따르면, Nvidia H100 80GB GPU로 구성된 시스템은 Llama 2 70B 모델을 사용한 MLPerf 4.1 생성 AI 벤치마크에서 8 AMD Instinct MI300X 192GB GPU를 갖춘 머신과 비교하여 유사한 초당 토큰 수를 생성했습니다. 반면, H200 141GB GPU로 구성된 8-way 서버는 8-way MI300X 192GB 머신보다 초당 30% 이상 많은 토큰을 생성했습니다.
현재까지는 Instinct MI300X가 (최소한 8월 기준) 자체 하드웨어 성능을 완전히 활용하지 못한 것으로 보이는데, 이는 소프트웨어 스택의 제한 때문일 가능성이 높습니다. 향후 MI325X가 이러한 소프트웨어 스택의 한계를 극복하고 경쟁 제품을 능가할 수 있을지 주목됩니다.