AMD, '제타스케일 슈퍼컴퓨터' 작동에 반 기가와트 필요... 37만 5천 가구 규모에 해당하는 전력 소모량

hw_reporter

AMD, 슈퍼컴퓨터 전력 소비량 증가 전망 발표.

AMD는 ISC 2025에서 AI 가속기 개발의 한계 요인, 특히 첨단 칩의 전력 요구 사항 증가 문제를 논의했습니다. ComputerBase 보도에 따르면, AMD는 미래의 ZettaFLOP급 슈퍼컴퓨터가 작동하는 데 원자력 발전소 수준의 막대한 에너지가 필요할 것으로 예상합니다.

AMD는 2035년까지 예상되는 슈퍼컴퓨터 전력 소비량 증가 추이를 담은 그래프를 공유했습니다. 이 그래프는 2010년부터 2015년 사이, 슈퍼컴퓨터가 작동하는 데 단 3.2GF/watt만이 필요했던 시점부터 시작합니다. 이후 2035년까지 직선적으로 예측되는 수치에 따르면, AMD는 Zetta급 슈퍼컴퓨터가 2140GF/watt, 즉 0.5기가와트의 전력을 필요로 할 것으로 전망합니다. 이 예측은 AI 프로세서 개발 시 2.2년마다 2배의 효율 개선이 이루어진다는 가정에 근거합니다.

메모리 대역폭과 냉각 용량의 증가는 이러한 높은 전력 소비 증가를 초래하는 핵심 요인으로 꼽힙니다. AI 하드웨어가 컴퓨팅 성능을 높일수록, 메모리 대역폭과 데이터센터 냉각 시스템 역시 그 증가세에 맞춰 발전해야 합니다. 이 과정은 데이터센터 모든 영역에서 전력 소비가 기하급수적으로 늘어나는 눈덩이 효과(snowball effect)를 낳습니다.

대만은 2030년까지 전력 수요가 5GW 이상 증가하여 거의 4백만 가구에 전력을 공급할 수 있는 수준에 달할 것으로 예상합니다.

이러한 문제를 더욱 부각시키는 것은 FP128, FP64, FP16, FP8 같은 다양한 컴퓨팅 정밀도에 대한 수요입니다. FP64와 FP128이 높은 정확도를 제공함에도 불구하고, 일부 워크로드는 FP16이나 FP8에서 구동될 때 더 효율적이고 유용합니다. 따라서 미래의 AI 가속기는 낮은 정밀도의 연산도 수행할 수 있는 역량을 갖추어야 합니다.

현재 최신 AI 가속기에서도 전력 소비 급증 현상이 이미 나타나고 있습니다. Nvidia의 B200은 1000W의 TDP를 가지고 있으며, AMD의 신규 MI355X는 1,400W의 TDP를 기록하고 있습니다. 반면, 5년 전 Nvidia의 플래그십 AI GPU였던 A100은 단 400W의 전력(RTX 5090보다 적은 양)만을 소모했습니다.

이에 미국 정부는 증가하는 에너지 상황이 원자력 발전소에 부담을 주기 전에 해결하고자 노력하고 있습니다. 또한 마이크로소프트 같은 대기업들은 데이터센터 전력 문제를 해결하기 위해 핵융합 에너지 분야에 막대한 투자를 감행하고 있습니다.

슈퍼컴퓨터는 현재까지도 ExaFLOP 범위에 머물러 있으며, 현재 최고 기록은 ElCaptain AMD-MI300A 기반 슈퍼컴퓨터입니다. 하지만 완전한 AI 데이터센터는 이미 ZettaFLOP(Zettascale) 성능에 근접하고 있으며, 오라클은 131,072개의 Blackwell GPU로 구성된 Zetta규모 클라우드 컴퓨팅 클러스터를 최초로 선보였습니다 (이는 2.4 zettaFLOPS 성능에 해당).

[출처:] https://www.tomshardware.com/pc-components/gpus/amd-says-zettascale-supercomputers-will-need-half-a-gigawatt-to-operate-enough-for-375-000-homes