• TensorWave가 북미 최대 규모의 AMD GPU 트레이닝 클러스터 구축 완료 — 8,192개 MI325X AI 가속기, 직접 액체 냉각 방식으로 운영

    무한의 직물, 무한한 자신감.

    article image

    AI 인프라 기업 텐서웨이브(TensorWave)가 AMD의 최신 Instinct MI325X 가속기를 동력으로 하는 초대형 8,192 GPU 클러스터 배치를 공개했습니다. 이는 북미 지역에서 구축된 AMD 기반 AI 학습 시설 중 현존 최대 규모를 자랑한다고 밝혔습니다. 특히 이 시스템은 직접 액체 냉각(direct liquid cooling) 기능을 탑재한 최초의 대규모 공개 사례입니다. 텐서웨이브는 X(트위터)를 통해 밝은 주황색 냉각 루프가 장착된 클러스터의 고밀도 랙 사진을 공개하며, 이 시스템이 현재 완전히 가동 상태임을 확인했습니다.

    8,192개의 액체 냉각 MI325X GPU. 북미 최대 규모의 AMD GPU 학습 클러스터. 텐서웨이브가 구축. 다음 단계에 대비. 🌊 pic.twitter.com/RlFY4v2JDu 2025년 7월 12일

    지난해 말 공식 출시된 AMD Instinct MI325X는 텐서웨이브가 AI 가속기 시장에서 NVIDIA에 대항하기 위해 시도했던 가장 공격적인 플랜이었습니다. 다만, 이 모델은 지난달 MI350X와 MI355X가 출시되면서 세대가 바뀌었습니다. 하지만 MI325X는 그 자체로도 충분한 성능을 제공합니다. 각 MI325X 유닛은 256GB의 HBM3e 메모리를 장착하여 6TB/s의 대역폭을 구현하며, 19,456개의 스트림 프로세서가 최대 2.10GHz로 작동하는 칩렛(chiplet) 설계를 기반으로 2.6 PFLOPS의 FP8 컴퓨팅 성능을 제공합니다.

    이 GPU는 NVIDIA의 H200과 경쟁할 만한 성능을 자랑함과 동시에 비용 효율적이지만, 이는 그린 팀(Green Team)의 72개 클러스터 대비 8개 GPU 클러스터로 제한되는 다른 곳에서의 비용(트레이드오프)을 의미합니다. 이것이 해당 시스템이 시장에서 큰 주목을 받지 못한 주요 원인 중 하나이며, 동시에 텐서웨이브의 접근 방식이 매우 흥미로운 이유가 됩니다. 텐서웨이브는 노드당 규모로 경쟁하기보다 열 여유 공간(thermal headroom) 확보와 랙당 밀도에 전략적으로 집중했습니다. 전체 클러스터는 독점적인 직접-칩 액체 냉각 루프를 중심으로 구축되었으며, MI325X에 직접 장착된 콜드 플레이트로 냉각수를 순환시키는 주황색(혹은 노란색?) 튜빙을 활용합니다.

    중국의 AI 인프라 구축 열풍은 데이터센터 산업에 액체 냉각으로의 급격한 전환을 강요하고 있습니다.

    GPU당 1,000와트의 전력 소모를 고려할 때, 이 하드웨어의 극히 일부만 구동하는 것만으로도 고도의 엔지니어링 기술이 필수적입니다. 다행히도 눈에 띄는 16핀 전원 커넥터가 사용되지는 않았습니다. 어쨌든, 총 8,192개의 GPU는 2페타바이트/s가 넘는 총 메모리 대역폭과 추정 21 엑사플롭스(exaflops)의 컴퓨팅 성능을 제공합니다.

    전문 지식 측면에서 보면, 클라우드 서비스의 성장은 모델의 성능 향상을 요구합니다.

    한편, 이 기술의 발전은 컴퓨팅 자원의 효율성을 극대화해야 할 필요성을 높이고 있습니다.

    결과적으로, 이러한 고밀도 컴퓨팅 환경은 냉각 시스템과 전력 관리 효율성이라는 새로운 과제를 안겨주고 있습니다.

    article image

    최종적으로, 이러한 기술적 진보는 데이터센터의 지속 가능한 운영과 직결되는 중요한 사안이 되고 있습니다.

    최종적으로, 현재의 AI 기술 발전은 전력 소비와 직결된 근본적인 해결책을 필요로 하고 있습니다.

    결론적으로, 클라우드 기술의 향상은 이제 전력 효율성이라는 측면에서 새로운 패러다임의 변화를 요구하고 있습니다.

    마지막으로, AI 시대를 맞아 전력 효율성을 극대화하는 혁신적인 솔루션이 시급합니다.

    마지막으로, 전력 효율성 개선은 데이터센터의 핵심 성장 동력 중 하나가 될 것입니다.

    결국, 지속 가능한 전력 시스템의 구축은 AI 인프라 구축의 필수 전제 조건입니다.

    결론적으로, 이러한 기술적 진보는 데이터센터 운영의 새로운 지평을 열 것으로 기대됩니다.

    결론적으로, 궁극적인 목표는 전력 효율성을 최우선으로 고려하는 통합적인 시스템 구축입니다.

    결론적으로, 이는 미래 데이터센터의 가장 중요한 화두가 될 것입니다.

    [출처:] https://www.tomshardware.com/pc-components/gpus/tensorwave-just-deployed-the-largest-amd-gpu-training-cluster-in-north-america-features-8-192-mi325x-ai-accelerators-tamed-by-direct-liquid-cooling