막강한 파워입니다. (or 강력한 출력입니다.)

OpenAI, Oracle, SoftBank가 참여하는 스타게이트 프로젝트를 두고 제기된 우려 중 하나는 인프라 지원에 대한 세부 정보가 부족하다는 것이었습니다. 시간이 지나면서 각 회사가 계획을 공개해 왔으며, 지난 화요일에는 OpenAI와 Oracle이 미국 내에 추가로 4.5기가와트(GW) 규모의 스타게이트 데이터 센터 인프라를 건설할 계획을 발표했습니다. 이로써 OpenAI가 계획한 총 용량은 5GW를 초과하게 되었습니다. 흥미로운 점은 SoftBank가 스타게이트 프로젝트의 일원이지만, 이번 인프라 구축 자금 조달에는 직접 참여하지 않는다는 사실입니다.
지난 1월에 발표된 계획에 따르면, OpenAI, Oracle, SoftBank는 각 50만 평방피트(46,450제곱미터) 크기의 데이터 센터 20개를 건설할 예정입니다. 그러나 현행 미국 인프라가 AI 데이터 센터에 필수적인 추가 AI 서버, 냉각 시스템, 네트워킹 장비 등을 충분히 구동할 수 있는 예비 전력 용량을 확보하고 있는지 여부는 불투명합니다. 별도의 대규모 인프라 구축 없이는 전력 공급에 어려움이 예상됩니다.
공개된 4.5GW 규모의 인프라 용량은 전력 가용성을 주로 의미하며, 이는 현재 AI 개발의 주요 제한 요인 중 하나입니다. OpenAI는 5GW로 확장되는 인프라를 통해 데이터 센터가 2백만 개 이상의 AI 프로세서를 구동할 수 있을 것이라고 주장했지만, 해당 인프라가 1.4kW의 Blackwell Ultra 프로세서용인지 3.6kW의 Rubin Ultra 프로세서용인지는 밝히지 않았습니다. 만약 5GW 인프라 전력이 오직 AI GPU에만 공급된다고 가정하면, 357만 1천 대의 Blackwell Ultra GPU 또는 138만 8천 대의 Rubin Ultra GPU에 전력을 공급할 수 있습니다. 하지만 AI 가속기는 전력 사용 효율(PUE)을 고려하지 않을 경우 일반적으로 데이터 센터 전체 전력의 절반가량만 소비하므로, 실제 지원 가능한 GPU 수는 이보다 낮을 것으로 예측됩니다.
오라클, 스타게이트 데이터 센터 폐쇄 보고에 반박하다
새로운 4.5GW급 시설은 텍사스, 미시간, 위스콘신, 와이오밍 등 여러 주에 건설될 가능성이 있지만, 정확한 위치는 아직 확정되지 않았습니다. 이 시설은 OpenAI가 인프라를 대규모로 신속하게 배포할 수 있음을 입증하는 개념 증명(PoC) 시설로 간주하는 텍사스 애빌린의 기존 건설 현장과 별개입니다. OpenAI는 애빌린에서 얻은 경험이 향후 추가 시설 구축에 도움이 될 것이라고 기대하고 있습니다.
애빌린 시설의 일부인 스타게이트 I은 지난달 Oracle이 엔비디아(Nvidia)의 GB200 플랫폼 기반 서버 랙을 설치하기 시작하면서 현재 가동 상태에 들어섰습니다. OpenAI는 이를 활용하여 차세대 연구 이니셔티브의 일환으로 초기 단계의 AI 훈련 및 추론 작업을 진행하기 시작했습니다.
최신 뉴스, 분석, 리뷰를 피드에서 받으려면 Google News에서 Tom's Hardware를 구독하고 팔로우 버튼을 클릭해 주십시오.