• 알리바바 클라우드, 새로운 풀링 시스템으로 엔비디아 AI GPU 사용량 82% 절감했다고 밝혀… 출력 최대 9배 증폭, 213개 GPU가 1,192개에 달하는 성능 구현

    SOSP 2025에서 발표된 논문은 토큰 레벨 스케줄링이 하나의 GPU가 여러 LLM에 서비스를 제공할 수 있도록 도왔으며, 이로 인해 요구 사양이 1,192 H20s에서 213 H20s로 감소한 방법을 상세히 설명하고 있습니다.

    article image

    알리바바 클라우드는 새로운 Aegaeon 풀링 시스템이 자사의 Model Studio 마켓플레이스 내부에서 진행된 수개월간의 베타 테스트를 통해 대규모 언어 모델(LLM) 서비스에 필요한 엔비디아(Nvidia) GPU 개수를 82%까지 절감했다고 발표했다. 이 결과는 2025년 서울에서 열린 ACM 운영체제 심포지엄(SOSP)에 제출된 동료 심사 논문에 게재되었으며, 클라우드 제공업체들이 기존 실리콘 자원에서 훨씬 더 높은 추론 처리 용량을 끌어낼 수 있음을 시사한다. 특히 엔비디아의 최신 H20 공급이 제한적인 중국과 같은 제약 시장에서 그 가능성이 높다.

    Aegaeon은 모델 품질이나 속도를 겨냥하는 학습 시간(training-time)의 혁신과는 달리, 간헐적이거나 예측 불가능한 수요를 가진 수많은 모델에 걸쳐 GPU 활용률을 극대화하도록 설계된 추론 시간(inference-time) 스케줄러이다. Aegaeon은 하나의 가속기 자원을 하나의 모델에 할당하는 방식 대신, GPU 접근을 토큰(token) 단위로 가상화하여 공유 풀에 작업 조각들을 배분한다. 즉, 하나의 H20이 여러 개의 다른 모델에 동시에 서비스를 제공할 수 있게 되며, 이로 인해 시스템 전체의 '효율 출력(goodput)'—효과적인 처리량을 측정하는 지표—은 기존 서버리스 시스템 대비 최대 9배까지 증가했다.

    논문에 따르면, 이 시스템은 수개월 동안 실제 운영 환경에서 테스트되었다. 해당 논문에는 베이징 대학과 알리바바의 인프라 부문 연구진, 그리고 최고 기술 책임자(CTO) 저우 징런(Jingren Zhou) 등이 참여했다. 테스트 기간 동안, 최대 720억 개의 매개변수를 가진 수십 개의 다양한 LLM을 지원하는 데 필요했던 GPU 개수는 1,192개에서 단 213개로 급감했다.

    중국의 AI 인프라 구축 열풍, 액체 냉각으로의 급격한 전환을 요구
    엔비디아가 칩을 시장에 안정적으로 공급하는 데 어려움을 겪으며 중국 현지 실리콘 공급업체들이 주목받다
    엔비디아 지원 테스트 결과, AI 데이터 센터가 전력 사용량을 거의 실시간으로 유연하게 조절하여 에너지 소비에 글로벌 영향을 미칠 전망

    article image

    논문은 어느 모델이 이러한 절감에 가장 크게 기여했는지에 대한 세부 분석은 제공하지 않았지만, 사우스 차이나 모닝 포스트(South China Morning Post) 보도에 따르면 테스트에는 현재 미국의 수출 통제 하에 중국 구매자에게 법적으로 이용 가능한 몇 안 되는 가속기 중 하나인 엔비디아 H20이 사용되었다.

    알리바바는 이러한 성능 향상이 두 가지 핵심 기술 덕분이라고 설명했다. 하나는 GPU당 여러 모델을 밀집시키는 패킹(Packing) 기법이고, 다른 하나는 자원을 요청 시점(request level)에 예약하는 대신, 출력이 생성됨에 따라 컴퓨팅 자원을 동적으로 할당하는 토큰 수준 자동 스케일러(token-level autoscaler)의 사용이다. Aegaeon은 벤치마크에서 ServerlessLLM과 MuxServe의 효율 출력을 각각 1.5배에서 9배에 이르는 폭으로 능가했다.

    이러한 절감 효과가 알리바바의 내부 인프라 스택을 넘어 외부 환경에서도 적용될지는 아직 미지수다. 알리바바 클라우드의 논문은 베타 테스트에 사용된 정확한 네트워크 패브릭을 공개하지 않았으나, 자사가 자체 eRDMA 탄성 RDMA 네트워크를 제공하며 고도로 통합된 GPU 서비스 스택 구축 역사를 가진 점을 고려할 때, 그 결과는 최적화되고 수직적으로 통합된(vertically integrated) 환경에 크게 의존할 수 있음을 시사한다.

    그럼에도 불구하고, 이러한 결과는 추론 수요가 지속적으로 급증함에 따라 제한적인 가속기 규모를 최대한 활용하고자 하는 다른 하이퍼스케일러들의 큰 관심을 끌 것으로 예상된다.

    Tom's Hardware의 최신 뉴스, 분석 및 리뷰를 받으려면 Google News에서 팔로우하거나 즐겨찾기 소스로 추가하십시오.

    [출처:] https://www.tomshardware.com/tech-industry/semiconductors/alibaba-says-new-pooling-system-cut-nvidia-gpu-use-by-82-percent