이 플랫폼은 GPU와 NPU를 통합(풀링)하여 평균 활용률을 약 30% 향상시킬 수 있다고 약속합니다.

화웨이는 대규모 컴퓨팅 클러스터에서 AI 칩의 활용률을 높이도록 설계된 오픈 소스 오케스트레이션 도구인 Flex:ai를 선보였습니다. 지난 11월 21일 금요일 발표된 이 플랫폼은 쿠버네티스(Kubernetes)를 기반으로 하며, 화웨이의 ModelEngine 개발자 커뮤니티를 통해 출시될 예정입니다. 이는 고성능 GPU 하드웨어에 대한 미국의 지속적인 수출 제한이 이어지는 가운데 등장한 것으로, 제한적인 실리콘 공급에 대한 임시방편으로 중국 내부에서 소프트웨어 측면의 효율성 개선 추세가 커지고 있음을 반영합니다.
화웨이에 따르면, Flex:ai는 단순히 중국이 "엔비디아 칩보다 1000배 빠른 유사 AI 칩"을 개발하는 데 도움을 주는 것 외에도, 평균 활용률을 약 30%까지 끌어올릴 수 있습니다. 이 도구는 개별 GPU 또는 NPU 카드를 여러 개의 가상 컴퓨팅 인스턴스로 분할(slicing)하고, 이기종 하드웨어 유형 전반에 걸쳐 워크로드를 오케스트레이션함으로써 이를 구현한다고 알려졌습니다.
따라서 전체 가속기 자원을 충분히 활용하지 못할 수 있는 작은 작업들은 서로 병합(stacking)할 수 있으며, 단일 장치의 용량을 초과하는 대규모 모델도 여러 장치에 걸쳐 분산 배치될 수 있습니다. 이 도구에는 Hi Scheduler라는 스마트 스케줄러가 포함되어 있어 유휴 리소스를 노드 전반에 걸쳐 실시간으로 재분배하고, AI 워크로드가 대기하는 곳이라면 어디든 컴퓨팅 자원을 자동으로 재할당합니다.

Flex:ai의 아키텍처는 기존 오픈 소스 쿠버네티스 기반을 따르지만, 오픈 배포 환경에서 일반적이지 않은 방식으로 이를 확장합니다. 쿠버네티스는 이미 가속기를 외부에 노출하는 장치 플러그인(device plugins)이나, Volcano와 같은 스케줄러, 혹은 Ray와 같은 프레임워크를 통해 분수 할당(fractional allocation) 및 갱 스케줄링(gang scheduling)을 지원합니다. Flex:ai는 이러한 기능들을 더 높은 계층에서 통합하는 동시에, 표준 GPU 하드웨어와 Ascend NPU에 대한 지원까지 통합한 것으로 보입니다.
이번 출시는 엔비디아가 2024년에 인수한 오케스트레이션 플랫폼 Run:ai가 제공하는 기능과 유사합니다. Run:ai는 대규모 GPU 클러스터에서 다중 테넌트 스케줄링 및 워크로드 선점(workload pre-emption)을 가능하게 합니다. 화웨이의 버전은 구두로 유사한 주장을 펼치지만, 오픈 소스 배포와 크로스 가속기 호환성에 중점을 둔다는 차이점이 있습니다. 이러한 점은 특히 Ascend 칩을 사용하는 등 중국산 실리콘을 중심으로 구축된 클러스터에서 더 폭넓은 관련성을 가질 수 있게 합니다.
현재 오픈 소스 코드는 아직 공개되지 않았으며, 화웨이는 공식 문서나 벤치마크도 발표하지 않았습니다. 향후 공개될 경우, 핵심 질문들로는 분할(slicing)의 세밀도, Flex:ai가 표준 쿠버네티스 스케줄러와 어떻게 연동되는지, 그리고 무엇보다 널리 사용되는 GPU 유형을 표준 플러그인을 통해 지원하는지가 포함될 것입니다. 해당 회사는 상하이 자오퉁 대학, 시안 자오퉁 대학, 그리고 샤먼 대학의 연구원들이 이 도구 개발에 기여했다고 밝혔습니다.