프로젝트 배틀매트릭스(Project Battlematrix)가 배포 준비를 거의 마쳤습니다

인텔이 프로젝트 배틀매트릭스(Project Battlematrix)의 소프트웨어 측면 첫 번째 업데이트를 발표했다. 이번에 추가된 새로운 추론 최적화 소프트웨어 스택은 다중 GPU 워크스테이션에서 Arc Pro B 시리즈 GPU를 활용하여 AI 워크로드를 오케스트레이션할 수 있게 한다. 이 스위트에는 AI 추론 워크플로우를 위한 리눅스 기반 LLM Scaler가 포함되어 있다.
프로젝트 배틀매트릭스는 고성능의 인텔 기반 AI 워크스테이션을 시장에 제공하기 위해 설계된 인텔의 AI 중심 이니셔티브다. 이 프로젝트는 인텔 하드웨어와 소프트웨어를 결합하여 단일 시스템 내에서 여러 개의 Arc Pro B 시리즈 GPU를 통합한 응집력 있는 워크스테이션 솔루션을 구현한다. 프로젝트 배틀매트릭스 워크스테이션은 Xeon CPU, 최대 8개의 GPU, 그리고 최대 192GB의 총 VRAM을 탑재하며, 예상 가격대는 $5,000에서 $10,000 사이이다.
이러한 시스템의 동력원은 작업 스테이션용 GPU인 Arc Pro B60이다. Pro B60은 더 많은 메모리와 PCIe 5.0 지원이 강화된 인텔의 Arc B580을 대체하는 제품이다. Pro B60은 20개의 Xe Core, 24GB의 GDDR6 메모리, 160개의 XMX 엔진, PCIe 5.0 지원, 다중 GPU 지원 및 가변 TDP(120W~200W)를 갖추고 있다. 프로젝트 배틀매트릭스 워크스테이션을 지원하는 것은 검증된 전체 스택 컨테이너화 리눅스 솔루션으로, 서버를 빠르고 손쉽게 구축하는 데 필요한 모든 것을 제공한다. LLM Scaler는 인텔이 개발하는 전체 스택 컨테이너화 리눅스 솔루션에 포함된 여러 컨테이너 중 하나다.
GitHub에 공개된 LLM Scaler 릴리스 1.0은 ‘초기 고객 활성화(early customer enablement)’에 초점을 맞추었으며, 추측 디코딩(speculative decoding) 및 torch.compile 지원 등 여러 AI 모델 유형에 대한 최적화와 기능 추가를 포함한다. 릴리스 1.0에는 총 10개의 최적화 및 기능이 통합되었다.
구체적으로, 320억 개(32B) KPI 모델에서 40K 길이의 순차 입력에 대한 긴 입력 처리가 최대 1.8배 빨라졌으며, 700억 개(70B) KPI 모델에서는 최대 4.2배 빨라졌다. 또한, 80억 개(8B)부터 32B KPI 모델까지 출력 처리량 성능이 10% 개선되었다.
기능적인 측면에서는, LLM의 GPU 메모리 요구 사항을 줄이기 위한 레이어별 온라인 양자화(By-layer online quantization)가 추가되었다. 이 외에도 임베딩 및 리랭크 모델 지원, 향상된 다중 모델 지원, 최대 길이 자동 감지, 데이터 병렬 처리 기능이 추가되었으며, 앞서 언급된 추측 디코딩 및 torch.compile을 지원한다. 인텔은 릴리스 1.0에 OneCLL 벤치마크 도구 활성화와 함께 펌웨어 업데이트 기능, GPU 전원 및 메모리 대역폭 모니터링, GPU 진단 기능을 제공하는 XPU 관리자도 포함했다.
인텔은 추후 기능 계획을 발표하며, 더 많은 기능이 탑재된 LLM Scaler의 강화 버전이 3분기 말까지 출시될 예정이며, 전체 기능 세트 릴리스는 4분기로 예정되어 있다고 밝혔다. 참고로, LLM Scaler는 원래 2분기 출시 예정이었던 첫 컨테이너 배포보다 앞당겨 기술적으로 공개되었다. 하지만 인텔 개발팀은 아직 개발을 마무리하지 않았으며, 4분기에는 SRIOV, VDI 및 관리 소프트웨어 배포와 같은 추가 기능들이 순차적으로 출시될 예정이다.