3FS가 모든 것을 지극히 랜덤 리드에 중점을 둔 AI-HPC 트레이닝 서버의 새로운 패러다임을 제시하다.

딥시크 AI(DeepSeek AI)가 이번 오픈 소스 주간(Open Source Week)을 맞아 Fire-Flyer Fire System (3FS) 병렬 파일 시스템을 완전한 오픈 소스로 공개했습니다. 이 중국의 AI 기업은 3FS가 자체 서버 데이터 클러스터에서 총 7.3 TB/s에 달하는 집계 읽기 처리량(aggregate read throughput)을 달성했다고 밝혔습니다. 딥시크는 최소 2019년부터 이 3FS를 사용하여 서버를 운영해 왔습니다.
3FS는 AI-HPC(고성능 컴퓨팅) 작업에 사용하도록 설계된 리눅스 기반의 병렬 파일 시스템입니다. 이 환경에서는 수많은 데이터 스토리지 서버가 대규모 언어 모델(LLM) 훈련을 위해 GPU 노드들로부터 끊임없이 접근받습니다. 3FS는 다른 파일 시스템들과 구별되는 특징으로, 다른 어떤 요소보다도 무작위 읽기 속도(random read speeds)를 거의 유일하게 최우선시하며, 읽기 캐싱(read caching)을 거의 완전히 무시한다는 점입니다.
AI 모델을 훈련할 때 컴퓨팅 유닛은 무작위 훈련 데이터에 지속적으로 접근해야 하며, 이 데이터 읽기는 본질적으로 일회성 프로세스입니다. 따라서 읽기 캐시는 효용성이 매우 낮으며, 3FS는 이 부분을 근본적으로 제거했습니다. 실제로 LLM 훈련 과정에서 읽기 캐시를 사용하는 것은 잠재적으로 오히려 해로울 수 있습니다. LLM은 기본적으로 고도로 조정된 추론 기계(super-tuned inference machines)에 가까우므로, 동일한 데이터를 같은 순서로 반복 읽을 경우 언어 모델의 맥락을 완전히 다른 데이터 세트로 잘못 연결할 위험이 존재하기 때문입니다.
딥시크의 딥러닝 클러스터 중 하나인 Fire-Flyer 2를 운영하는 팀은 지난 8월, 3FS를 맞춤형 구축 시스템에 적용한 내용을 담은 논문을 발표했습니다. Fire-Flyer 2에서 딥시크는 180개의 스토리지 노드를 활용했으며, 각 노드는 16개의 16TB SSD와 2개의 200Gbps NUC로 구성되어 있었습니다. 이 노드들은 엔비디아의 독점 DGX-A100 제품보다 훨씬 경제적으로 구축된 서버에 탑재된 10,000개의 PCIe Nvidia A100 GPU에 서비스를 제공했습니다.
딥시크는 이 전체 어레이를 통해 3FS의 성능을 6.6 TB/s로 벤치마킹했으며, 동시에 백그라운드에서 훈련 작업을 진행하여 추가 1.4 TB/s의 읽기 처리량을 확보했다고 주장합니다. 이를 비교하자면, 경쟁 파일 시스템인 Ceph는 2024년 초, 68개 노드(10개의 16TB SSD 및 2개의 100 Gbps 네트워킹 탑재) 서버에서 처음으로 1.1 TB/s의 읽기 처리량 속도에 도달하는 데 그쳤습니다.
3FS는 해당 논문에서 딥시크가 DeepSeek AI를 훈련하는 소프트웨어 스택의 핵심 구성 요소로 언급되었습니다. 이 벤치마크는 딥시크가 DGX-A100 서버 솔루션의 성능의 80%에 달하면서도 가격은 50%, 전력 소비는 60% 수준으로 구현한 Fire-Flyer 2 HPC 솔루션에서 테스트되었습니다.
Fire-Flyer 파일 시스템과 AI-HPC 솔루션을 위한 무작위 읽기 전방(random-read-forward) 방식을 체험하고자 하는 사용자는 딥시크의 GitHub 페이지에서 전체 다운로드 자료를 확인할 수 있습니다. 이 새로운 오픈 소스 시스템이 블록버스터급 제품이 되기 위해 일정 수준의 반(反)중국 기술적 우려를 극복해야 할 수는 있으나, 애호가들 사이에서는 큰 기대를 받고 있습니다.