키옥시아, 현존 SSD 대비 3배 빠른 'XL-Flash SSD' 출시 준비… 1000만 IOPS 드라이브, AI 서버용 피어 투 피어 GPU 연결성 지원

hw_reporter

드라이브당 1,000만 IOPS를 제공하지만, 약간의 함정이 있습니다.

키옥시아는 이번 주 초 개최된 기업 전략 회의에서, 소규모 블록 워크로드 환경에서 1,000만 IOPS를 초과하도록 설계된 새로운 SSD를 통해 스토리지 패러다임을 변화시키겠다고 밝혔습니다. 이는 현재 주류 최신 SSD들의 최고 속도보다 3배 빠른 수준입니다.

현대 AI 서버의 성능 병목 현상 중 하나는 스토리지와 GPU 간의 데이터 전송 문제입니다. 현재 데이터가 CPU를 거쳐 전송되면서 지연 시간이 크게 증가하고 접근 시간이 길어지는 경향이 있습니다.

이러한 성능 목표를 달성하기 위해, 키옥시아는 IOPS를 극대화하는 데 특화된 새로운 컨트롤러를 설계하고 있습니다. 이 컨트롤러는 1,000만 512B IOPS를 능가하는 수준을 목표로 하며, GPU가 코어를 항상 100% 가동할 수 있을 만큼 충분한 속도로 데이터에 접근할 수 있도록 지원합니다. 키옥시아가 제안하는 'AI SSD'는 회사의 단일 레벨 셀(SLC) XL-Flash 메모리를 활용할 예정입니다. 이 메모리는 읽기 지연 시간이 3~5 마이크로초로, 기존 3D NAND 기반 SSD가 제공하는 40~100 마이크로초의 읽기 지연 시간보다 현저히 낮습니다. 또한, SLC는 셀당 1비트를 저장함으로써 더 빠른 접근 속도와 높은 내구성을 제공하며, 이는 까다로운 AI 워크로드에 필수적인 특징입니다.

현재 최고급 데이터센터 SSD의 경우, 4K 및 512바이트 랜덤 읽기 작업 모두에서 통상적으로 200만~300만 IOPS 수준을 달성합니다. 대역폭 관점에서 4K 블록을 사용하는 것이 합리적일 수 있으나, 512B 블록의 경우 그렇지 않습니다. 하지만 대규모 언어 모델(LLMs)과 검색 증강 생성(RAG) 시스템은 일반적으로 임베딩, 매개변수 또는 지식 기반 항목을 불러오기 위해 작고 무작위적인 접근을 수행합니다. 이러한 시나리오에서는 4K 이상의 대형 블록 크기보다 512B와 같은 작은 블록 크기가 실제 애플리케이션 동작을 더 잘 반영합니다. 따라서 LLM과 RAG의 요구사항을 충족시키고 낮은 지연 시간을 구현하기 위해서는 512B 블록을 사용하는 것이 더 적절하며, 대역폭 확보를 위해서는 다수의 드라이브를 구성하는 것이 효과적입니다. 나아가, 작은 블록 사용은 메모리 의미론(memory semantics)을 더욱 효율적으로 활용할 수 있게 합니다.

키옥시아는 'AI SSD'가 어떤 호스트 인터페이스를 사용할지는 공개하지 않았지만, 대역폭 측면에서는 PCIe 6.0 인터페이스를 필수로 요구하지 않는 것으로 알려져 주목받고 있습니다.

키옥시아의 'AI SSD'는 GPU와 SSD 간의 피어 투 피어(Peer-to-Peer) 통신에 최적화되어, CPU를 우회하여 추가적인 성능 향상과 지연 시간 감소를 구현합니다. 이러한 배경에는 512B 블록 사용이 또 다른 중요한 이유가 있습니다. GPU는 내부적으로 32, 64, 또는 128바이트 크기의 캐시 라인으로 작동하며, 메모리 하위 시스템 자체도 모든 스트림 프로세서를 지속적으로 활용하기 위해 작고 독립적인 메모리 위치에 대한 버스트 액세스에 최적화되어 있기 때문입니다. 따라서 512바이트 읽기 단위는 GPU 아키텍처 설계와 더욱 부합합니다.

키옥시아의 'AI SSD'는 대규모 언어 모델(LLMs)이 방대한 데이터 세트에 빠르고 반복적으로 접근해야 하는 AI 학습 환경을 지원하도록 설계되었습니다. 또한, 키옥시아는 이 제품이 실시간 데이터(즉, 추론을 통한 근거 마련)를 활용하여 생성형 AI 출력을 향상시키는 검색 증강 생성 기술을 사용하는 AI 추론 애플리케이션에 주로 배포될 것으로 예상합니다. 이러한 장치들이 낮은 응답 시간과 효율적인 GPU 활용을 모두 보장하려면, 저지연, 고대역폭의 스토리지 접근이 핵심적으로 중요합니다.

키옥시아의 'AI SSD'는 2026년 하반기 출시를 목표로 합니다.

최신 뉴스, 분석 및 리뷰를 피드에서 받으시려면 Google News의 Tom's Hardware를 팔로우하시고 '팔로우' 버튼을 클릭해 주세요.

[출처:] https://www.tomshardware.com/pc-components/ssds/kioxia-works-with-nvidia-to-prep-xl-flash-ssd-thats-3x-faster-than-any-ssd-available-10-million-iops-drive-has-peer-to-peer-gpu-connectivity-for-ai-servers