• 구글의 TurboQuant, AI LLM 캐시 메모리 용량 요구 사항을 최소 6배까지 절감 — Nvidia H100 GPU에서 최대 8배 성능 향상 및 정확도 손실 없이 KV 캐시를 3비트로 압축

    해당 알고리즘은 Nvidia H100 GPU 환경에서 양자화되지 않은 키 대비 최대 8배의 성능 향상을 달성합니다.

    article image

    Google Research는 지난 화요일, 모델 정확도 손실 없이 LLM KV 캐시를 3비트까지 양자화할 수 있는 학습 과정이 필요 없는 압축 알고리즘인 TurboQuant를 공개했습니다. Nvidia H100 GPU를 사용한 벤치마크에서 4비트 TurboQuant는 비양자화 32비트 키 대비 어텐션 로짓 컴퓨팅 성능을 최대 8배 향상시켰으며, KV 캐시 메모리는 최소 6배 감소시켰습니다.

    사진 기술 및 고속 데이터 이동이 다음 주요 AI 병목 지점

    데이터 센터 냉각 현황

    대규모 AI 데이터 센터 구축이 에너지 공급을 압박하고 있다

    article image

    KV 캐시는 이전에 계산된 어텐션 데이터를 저장하여, LLM이 매 토큰 생성 단계마다 이 데이터를 재계산할 필요가 없게 만듭니다. 컨텍스트 창(context window)이 커지면서 KV 캐시는 주요 메모리 병목 지점으로 부상하고 있습니다. 전통적인 벡터 양자화 방식은 이러한 캐시의 크기를 줄일 수 있지만, 압축된 데이터와 함께 반드시 저장해야 하는 양자화 상수에서 매 값당 소량의 추가 비트(memory overhead) 오버헤드를 발생시킵니다. 이 오버헤드가 적게 느껴질 수 있으나, 컨텍스트 창이 커질수록 그 부담은 기하급수적으로 누적됩니다.

    TurboQuant는 2단계의 과정을 통해 이러한 오버헤드를 근본적으로 제거합니다. 첫 번째 단계에서는 PolarQuant라는 기법을 사용하는데, 이 기법은 데이터 벡터를 표준 직교 좌표계(Cartesian coordinates)에서 극좌표계(polar coordinates)로 변환합니다. 이를 통해 각 벡터는 반지름(크기)과 각도 집합(방향)으로 분리됩니다. 각도 분포는 예측 가능하고 집중되어 있기 때문에, PolarQuant는 기존 양자화기들이 필요로 하는 값비싼 블록별 정규화(per-block normalization) 단계를 생략할 수 있습니다. 결과적으로, 저장된 양자화 상수에서 발생하는 오버헤드 '제로'인 고품질 압축이 가능해집니다.

    두 번째 단계에서는 Quantized Johnson-Lindenstrauss (QJL)라는 알고리즘을 활용하여 1비트 오류 수정 계층을 적용합니다. QJL은 잔여 양자화 오차(residual quantization error)를 더 낮은 차원의 공간으로 투영하고 각 값을 단일 부호 비트(sign bit)로 줄여, 양자화 과정에서 발생할 수 있는 어텐션 점수 계산의 체계적인 편향(systematic bias)을 무시할 수 있는 수준의 추가 비용으로 제거합니다.

    article image

    Google은 LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L-Eval 등 다양한 장문 컨텍스트 벤치마크에서 세 가지 알고리즘 모두를 테스트했으며, 오픈 소스 모델인 Gemma와 Mistral을 사용했습니다. TurboQuant는 KV 메모리를 최소 6배 압축함과 동시에 니들-인-헤이스택 검색 작업에서 완벽한 다운스트림 점수를 달성했습니다. 특히 질의응답, 코드 생성, 요약 기능을 포괄하는 LongBench 스위트에서는 모든 작업에서 KIVI 기준선과 같거나 더 우수한 성능을 보여주었습니다.

    나아가 이 알고리즘은 벡터 검색 영역에서도 뛰어난 성능을 입증했습니다. GloVe 데이터셋을 기준으로 Product Quantization 및 RabbiQ와 비교했을 때, TurboQuant는 상대방 기준 모델들이 더 큰 코드북과 데이터셋별 튜닝에 의존했음에도 불구하고 가장 높은 1@k 재현율(recall ratios)을 달성했습니다. Google은 TurboQuant가 추가적인 학습이나 미세 조정(fine-tuning) 과정이 필요하지 않고 런타임 오버헤드가 미미하여 프로덕션 추론 환경 및 대규모 벡터 검색 시스템에 배포하기에 매우 적합하다고 언급했습니다.

    연구 과학자 Amir Zandieh와 부사장 Vahab Mirrokni가 공동으로 참여한 본 논문은 다음 달 ICLR 2026에서 발표될 예정입니다.

    Google News를 통해 Tom's Hardware를 팔로우하거나 즐겨찾는 소스로 추가하여 최신 뉴스, 분석 및 리뷰를 피드에서 받아보세요.

    [출처:] https://www.tomshardware.com/tech-industry/artificial-intelligence/googles-turboquant-compresses-llm-kv-caches-to-3-bits-with-no-accuracy-loss