KVarN: 화웨이가 개발한 KV 캐시 양자화용 네이티브 vLLM 백엔드

AI 요약

화웨이 CSL(Huawei-CSL)이 에이전트 환경 및 긴 컨텍스트 처리를 극대화하기 위해 설계된 혁신적인 KV 캐시 양자화 백엔드인 'KVarN'(Variance Normalized KV-Cache)을 오픈소스로 출시했습니다. 기존 양자화 기법들은 캐시 용량을 늘리는 대신 처리량이 40~52% 수준으로 급락하거나 정확도가 떨어지는 한계가 있어 실제 서비스 도입이 어려웠으나, KVarN은 FP16 급의 정확도를 완벽하게 유지하면서도 처리량을 오히려 기존 FP16 대비 최대 1.3배까지 끌어올렸습니다. Qwen3-32B 모델(16K 컨텍스트, TP=2) 기반의 벤치마크 테스트 결과, 정확도 손실 없이 4배의 캐시 용량 확보 및 TurboQuant 대비 2.4배 더 빠른 속도를 증명했습니다. 사용자는 별도의 모델 변경이나 추가 캘리브레이션 과정 없이 vLLM의 플러그앤플레이(Plug-and-play) 포크 형태로 손쉽게 적용할 수 있습니다.

핵심 인사이트

독보적인 효율성: 기존 FP16 대비 최대 1.3배의 처리량(Throughput) 및 3~5배의 KV 캐시 용량 확대 제공.
기존 기법 극복: 동일 용량을 확보하는 조건 하에 기존 TurboQuant 양자화 방식 대비 최대 2.4배 수준의 압도적인 처리량과 고정확도 달성.
원활한 사용 환경: 별도의 모델 아키텍처 변경이나 캘리브레이션(Calibration) 단계 없이 플래그 추가만으로 즉시 작동하는 vLLM 네이티브 백엔드 형식 지원.
실제 벤치마크 성능: Qwen3-32B 모델의 16K 컨텍스트 테스트 환경에서 FP16과 완벽히 일치하는 정확도와 더 나은 속도를 유지하면서 약 4배의 캐시 용량 확대에 성공.

주요 디테일

네이밍 어원: 'KVarN'은 곡물, 원두, 혹은 여기서는 'KV 캐시'를 곱게 갈아 압축해 주는 스웨덴어 '맷돌(Grinding apparatus)'에서 유래함.
Triton 및 JIT 기반 구동: KVarN의 커널은 Triton 언어로 구현되어 있으며, 런타임에 JIT(Just-In-Time) 방식으로 컴파일되어 구동 속도를 크게 제고함.
고정된 블록 크기: 현재 타일 및 페이지 크기(Tile/Page size)는 128로 고정되어 작동하며(vLLM의 1개 블록이 KVarN의 1개 타일과 직접 연동), 향후 다양한 크기 지원 패치가 예정되어 있음.
단일 GPU 최적화 팁: 메모리 부족이 발생하는 단일 GPU 설정 환경에서 vLLM의 CUDA 그래프 메모리 프로파일러의 과도한 점유를 줄이기 위해 VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=0 설정을 권장함.
작동 알고리즘: 채널 차원을 따라 아다마르 회전(Hadamard rotation)을 적용해 채널 간 편차(Outliers)를 넓게 분산시키고, 이를 토큰 타일 단위로 정밀하게 분할 양자화함.

향후 전망

다양한 페이지 크기 확장: 현재 128로 고정된 블록 및 타일 크기의 제한을 없애고 다채로운 하드웨어 구조에 맞춤 최적화하는 후속 지원이 다가올 예정임.
프로덕션 도입 가속화: 처리량 손실 때문에 양자화 옵션을 끄고 운영하던 대규모 AI 서비스(Serving) 환경에서 KVarN을 필두로 한 고성능 양자화 도입이 대거 확대될 것으로 전망됨.

원문:https://github.com/huawei-csl/KVarN

출처:hackernews

KVarN: 화웨이가 개발한 KV 캐시 양자화용 네이티브 vLLM 백엔드

AI 요약

핵심 인사이트

주요 디테일

향후 전망

이것도 읽어보세요

목성은 거대 위성 여러 개, 토성은 타이탄 하나뿐인 이유

241일 만에 귀환…NASA 우주비행사, 지구로 무사 착륙

과학자들이 밝힌 탄산수, 치아에 미치는 실제 영향

8시간 내 식사 제한, 노화 뇌 건강에 도움될까?