ARTICLE↑ trending42
KIV: 1M token context window on a RTX 4070 (12GB VRAM), no retraining, drop-in HuggingFace cache replacement - Works with any model that uses DynamicCache [P]
Reddit r/MachineLearning·12 de abril de 2026
KIV (K-Indexed V Materialization) é uma camada intermediária que substitui o cache KV padrão do HuggingFace por um sistema de recuperação em camadas, movendo dados antigos para a RAM do sistema. Isso permite janelas de contexto de 1 milhão de tokens em uma RTX 4070 (12GB VRAM) com apenas 12MB de sobrecarga de VRAM e bom desempenho.
KIVLLM optimizationcontext windowVRAMKV Cache
Ler original ↗