notch
ARTICLE↑ trending42

I tracked a major cache reuse issue down to Qwen 3.5’s chat template

Reddit r/LocalLLaMA·8 de abril de 2026

Um desenvolvedor investigou persistentes falhas de cache em fluxos de trabalho de agentes de IA locais, resultando no reprocessamento desnecessário de grandes blocos de contexto. A causa foi rastreada até um problema com o template de chat do modelo Qwen 3.5, após descartar outras possibilidades como erros no motor de inferência ou bugs na implementação do cache.

OtimizaçãoQwen 3.5AICacheLLM
Ler original