ARTICLE↑ trending42
I tracked a major cache reuse issue down to Qwen 3.5’s chat template
Reddit r/LocalLLaMA·8 de abril de 2026
Um desenvolvedor investigou persistentes falhas de cache em fluxos de trabalho de agentes de IA locais, resultando no reprocessamento desnecessário de grandes blocos de contexto. A causa foi rastreada até um problema com o template de chat do modelo Qwen 3.5, após descartar outras possibilidades como erros no motor de inferência ou bugs na implementação do cache.
OtimizaçãoQwen 3.5AICacheLLM
Ler original ↗