ARTICLE↑ trending42

Speculative Decoding works great for Gemma 4 31B with E2B draft (+29% avg, +50% on code)

Reddit r/LocalLLaMA·12 de abril de 2026

O conteúdo detalha testes de decodificação especulativa com o modelo Gemma 4 E2B como rascunho para o Gemma 4 31B, resultando em uma melhoria de desempenho surpreendente. Os benchmarks revelaram um aumento médio de velocidade de 29%, chegando a 50% na geração de código, usando configurações específicas de hardware e software.

Gemma 4 31Bllama.cppbenchmarkAI performancespeculative decoding

Ler original ↗