RESEARCH27
Cactus: Accelerating Auto-Regressive Decoding with Constrained Acceptance Speculative Sampling
arXiv CS.LG·8 de abril de 2026
Este trabalho propõe o Cactus, um novo método para acelerar a decodificação auto-regressiva de LLMs através de amostragem especulativa com aceitação restrita. Ele resolve as limitações de abordagens anteriores, garantindo uma divergência controlada da distribuição do verificador por meio de uma formulação de otimização restrita.
Cactusconstrained optimizationauto-regressive decodingspeculative samplingLLM acceleration
Ler original ↗