RESEARCH27

Cactus: Accelerating Auto-Regressive Decoding with Constrained Acceptance Speculative Sampling

arXiv CS.LG·8 de abril de 2026

Este trabalho propõe o Cactus, um novo método para acelerar a decodificação auto-regressiva de LLMs através de amostragem especulativa com aceitação restrita. Ele resolve as limitações de abordagens anteriores, garantindo uma divergência controlada da distribuição do verificador por meio de uma formulação de otimização restrita.

Cactusconstrained optimizationauto-regressive decodingspeculative samplingLLM acceleration

Ler original ↗