RESEARCH27
Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention
arXiv CS.LG·24 de abril de 2026
Este artigo apresenta o Gist Sparse Attention (GSA), um método de aprendizado de ponta a ponta para escalar grandes modelos de linguagem para contextos longos sem modificações arquitetônicas. O GSA comprime o contexto em 'tokens de essência' para resumo e, em seguida, restaura seletivamente blocos brutos relevantes para atenção detalhada, combinando representações globais compactas com acesso segmentado e detalhado.
neural networksmodel efficiencyattention mechanismslarge language models
Ler original ↗