RESEARCH27

Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention

arXiv CS.LG·24 de abril de 2026

Este artigo apresenta o Gist Sparse Attention (GSA), um método de aprendizado de ponta a ponta para escalar grandes modelos de linguagem para contextos longos sem modificações arquitetônicas. O GSA comprime o contexto em 'tokens de essência' para resumo e, em seguida, restaura seletivamente blocos brutos relevantes para atenção detalhada, combinando representações globais compactas com acesso segmentado e detalhado.

neural networksmodel efficiencyattention mechanismslarge language models

Ler original ↗