RESEARCHarXiv CS.CL·23d atrás
LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling
Este artigo propõe LPC-SM, uma arquitetura híbrida autorregressiva para modelos de linguagem de contexto longo, que separa atenção local, memória persistente, correção preditiva e controle em tempo de execução. O modelo de 158M parâmetros é avaliado, demonstrando melhorias na perda de LM e estabilidade em sequências longas.
neural networkslanguage modelsLong Contextattention mechanisms