RESEARCH27
LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering
arXiv CS.CL·7 de abril de 2026
Este artigo introduz LangFIR, um método que descobre características de linguagem esparsas e específicas a partir de dados monolíngues para direcionar a saída de LLMs. Ele supera a limitação de abordagens existentes que exigem dados multilingues caros, utilizando autoencoders esparsos e sequências de tokens aleatórios.
model interpretabilityMultilingual ModelsLLMsMonolingual DataLanguage SteeringSparse Autoencodersfeature identification
Ler original ↗