RESEARCH27

LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering

arXiv CS.CL·7 de abril de 2026

Este artigo introduz LangFIR, um método que descobre características de linguagem esparsas e específicas a partir de dados monolíngues para direcionar a saída de LLMs. Ele supera a limitação de abordagens existentes que exigem dados multilingues caros, utilizando autoencoders esparsos e sequências de tokens aleatórios.

model interpretabilityMultilingual ModelsLLMsMonolingual DataLanguage SteeringSparse Autoencodersfeature identification

Ler original ↗