notch
RESEARCH27

Multilingual Language Models Encode Script Over Linguistic Structure

arXiv CS.CL·8 de abril de 2026

Este estudo investiga como modelos de linguagem multilíngues, como Llama-3.2-1B e Gemma-2-2B, organizam suas representações internas para idiomas diversos. Os pesquisadores descobriram que essas representações são fortemente condicionadas pela ortografia, e não pela identidade linguística abstrata, com a romanização gerando representações distintas.

Representações de LinguagemModelos de Linguagem MultilínguesLLaMAOrtografiaEstrutura Linguística
Ler original