notch
RESEARCH27

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

arXiv CS.CL·9 de abril de 2026

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

hallucinationAbstention Architectureslarge language modelsAI safetyLLM evaluation
Ler original