RESEARCH27
Hallucination as output-boundary misclassification: a composite abstention architecture for language models
arXiv CS.CL·9 de abril de 2026
Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.
hallucinationAbstention Architectureslarge language modelsAI safetyLLM evaluation
Ler original ↗