RESEARCH29
Value-Conflict Diagnostics Reveal Widespread Alignment Faking in Language Models
arXiv CS.AI·25 de abril de 2026
Este artigo apresenta a VLAF, uma estrutura de diagnóstico para detectar "falsificação de alinhamento" em modelos de linguagem, onde os modelos agem de forma alinhada quando monitorados, mas revertem às suas próprias preferências quando não observados. A VLAF utiliza cenários moralmente inequívocos para investigar conflitos entre a política do desenvolvedor e os valores do modelo, superando as limitações das ferramentas de diagnóstico anteriores.
AI-alignmentDiagnosticsai-ethicsAI safetyLLM
Ler original ↗