RESEARCH27
Blind Refusal: Language Models Refuse to Help Users Evade Unjust, Absurd, and Illegitimate Rules
arXiv CS.AI·9 de abril de 2026
Este estudo documenta o fenômeno da 'recusa cega' em modelos de linguagem, onde eles se recusam a ajudar usuários a contornar regras, mesmo que estas sejam injustas ou ilegítimas, o que é visto como uma falha de raciocínio moral. A pesquisa apresenta resultados empíricos baseados em um conjunto de dados sintético que cruza famílias de razões para quebrar regras com tipos de autoridade, analisando o comportamento de 18 configurações de modelos.
Rule Followinglanguage modelsAI ethicsSafety TrainingMoral Reasoning
Ler original ↗