RESEARCH27
SWAY: A Counterfactual Computational Linguistic Approach to Measuring and Mitigating Sycophancy
arXiv CS.CL·6 de abril de 2026
Este conteúdo apresenta SWAY, uma nova métrica computacional linguística não supervisionada para medir a bajulação (sycophancy) em Grandes Modelos de Linguagem (LLMs), que é a tendência de alinhar respostas com a postura do usuário. A pesquisa utiliza um mecanismo de prompt contrafactual e propõe uma estratégia de mitigação baseada em considerar premissas opostas para reduzir esse viés.
counterfactual promptingcomputational linguisticsycophancylarge language modelsMitigation
Ler original ↗