RESEARCH40

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

arXiv CS.CL·27 de abril de 2026

Este artigo investiga se as recompensas de resultado no aprendizado por reforço para cadeias de raciocínio garantem raciocínio verificável ou causalmente importante em LLMs. Os autores introduzem as métricas Causal Importance of Reasoning (CIR) e Sufficiency of Reasoning (SR), descobrindo que, embora o RLVR melhore a precisão, ele não melhora consistentemente o CIR ou SR, e um pequeno ajuste de SFT pode ser um remédio.

Reinforcement LearningAI TrainingLarge Language Models (LLMs)model evaluationChain-of-Thought Reasoning

Ler original ↗