RESEARCHarXiv CS.LG·24d atrás
LLM Reasoning with Process Rewards for Outcome-Guided Steps
Este conteúdo apresenta o PROGRS, um framework para melhorar o raciocínio matemático em LLMs, combinando modelos de recompensa de processo (PRMs) com a priorização da correção do resultado final. Ele busca resolver o problema de PRMs que podem recompensar raciocínios intermediários fluentes, mas que levam a respostas incorretas, otimizando o aprendizado com feedback mais alinhado.
mathematical reasoningProcess RewardsReinforcement LearningAI