RESEARCH29

OPRIDE: Offline Preference-based Reinforcement Learning via In-Dataset Exploration

arXiv CS.LG·6 de abril de 2026

O artigo aborda a baixa eficiência de consulta em Aprendizado por Reforço Baseado em Preferências (PbRL) offline, propondo o algoritmo OPRIDE. Este algoritmo visa melhorar a eficiência de consulta através de uma estratégia de exploração informativa e um mecanismo de agendamento de desconto para mitigar a superotimização da função de recompensa.

Reinforcement LearningQuery EfficiencyExplorationOffline LearningPreference-based Reinforcement Learning

Ler original ↗