RESEARCH54
CoFi-PGMA: Counterfactual Policy Gradients under Filtered Feedback for Multi-Agent LLMs
arXiv CS.LG·28 de abril de 2026
CoFi-PGMA é uma nova estrutura para otimizar o aprendizado em sistemas multi-agente de LLMs, abordando feedback filtrado em cenários de roteamento e colaboração. Propõe um objetivo de treinamento contrafactual por agente baseado na contribuição marginal para corrigir o sinal de aprendizado.
LLMsReinforcement LearningMulti-Agent Systems
Ler original ↗