RESEARCH54

CoFi-PGMA: Counterfactual Policy Gradients under Filtered Feedback for Multi-Agent LLMs

arXiv CS.LG·28 de abril de 2026

CoFi-PGMA é uma nova estrutura para otimizar o aprendizado em sistemas multi-agente de LLMs, abordando feedback filtrado em cenários de roteamento e colaboração. Propõe um objetivo de treinamento contrafactual por agente baseado na contribuição marginal para corrigir o sinal de aprendizado.

LLMsReinforcement LearningMulti-Agent Systems

Ler original ↗