RESEARCH28
Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO
arXiv CS.LG·8 de abril de 2026
Este trabalho apresenta o ambiente Territory Paint Wars para investigar modos de falha do PPO em aprendizado por reforço multiagente competitivo. Ele identifica falhas de implementação que causam baixo desempenho e, após a correção, revela um novo problema de overfitting competitivo que prejudica a generalização.
Failure modesReinforcement Learningself-playPPOMulti-Agent Systems
Ler original ↗