Agent-Centric Actor-Critic for Asynchronous Multi-Agent Reinforcement Learning

#1 Agent-Centric Actor-Critic for Asynchronous Multi-Agent Reinforcement Learning [PDF²] [Copy] [Kimi⁵] [REL]

Authors: Whiyoung Jung, Sunghoon Hong, Deunsol Yoon, Kanghoon Lee, Woohyung Lim

Multi-Agent Reinforcement Learning (MARL) struggles with coordination in sparse reward environments. Macro-actions —sequences of actions executed as single decisions— facilitate long-term planning but introduce asynchrony, complicating Centralized Training with Decentralized Execution (CTDE). Existing CTDE methods use padding to handle asynchrony, risking misaligned asynchronous experiences and spurious correlations. We propose the Agent-Centric Actor-Critic (ACAC) algorithm to manage asynchrony without padding. ACAC uses agent-centric encoders for independent trajectory processing, with an attention-based aggregation module integrating these histories into a centralized critic for improved temporal abstractions. The proposed structure is trained via a PPO-based algorithm with a modified Generalized Advantage Estimation for asynchronous environments. Experiments show ACAC accelerates convergence and enhances performance over baselines in complex MARL tasks.

Subject: ICML.2025 - Poster

323GZNnGqe@OpenReview

#1 Agent-Centric Actor-Critic for Asynchronous Multi-Agent Reinforcement Learning [PDF2] [Copy] [Kimi5] [REL]

#1 Agent-Centric Actor-Critic for Asynchronous Multi-Agent Reinforcement Learning [PDF²] [Copy] [Kimi⁵] [REL]