近日,工研院甘中学教授课题组集群机器人系统实验室(Multi-AGent robotIC systems Lab,简称‘MAGIC Lab’)在智能体及多智能体研究领域的国际顶级会议(Autonomous Agents and Multiagent Systems,简称‘AAMAS’)上发表多智能体强化学习领域的最新研究成果。复旦大学工研院2022级硕士生谢翊为第一作者,甘中学教授与欧阳春青年副研究员为共同通讯作者,发表题为《ACORN: Acyclic Coordination with Reachability Network to Reduce Communication Redundancy in Multi-Agent Systems》以及题为《Heuristics-Assisted Experience Replay Strategy for Cooperative Multi-Agent Reinforcement Learning》的学术论文。
论文简介1:
当前的多智能体强化学习(MARL)研究着重于在复杂动态环境中让多个智能体协同决策,如何有效处理随之而来的巨大通信与计算开销成为一大挑战。现有的基于图神经网络和Transformer的通信机制虽然提高了智能体之间的信息共享能力,却往往在高密度或高动态性场景下引入通信冗余问题,使得全图结构更新和注意力机制的计算量迅速膨胀。为此,本文提出了一种新型分布式智能控制框架ACORN (Acyclic Coordination with Reachability Networks),结合了基于可达性的注意力机制和无环协调策略,通过构建时变的无环可达图并将其投影到矩阵表示域中,仅在关键节点与关键连边处进行必要的通信与计算,从而极大地减少了重复求解与冗余信息传递带来的开销。ACORN通过选择性地关注最相关的节点和连接,显著降低了通信冗余,时间复杂度降至O(|V| × nk × d),相比标准Transformer的O(|V|²d)具有明显优势。实验结果表明,ACORN在多种基准数据集上均具有较优的综合表现,在具有挑战性的SMACV2任务中更是比现有最优方法MAT平均提升11%的性能,并在相同训练时间和步数内实现17%的改进。
图1 ACORN在异构智能体场景中的稀疏注意力矩阵演化过程
图2 ACORN在SMAC与SMACV2基准测试中的胜率与收敛曲线对比
论文简介2:
在人类团队合作中,合理地将团队整体回报拆分为个体回报能够显著提升团队的整体能力,同时也为多智能体系统提供了重要的灵感。然而,针对多智能体强化学习(MARL)中的稀疏或不均匀回报场景,如何有效地进行团队回报分解并指导个体策略学习仍是一项具有挑战性的任务。现有方法往往通过先行进行回报分解,再基于优先级经验回放或预定义规则进行个体经验回放,但在泛化性和表现方面仍存在不足,尤其在探索能力方面表现出明显局限性。
为此,本文提出了一种自适应的个体经验回放方法——HAERS (Heuristics-Assisted Experience Replay Strategy)。该方法在基于 Actor-Critic 的框架中完成回报分解,同时保持网络梯度不变,并将分解后的个体回报与时序差分误差(TD Error)相结合构建个体经验回放缓存。为了在探索与利用之间取得更好的平衡,同时有效应对异质智能体和稀疏不均匀回报环境,HAERS 采用了协同多目标群体优化算法(CMOSO),在多目标条件下对个体经验样本进行优选。大量在基准环境中的实验表明,HAERS 在同质与异质多智能体稀疏回报情形下均具有出色的泛化能力。例如,在同质场景中,相比于基线算法 MAPPO,HAERS 可以取得 12.4% 的性能提升;在异质 GRF 场景中,则达到了 10.1% 的性能提升。
图3 HAER在GRF训练过程中基于启发式算法的奖励分解参数优化过程
图4 HAER在SMAC与GRF基准测试中的胜率与收敛曲线对比
延伸阅读:
AAMAS是智能体及多智能体领域旗舰会议,由非营利组织IFAAMAS (International Foundation for Autonomous Agents and Multiagent Systems)主办,是中国计算机学会(CCF)推荐的B类国际学术会议,也被认为是人工智能领域中研究智能体和多智能体系统最有影响力的会议之一。
MAGIC Lab,是复旦大学工研院智能机器人研究院和智能机器人教育部工程研究中心的主要研究团队之一,复旦大学工研院副院长、智能机器人研究院院长甘中学教授为实验室首席PI。MAGIC Lab主要依托上海市人工智能市级重大专项,面向国家《新一代人工智能发展规划》中的群体智能理论、自主协同控制与优化决策理论、群体智能关键技术等重要科学方向,融合非线性动力学、模式识别、计算神经科学、强化学习、集群智能等多领域的理论与方法,重点探究人机物协同与智能融合的科学原理,突破异构群体行为协作与动态演变的关键技术,构建智慧交通与智能制造等场景下的异构集群交互系统。