软件所在多智能体强化学习通信方面取得进展
文章来源: | 发布时间:2024-03-05 | 【】 【】
近日,中国科学院软件研究所天基综合信息系统全国重点实验室研究团队的论文t2mac: targeted and trusted multi-agent communication through selective engagement and evidence-driven integration被计算机科学领域顶级学术会议aaai接收。共同第一作者为软件所特别研究助理孙楚雄、博士生臧泽华和北京科技大学硕士生李嘉宝。研究团队针对目前多智能体强化学习通信方法实用性欠缺、广播通信机制信息冗余以及信息整合机制损害策略学习过程的问题,提出了可信可控的高效点到点通信方法t2mac。
基于多智能体通信内容、通信对象和通信时间这三个核心问题,研究团队提出的t2mac方法由证据编码模块、通信对象选择模块和证据驱动整合模块组成。证据编码模块的主要功能是将智能体对环境的观测向量整合为证据向量。作为通信内容,证据向量包含了比以往直接编码更丰富的观测信息,可以提高多智能体间的通信效率。通信对象选择模块主要是在每个时间步根据当前通信内容判断智能体间通信的必要程度,并根据重要程度选择通信对象。相比传统广播式的通信方法,通信对象选择模块减少了对通信信道的占用,解决了广播通信机制信息冗余的问题。通信对象选择模块的引入还使智能体间不用时刻保持通信,间接减少了通信占用的时间。证据驱动整合模块的主要功能是将每个时间步收集到的证据向量进行整合,以便智能体做出最终的策略决策。证据驱动整合模块对比传统的加权求和方式,减少了通信内容整合过程所带来的信息损失,避免了对策略学习过程的损害。
t2mac框架图
为了进一步证明t2mac的有效性,团队分别在hallway、mpe和smac三个经典多智能体测试环境上进行了性能评估实验,并与近年常用多智能体强化学习通信sota算法进行了性能对比。结果显示,t2mac在中位测试胜率和中位测试奖励方面具有更优的策略性能。t2mac在56.0%通信频率的前提下,得到37.2%策略性能提升,整体通信效率达到了66.4%。同时,为了多角度测试t2mac的优越性,团队设计了多组消融实验来定量分析每个模块的作用,将提出的三个模块迁移到了qmix、dop和mappo三个算法中,最终的中位测试胜率分别由31%提升到了84%,由20%提升到了58%,由19%提升到了39%,表明提出的三个模块具有泛化到其他方法上并提升其策略性能的能力。
多个测试环境中的性能测试结果
论文地址:
代码地址: