ICML 2023 | RACE:使用进化算法大幅提升多智能体强化学习算法学习

2024-01-01 15:51 383 阅读 ID:1757
将门
将门

本次介绍的是由天津大学强化学习实验室(http://icdai.org/) 提出多智能体进化强化学习混合框架RACE。该框架充分融合了进化算法与多智能体强化学习用于多智能体协作,并首次在复杂控制任务上证明了进化算法可以进一步提升MARL的性能。目前代码已经开源。

论文题目: 

RACE: Improve Multi-Agent Reinforcement Learning with Representation Asymmetry and Collaborative Evolution 

论文链接:

https://proceedings.mlr.press/v202/li23i.html 

代码链接:

https://github.com/yeshenpy/RACE

一、Necessary Background and Problem Statement

1.1 Multi-Agent Reinforcement Learning

在多智能体强化学习(MARL)中,各个智能体与环境以及彼此进行交互,收集样本并接收奖励信号来评估它们的决策。通过利用价值函数逼近,MARL通过梯度更新来优化策略。然而,MARL经常面临以下挑战:

➢ (Low-quality reward signals,低质量的奖励信号)奖励信号通常质量较低(例如,具有欺骗性、稀疏性、延迟性和只有team level的奖励信号),这使得获得准确的价值估计变得非常困难。

➢ (Low exploration for collaboration,合作的探索性差)由于多智能体策略空间巨大,基于梯度的优化方法很容易陷入次优点,难以高效地探索多智能体策略空间,使得协作困难。

➢ (Non-stationarity,非稳态性)由于智能体同时学习并不断地相互影响,打破了大多数单智能体强化学习算法所基于的马尔可夫假设,使得优化与学习过程过程不稳定。

➢ (Partial observations,部分观测)大部分多智能体场景下都是部分可观测的,智能体无法得知其它智能体的状态以及相关信息,使得策略优化变得更加具有挑战性。

1.2 Evolutionary Algorithm

进化算法(Evolutionary Algorithm,EA)模拟了自然的遗传进化过程,不依赖于梯度信息进行策略优化,并已被证明在与强化学习(RL)竞争中表现出色。与通常仅维护一种策略的强化学习不同,EA维护一个个体的群体,并根据策略适应度进行迭代演化。适应度通常被定义为一些回合的平均蒙特卡洛(Monte Carlo,MC)回报。

进化算法(EA)具有几个关键优势:

➢ (对奖励质量不敏感)EA不需要强化学习价值函数逼近,而是根据适应度,即累积奖励,直接对群体中的个体进行进化。这使得EA对奖励信号质量相对不敏感。

➢ (避免非稳态问题)EA在问题的形式化中不依赖于马尔可夫性质,并从团队的角度演化策略,从而避免了MARL中遇到的非稳态性问题。

➢ (探索能力,鲁棒性,收敛性强)EA具有强大的探索能力、良好的鲁棒性和稳定的收敛性。

下图是一个简化过的EA优化流程。

二、 Motivation

➢(Complementarity,互补性)正如上面所提到的,进化算法(EA)提供了许多优点,可以弥补多智能体强化学习(MARL)的缺点。

➢(Research Gap,研究空白)然而,在复杂的多智能体协作任务中,如何有效地将这两种方法进行整合尚未得到深入研究。当前已有的一些工作主要都在简单的任务中进行验证,而在复杂协作场景没有高效方案的支撑。

因此,我们提出了一个新的混合框架,称为"Representation Asymmetry and Collaborative Evolution"(RACE),将EA与MARL结合起来实现高效的协作,并将表征学习引入到了MARL领域中。

三、RACE

3.1 Representation-Asymmetry Team Construction (MARL+EA的Team架构)

RACE是MARL与EA算法的结合体,因此相较于常规的MARL算法如QMIX,MADDPG等,RACE额外引入了一个team的population(种群)。通常情况下,每个team为决策和优化维护相互独立的策略。然而,这种独立的策略构建限制了团队之间的知识共享,并使得在大规模策略空间中进行探索变得低效。

形式上,我们总结了RACE中个体、团队和群体的构建如下:

3.2 Shared Observation Representation Learning (表征学习)

3.2.1 Value Function Maximization (VFM,解决知识迁移与共享问题,压缩策略空间)

通过上述Team Construction,所有策略在线性策略空间中学习协作,这提出了两个要求:

(1):共享的观测表征编码器Z应该提供有关协作和任务的有用知识;

(2):这些知识需要对所有team的学习都有推动作用,而不仅仅是对特定team有益。

为了实现这一点,我们提出通过对所有team中相应策略的价值函数进行最大化(Value Function Maximization)来学习共享的观测表征编码器 Z

3.2.2 Value-Aware Mutual Information Maximization(VMM,解决PO以及非稳态问题)

3.3 Improving MARL with Collaborative Evolution (演化提升,提升探索能力,鲁棒性,收敛性)

由于Value Function和Value-Aware MI最大化的作用,共享的观测表征不仅提供与协作和任务相关的知识,构建了有利于高效探索的策略空间,还捕获了高质量的全局信息,从而缓解了部分观测带来的挑战。

在演化过程中,RACE首先对种群中的n个团队进行评估,并选择表现最好的团队作为精英团队。然后进行交叉和变异。对于交叉,应该选择两个团队。精英团队作为一个父代产生子代。另一个父代通过锦标赛机制(3选1,存储最优的个体)选择(从3个随机选择的团队中选择表现最好的团队)来确定。没有被选为父代的团队将由子代替换。此外,所有非精英团队都有一定的变异概率。

为了实现更高效的演化,我们为Team和Individual探索设计了新的交叉和变异方式。对于Team Exploration,我们随机交换在两个选择的团队中控制相同智能体的个体策略表征,促进更好的Team Composition的探索。对于Individual Exploration,我们对所选Team的一些策略表征引入随机参数扰动,推动发现更好的智能体控制策略。 这些操作的形式化表征如下:

  1. 策略优化发生在线性策略空间中;
  2. 优化过程利用了所有团队收集的样本。

3.3 The Algorithm Framework of RACE

四、Experiments

4.1 Setup

为了进行全面的比较研究,我们在具有连续和离散动作空间的任务上评估RACE。对于连续任务,我们将RACE与MATD3 (Ackermann等人,2019) 结合,并在Multi-Agent MuJoCo(Peng等人,2021)的八个连续的协作控制任务上进行评估。这些任务涉及控制具有不同形态的机器人的不同关节,以完成站立或行走等任务。最难的设定:每个智能体只能观察自己的关节信息。

对于离散任务,我们将RACE与FACMAC结合,并在StarCraft II微观管理环境(Samvelyan等人,2019)(SMAC)中进行评估。这些任务具有较高的控制复杂性,并需要在大的离散动作空间中学习策略。我们将RACE与以下基线进行比较:MATD3 (Ackermann等人,2019),MERL (Majumdar等人,2020),EA (Khadka和Tumer,2018),以及FACMAC (Peng等人,2021)。我们使用官方实现的这些算法进行比较。MATD3是官方TD3 (Fujimoto等人,2018) 实现在CTDE框架中的扩展。我们在官方EA和基本MARL算法的代码上实现了RACE,同时保持其他超参数和过程的一致性。我们对所有基线进行微调以提供其最佳性能。

4.2 Performance

16个task上的实验结果如下图所示,可以看到RACE在所有任务中对基准算法都有显著的性能增益。

为了研究EA和MARL对协作的影响,我们分析了种群中MARL团队的精英率和被舍弃率,如图4所示。我们观察到,在大多数环境中,精英率和被舍弃率都在40%左右。值得注意的是,由EA维护的团队与仅由强化学习(RL)指导的团队相比,更有可能被选为精英团队。这一发现强调了EA在探索高效协作中的重要作用。然而,在4个智能体的Ant任务中,MARL实现了更高的精英率和较低的被舍弃率,这表明在这种情况下,MARL扮演主导角色,而EA则扮演支持角色。

4.3. Analysis of Components and Hyperparameter

关于VFM,VMM,以及提出的演化算子的分析,具体可以阅读原文查看更多的细节。

五、Conclusion

RACE主要是将进化算法,表征学习引入到了MARL中,用于解决MARL中面临的四个问题:探索弱,非稳态,局部观测,奖励信号敏感。我们在16个具有挑战性的任务上评估了RACE,包括复杂的连续控制和离散微操作场景。实验结果表明,RACE可以显著提高基本MARL方法的性能,并在各种具有挑战性的任务中优于其他基线算法。值得注意的是,我们的工作首次证明了EA在复杂的协作任务中具有显著提升MARL性能的能力。

Illustration From IconScout By WOOBRO LTD

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn