ICML 2023 | RACE：使用进化算法大幅提升多智能体强化学习算法学习

本次介绍的是由天津大学强化学习实验室（http://icdai.org/）提出多智能体进化强化学习混合框架RACE。该框架充分融合了进化算法与多智能体强化学习用于多智能体协作，并首次在复杂控制任务上证明了进化算法可以进一步提升MARL的性能。目前代码已经开源。

论文题目：

RACE: Improve Multi-Agent Reinforcement Learning with Representation Asymmetry and Collaborative Evolution

论文链接：

https://proceedings.mlr.press/v202/li23i.html

代码链接：

https://github.com/yeshenpy/RACE

一、Necessary Background and Problem Statement

1.1 Multi-Agent Reinforcement Learning

在多智能体强化学习（MARL）中，各个智能体与环境以及彼此进行交互，收集样本并接收奖励信号来评估它们的决策。通过利用价值函数逼近，MARL通过梯度更新来优化策略。然而，MARL经常面临以下挑战：

➢ （Low-quality reward signals，低质量的奖励信号）奖励信号通常质量较低（例如，具有欺骗性、稀疏性、延迟性和只有team level的奖励信号），这使得获得准确的价值估计变得非常困难。

➢ （Low exploration for collaboration，合作的探索性差）由于多智能体策略空间巨大，基于梯度的优化方法很容易陷入次优点，难以高效地探索多智能体策略空间，使得协作困难。

➢ （Non-stationarity，非稳态性）由于智能体同时学习并不断地相互影响，打破了大多数单智能体强化学习算法所基于的马尔可夫假设，使得优化与学习过程过程不稳定。

➢ （Partial observations，部分观测）大部分多智能体场景下都是部分可观测的，智能体无法得知其它智能体的状态以及相关信息，使得策略优化变得更加具有挑战性。

1.2 Evolutionary Algorithm

进化算法（Evolutionary Algorithm，EA）模拟了自然的遗传进化过程，不依赖于梯度信息进行策略优化，并已被证明在与强化学习（RL）竞争中表现出色。与通常仅维护一种策略的强化学习不同，EA维护一个个体的群体，并根据策略适应度进行迭代演化。适应度通常被定义为一些回合的平均蒙特卡洛（Monte Carlo，MC）回报。

进化算法（EA）具有几个关键优势：

➢ （对奖励质量不敏感）EA不需要强化学习价值函数逼近，而是根据适应度，即累积奖励，直接对群体中的个体进行进化。这使得EA对奖励信号质量相对不敏感。

➢ （避免非稳态问题）EA在问题的形式化中不依赖于马尔可夫性质，并从团队的角度演化策略，从而避免了MARL中遇到的非稳态性问题。

➢ （探索能力，鲁棒性，收敛性强）EA具有强大的探索能力、良好的鲁棒性和稳定的收敛性。

下图是一个简化过的EA优化流程。

二、 Motivation

➢（Complementarity，互补性）正如上面所提到的，进化算法（EA）提供了许多优点，可以弥补多智能体强化学习（MARL）的缺点。

➢（Research Gap，研究空白）然而，在复杂的多智能体协作任务中，如何有效地将这两种方法进行整合尚未得到深入研究。当前已有的一些工作主要都在简单的任务中进行验证，而在复杂协作场景没有高效方案的支撑。

因此，我们提出了一个新的混合框架，称为"Representation Asymmetry and Collaborative Evolution"（RACE），将EA与MARL结合起来实现高效的协作，并将表征学习引入到了MARL领域中。

三、RACE

3.1 Representation-Asymmetry Team Construction （MARL+EA的Team架构）

RACE是MARL与EA算法的结合体，因此相较于常规的MARL算法如QMIX，MADDPG等，RACE额外引入了一个team的population（种群）。通常情况下，每个team为决策和优化维护相互独立的策略。然而，这种独立的策略构建限制了团队之间的知识共享，并使得在大规模策略空间中进行探索变得低效。

形式上，我们总结了RACE中个体、团队和群体的构建如下：

3.2 Shared Observation Representation Learning （表征学习）

3.2.1 Value Function Maximization （VFM，解决知识迁移与共享问题，压缩策略空间）

通过上述Team Construction，所有策略在线性策略空间中学习协作，这提出了两个要求：

（1）：共享的观测表征编码器Z应该提供有关协作和任务的有用知识；

（2）：这些知识需要对所有team的学习都有推动作用，而不仅仅是对特定team有益。

为了实现这一点，我们提出通过对所有team中相应策略的价值函数进行最大化（Value Function Maximization）来学习共享的观测表征编码器 Z。

3.2.2 Value-Aware Mutual Information Maximization（VMM，解决PO以及非稳态问题）

3.3 Improving MARL with Collaborative Evolution (演化提升，提升探索能力，鲁棒性，收敛性)

由于Value Function和Value-Aware MI最大化的作用，共享的观测表征不仅提供与协作和任务相关的知识，构建了有利于高效探索的策略空间，还捕获了高质量的全局信息，从而缓解了部分观测带来的挑战。

在演化过程中，RACE首先对种群中的n个团队进行评估，并选择表现最好的团队作为精英团队。然后进行交叉和变异。对于交叉，应该选择两个团队。精英团队作为一个父代产生子代。另一个父代通过锦标赛机制（3选1，存储最优的个体）选择（从3个随机选择的团队中选择表现最好的团队）来确定。没有被选为父代的团队将由子代替换。此外，所有非精英团队都有一定的变异概率。

为了实现更高效的演化，我们为Team和Individual探索设计了新的交叉和变异方式。对于Team Exploration，我们随机交换在两个选择的团队中控制相同智能体的个体策略表征，促进更好的Team Composition的探索。对于Individual Exploration，我们对所选Team的一些策略表征引入随机参数扰动，推动发现更好的智能体控制策略。这些操作的形式化表征如下：

策略优化发生在线性策略空间中;
优化过程利用了所有团队收集的样本。

3.3 The Algorithm Framework of RACE

四、Experiments

4.1 Setup

为了进行全面的比较研究，我们在具有连续和离散动作空间的任务上评估RACE。对于连续任务，我们将RACE与MATD3 (Ackermann等人，2019) 结合，并在Multi-Agent MuJoCo（Peng等人，2021）的八个连续的协作控制任务上进行评估。这些任务涉及控制具有不同形态的机器人的不同关节，以完成站立或行走等任务。最难的设定：每个智能体只能观察自己的关节信息。

对于离散任务，我们将RACE与FACMAC结合，并在StarCraft II微观管理环境（Samvelyan等人，2019）（SMAC）中进行评估。这些任务具有较高的控制复杂性，并需要在大的离散动作空间中学习策略。我们将RACE与以下基线进行比较：MATD3 (Ackermann等人，2019)，MERL (Majumdar等人，2020)，EA (Khadka和Tumer，2018)，以及FACMAC (Peng等人，2021)。我们使用官方实现的这些算法进行比较。MATD3是官方TD3 (Fujimoto等人，2018) 实现在CTDE框架中的扩展。我们在官方EA和基本MARL算法的代码上实现了RACE，同时保持其他超参数和过程的一致性。我们对所有基线进行微调以提供其最佳性能。

4.2 Performance

16个task上的实验结果如下图所示，可以看到RACE在所有任务中对基准算法都有显著的性能增益。

为了研究EA和MARL对协作的影响，我们分析了种群中MARL团队的精英率和被舍弃率，如图4所示。我们观察到，在大多数环境中，精英率和被舍弃率都在40%左右。值得注意的是，由EA维护的团队与仅由强化学习（RL）指导的团队相比，更有可能被选为精英团队。这一发现强调了EA在探索高效协作中的重要作用。然而，在4个智能体的Ant任务中，MARL实现了更高的精英率和较低的被舍弃率，这表明在这种情况下，MARL扮演主导角色，而EA则扮演支持角色。

4.3. Analysis of Components and Hyperparameter

关于VFM，VMM，以及提出的演化算子的分析，具体可以阅读原文查看更多的细节。

五、Conclusion

RACE主要是将进化算法，表征学习引入到了MARL中，用于解决MARL中面临的四个问题：探索弱，非稳态，局部观测，奖励信号敏感。我们在16个具有挑战性的任务上评估了RACE，包括复杂的连续控制和离散微操作场景。实验结果表明，RACE可以显著提高基本MARL方法的性能，并在各种具有挑战性的任务中优于其他基线算法。值得注意的是，我们的工作首次证明了EA在复杂的协作任务中具有显著提升MARL性能的能力。

Illustration From IconScout By WOOBRO LTD