CoRL 2023 Oral | DSAS：基于生成代理模型推动机器人适应各种高难度场景

随着人机交互（human-robot interaction，HRI）、具身智能系统等领域的不断发展，如何有效的了解和评估这些系统在不同环境和不同用户交互的效果也变得越来越困难。先前的方法已经尝试通过设计算法来生成各种各样的虚拟场景，以此来暴露出HRI系统在这种高难度动作场景下的操作风险。然而这种方法需要计算机来模拟机器人策略并与实际的人类操作来直接进行评估计算，这种评估方式带来的巨大成本限制了其在更复杂任务中的适用性。

本文介绍一篇机器人领域顶会CoRL 2023录用的Oral论文，作者团队来自美国南加州大学。本文作者提出了一种简单有效的新pipeline来解决上述问题，即设计并训练一种能够同时预测人类和机器人行为的代理模型DSAS，DSAS可以针对各种已生成的模拟场景进行评估，并且反过来增强生成算法使其能够有效地合成各种具有挑战性的情景数据集，作者通过实验证明，通过本文方法生成和评估得到的模拟场景中的交互完全可以在现实世界中重现。

文章链接：
https://arxiv.org/abs/2304.13787

一、引言

随着HRI系统复杂性的增加，设计者和用户已经很难预测机器人在不同环境中将会如何行动。如下图所示，我们考虑一个机器人与用户合作完成贴标签的任务，在这个任务中，机械臂会先推断出用户的预期目标对象（即要给哪个物体贴上标签），并同时向不同的物体移动以避免碰撞。然而，机器人的实际运动其实同时取决于用户选择给哪个物体贴标签、用户如何向该物体移动以及环境中所有物体的排列方式。因此，要对系统进行评估，就需要对不同的用户行为和物体排列方式都进行测试。

因此问题就转换为如何为当前HRI系统生成具有挑战性场景的多样化数据集，之前的研究都将这种场景的生成表述为一种生成质量多样性（quality diversity，QD）问题，然后构建一个用户远程控制界面，用户通过操纵杆界面远程操作机械臂，而机械臂则观察操纵杆输入以推断用户的目标，并协助用户达到目标。虽然这种方式可以生成各种故障场景的数据，但具有一个很大的缺陷，这种远程操作的交互仅能持续几秒钟，无法完成具有协作性的连续任务。例如在上图中的贴标签任务中，用户粘贴标签，机器人按压印章这些动作都是一些耗时操作，QD算法很明显会带来较高的评估成本。本文作者的想法是可以训练一个神经网络来作为预测人机交互结果的代理模型，并将其集成到场景生成过程中，神经网络可以引入一种成本更加低廉的可微分质量多样性（differentiable quality diversity，DQD）算法来进一步提高搜索效率。

二、本文方法

上图展示了本文针对HRI任务提出的代理辅助场景生成算法（differentiable surrogate assisted scenario generation，DSAS）的整体框架图，该算法分两个阶段运行，其中内循环为预测人类和机器人行为的代理模型（红色箭头），外循环则用来评估候选场景并将其添加到新数据集中（蓝色箭头）。使用该算法可以有效的提升在模拟场景中的行为预测性能，从而来产生一个多样化的数据集。

2.1 为人机交互领域设计代理模型

本文提出的DSAS算法建立在深度代理辅助环境生成算法DSAGE[1]基础之上，DSAGE发表在NeurIPS 2022上，使用了一种高效的网格生成方法来生成当前环境的参数集合，这种参数集合可以最小化单个代理的性能，同时得到的代理行为和环境特征又各不相同。该算法可以直接根据QD算法生成的数据在线训练深度代理模型，同时也可以有效地引导QD算法来获得更多样化的高质量数据。

但是DSAGE的原始设计目标是用于生成静态的网格世界环境，然后对单个代理进行评估，这明显不适用本文的实验环境。因此本文作者对DSAGE进行了扩展，以生成包含机器人、人类行为及环境参数的HRI场景。首先，作者允许将环境和人类行为的参数作为代理模型的输入，随后将算法的搜索空间进行离散化处理，并预测两个网格参数，其中一个用于人类预测，另一个用于机器人预测，最后再将这两个预测结果叠加起来，作为卷积神经网络的输入，从而预测目标函数和测量函数。

2.2 可微分的代理辅助场景生成

除了只能对单个代理进行评估，DSAGE算法还使用了无导数的QD算法进行优化，这样的操作未免有些耗费资源。因此本文作者提出使用可微分质量多样性算法DQD[2]来对DSAGE进行改进。通过深入分析DSAGE的算法细节后，作者意识到，其中使用的代理模型本身就是一个端到端的可微分神经网络，完全可以利用目标函数和测量函数的梯度来加速QD优化，从而提高算法的整体优化效率。

通过这样的改进，本文的DSAS算法就有两个不同的版本：

1.无导数版本：代理辅助场景生成（Surrogate Assisted Scenario Generation，SAS），在该版本的内循环中使用了一种无导数的QD算法，例如CMA-MAE，其构建在经典的无导数QD算法MAP Elites基础之上，试图通过在测量空间的每个单元中保留性能最佳的点来得到场景存档集合，随后研究者们对其进行了升级，例如将其存档特性与自适应机制相结合提出了一种更加先进的协方差矩阵自适应MAP退火（CMA-MAE）算法。

2.可微分版本：可微分代理辅助场景生成（Differentiable Surrogate Assisted Scenario Generation），其在内循环中使用了可微分DQD算法，例如CMA-MAEGA，当模板函数f和测度函数m可微时，DQD算法展示出了相比无导数算法更加显著的性能优势，本文使用到的CMA-MAEGA算法与无导数CMA-MAE算法类似，在搜索过程中不断维护一个MAP退火存档。下图详细介绍了本文所提DSAS算法使用CMA-MAEGA算法进行搜索的详细过程。

三、实验效果

为了对DSAS算法进行评估，作者选取了以下四个常见方法作为对比baseline方法：（1）Random search，即从有效区域内均匀抽样求解生成场景。（2）MAP-Elites，一种经典的无导数QD算法。（3）CMA-MAE，在MAP-Elites基础上加入了自适应机制，并且实现了目标正则化。（4）SAS，与本文DSDA对应的无导数版本，其内部使用CMA-MAE算法进行迭代优化，而DSDA则使用CMA-MAEGA进行优化。

此外，作者设计了三种性能评价侧重域，分别是：（1）以目标间距离和人类变化为衡量标准进行远程操作。（2）以目标间最小距离和最大错误目标概率为衡量标准进行远程操作。（3）以机器人路径长度和总等待时间为衡量标准进行远程操作。

主要的评价指标使用QD-score，上图展示了QD分数与评估次数的函数关系，可以看到，SAS和DSAS在搜索初期都能获得较高的QD-分数，这表明通过本文方法生成的样本效率很高，此外，这两种方法的表现也明显优于CMA-MAE、MAP-Elites和随机搜索。然而，在第（2）种侧重域时，它们的表现优于CMA-MAE和随机搜索，而与MAP-Elites没有显著差异。作者分析这可能是因为MAP-Elites算法运行时所产生的巨大差异，MAP-Elites可以通过对物体位置进行微小的各向同性扰动，更加轻松的填充机器人路径长度来缩小目标间的最小距离。

上图进一步展示了使用上述几种方法进行远程操作后得到最终存档的热图，可以看到，MAP-Elites和随机搜索的热图基本上一致，而SAS和DSAS得到的存档几乎完全被充满，包括存档右下角的场景，这是存档中最难找到失败的区域，因为其中包括了人类达到最佳状态且与目标对象之间距离较大的场景，而这些场景往往才是最接近人类真实行动意图的区域。

此外，作者还对本文方法进行了现实场景测试，如上图所示，作者使用6-DoF Gen2 Kinova JACO机械臂进行实验，并且使用Kinect v1 传感器跟踪人类手的位置信息。下图（a）（b）（c）（d）分别展示了由于人类参与者、目标动作复杂、任务协作难度高等因素带来的人机交互实际效果。其中（a）代表由于推断人类目标发生延迟而导致机器人行动不准确的现象，这表明使用本文方法生成的场景完全可以模拟对应真实场景中的人机协作的情况。

四、总结

本文提出了一种将代理辅助场景生成的算法从单一代理领域扩展到具有连续动作、环境动态和物体位置的复杂人机交互领域，这种算法可以在一些高风险的机器人环境中进行精确性的故障评估。从本文DSAS算法的具体实现角度来看，本文作者提出使用深度神经网络作为代理模型来预测人机交互的结果，如任务完成时间、最大机器人路径长度或总等待时间，基于这些参数信息，作者还首次提出将代理模型与可微分质量多样性（DQD）算法相结合，来提升人机交互场景生成的效果，同时还可以显著减小算法的计算代价。

参考

[1] Varun Bhatt, Bryon Tjanaka, Matthew C Fontaine, and Stefanos Nikolaidis. Deep surrogate assisted generation of environments. Conference on Neural Information Processing (NeurIPS), 2022.

[2] Matthew C. Fontaine and Stefanos Nikolaidis. Differentiable quality diversity. In Advances in Neural Information Processing Systems, 2021.

作者：seven_

Illustration by IconScout Store from IconScout

CoRL 2023 Oral | DSAS：基于生成代理模型推动机器人适应各种高难度场景

一、引言

二、本文方法

2.1 为人机交互领域设计代理模型

2.2 可微分的代理辅助场景生成

三、实验效果

四、总结

参考

作者信息

文章信息

上一篇

下一篇

CoRL 2023 Oral | DSAS：基于生成代理模型推动机器人适应各种高难度场景

一、 引言

二、本文方法

2.1 为人机交互领域设计代理模型

2.2 可微分的代理辅助场景生成

三、实验效果

四、总结

参考

作者信息

文章信息

上一篇

下一篇

一、引言