CoRL 2023 | SA6D：针对被遮挡下新物体的自适应少样本6DoF姿态估计器

6D姿态估计是机器人操作中的关键方面之一。大多数现有方法在扩展预测到引入新物体实例的情况，尤其是在存在严重遮挡的情况下，都存在困难。在这项工作中，我们提出了一种新颖物体的少样本姿态估计（FSPE）方法，称为SA6D，它使用自适应分割模块来识别新目标物体，并仅使用少量杂乱的参考图像构建目标物体的点云模型。

与现有方法不同，SA6D不需要物体为中心的参考图像或任何额外的物体信息，使其成为一种更通用和可扩展的跨类别解决方案。我们在真实世界的桌面物体数据集上评估了SA6D，并证明SA6D在杂乱的场景中，特别是在有遮挡的情况下，优于现有的FSPE方法，同时只需要更少的参考图像。

论文题目：

SA6D: Self-Adaptive Few-Shot 6D Pose Estimator for Novel and Occluded Objects

论文链接：

https://arxiv.org/abs/2308.16528

项目链接：

https://sites.google.com/view/sa6d

一、引言

准确估计新颖物体的6D位姿对于机器人抓取至关重要，尤其是在桌面设置 (Tabletop objects) 中。之前的研究已经调查了实例级别的6D位姿估计，其中物体是预定义的。虽然这些方法在性能上表现出色，但它们容易过拟合到特定物体并且泛化能力差。

最近提出了一些用于进行类别级别的6D位姿估计的方法。然而，针对特定物体类别的条件限制了对具有强烈物体变化的新颖类别的泛化。与此同时，一些方法研究了可泛化的6D位姿估计，将其视为少样本学习问题，即在已知新物体的少量位姿的情况下以定义物体的规范坐标，预测新物体在不同场景和视角下的的6D位姿。

尽管取得了有望的结果，但这些方法迄今仅在未被遮挡和以物体为中心的图像上表现良好，即在没有其他物体干扰的情况下。这限制了在多物体混乱和遮挡场景中的现实场景中的泛化。此外，这些方法还需要额外的物体信息，如物体直径、网格模型、物体的2D边界框或真实的mask，这并不总是适用于新颖物体类别。我们的方法旨在实现一个完全可泛化的少样本6D物体位姿估计（FSPE）模型。

因此，我们归纳了当前方法未能充分解决的三个主要挑战：i) 在混乱的场景中进行无关类别的6D位姿估计，特别是在存在严重遮挡的情况下性能不佳。ii) 来自混乱场景的以物体为中心的参考图像是通过目标物体的真实分割或边界框裁剪的，这限制了在现实场景中的泛化。iii) 需要广泛的参考图像，涵盖所有不同视角，这在实际中不易获取。

Fig. 1 我们提出了一个通用且与类别无关的少样本6D物体姿态估计器，它使用少量姿态RGB-D图像作为参考。与现有方法相比，我们的方法在新颖物体上提供了鲁棒且准确的预测，不需要重新训练或任何物体信息。

为了解决上述挑战，我们提出了一种强大的自适应6D位姿估计方法，称为SA6D。如上图所示，SA6D使用RGB-D图像作为输入，因为i）深度图像通常可以在机器人场景中很容易获取，而且ii）深度图像可以揭示额外的几何特征，并提高对遮挡的预测鲁棒性。
SA6D采用在线自适应分割模块来对比学习新颖目标物体与混乱场景参考图像的可区分表示。与此同时，从深度图像中构建物体的规范点云模型。在在线适应之后，分割模块能够从新图像中分割出目标物体并从深度中构建局部点云。我们的工作重点针对用于机器人操作的桌面物体场景下。我们的主要贡献总结如下：

SA6D可以在不需要任何物体或类别信息，如真实分割、网格模型或物体为中心的图像的情况下，完全泛化到新数据集。相反，只需要少量带有预测物体的真值6D姿态的RGB-D参考图像。
提出了自适应分割模块，用于在推断过程中学习新颖物体的可区分表示。
SA6D在完全基于合成数据进行训练的情况下，在现实场景中对抗遮挡的能力明显优于当前最先进的方法。

二、方法

SA6D由三个部分组成，即在线自适应模块（OSM）用于从混乱的场景中分割目标对象，区域提案模块（RPM）用于针对遮挡推断目标对象的感兴趣区域（ROI），以及细化模块（RFM）利用视觉和推断的几何特征来精确调整目标对象的预测6D姿态。所提出的流程如下图所示。

SA6D包括三个模块：

i) 在线自适应模块

利用几张姿势参考的RGB-D图像来从混杂的场景中发现和分割目标物体（如图中奶牛）。随后，基于这些分割部分构建了来自参考图像的规范物体点云模型和来自测试图像的局部点云模型。

ii) 区域提议模块

通过整合视觉和几何特征，输出目标物体的稳定感兴趣区域（ROI）以抵抗遮挡。然后，通过比较裁剪后的测试和参考图像，使用Gen6D估计了一个粗略的6D姿势，

iii) 并使用ICP在细化模块进行进一步的微调。

2.1 在线自适应模块

三、实验结果

我们使用两种与我们工作最相关的基准，即LatentFusion (LF) 和 Gen6D。除了输入图像，LatentFusion 需要目标对象的真实分割作为输入，而Gen6D需要物体直径作为输入。相反，我们的方法不需要任何额外的信息。我们还将SA6D与以RGB-D作为输入的类别级别SOTA方法进行比较。值得注意的是，SA6D没有针对特定类别进行训练，而所有类别级别的基准都是针对同一类别内的对象进行训练和测试的。

Fig. 5 Qualitative results。绿色边界框表示真值位姿，蓝色表示预测。在SA6D中，蓝色表示refine之前的预测，而红色是最终预测。

Fig. 6 Quantitative results。LineMOD, LineMOD-OCC, HomeBrewedDB和FewSOL为跨类别泛化实验，Wild6D为类别级泛化上的实验。

与跨类别方法的比较。 如 Table 1 所示，尽管基准方法在LineMOD数据集上表现出有望的结果，但它们在遮挡数据集（LineMOD-OCC和HomeBrewedDB）上表现不佳，不能泛化。相比之下，即使不需要真实分割或物体直径，SA6D仍然显著提高了所有数据集的性能，特别是在提供较少参考图像或物体遮挡的情况下。

此外，在没有真实分割的情况下，SA6D在遮挡数据集上仍然远远优于LatentFusion。如 Table 2 所示，SA6D能够泛化到大的物体变化，而LatentFusion甚至在没有遮挡的情况下也不能泛化。

我们发现，LatentFusion需要高质量的深度图像和更多的参考图像来重建潜在表示，并且在扁平物体上表现不佳 (示例在 Fig. 5 中显示)。此外，即使在精细化模块（RFM）中不使用几何特征，SA6D在大幅度上优于Gen6D。原因是，Gen6D在FewSOL数据集中难以定位目标物体，因为FewSOL数据集中评估的物体靠近摄像机，并占据比训练数据集大得多的区域，表明Gen6D在分布之外的数据上泛化能力差。相比之下，SA6D中使用的区域提取模块（RPM）缓解了这个问题。

与类别级方法的比较。 Table 3 展示了在Wild6D数据集上与类别级SOTA方法的比较。尽管SA6D没有针对每个类别进行专门训练，但它总体上取得了竞争性的性能，甚至在使用更严格标准 5°2cm 时优于基线方法，这表明SA6D可以预测比所有基线方法更准确的姿势。在附录中，我们还可视化了SA6D和RePoNet的预测以进行比较。

Fig. 7 消融实验。(a) 准确率 vs 参考图像的数量。 (b) 准确率 vs 在线迭代次数。(c) SA6D（红色）和Gen6D（蓝色）提出的感兴趣区域（ROI）示例，红色十字标志着目标对象的位置。

准确性与参考图像数量的分析。我们在Fig.7(a)中报告了关于参考图像数量的ADD-0.1d准确度。增加参考图像的数量通常有利于所有方法，除了LatentFusion有时性能会下降，这是因为遮挡严重的参考图像可能会因在线渲染而显著改变其潜在空间中的隐式表示。值得注意的是，SA6D的性能一直优于baselines，并且在仅给一张参考图像 (one-shot)的情况下仍能显示出合理的预测。

Fig. 8 讨论。 (a) 在重新投影的目标物体（奶牛）中心被另一个物体（黄兔子）遮挡的情况下，选择了一个错误的样本作为正样本。尽管如此，(b) SA6D 提供了具有可解释置信度分数的稳定预测，体现出OSM对false positive sample的鲁棒性。

四、总结

我们提出了一种能够高效而稳定的对带有严重遮挡的新颖物体的6D位姿估计方法，而不需要任何物体信息或物体中心化图像的输入。我们希望我们的方法可以促进机器人应用中的通用性6D物体姿态估计。感兴趣的同学欢迎查看论文原文了解更多细节和结果。