ICCV 2023 | 挖掘，学习再推理：跨模态的HOI语义相关性探索

人与物体交互（HOI）检测是一项具有挑战性的计算机视觉任务，需要视觉模型定位和识别人与物体之间复杂的交互关系，并预测三元组。真实世界中种类繁多的交互组合为HOI检测带来了挑战，但它们也为视觉文本的多模态学习提供了机会。

在本文中，我们提出了一个系统的框架RmLR，通过结合结构化文本知识增强HOI检测。首先，我们定性和定量地分析了两阶段HOI检测器中交互信息的损失，并提出了一种重新挖掘策略来生成更全面的视觉表示。其次，我们设计了更细粒度的句子和单词级别的对齐和知识迁移策略，以有效地解决多个交互动作和多个文本之间的多对多匹配问题。这些策略缓解了同时发生多个交互时出现的匹配混乱问题，从而提高了对齐过程的有效性。最后，通过视觉特征和文本知识进行的HOI推理大大提高了对交互的理解。实验结果表明了我们方法的有效性，我们的RmLR在公共基准上实现了最先进的性能。

论文链接：

https://arxiv.org/pdf/2307.13529.pdf

一、动机

（1）双阶段HOI检测器中存在的交互信息丢失问题。本文以经典的双阶段HOI检测器UPT[1]为例，分析了其目标检测阶段生成的个体特征(Instance tokens)。具体做法是通过对同一幅图像中不同动作的人交换位置，结果发现检测模型中的个体特征与人的空间位置高度相关（余弦相似度几乎都达到了0.99），模型几乎放弃了对人体动作信息的关注。因此，这启发了我们设计对双阶段HOI检测器中的交互信息的Remine。

（2）相比于直接将不同人物对交互动作映射为One-hot标签，跨模态学习可以更全面地刻画人物交互关系，为视觉HOI检测器提供更多知识和信息，帮助视觉HOI检测器理解复杂的人类交互动作。最近两年也有一些优秀的工作是基于跨模态学习来优化HOI检测器，例如GEN-VLKT[2]。

二、方法

其中展示了Visual Entity Detection module和Interactive Relation Encoder（Re-mining）、语言知识生成、跨模态学习（Learning）和交互推理模块（Reasoning）。

2.1 Re-mining Visual Features

联合交互区域中通常会包含干扰信息，mask的意义在于屏蔽干扰信息。进而通过Interaction Encoder Layer重新捕获mROI中交互相关的特征，为后续的交互识别做准备。

2.2 Cross-Modal Learning

本文根据<human，action，Object>三元组标注生成对应的文本信息，例如“Human read book”，“Human kick ball”。

进而，默认通过MobileBERT[4]作为文本编码器，对文本信息进行特征编码（本文中也测试了不同规模的文本编码器对RmLR模型的影响，例如ALBERT-base-v2、RoBERTa、BERT-base和BERT-large，具体细节见原文）。

为了更充分地使用文本知识对视觉HOI进行引导，本文设计了word-level的对齐和知识蒸馏：

word-level的跨模态对齐在于将丰富的视觉表征和细粒度的word-level embeddings关联，以便更高效地执行跨模态的知识迁移。

此外，也使用文本信息的[CLS]token作为sentence-level的信息来引导视觉模型的特征学习：

2.3 Reasoning with Language-enhanced Representations

受UPT中的竞争层启发，我们在模型推理阶段设置了相应的Transformer Layer进行人物对之间的竞争性推理。

区别在于经过上述的跨模态学习过程，视觉HOI检测器中可以得到语言知识增强的视觉表征，这更有利于模型对复杂交互动作的理解。

本文使用的总体损失函数如下所示：

三、实验结果

我们在广泛使用的V-COCO和HICO-DET数据集上进行了模型训练和测试，遵循了先前工作中所采用的评价方法和指标。可以在补充材料中找到数据集和评估指标的详细描述。

在HICO-DET和V-COCO数据集上，我们对该方法与最先进的HOI方法（如UPT[1]、GEN-VLKT[2]和CDN[3]）进行了全面评估。

结果表明，我们的方法显著优于以前所有最先进的方法，并且在ResNet-50和ResNet-101特征提取器中都保持了这一优势。

我们还将该方法与以前的一些使用了额外数据集的方法进行了比较（文中的表5和表6，具体实验数据参考原文），例如那些依赖人类动作标注和语言标注的方法。额外的标注信息通常能够促进视觉HOI检测器的性能，代价在于更昂贵的标注成本。

四、总结

在本文中，我们介绍了一个称为RmLR的双阶段HOI检测框架，该框架利用结构化文本知识来增强HOI检测器。

为了解决两阶段HOI检测器中交互信息丢失的问题，我们提出了一种重新挖掘策略来生成更全面的视觉表示。然后，我们开发了细粒度的句子和单词级对齐以及知识迁移方法，以有效地解决HOI-VLM中多个交互动作和多个文本之间的多对多匹配问题。

这些策略缓解了由多种交互同时发生引起的匹配混乱问题，从而提高了跨模态学习过程在HOI检测领域的有效性。

五、挑战

（1）目前跨模态的大模型在多种下游任务中取得巨大成功，也有一些方法[2]初步探索了跨模态大模型在HOI检测领域的应用。然而，如何从大模型中通过Prompt Learning等方法获取精确的、特定的人物交互关系，仍然是需要持续研究；

（2）目前很多跨模态的HOI方法都是在有限的数据上执行跨模态学习，更多zero-shot和open-set HOI检测方法应该被关注到；

（3）工业界实际部署中，迫切需要更轻量级的单阶段HOI检测器。

References

[1] Frederic Z Zhang, Dylan Campbell, and Stephen Gould. Effcient two-stage detection of human-object interactions with a novel unary-pairwise transformer. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 20104–20112, 2022.

[2] Yue Liao, Aixi Zhang, Miao Lu, Yongliang Wang, Xiaobo Li, and Si Liu. Gen-vlkt: Simplify association and enhance interaction understanding for hoi detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 20123–20132, 2022.

[3] Aixi Zhang, Yue Liao, Si Liu, Miao Lu, Yongliang Wang, Chen Gao, and Xiaobo Li. Mining the benefts of two-stage and one-stage hoi detection. Advances in Neural Information Processing Systems, 34:17209–17220, 2021.

[4] Zhiqing Sun, Hongkun Yu, Xiaodan Song, Renjie Liu, Yiming Yang, and Denny Zhou. Mobilebert: a compact taskagnostic bert for resource-limited devices. arXiv preprint arXiv:2004.02984, 2020.

作者：曹毅超,苏修,游山

来源：公众号【商汤学术】