ICCV 2023 | 挖掘,学习再推理:跨模态的HOI语义相关性探索

2023-09-17 13:34 240 阅读 ID:1438
将门
将门

人与物体交互(HOI)检测是一项具有挑战性的计算机视觉任务,需要视觉模型定位和识别人与物体之间复杂的交互关系,并预测三元组。真实世界中种类繁多的交互组合为HOI检测带来了挑战,但它们也为视觉文本的多模态学习提供了机会。


在本文中,我们提出了一个系统的框架RmLR,通过结合结构化文本知识增强HOI检测。首先,我们定性和定量地分析了两阶段HOI检测器中交互信息的损失,并提出了一种重新挖掘策略来生成更全面的视觉表示。其次,我们设计了更细粒度的句子和单词级别的对齐和知识迁移策略,以有效地解决多个交互动作和多个文本之间的多对多匹配问题。这些策略缓解了同时发生多个交互时出现的匹配混乱问题,从而提高了对齐过程的有效性。最后,通过视觉特征和文本知识进行的HOI推理大大提高了对交互的理解。实验结果表明了我们方法的有效性,我们的RmLR在公共基准上实现了最先进的性能。  

论文链接:

https://arxiv.org/pdf/2307.13529.pdf

一、动机

(1)双阶段HOI检测器中存在的交互信息丢失问题。本文以经典的双阶段HOI检测器UPT[1]为例,分析了其目标检测阶段生成的个体特征(Instance tokens)。具体做法是通过对同一幅图像中不同动作的人交换位置,结果发现检测模型中的个体特征与人的空间位置高度相关(余弦相似度几乎都达到了0.99),模型几乎放弃了对人体动作信息的关注。因此,这启发了我们设计对双阶段HOI检测器中的交互信息的Remine。

                                          图1 对双阶段HOI检测器中的交互信息进行定量分析

(2)相比于直接将不同人物对交互动作映射为One-hot标签,跨模态学习可以更全面地刻画人物交互关系,为视觉HOI检测器提供更多知识和信息,帮助视觉HOI检测器理解复杂的人类交互动作。最近两年也有一些优秀的工作是基于跨模态学习来优化HOI检测器,例如GEN-VLKT[2]。

二、方法

                                                                        图2 RmLR整体框架

其中展示了Visual Entity Detection module和Interactive Relation Encoder(Re-mining)、语言知识生成、跨模态学习(Learning)和交互推理模块(Reasoning)。

2.1 Re-mining Visual Features

                                                图3 Masked IOU用于提取联合任务交互区域mROI

联合交互区域中通常会包含干扰信息,mask的意义在于屏蔽干扰信息。进而通过Interaction Encoder Layer重新捕获mROI中交互相关的特征,为后续的交互识别做准备。

2.2 Cross-Modal Learning

本文根据<human,action,Object>三元组标注生成对应的文本信息,例如“Human read book”,“Human kick ball”。

进而,默认通过MobileBERT[4]作为文本编码器,对文本信息进行特征编码(本文中也测试了不同规模的文本编码器对RmLR模型的影响,例如ALBERT-base-v2、RoBERTa、BERT-base和BERT-large,具体细节见原文)。

为了更充分地使用文本知识对视觉HOI进行引导,本文设计了word-level的对齐和知识蒸馏:

word-level的跨模态对齐在于将丰富的视觉表征和细粒度的word-level embeddings关联,以便更高效地执行跨模态的知识迁移。

此外,也使用文本信息的[CLS]token作为sentence-level的信息来引导视觉模型的特征学习:

2.3 Reasoning with Language-enhanced Representations

受UPT中的竞争层启发,我们在模型推理阶段设置了相应的Transformer Layer进行人物对之间的竞争性推理。

区别在于经过上述的跨模态学习过程,视觉HOI检测器中可以得到语言知识增强的视觉表征,这更有利于模型对复杂交互动作的理解。

本文使用的总体损失函数如下所示:

三、实验结果

我们在广泛使用的V-COCO和HICO-DET数据集上进行了模型训练和测试,遵循了先前工作中所采用的评价方法和指标。可以在补充材料中找到数据集和评估指标的详细描述。

在HICO-DET和V-COCO数据集上,我们对该方法与最先进的HOI方法(如UPT[1]、GEN-VLKT[2]和CDN[3])进行了全面评估。

结果表明,我们的方法显著优于以前所有最先进的方法,并且在ResNet-50和ResNet-101特征提取器中都保持了这一优势。

我们还将该方法与以前的一些使用了额外数据集的方法进行了比较(文中的表5和表6,具体实验数据参考原文),例如那些依赖人类动作标注和语言标注的方法。额外的标注信息通常能够促进视觉HOI检测器的性能,代价在于更昂贵的标注成本。

                                                    图4 HICO-DET数据集上的一些测试结果

四、总结

在本文中,我们介绍了一个称为RmLR的双阶段HOI检测框架,该框架利用结构化文本知识来增强HOI检测器。

为了解决两阶段HOI检测器中交互信息丢失的问题,我们提出了一种重新挖掘策略来生成更全面的视觉表示。然后,我们开发了细粒度的句子和单词级对齐以及知识迁移方法,以有效地解决HOI-VLM中多个交互动作和多个文本之间的多对多匹配问题。

这些策略缓解了由多种交互同时发生引起的匹配混乱问题,从而提高了跨模态学习过程在HOI检测领域的有效性。

五、挑战

(1)目前跨模态的大模型在多种下游任务中取得巨大成功,也有一些方法[2]初步探索了跨模态大模型在HOI检测领域的应用。然而,如何从大模型中通过Prompt Learning等方法获取精确的、特定的人物交互关系,仍然是需要持续研究;

(2)目前很多跨模态的HOI方法都是在有限的数据上执行跨模态学习,更多zero-shot和open-set HOI检测方法应该被关注到;

(3)工业界实际部署中,迫切需要更轻量级的单阶段HOI检测器。

References

[1] Frederic Z Zhang, Dylan Campbell, and Stephen Gould. Effcient two-stage detection of human-object interactions with a novel unary-pairwise transformer. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 20104–20112, 2022.

[2] Yue Liao, Aixi Zhang, Miao Lu, Yongliang Wang, Xiaobo Li, and Si Liu. Gen-vlkt: Simplify association and enhance interaction understanding for hoi detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 20123–20132, 2022.

[3] Aixi Zhang, Yue Liao, Si Liu, Miao Lu, Yongliang Wang, Chen Gao, and Xiaobo Li. Mining the benefts of two-stage and one-stage hoi detection. Advances in Neural Information Processing Systems, 34:17209–17220, 2021.

[4] Zhiqing Sun, Hongkun Yu, Xiaodan Song, Renjie Liu, Yiming Yang, and Denny Zhou. Mobilebert: a compact taskagnostic bert for resource-limited devices. arXiv preprint arXiv:2004.02984, 2020.

作者:曹毅超,苏修,游山

来源:公众号【商汤学术】

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn