TPAMI 2023 | 跨模态因果干预实现鲁棒可信的事件级问答推理

近日，中山大学人机物智能融合实验室（HCP-Lab）团队的论文Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering（基于跨模态因果关系发现的事件级问答推理）被人工智能领域的国际顶级学术期刊IEEE Transactions on Pattern Analysis and Machine Intelligence（TPAMI）接收。

论文链接：
https://arxiv.org/abs/2207.12647
代码链接：
https://github.com/HCPLab-SYSU/CMCIR
因果驱动的视觉-语言推理开源框架Causal-VLReasoning
https://github.com/HCPLab-SYSU/Causal-VLReasoning

一、研究动机

跨模态事件级问答推理建立在基于视频的事件理解基础上，要求推理模型需要同时具备多模态视觉语义理解、时空表征学习、自然语言理解与生成和因果关系发现能力，实现对真实事件的深度理解，达到人机协同的自然交互，具有广泛的应用前景：包括聊天机器人ChatGPT、智慧教育机器人、人机交互系统、医疗问诊系统等。

首先，现有的问答方法通常关注相对简单的事件，比如电影、TV-show或者是合成视频，在这些视频类型中，时域理解和因果发现可能并不需要表现得很好。但是，这些方法却忽略了更复杂并且更具挑战性的事件，这些事件需要深入的因果、时空动态和语言关系的理解。

如图1所示，给定一个视频和一个相关问题，对于人类来说，一个典型的推理过程是先记住每个视频帧出现的相关目标和它们之间的交互关系（比如，车在路上行驶、人骑摩托车，穿过马路），然后根据这些记忆的视频内容推断出对应的答案。

然而，图1中的事件级反事实视觉问答任务需要得到特定假设条件下给定视频没有发生的事件对应的结果（比如，当人没有骑摩托车穿过马路时）。如果我们仅仅简单地将这些相关的视觉内容关联起来，而忽略其中隐含的时空和因果关系，我们可能得不到正确的推理结果。为了准确地在反事实条件下推理得到设想事件的答案，我们需要模型同时拥有层次化的关系推理能力和充分挖掘视觉语言内容包含的因果、逻辑和时空动态结构能力。

图2：示例：为何缺乏因果推理的跨模态问答推理模型会学习到浅层关联？（a）训练集中包含视觉和语言偏误， person和motorbike两个概念出现频次很高，（b）结构因果图模型（structured causal model）展示了混淆因子（confounders）是如何给事件级问答推理任务带来浅层关联（spurious correlation）的，绿色路径表示了无偏误的问答推理过程（包含真正的因果关系），红色路径表示混淆因子导致的有偏误问答推理过程，（c）当在测试集给一些vehicle和accident高度相关的样本时，模型可能不会利用真正的问题语义和显著的视觉线索来推理出正确答案。

其次，现有的跨模态问答推理方法通常捕捉的是混淆因子（confounders）带来的浅层（spurious）的语言或者视觉关联，而不是真正的因果结构和因果驱动的跨模态表征，这会导致不鲁棒且不可信赖的推理过程，无法捕捉视频中跨事件的时间性、因果性和动态性，如图2所示。

图灵奖得主 Judea Pearl 提出因果学习的三个层次（即关联，干预和反事实)，并指出现有基于深度学习的大数据模型倾向于基于关联性去刻画数据背后的信息，学到的只是低层次的关联关系，这种建模方式难以得到数据背后的因果关系，其可解释性和鲁棒性在复杂应用场景下无法得到保证。

因此，本工作关注的重点是：

1）如何设计有效的跨模态因果干预方法，对视觉和语言样本的共通推理路径进行聚类、归纳，来缩小视觉和语言模态的数据偏误？

2）如何设计事件级因果发现方法，在时空层面挖掘复杂事件的潜在因果逻辑链条和关系变量，并建立基于多层因果推理结构的跨模态因果关系？

二、研究方法

为了实现上述两个目标，我们提出了一个跨模态因果关系推理的框架（CMCIR）。具体而言，我们基于因果关系图对问答推理过程进行了建模，如图3所示，并引入了一系列因果干预操作，来发现视觉和语言模态之间的潜在因果结构。

我们的跨模态因果关系推理框架（CMCIR）包括三个模块：

i）因果感知的视觉-语言推理（CVLR）模块，通过因果前门和因果后门干预的协同来减弱视觉和语言的虚假相关性；

ii）时空Transformer（STT）模块，用于捕捉视觉和语言语义之间的细粒度交互；

iii）视觉-语言特征融合（VLFF）模块，自适应地学习全局语义感知的视觉-语言表征。

我们在四个事件级问答推理数据集SUTD-TrafficQA, TGIF-QA, MSVD-QA, 和MSRVTT-QA上进行了的大量实验，证明了我们的CMCIR在发现视觉-语言因果结构和实现鲁棒问答推理方面的优越性。

该工作的主要贡献是：

该工作首次在事件级问答推理任务中实现了跨模态因果结构发现。提出了一种因果驱动的事件级视觉问答框架CMCIR，通过对视觉和语言模态的因果干预，来发现真实的因果结构，并实现鲁棒的的事件级问答推理。
提出了一个由语言语义关系引导的语言后门因果干预模块，以减弱语言偏误并挖掘语言模态内部的因果关系。为了减弱视觉的虚假相关性，我们提出了一个局部-全局因果注意力模块（LGCAM），通过前门因果干预来聚合局部和全局的视觉表示。
构建了一个时空Transformer模块（STT），用于建模视觉和语言知识之间的多模态交互关系，挖掘语义、空间和时间表征之间的细粒度交互关系。

图3：所提出的视觉-语言因果干预的因果结构图。绿色路径表示无偏的视觉问答，即真实的因果效应。红色路径显示由混淆因子引起的有偏视觉问答，也被称为后门路径。图的底部部分通过视觉-语言因果干预对一个真实的VideoQA样本进行直观解释。

三、因果感知的视觉-语言推理（CVLR）模块

3.1 语言后门因果干预

3.2 视觉前门因果干预

图4. 局部-全局（Local-Global）因果注意力（Causal Attention）模块

四、时空 Transformer 模块

为了挖掘语言和时空表征之间的细粒度关联，我们构建了一种时空Transformer模块，该模块包含四个子模块，分别是问题-外观（Question-Appearance, QA），问题-运动（Question-Motion, QM），外观-语义（Appearance-Semantics, AS），和运动-语义（Motion-Semantics，MS）模块，如图5（a）所示。

QA和QM模块各自包含R-层多模态（Multi-modal）Transformer Block (MTB)，如图5（b）所示，MTB的目的是建立问题和外观（运动）特征之间的多模态交互关系。类似的，AS和MS模块同样采用MTB来基于问题语义推理出外观和运动信息。具体信息请参阅原论文。

图5. 时空Transformer模块示意图（图（a）），多模态Transformer模块（图（b））

结合视觉表征学习模块、多模态语言和视觉时空结构多层次关系建模模MCIR，该框架能够对时空视觉关联、语言语义关联和视觉-语言因果关系进行细粒度的理解，并高效融合跨模态视觉语言语义关联和因果关联关系，实现鲁棒可信赖的细粒度事件级视觉问答，如图6所示。

五、总结

该工作首次在事件级问答推理任务中探索了跨模态因果关系发现的可能性，在结构因果图（Structural Causal Model, SCM）的视角下，创新性地引入了视觉因果前门干预和语言后门因果干预模型，以增强事件级问答推理模型的鲁棒性和可信性。该研究的重要意义在于为未来探索如何利用因果范式提升多模态大模型的鲁棒性、可解释性和可信性提供了思路和启发。

中山大学 HCP 团队长期致力于鲁棒、可信、可解释人工智能的研究，基于多模态大模型的认知推理任务，以一种因果驱动的方式来实现鲁棒可信的高阶语义推理，在人机对话、视觉导航、图像/视频生成、图像/视频标注、医学影像报告生成等任务上开展了持续而深入的研究工作，并建立了因果驱动的视觉-语言推理开源框架Causal-VLReasoning:

https://github.com/HCPLab-SYSU/Causal-VLReasoning

中山大学 HCP 团队在多模态人工智能领域有深厚的研究基础，以融合领域知识和语义信息的深度表达学习为主线，从感知单模态大模型到认知多模态大模型，逐步构建认知启发和因果推理引导的视觉计算与推理理论及方法体系。

作者：刘阳

本文来源：公众号【PaperWeekly】