AAAI 2023｜模拟人脑场景感知过程，套娃Transformer讲故事能力更上一层楼

论文链接：

https://arxiv.org/abs/2211.15103

代码链接：

https://github.com/UARK-AICV/VLTinT

本文介绍一篇刚刚被人工智能领域顶级会议AAAI2023录用的文章，该文不再局限于传统的短视频字幕生成任务，而是在此基础上更进一步探索视频段落字幕概括任务。视频段落字幕生成任务要求模型对未处理的一段长视频生成概况性的文字描述，且该视频中所描述的连贯故事严格遵循一定的时间位置。这要求模型具有很强的时空事件提取能力，本文由美国阿肯色大学和卡内基梅隆大学合作完成。

作者遵循人类观看视频时的感知过程，通过将视频场景分解为视觉（例如人类、动物）和非视觉成分（例如动作、关系）来层次化的理解场景，并且提出了一种称为Visual-Linguistic（VL）的多模态视觉语言特征。在VL特征中，一个完整的视频场景主要由三种模态进行建模，包括：

代表周围整体场景的全局视觉环境表征
代表当前发生事件的局部视觉主体表征
描述视觉和非视觉元素的语言性场景元素

作者设计了一种自回归Transformer结构（TinT）来对这三种模态进行表征和建模，可以同时捕获视频中事件内和事件间内容的语义连贯性。为了更加高效的训练模型，作者还配套提出了一种全新的VL多模态对比损失函数，来保证学习到的嵌入特征与字幕语义相匹配，作者在多个段落级字幕生成基准上对模型进行了评估，结果表明本文方法在字幕生成的准确性和多样性方面性能达到SOTA!

一、引言

视频字幕生成任务来源于图像字幕生成任务，其中一个最主要的分支是密集视频字幕生成（Dense Video Captioning，DVC），在DVC的任务设定中，模型需要按照时间顺序生成事件列表，并对每个事件生成相关的句子描述，以此来保证视频字幕的语义连贯。作为DVC的简化版本，视频段落字幕（Video Paragraph Captioning，VPC）的目的是对给定的视频生成概括性的段落描述，从而简化事件解析和描述的流程。

通常来说，VPC模型由两个主要组件组成，即一个编码器对视频的每个事件产生一个特征表示，随后送入到一个解码器来生成相关字幕。之前的VPC方法大多使用一个基于CNN的黑盒网络来对视频特征进行编码，这种做法可能会忽略视频中视频和语言模态之间的交互。本文提出的VLTinT模型将视频场景分解为三种模态，以达到对视频中视觉和非视觉元素的细粒度描述。此外，为了关注对当前事件具有核心影响的主要代理主体，作者对其加入了混合注意机制（Hybrid Attention Mechanism，HAM）进行学习。下图展示了本文所提VLTinT模型与其他常规方法的对比。

在VPC任务中，模型需要对每个事件都生成一句话描述，并且这些话在逻辑上应该是相互关联的，因此非常有必要对视频中的两种依赖关系进行建模，即事件内和事件间的依赖关系。之前的方法往往使用基于RNN的方法来对事件内的一致性进行模拟建模，但随着Transformer技术在自然语言领域中的迅猛发展，这一结构逐渐被自注意力块所取代，例如上图中展示的Trans.XL和MART方法。但是在这些方法中，每个事件依然是独立解码，没有考虑事件间的一致性，为了应对这一挑战，本文作者提出了一个全新的Transformer in Transformer架构（TinT），TinT Decoder可以同时兼顾一段视频中事件内和事件间的依赖关系建模。相比之前方法简单的使用最大似然估计损失（MLE）来训练模型，作者引入了一个新的多模态VL对比损失来保持在训练过程中对视觉和语言语义的学习，而不增加额外的计算成本。

二、本文方法

本文的VLTinT由两个主要模块构成，分别对应一个编码器VL Encoder和解码器TinT Decoder。其中VL Encoder主要负责对一段视频中的不同事件提取特征表示，而TinT Decoder主要负责对这些特征进行解码生成每个事件的文字描述，同时对事件内和事件间的一致性进行建模。这两个模块都通过本文提出的VL对比损失以端到端的方式进行训练，VLTinT的整体架构如下图所示，下面我们将详细介绍每个模块中的技术细节。

2.1 Visual-Linguistic编码器

2.2 TinT解码器

2.3 VL多模态对比损失

三、实验效果

本文在两个流行的视频多事件数据集ActivityNet Captions和YouCookII上进行了基准侧测试，评价指标分为准确性和多样性两种。作者首先将VLTinT与之前的SOTA VPC方法进行了对比，实验结果如下表所示，其中作者突出显示了每个指标对应的最佳和次佳分数。与其他方法相比，本文的VLTinT在这两个方面都表现出了生成字幕的准确性和多样性。

此外，作者还展示了VLTinT与其他方法的可视化字幕生成对比，如下图所示，可以观察到，VLTinT可以生成更多具有细粒度细节的描述性字幕。特别地，作者观察到VTrans和MART更倾向于在其标题中使用高频词，而VLTinT可以使用富有表现力但出现频率较低的词，例如示例中的“A man”与“An athlete man”。这是因为VLTinT中的VL编码器可以更加全面的捕获场景中的其他视觉元素，这帮助模型更加全面的对场景进行理解。

四、总结

在这项工作中，作者针对视频段落级字幕生成任务（VPC）提出了一种新式的Transformer in Transformer结构，该结构由一个VL编码器和TinT解码器组成。值得注意的是，作者在VL编码器中首次对视频场景划分了三种独特模态进行分层次建模和学习，这种方式非常贴合人脑对视频数据的感知过程。这为社区在这一方面的研究树立了一个非常好的研究思路，此外，在TinT解码器中的自回归结构可以有效地学习视频中事件内和事件间的不同依赖关系，也帮助提高了模型的整体性能。作者在未来展望中提到，可以将VLTinT模型提取的多模态视频特征扩展到其他用途更广泛的密集视频字幕生成任务中，以提高AI视频制作的工作效率。

参考

[1] Patashnik, O.; Wu, Z.; et al. 2021. StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery. In ICCV, 2065–2074.

[2] Yang, B.; and Zou, Y. 2021. CLIP Meets Video Captioners: Attribute-Aware Representation Learning Promotes Accurate Captioning. ArXiv preprint, abs/2111.15162.

作者：seven_