「多模态处理技术」最新2022研究进展综述

21天前 99 阅读 ID:484
机器学习算法与自然语言处理
机器学习算法与自然语言处理

随着多媒体技术的发展,可获取的媒体数据在种类和量级上大幅提升。受人类感知方式的启发,多种媒 体数据互相融合处理,促进了人工智能在计算机视觉领域的研究发展,在遥感图像解译、生物医学和深度估计等方 面有广泛的应用。尽管多模态数据在描述事物特征时具有明显优势,但仍面临着较大的挑战。1)受到不同成像设 备和传感器的限制,难以收集到大规模、高质量的多模态数据集;2)多模态数据需要匹配成对用于研究,任一模态 的缺失都会造成可用数据的减少;3)图像、视频数据在处理和标注上需要耗费较多的时间和人力成本,这些问题使 得目前本领域的技术尚待攻关。本文立足于数据受限条件下的多模态学习方法,根据样本数量、标注信息和样本 质量等不同的维度,将计算机视觉领域中的多模态数据受限方法分为小样本学习、缺乏强监督标注信息、主动学 习、数据去噪和数据增强 5 个方向,详细阐述了各类方法的样本特点和模型方法的最新进展。并介绍了数据受限 前提下的多模态学习方法使用的数据集及其应用方向(包括人体姿态估计、行人重识别等),对比分析了现有算法 的优缺点以及未来的发展方向,对该领域的发展具有积极的意义。

http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20221002&flag=1

1.『引言』

模态是事物的一种表现形式,是对事物某特定 角度的描述。多模态通常包含两个或者两个以上的 模态形式,是指从多个视角出发对事物进行描述。人们在感知世界时,多种感官总是同时接收外在信 息,如看见图像、听见声音、闻到气味和触摸感知等。随着多媒体技术的发展,可获取的媒体数据在种类 和量级上都大幅提升。例如,传感器不仅可以生成 图像或者视频,还包含与之匹配的深度、温度信息 等。为使人工智能技术更好地解译数据,必须使人 工智能具有多模态学习的能力。

在人工智能技术的早期研究中,学者通常使用 单一模态的数据。受到人类感知方式的启发,研究 认为每个模态对事物的描述具有相对独立性,使用多模态数据的互补表述能够使事物呈现更立体、表 现更全面(Baltrušaitis 等,2019)。近年来,多模态数 据的处理和应用成为重点研究方向,在情感分析、机 器翻译、自然语言处理和生物医学等前沿方向取得 了重要突破。计算机视觉是深度学习的重要应用领 域和热点研究问题,本文重点围绕多模态在计算机 视觉领域的发展进行介绍。 

如图 1 所示,计算机视觉领域内的多模态学习 主要是通过对图像、视频等多模态数据进行分析, 学习并互补不同模态间的信息,实现图像检测识 别、语 义 分 割 和 视 频 动 作 预 测 等 任 务 ( Liu 和 Wang,2015;Eigen 和 Fergus,2015) ,并广泛应用于 自动驾驶、农业监测、生物医疗、交通管理和灾难 预测等领域。如在医学领域,医学影像作为医疗 诊断的重要依据,相较于单角度描述病灶特征的 图像,多模态医疗影像能有效辅助医生从多个层 面联合判断病灶及其周边部分,加快诊断时间;在 遥感领域,单传感器依据设备特点从某种固定的 角度描述地理目标,独立分析时会受到成像原理 限制,而对不同成像方式、不同传感器获取到的多 模态遥感影像进行分析,可以有效提取地物目标 的综合信息。

                                                  图 1 多模态数据受限解决方法及应用

尽管多模态数据在描述事物特征时有着明显的 优势,但目前仍面临着较大的挑战。1)虽然成像技 术层出不穷,但其同步带来的图像、视频数据的处 理和标注任务有着不容忽视的工作量,需要耗费 较多的时间成本和人力资源。2)传统深度学习模 型需要将多模态数据匹配成对用于研究,任一模 态的缺失都会造成可用数据的减少。3)由于使用 目的是利用多模态互补的特性,因此对数据内部的 完整度要求较高,但受到不同成像设备和传感器的 限制,数据量少、质量模糊和缺失现象严重,这些现 象都会对后续的研究造成不利影响。因此,在数据 受限的前提下进行的多模态处理研究具有重要的现 实意义。面对以上的难点问题,根据多模态样本数量、标 注信息和样本质量等不同的维度,目前处理多模态 数据受限的方法主要分为以下几类:

1)小样本学习方法。在多模态数据不足的情 况下,小样本学习方法仅通过学习少量样本就能做 出正确判断的认知能力,在数据量匮乏的情况下仍 能够有效地学习目标特征。 

2)缺乏强监督标注信息的方法。由于数据标 注过程会产生高额的成本,较难获取所有模态的全 部真值标签对模型进行强监督学习。常见的非完全 监督的方法有基于弱监督、无监督、半监督和自监督 的学习方法,这些方法可以有效改善模态缺乏标注 信息的问题,大大减少人工标注成本。 

3)主动学习方法。该类方法通过设计具有自 主学习能力的模型,将人类经验与学习规则充分结 合,致力于研究如何使用标注尽可能少的样本来获 得尽可能较好的效果。通过选择最有用的样本,可 以在保持性能的同时有效降低标注成本。 

4)数据去噪方法。在多模态数据的获取和处 理的过程中,外界环境和设备内部因素都可能会引 入噪声。任何模态的数据受到噪声污染都可能会影 响多模态数据处理的结果。多模态数据去噪是指减 少数据中的噪声,恢复原始数据,进而再提取感兴趣 的信息。

5)数据增强。在样本较少的前提下,为进行有限 多模态数据的充分利用,数据增强方法通过对原始数 据集进行一系列变换操作,扩张数据的可使用性。

本文主要对数据受限下的多模态数据处理方法 进行综述。已有研究者对相关领域进行了研究,在 多模态学习、小样本学习、弱监督学习、主动学习、数 据去噪和增强等方面进行了深入研究。Baltrušaitis 等人(2019)从整体的角度探讨了多模态机器学习 的进展,并对多模态机器学习方法进行分类,但没有 介绍具体的应用场景。Wang 等人 (2020b)从网络 架构的角度介绍了多模态模型,但没有讨论多模态 数据本身的特点。Ramachandram 和 Taylor (2017) 对多模态深度学习现状进行了总结,并提出网络体 系结构的设计应该考虑融合模式、模态信息和对缺 失的数据或模态的处理,但没有详细综述目前处理 缺失数据以提高模型的鲁棒性的方法。Gao 等人 (2020)总结了具有代表性的处理异构数据的深度 学习网络架构,并认为一些深度学习模型只关注单 模态噪声数据,未来迫切需要解决针对低质量多模 态数据的深度学习模型。上述综述缺乏对数据受限 条件下多模态数据发展的详细介绍。Wang 等人 (2021c)综述了近年来小样本学习方法的进展,并 进行统一分类。Zhou 等人 (2019)综述了弱监督学 习的一些研究进展。Settles (2011)回顾了将主动学 习应用于实践遇到的挑战,并介绍为解决挑战所做 的工作。但上述文献都仅基于单模态数据进行总 结,并没有关注多模态数据背景问题。 

针对在数据受限条件下多模态数据处理面临的 各种挑战和难题,已有研究者提供了一些解决思路, 但是尚未形成相关的综述文献。因此,本文总结了 数据受限条件下多模态分析处理的研究方法和进 展,以及多模态数据在不同领域的应用情况。首先 阐述了多模态数据在计算机视觉方向的研究现状与 数据受限的难题挑战,介绍了对不同数据受限情况 的处理方法,展示该研究的背景和目的。然后分类 阐明不同数据受限处理方法的现状与研究方法,区 分不同的受限情况所面临的困难和挑战。最后对多 模态数据的各个应用领域的典型数据集进行介绍, 总结目前的研究成果,能够启发未来多模态的应用 前景,展望下一步研究方向。

2.『多模态数据的应用』

首先介绍了多模态数据融合的方法,然后介绍 了多模态数据在计算机视觉领域常见的应用场景。

多模态数据检测识别

图像分类指的是计算机可以识别图像所属的 “类别”。本质上是为图像分配一个标签,例如,“汽 车”、“动物”和“建筑”等。在分类技术的基础上延 伸出了目标检测技术,它允许计算机在图像或视频 中识别和定位目标。通过这种识别和定位,目标检 测可以用来计算场景中的目标数量,确定并跟踪它 们的精确位置,同时准确地标记。检测识别技术作 为计算机视觉中的重要技术,已经应用到如行人重 识别、场景识别和人体动作识别等多模态数据场景 下的任务中。

多模态图像语义分割 

图像语义分割是指根据图像的语义为其每个像 素分配类别标签。具体来说,在进行图像分割的过 程中,每个像素归类到某一个标签下,归属于同一 标签的像素在视觉特性上具有某些共同点。同 样,该技术也在如道路场景分割、医学图像分割和遥感图像分割等多模态数据场景中得到了广泛 应用。

多模态数据预测估计 

在深度学习领域,预测估计是一个重要的应用 方向,经过训练的深度学习模型可以根据输入的数 据对当前或未来的某些状态或参数进行估计或预 测。在多模态数据预测估计领域,诸如单目深度估 计、3 维人体姿态估计和路径规划等技术都已经得 到了广泛的应用。

3.『多模态数据受限的处理方法』

本文根据多模态样本数量、标注信息和样本质 量等不同的维度,将目前处理多模态数据受限的方 法主要分为小样本学习方法、缺乏强监督信息的方 法、主动学习方法、数据去噪和数据增强方法。

多模态数据集 

目前,在第 1 节提到的各个领域下的应用场景 对应的多模态数据集种类、数量繁多,本文按照数据 集的应用领域、数据集名称、包含的模态、提出的年 份和其对应的应用场景等将这些领域常用的数据集 总结整理为如表 5 所示。

4.『结语』

多模态数据的处理和应用成为重点研究方向, 在情感分析、机器翻译、自然语言处理和生物医学等 前沿方向取得了重要突破。国内外研究学者针对数 据受限条件下的多模态学习展开了大量研究。本文 深入不同的数据受限形式,总结了计算机视觉领域 中数据受限下的多模态数据处理发展现状。此外, 基于以上分析,本文简要介绍了多模态数据处理领 域未来仍需进一步研究的方向。 

1)轻量级的多模态数据处理方法。数据受限 条件下的多模态学习仍然存在模型应用于移动式设 备的挑战性。现有方法在融合多个模态的信息时, 普遍需要使用两个及以上的网络进行特征提取,进 而将特征进行融合,因此模型的参数量大、模型结构 复杂限制了其应用于移动式设备。在未来工作中, 轻量化模型有待进一步研究。 

2)通用的多模态智能处理模型。现有多模态 数据处理方法多是为不同任务开发的不同算法,需 要在特定的任务上进行训练。这种针对特定任务的 训练方法很大程度上增加了开发模型的成本,难以 满足快速增长的应用场景的需求。因此,针对不同 模态的数据,需要提出适合的通用感知模型,学习多 模态数据的通用表征,使得在不同的应用场景可以 共享通用模型的参数和特征。 

3)知识与数据混合驱动的模型。不同模态的 数据往往包含不同的特性,本文认为在进行多模态 数据处理时,除了使用多模态数据外,可以考虑引入 数据特性和知识,建立知识与数据混合驱动的模型, 增强模型的性能和可解释性。

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn