CVPR 2023 | 针对目标重识别多尺度交互的孪生对比搜索方法

2023-12-29 22:51 229 阅读 ID:1748
将门
将门

本文中,研究者为神经结构搜索方法设计了一个孪生对比机制以增强与目标重识别任务的适配性。这一针对性设计为搜索过程提供了更合适的监督信号。另外,作者提出了一个多尺度交互搜索空间来建立合适灵活的多尺度特征利用方式。通过一个空间对齐模块,MSINet在全监督和跨域任务上都达到了最先进的性能。

论文题目:

MSINet: Twins Contrastive Search of Multi-Scale Interaction for Object ReID 

论文链接:

https://arxiv.org/abs/2303.07065 

代码链接:

https://github.com/vimar-gu/MSINet

一、引言

神经结构搜索(Neural Architecture Search, NAS)方法能够针对特定的任务设计合适的网络结果,从而大幅提升在该任务上的模型性能,也因此得到了目标重识别领域的关注。之前的工作在优化目标和搜索空间上针对目标重识别任务进行了探索,但他们忽视了图像分类和重识别任务间的差异,导致搜索得到的结构并不是最优的。我们提出了一个孪生对比机制(Twins Contrastive Mechanism, TCM)以提供对于重识别结构搜索更合适的监督。TCM减少了训练和验证数据中的类别重叠,帮助NAS模拟了更真实的重识别训练场景。

随后,我们设计了一个多尺度交互(Multi-Scale Interaction, MSI)搜索空间,来对多尺度的特征之间的合理交互方式进行探究。此外,我们还提出了一个空间对齐模块(Spatial Alignment Module, SAM) 来进一步增强遇到不同数据域时模型注意力的一致性。我们搜索得到的网络在轻量化的基础上在全监督和跨域的场景下都达到了state-of-the-art的性能。

二、多尺度交互孪生对比搜索方法

2.1 孪生对比机制

NAS方法关注于针对特定的数据和任务搜索最优的网络结构。基础的可微分结构搜索方法在训练时维护一组结构参数,代表在每个节点上对每个操作选项的选取权重大小。基本的训练流程为,从训练集中选取一部分数据作为验证集。训练集数据被用来更新正常的模型参数,在训练过程中,每个节点的输出是节点上每个操作选项输出的加权平均。验证集数据则用来更新结构参数。对于基础的分类任务而言,训练集和验证集共享一样的类别和一个线性分类器用来计算交叉熵损失函数。

重识别任务和一般的分类任务不同,其训练集和测试集之间不存在类别的重叠。对于重识别任务,搜索方式和实际训练方式之间的不一致性就会导致搜索得到的网络不是最优的。针对这一问题,我们提出了一个孪生对比机制。我们将一般NAS方法中的分类损失从交叉熵损失更换成了对比损失。对于训练集和验证集,我们分别维护了一个memory bank来动态地更新每一个类别的特征,并用这一特征进行对比损失的计算。这样,我们摆脱了对线性分类器的依赖性,从而实现了训练集和验证集之间类别的解绑。

实际的训练流程与一般的可微分NAS方法一致,模型参数基于训练集数据进行更新,结构参数基于验证集数据进行更新,两个训练步骤交替进行。在训练结束后,对每一个节点选取权重最大的选项作为最终的结构选择。

2.2 多尺度交互搜索空间

对于搜索空间,我们主要围绕如何更好地利用多尺度特征进行展开。如图所示,在一个网络块(cell)中,数据通过两个有不同感受野大小的分支往前传递。在两个分支之间,我们置入了两个交互模块,进行特征之间的信息交换和融合。我们提出,在网络的不同层次中,合适的交互操作应该是不同的。因此,对于交互模块,我们共引入了4个不同的操作选项:

第一个是None操作,直接输出原始的特征;

第二个是Exchange操作,将两个分支的特征直接进行交换;

第三个是Channel Gate,利用一个两分支共享的通道维度的可学习attention进行特征的筛选;

第四个是Cross Attention。对于经典的Self Attention模块,原始的特征图先被转换为query和key,随后进行响应的计算。我们提出交换两个分支的key特征,从而进行两个分支特征之间的相关度计算。

在cell的最后,两个分支的特征通过相加进行融合。值得注意的是,该搜索空间所涉及的参数量非常有限,因此,我们可以对网络中每一个交互模块都进行搜索。在一般的可微分结构搜索方法中,由于涉及到的参数量较大,只能将整个网络中网络块的布局固定,搜索网络块的内部结构。但这与我们在网络的不同层设置不同的交互方式的初衷不符。而我们提出的搜索空间可以让我们更灵活地得到不同网络层次中合适的交互方式的选择。

2.3 空间对齐模块

重识别任务涉及到多相机系统,不同相机拍摄得到照片在角度、分辨率、光照条件和遮挡情况上的差异会对识别准确率带来很大的影响。对于某些样本,网络可能会错误地关注到一些劣质的信息,比如背景区域。为了让网络可以持续准确地关注到具有判别力的位置,我们显式地进行了图片之间空间关注位置的对齐。我们首先计算不同样本之间在空间层面上的相关性,并约束这些相关性的一致性,从而强化与大部分样本相关性高的部分。由于在全监督任务中,相机之间的差异已经显式地被网络所拟合,因此空间对齐模块主要大大提升了面对不同域图像时的泛化能力。

三、实验结果

3.1 网络特征可视化

通过上述的方法,我们搜索得到了一个网络结构,该结构是在MSMT17数据集上搜索得到的。为了分析所得到网络结构的合理性,我们对网络不同层次的特征图进行了可视化。在网络的浅层,卷积核所提取的主要是整体的轮廓信息,这时Channel Gate可以帮助过滤掉一些劣质的信息,如背景区域。当到了网络的深层之后,提取到的特征具有更特定的语义信息,并且相互之间的差异也更大了,此时Cross Attention可以更好地进行两个分支之间的信息交互和融合。我们将搜索得到的该结构称为MSINet。

3.2 网络性能对比

我们对MSINet与ResNet-50之间的差别进行定性和定量的分析。首先,我们对网络识别图像时的热力图进行可视化。可以看到,相比于ResNet-50主要关注更大层面上的结构信息,MSINet可以在多个尺度上捕捉该个体的一些特殊特征,从小尺度的装饰到较大尺度的行李架。MSINet展示出了对多尺度特征更好的利用。

接下来我们展示MSINet和一些其他方法的训练性能。表格的上半部分展示的是train from scratch的结果,下半部分则是在ImageNet上pre-train之后在数据集上fine-tune得到的结果。可以看到,ResNet-50虽然最为常用,但性能是最差的。从随机参数开始训练的MSINet已经在所有任务上都超越了pre-train后的ResNet-50。

相比于其他任务,MSMT包含了大量在光照条件、背景以及相机姿态上的变化,在这一数据集上ResNet-50与其他模型架构的差距是最大的。CDNet也是一个基于NAS得到的网络结构,但它仍然采用了一般NAS的方法。MSINet关注于对多尺度特征合理的利用方式,基于更合理的搜索机制得到了更好的结果。空间对齐模块对网络的跨域性能起到了很大的帮助。同时相比于一些其他的域泛化方法,例如instance normalization,会降低源域的性能,加入空间对齐模块对源域的性能并没有明显的影响。

接下来我们展示的是MSINet和ResNet-50检索序列的对比。ResNet-50主要关注整体的结构特征,因此提取出特征相似度较高的都是具有相似外观的图像;而MSINet可以通过对更细节信息的关注来返回正确的结果,如车辆例子中的空车斗,以及行人例子中手里拿着的袋子。此外,MSINet返回的高相似度负样本也具有这些特征,如车辆例子中,高相似度的负样本也具有空的车斗。

3.3 方法通用性验证

为了验证该搜索方法的通用性,我们将搜索流程应用到了另一个车辆数据集VeRi-776上,将得到的模型称为MSINet-VR。在这一数据集上搜索得到的结果与在行人数据集上的结果类似,在网络的浅层以Channel Gate为主,而在网络的深层则出现了更多Cross Attention操作。在模型性能上,两个网络取得的准确率也较为一致。这证明了我们的方法对于不同的目标重识别数据集是鲁棒的。

3.4 消融实验

另外,我们也与使用交叉熵损失的搜索机制进行了对比,我们将使用交叉熵损失搜索得到的网络称为MSINet-S。可以看到,它包含了大量的Exchange和Cross Attention操作。过于频繁的信息交换使得网络无法关注到具有判别力的特征,导致了性能上的弱化。

在右图中,我们展示了对于搜索机制的消融实验。我们将在一般分类任务的机制下,也就是训练集和验证集类别重合并使用交叉熵损失得到的结果称为CE-Overlap,这一结构得到的性能并不理想。简单地将交叉熵损失替换为对比损失只给性能带来了微小的提升。而当训练集和验证集类别解绑,也就是采用孪生对比机制之后,搜索得到的结构性能得到了很大的提升,这验证了我们提出方法的有效性。

四、结论

在这一工作中,我们为神经结构搜索方法设计了一个孪生对比机制以增强与目标重识别任务的适配性。这一针对性设计为搜索过程提供了更合适的监督信号。另外,我们提出了一个多尺度交互搜索空间来建立合适灵活的多尺度特征利用方式。通过一个空间对齐模块,我们提出的MSINet在全监督和跨域任务上都达到了最先进的性能。我们希望这一工作可以启发更多关注于设计适合重识别任务的网络的研究。

作者简介

赵 健

北京图象图形学学会理事,博士毕业于新加坡国立大学,导师为冯佳时、颜水成,研究领域为多媒体分析。围绕无约束视觉感知理解共发表CCF-A类论文30篇,以第一/通讯作者在T-PAMI、CVPR等国际权威期刊和会议上发表论文27篇,含一作T-PAMI×2(IF: 24.314)、IJCV×2(IF: 13.369)。曾入选中国科协及北京市科协“青年人才托举工程”,主持国自然青年科学基金等项目5项。获2022 CAAI吴文俊自然科学奖一等奖、PREMIA Lee Hwee Kuan奖、ACM MM最佳学生论文奖,6次在国际重要科技赛事中夺冠。

顾见洋

浙江大学五年级博士研究生,博士期间曾前往新加坡国立大学进行学术交流。主要研究方向为目标重识别和数据集蒸馏。目前在CVPR、ICCV、AAAI等期刊和国际会议上发表论文16篇。曾获得国家人工智能大赛、ECCV视觉域迁移挑战、CVPR AICity挑战、SoccerNet挑战、ActivityNet挑战等多项国内国际赛事冠军和前三名的成绩。

Illustration From IconScout By Pablo Stanley

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn