ECCV 2022 | MixSKD:用于图像识别的Mixup自蒸馏方法

2023-02-28 21:13 457 阅读 ID:831
将门
将门

传统的知识蒸馏(Knowledge Distillation,KD)需要一个预训练的教师模型来训练一个学生模型,这种模式的缺点是需要设计并训练额外的教师网络,并且两阶段的训练过程提升了流水线开销。自网络知识蒸馏(Self-Knowledge Distillation,Self-KD),顾名思义,则是不依赖额外的教师网络进行指导,利用网络自身的知识来指导自身的学习,从而实现自我提升。

由于Self-KD没有额外的高性能教师模型进行指导,通常性能提升十分有限。最近,我们提出了一种从Mixup图像[1]中进行Self-KD的方法MixSKD,该方法通过从混合图像中挖掘知识,从而提升了模型图像识别效果,进一步在目标检测和语义分割的下游任务上也表明提出的MixSKD能使得backbone网络学习到更好的特征。

论文地址: https://arxiv.org/abs/2208.05768
代码地址: https://github.com/winycg/Self-KD-Lib*Codebase中集成了20余种流行的Self-KD和数据增强方法在图像识别任务上的实现。  

一、 引言

由于没有额外的教师模型,现有的Self-KD工作通常使用辅助结构或者数据增强的方式来捕捉到额外的知识,从而指导自身的学习。基于辅助结构的方法[2]通常利用添加的分支来学习主任务,Self-KD引导辅助分支和主干网络之间进行知识迁移。基于数据增强的方法[3]通常在输入端创建来自相同实例的两个不同增强的视角,Self-KD约束两个视角具有一致的输出。先前Self-KD方法的一个共同点是生成的软标签是都是来源于单独的输入样本的。

                                                                图1. MixSKD基本思想

二、方法

2.1 任务引导的分类误差

来自结构源的误差:使用原始的交叉熵任务误差来训练主网络f和K-1个辅助分支,使之获得分类能力和产生语义特征:

2.2 特征图Self-KD

使用L2距离来逼近原始图像插值得到的特征图与Mixup图像生成的特征图:

受对抗学习思想的启发,本文引入了一个判别器来判别特征来源于插值还是Mixup图像来提升特征逼近的难度,从而使得网络能够学习到有效的语义特征:

2.3 概率分布Self-KD

本方法使用KL散度去逼近原始图像插值得到的概率分布与Mixup图像产生的概率。在K-1辅助分支上使用如下的误差:

对于最终的主干网络,本方法进一步构造了一个self-teacher网络来提供高质量的软标签作为监督信号。self-teacher网络聚合网络中间层的特征,然后通过一个线性分类器输出类别概率分布,受到Mixup插值标签的监督:

主干网络最终输出的类别概率分布的监督信号来源于self-teacher网络:

2.4 整体误差

将上述误差联合起来作为一个整体误差进行端到端的优化:

MixSKD的整体示意图如图2所示。本方法引导网络在隐层特征和概率分布空间具有线性决策行为。从Occam剃刀原理上讲,线性是一个最直接的行为,因此是一个较好的归纳偏置。此外,线性行为可以在预测离群点时减少震荡。

                                                                   图2.MixSKD整体示意图

三、实验结果

3.1 MixSKD用于CIFAR-100图像识别

如表所示,MixSKD在不同网络结构上超越了先前的Self-KD与数据增强方法:

3.2 MixSKD用于大规模ImageNet图像识别并用于下游的目标检测和语义分割

如表所示,MixSKD用于大规模ImageNet图像识别并用于下游的目标检测和语义分割, 获得了最佳的表现。

3.3 预测分布分析

从左边两张图可以看出,MixSKD相比baseline具有更好的预测质量。对于公共分类错误的样本,MixSKD在错误类别概率上值更小,在正确类别概率上值更大。从第三张图上可以看出,在不同混合系数的混合图像下,MixSKD相比Mixup具有更低的错误率。

四、总结

本篇论文提出了MixSKD,一种Self-KD方法来约束网络在Mixup图像的特征图和类别概率层面上表现出线性行为。此外,本文构建了一个辅助的self-teacher网络来迁移外部的集成知识到主干网络。在计算机视觉基准上,MixSKD方法超越了先前最好的数据集增强和Self-KD方法。本文希望可以启发未来的研究可以从信息混合角度入手提升视觉识别表现。

参考文献

[1] Zhang et al. Mixup: beyond empirical risk minimization. ICLR-2018.

[2] Zhang et al. Be your own teacher: Improve the performance of convolutional neural networks via self distillation. ICCV-2019.

[3] Xu et al. Data-distortion guided self-distillation for deep neural networks. AAAI-2019.

作者:杨传广

文章来源:知乎【https://zhuanlan.zhihu.com/p/568058098】

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn