ICML 2023 | 重新审视判别式与生成式分类器的理论与启示

论文题目：

Revisiting Discriminative vs. Generative Classifiers: Theory and Implications

论文链接：

https://arxiv.org/abs/2302.02334

代码链接：

https://github.com/ML-GSAI/Revisiting-Dis-vs-Gen-Classifiers

一、概述

近年来，深度表征学习（deep representation learning）已经在计算机视觉、自然语言处理、多模态任务等众多领域取得了长足的进展。一个基本的范式是先在大量（有标注或无标注）数据上预训练一个模型，然后在具体的下游任务迁移上对模型进行微调。在迁移过程中，一个常用的方法是线性评估（linear evaluation/ linear prediction），即将网络除最后一层外的预训练参数全部冻结，仅对最后一个线性层进行微调。线性评估由于其轻量简便，在模型日益增大的时代显得越发重要。

重新审视线性评估的训练过程，我们可以将网络倒数第二层之前看成一个固定的特征提取器，基于在下游任务上提取到的特征，我们对最后一个线性层进行微调。这完全等价于给定特征的情况下，训练一个多分类逻辑斯特回归（multiclass logistic regression）。一个问题自然地涌现了出来：这是最佳的选择吗？

于是，在本文中，我们挑战了线性评估中默认采用多分类逻辑斯特回归的设定，探索其他线性分类器在迁移中的潜在优势。具体地，我们考虑了一个极其简单的生成式线性分类器，即朴素贝叶斯（naive Bayes），并将其与默认的逻辑斯特回归进行对比。

这样的idea重新回顾了一个经典的机器学习课题，即生成式学习与判别式学习的对比。事实上，逻辑斯特回归与朴素贝叶斯间的对比已经在2002年的NIPS被吴恩达等人研究过[1]，他们发现朴素贝叶斯需要更少的样本来训练至收敛，并在很多数据集上观察到了 "two regimes"现象，即由于朴素贝叶斯能够更快的收敛，当样本量较少时，朴素贝叶斯总能在性能上击败逻辑斯特回归。如下图所示，其中m为样本量，error为分类错误率，虚线为逻辑斯特回归，实线为朴素贝叶斯：

但是，受时代影响，他们的论文存在如下限制：

理论上，他们仅考虑了二分类的情况，这与多分类的实际应用不同。
理论上，讨论逻辑斯特回归时，他们假设经验风险最小化（Empirical risk minimization）能够被用在0-1 loss上。而优化0-1 loss实际上是一个N-P hard的问题。
实验上，受于时代限制，他们只能在低维手工特征上观察实验现象。"two regimes"现象在深度表征时代仍否成立，仍不清楚。
弱弱提一句，作者搜遍全网也没搜到他们的具体证明。

对应地，我们充分考虑了这些问题，重新探讨了逻辑斯特回归与朴素贝叶斯间的对比。我们的亮点如下：

二、主要的理论结果

2.1 一些符号与定义（避免乱码，还是贴图）

2.2 我们的目标

我们最终关心的是朴素贝叶斯和逻辑斯特回归关于0-1 loss的样本复杂度，即需要多少样本，训练得到的分类器和最优分类器（无穷样本下）的差距能够被控制在一个小范围内。具体地，我们需要分别bound以下两个估计误差（estimation error）：

2.3 朴素贝叶斯

朴素贝叶斯部分，我们的假设与论文[1]保持一致。事实上，如果能把之前论文[^1]二分类的证明自己补全，多分类的证明其实就是将其中定义的一些关键量做多分类的推广，具体的证明思路是较为类似的。我们在此只对证明思路做一个high level的介绍，具体细节可见我们的论文。

2.4 逻辑斯特回归

逻辑斯特回归部分，我们去除了论文[1]中直接对0-1 loss做经验风险最小化的假设。我们基于实际深度表征学习的情况，引入了一个更弱的假设，即，对于logistic loss，最优逻辑斯特回归的泛化误差是接近贝叶斯误差（即任意可测函数能达到的最小损失）的。预训练模型抽取的特征是接近线性可分是这个假设的一个充分条件，而这已经在理论[2]和实验[3]中都得到一定印证。

为了bound逻辑斯特回归关于0-1 loss的估计误差

我们的推导分为两步。

2.4.1 关于logistic loss的估计误差

我们先考虑 logistic loss，利用经典的推导技术（如Rademacher complexity），我们可以很容易推得关于它的估计误差。

值得一提的是，在ICML 2023中，我们发现该创始团队的新文章[6]也分析了广义的multiclass logistic loss （orz，好险），对于狭义的multiclass logistic loss，他们的结果与我们完全一致，故也享受着紧的保证。

2.6 理论结果总结

三、实验

3.1 模拟实验

3.2 深度表征实验

我们在多个预训练的视觉模型上进行了训练，囊括了有监督预训练和自监督预训练（对比学习，基于重建式的）。值得注意的是，在所有情况下，朴素贝叶斯比逻辑回归更快地接近其渐近误差，这与我们的理论结果一致。在多数的模型下（主要是监督式训练的模型），我们也观察到了“two regimes”现象，这表明了当下游任务训练数据有限时朴素贝叶斯的前景。如下图所示，在样本量较少的情况下，及其简单的朴素贝叶斯也有机会取得更好的性能。

参考文献

[1]: Ng, A. Y. and Jordan, M. I. On discriminative vs. generative classifiers: A comparison of logistic regression and naive bayes. In NIPS 2002.

[2]: HaoChen, J. Z., Wei, C., Gaidon, A., and Ma, T. Provable guarantees for self-supervised deep learning with spectral contrastive loss. In NeurIPS 2021.

[3]: Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., and Sutskever, I. Learning transferable visual models from natural language supervision. In ICML 2021.

[4]: Awasthi, P., Mao, A., Mohri, M., and Zhong, Y. H-consistency bounds for surrogate loss minimizers. In ICML 2022.

[5]: Awasthi, P., Mao, A., Mohri, M., and Zhong, Y. Multi-class H-consistency bounds. In NeurIPS 2022.

[6]: Mao, A., Mohri, M., and Zhong, Y. Cross-entropy loss functions: Theoretical analysis and applications.

文章来源：知乎

文章链接：https://zhuanlan.zhihu.com/p/641042101

Illustration From IconScout By nanoagency