In-Context Learning开卷视觉任务，DeepMind提出快速适应新任务的“蜂鸟”模型

近来，随着ChatGPT和GPT-4等大模型的火热，使得学术界开始更多的关注于大模型背后的一些关键新技术，例如与ChatGPT高度相关的In-Context Learning（情景学习，也可以称为上下文学习）、Chain-of-thoughts（思维链推理）以及Reinforcement Learning from Human Feedback（人类反馈强化学习）等全新学习范式。在自然语言理解和生成领域，In-Context Learning极大程度地缓解了模型对特征任务进行微调的需求，研究人员可以仅仅通过设计一些更专业的prompts，来使模型获得解决多种下游任务的能力。

相比之下，计算机视觉社区中的大模型尚未达到这一效果。对于目前的视觉模型而言，针对一个特定的视觉任务，通常需要专门的解码器和微调策略才可以使模型适应到一个新的下游任务中。本文介绍一篇来自Google DeepMind研究团队的最新工作，他们探讨了如何在像语义分割、深度估计等密集视觉任务中设计类似的上下文学习机制，提出了一种名为Hummingbird（蜂鸟）的大型视觉模型，Hummingbird基于检索记忆机制实现了视觉任务中的上下文学习，并且提出了一种新的预训练模式来产生适应于多种下游任务的视觉表示。研究团队进行了广泛的实验评估，表明Hummingbird可以通过调整输入prompts的方式，实现无需微调模型执行各种场景理解任务的能力，同时也可以达到与使用标准微调方法相当的模型性能。

论文链接：https://arxiv.org/abs/2306.01667

一、引言

本文主要针对的视觉任务为密集场景理解任务，例如语义分割和深度估计。作者首先对完成这些任务所需要的视觉组件进行了研究，并且从（1）通用性、（2）参数效率和（3）快速适应三个方面对这些组件进行设计。为了实现与自然语言领域类似的In-Context Learning效果，作者团队首先将传统的非参数最近邻（NN）检索方法[1]拓展到密集场景预测任务中，这种基于检索的解码机制的优点就是不需要针对特定任务进行参数微调。因而作者认为这种方式是目前实现视觉In-Context Learning效果的最佳方案，其可以直接加载常见的标准视觉编码器（例如ResNet或ViT）来轻松的适应到其他下游任务中，同时保持一定的模型预测性能。下图展示了本文方法与其他标准微调方法在PASCAL和ADE20K数据集上的语义分割效果，可以看到，本文的最近邻检索方法可以在较少样本的情况下获得更好的微调效果。

此外，研究团队还发现，现有的视觉Transformer（例如MAE和DINO模型）虽然使用相同的预训练方式，但是他们在场景理解方面的差异却很大。因此作者提出了一种新型预训练方法来整合这一方面以产生相对通用的视觉表示，具体来说，作者主要做了以下两步操作：

在标准自监督预训练模式进行简单修改，称为上下文预训练，它通过使用从记忆池检索的特征来更新每个图像块的空间表示，随后再进行跨图像块的注意力计算。
提出了一种空间注意力池化机制（attention-pooling），其与常规的标准平均池化不同，通过计算图像内各块间的注意力权重，将整个网格区域内的特征以一种“上下文聚集”的方式转换为单个图像级的特征，随后送入到自监督损失函数中进行优化。

作者发现，通过这种方式得到的自监督特征具有很强的跨任务适应能力，在下游任务上的性能也与标准微调方法的性能非常接近。因此作者将本文方法命名为Hummingbird，以突出其在多种任务场景中的快速适应能力。

二、本文方法

2.1 基于检索机制的场景理解框架

2.2 上下文预训练

2.3 自监督训练目标函数

三、实验效果

本文的实验主要在两个密集场景理解任务上进行，对于语义分割实验，作者选取PASCAL VOC和ADE20K数据集，评价指标使用mIoU，对于单目深度估计实验，选择NYUv2数据集，评价指标使用均方根误差（RMSE）作为评价指标。作者选取了包括MAE和DINO等多种自监督方法作为对比方法，并且使用ViT-B版本作为基础视觉backbone。下表展示了本文方法使用检索记忆机制在场景理解任务上的性能对比，其中Hummingbird++代表使用监督学习进行训练。

从上表可以看出，本文方法与其他使用ViT-B编码器的方法相比，性能有很大的提升，同时随着数据集规模从ImageNet-1k增加到ImageNet-22k后，本文方法展现出了良好的扩展能力，但是其他方法（例如MAE）相比之下有些逊色。此外，作者还研究了本文方法在跨架构情况下的性能表现，如上图底部展示了该方法的性能随着编码器参数规模的增加而有了显著提高，并且明显优于其他方法，甚至是一些经过监督学习微调的方法。

此外，作者还重点评估了本文方法在下游任务的快速适应能力，作者选取了目前快速适应任务领域中两个常用基线（Linear + frozen和Linear + E2E FT，E2E FT代表端到端标准微调）进行对比，下表展示了它们在PASCAL VOC和ADE20K数据集上的微调性能对比，可以看到，本文方法的性能明显优于其他两种方案。

同时，作者也评估这些方法在微调过程中的用时情况，如下图所示，对于本文方法，仅需要5分钟（通过在下游训练集上训练1个epoch）就可以构建一个高性能的NN解码器（PASCAL VOC上为70% mIoU，ADE20K 上为 28%）。相比之下，Linear + frozen方法的收敛速度仅次于本文方法，但是其峰值性能明显低于Hummingbird中的NN解码器。

四、总结

本文受大语言模型中上下文学习（In-Context Learning）的启发，重点探讨了在计算机视觉密集预测任务中引入上下文学习范式所必须的基础结构，为此，本文研究团队提出了一种非常简单的非参数最近邻检索机制，它不仅与下游任务无关，而且不需要微调专门的解码器。随后，作者进一步提出了Hummingbird，作为一种新型的自监督预训练方法，Hummingbird可以在预训练阶段重点关注跨图像块之间的上下文注意力，使其具有快速适应到下游任务中的能力。通过将Hummingbird预训练后的模型作为一种通用编码器，并且与基于检索记忆机制的解码器相结合，本文带领视觉社区向上下文学习领域迈出了重要的一步。

参考

[1] O. Boiman, E. Shechtman, and M. Irani. In defense of nearest-neighbor based image classification. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2008.

作者：seven_