语言模型来卷3D视觉了，UC伯克利提出语言嵌入的NeRF框架LERF

神经辐射场（NeRFs） 作为最近几年3D计算机视觉社区中最为火热的话题，近日又迎来了大升级。之前的NeRF模型的输出可以看做是一个富含深度信息的密度场，其中可以表示的语义信息很少，这限制了NeRF模型在更高级任务上的语义理解能力。

近期以GPT系列为代表的语言模型向社区宣布，发展以自然语言为基础的深度学习模型可能是我们迈向通用人工智能的重要一步。人类使用自然语言来描述物理世界，其中包括所处环境中3D物体的视觉外观、语义、抽象关系等信息。结合这一点，来自UC伯克利的研究者们提出一种新型的NeRF模型，称为语言嵌入神经辐射场（Language Embedded Radiance Fields，LERF），顾名思义，这是一种将自然语言表征嵌入到NeRF中的方法。作者使用的OpenAI公司提出的明星模型CLIP，在CLIP的加持下，LERF可以轻松的实现3D环境中的开放式语言查询功能。

论文链接：

https://arxiv.org/abs/2303.09553

项目主页：

https://www.lerf.io/

想象在一个三维的厨房场景环境，如上图所示，如果我们想要直接找到胡椒粉（pepper mill）和植物油（vegetable oil），只需要对LERF输入这些目标，LERF就会在场景中迅速查询得到这些目标物体的位置，并生成相应的3D图，如下图所示。

除了这些日常生活中比较常见的目标，LERF还可以进行非常细粒度的3D目标查询，例如下图中，LERF可以根据手办的名称，快速在桌面上找到位置非常隐蔽的手办”瓦尔多（waldo）“。

这种查询能力不仅需要LERF可以处理自然语言的输入，还需要在多种语义尺度上对目标的抽象表示进行融合和对齐。通过将CLIP模型嵌入到模型中，LERF可以学习到富含语言和空间语义的多尺度辐射场，并通过一种多视图训练方式来优化LERF中的语言、3D目标联合嵌入。在模型推理阶段，LERF可以实现一种实时的3D场景互动查询效果，这一功能在机器人导航、3D场景视觉理解和3D场景互动等方面都有广泛的应用潜力。

一、引言

目前，神经辐射场（NeRFs）已经发展成为3D计算机视觉领域中一种常用的工具，其可以将现实世界中的复杂三维场景使用数字形式来表示和计算，NeRF的输出往往是一些五颜六色的密度场，缺乏明确的语义建模。本文提出的LERF通过将像CLIP这样的文本视觉模型的嵌入引入到3D场景中，可以建立起3D视觉与文本语言之间的桥梁。这样设计的LERF有三个明显的优势：

1. LERF直接内置CLIP，而不需要通过COCO这样的数据集进行微调，也不需要引入bounding box来作为提示信息。

2. 由于LERF是从多尺度的多个视图中提取CLIP嵌入，这样得到的获得的文本查询向量更适用于3D场景，可以直接在三维环境中进行文本查询，而不必渲染到多个视图。

3. LERF可以在几乎不影响原始NeRF模型推理速度的情况下进行训练，训练过程完成后，LERF可以为各种语言提示实时生成三维场景图。

二、本文方法

给定一组校准后的输入图像，LERF将其中物体的位置和物理尺度作为输入并提取其CLIP向量来嵌入到NeRF的3D场中，整体流程如下图所示。需要清楚的一点是，对于模型来说，根据文本来查询单个3D点的CLIP嵌入是一个相当不明确的任务，因为CLIP本质上是一个全局图像嵌入，其本身不利于进行像素级的特征提取。

为了缓解这个问题，作者在LERF中设计了一种基于区域的嵌入学习方式，具体来说，可以以某一个3D样本点作为中心，并设定围绕该中心的一个体积空间，裁剪其中的所有训练视图的平均CLIP嵌入来作为整体嵌入。通过执行从点到空间的文本查询，LERF可以有效地对当前输入图像的密集场预测进行监督，在模型推理阶段，LERF可以将不同区域尺度作为模型条件，并以像素级对齐的方式来对所给图像的3D场进行预测。

2.1 多尺度监督下的区域渲染

2.2 DINO正则化

在加入CLIP的语言嵌入监督后，LERF已经能够产生初步的语言三维目标查询能力，但是其仍然不够精细。如下图所示，作者展示了LERF在一些文本查询情况下的相关性热图，可以看到LERF对于一些目标的关键区域，渲染的置信度不高。如下图第一行的“手指”例子中，手指前景与背景分离的区域存在较多的异常值，为了缓解这一问题，作者在语言嵌入监督的基础上加入了额外的DINO正则项[1]。在加入DINO正则约束后，能够明显提升LERF的渲染置信度。

2.3 LERF的查询过程

通常，像CLIP这样的语言模型是在zero-shot分类的实验设置上进行评估的，模型可以从一组预定义的类别中选择一个最接近的类别作为预测结果。但是在开放环境中，LERF缺乏这样的预定义类别列表。作者因而提出了一种可以在给定任意文本查询的情况下从LERF查询3D相关目标映射的方法。这种方法由两个步骤构成：

三、实验效果

作者在实验部分重点评估了LERF的三维场景查询能力，其中涵盖了开放式词汇实验设置。由于现有的3D扫描数据集缺乏完整的三维空间场景，大多只提供单个对象的扫描数据，并且存在一定的长尾问题。为了能够突出LERF可以渲染查询真实环境数据的能力，作者团队专门收集了一个评测数据集，该数据集由13个场景构成，其中混合了野外（杂货店、厨房、书店）和长尾目标场景（下午茶时间、小雕像、手）。作者使用iPhone上的Polycam程序捕捉三维场景数据，图像分辨率使用994×738的，下图展示了在其中几种场景中，LERF的三维查询效果。

此外，为了评估LERF在三维场景中定位文本提示的能力，作者为5个场景中的72个对象渲染了新视图和标签边界框。对于3D定位方法，如果最高置信度的像素落在标注框内，或者模型预测框的中心落在标注框内，就可以认为3D目标定位成功。作者将LERF与目前两个SOTA方法LSeg[2]和OWL-ViT[3]进行对比，结果如下表所示，可以看出，LERF的语言嵌入定位能力大大超越了LSeg，并且在长尾目标定位方面也优于OWL-ViT方法。

四、总结

本文提出了一种将图像文本模型嵌入到NeRF渲染pipeline中的通用框架LERF，LERF可以一种密集、多尺度的方式将原始CLIP的嵌入融合到NeRF中，且不需要明确的物体bounding box标注和微调过程。LERF也可以在多种空间尺度中保留CLIP嵌入的完整性，这使得其能够处理各种自然语言查询，包括不同的视觉属性概念。LERF的惊艳效果再次向我们展示了在计算机视觉社区引入语言模型的魅力，可以想象如果在LERF中嵌入的不是简单的CLIP，而是GPT-4或者ChatGPT，是否会带来更惊人的效果呢。

参考

[1] Mathilde Caron, Hugo Touvron, Ishan Misra, Herve ́ Je ́gou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. Emerging properties in self-supervised vision transformers. In Proceedings of the IEEE/CVF international conference on com- puter vision, pages 9650–9660, 2021.

[2] Boyi Li, Kilian Q Weinberger, Serge Belongie, Vladlen Koltun, and Rene ́ Ranftl. Language-driven semantic segmentation. arXiv preprint arXiv:2201.03546, 2022.

[3] Matthias Minderer, Alexey Gritsenko, Austin Stone, Maxim Neumann, Dirk Weissenborn, Alexey Dosovitskiy, Aravindh Mahendran, Anurag Arnab, Mostafa Dehghani, Zhuoran Shen, et al. Simple open-vocabulary object detection with vision transformers. arXiv preprint arXiv:2205.06230, 2022.

语言模型来卷3D视觉了，UC伯克利提出语言嵌入的NeRF框架LERF

一、引言