NeRF输入文本即可编辑3D场景！ETH联合谷歌提出文本驱动的生成对象框架InseRF

生成式人工智能（AIGC）爆火以来，深度学习中的很多领域都引来了新一轮的技术革命。在三维场景编辑领域（3D scene editing），基于深度扩散模型的场景编辑方法相比原来单一的NeRF框架获得了更加逼真的生成效果，这些方法往往通过对场景中已有对象的样式和外观进行调整或直接移动对象的位置来达到场景编辑的效果，而生成原来场景中没有的新对象仍然是这些方法的缺陷。

本文介绍一篇来自苏黎世联邦理工学院和谷歌合作完成的论文，本文提出了一种全新的三维编辑框架，称为InseRF，InseRF可以基于用户输入的文本描述在三维场景的NeRF中插入全新的对象，这为该领域注入了全新的创造力。在具体实现时，作者借助于2D文本到图像扩散模型的先验，首先将三维对象插入与2D对象结合起来，然后使用单视角对象重建方法将 2D 对象扩展到三维。最后，在单视角深度估计方法先验的指导下，将重建后的物体插入到场景中。作者在多个三维场景编辑基准上对InseRF进行了实验，实验结果表明，InseRF可以在不需要明确三维信息输入的情况下实现可控逼真的编辑效果。

论文题目：

InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes
论文链接：

https://arxiv.org/abs/2401.05335
项目主页：

https://mohamad-shahbazi.github.io/inserf

一、介绍

最近，使用扩散模型[1]与NeRF[2]结合的生成方法在诸多三维任务中都展现出了优越的性能，例如text-to-3D、single-image-to-3D、3D shape texturing和3D editing等任务。但是如何对场景中的单个对象进行期望编辑，同时保持整体的三维风格一致性，成为了这些方法需要重点考虑的问题。近期发表在ICCV2023上的 Instruct-NeRF2NeRF[3] 可以根据文本描述实现对三维场景NeRF执行多视图编辑，但是其局部编辑（理解用户的指定位置）和几何操作（如删除或插入对象）的效果不佳。

本文提出的InseRF可以很好的解决这一问题，InseRF可以以一种直观的人机交互方式来对三维场景进行新对象插入，如上图所示，用户可以先用鼠标在三维场景中随机划定一个目标区域，然后在呼出的对话框中输入目标指令：“向托盘中添加一个蛋糕”，InseRF就会在目标区域中生成一个效果逼真的3D蛋糕，同时场景整体的三维一致性也被保留下来。

上图展示了InseRF模型运行流程与Instruct-NeRF2NeRF模型的区别，InseRF可以在用户指定的区域框中插入三维对象，这种方法需要模型能够理解物体在三维空间中的准确位置、方向和比例，生成难度较大，尤其是当物体需要与场景中的其他物体接触时，此外在生成时，还需要考虑新对象与原始场景的风格一致性。

二、本文方法

InseRF的整体框架如下图所示，其将三维场景的NeRF重建图、待插入目标对象的文字描述以及场景参考渲染视图（指定边界框）作为输入，模型会返回同一场景的新NeRF重建图，其中包含了新生成的目标对象，并将其放置在边界框指定的位置。

InseRF的具体操作流程可以分为以下5个步骤：

（1）根据文本提示和二维边界框，在选定的场景参考视图中创建目标对象的二维视图

（2）根据在参考图像中生成的二维视图重建三维对象 NeRF 图

（3）借助单目深度估算，计算对象在场景中的三维位置

（4）将对象和场景 NeRF 融合生成新场景

（5）对融合后的三维NeRF进行后处理进一步细化生成效果

2.1 参考视图选取和三维对象NeRF重建

作为整体pipeline中的第一步，InseRF首先需要在初始场景中选取一个渲染视图作为参考视图，然后对用户输入的文本提示和边界框进行编码，这里作者选用了一个预训练的文本到图像扩散模型Imagen，为了将目标对象精确的限制在给定区域中，作者将位置掩码也作为条件送入到生成模型中。在参考视图制作完成后，作者直接提取指定边界框中的二维对象视图，对其进行三维重建。这里作者使用了在大规模三维形状数据集上预训练的三维感知扩散模型进行生成，这种模型包含了常见三维物体的几何形状和外观的强大先验，具有良好的新场景泛化能力。

2.2 基于深度估计的3D定位

在获得三维对象NeRF图之后，作者引入单目深度估计技术来计算目标物体的三维位置，具体来说，作者在参考图像上应用MiDaS[4]算法，来估计物体相对于参考摄像机的深度d，由于三维感知扩散模型生成的物体NeRF与当前参考相机的参数不同，所以直接将重建物体的NeRF防止在估计到的距离上，其视图比例会出现异常。因此作者提出了两种优化约束条件：

（1）物体必须位于估计的深度位置上

（2）物体在参考相机中的渲染视图应在比例和外观上与初始编辑相匹配

为了确保优化的初始状态正确，作者将物体的比例和距离初始化为:

在计算得到物体与参考相机的比例和距离后，作者通过将估计物体相对于相机坐标系进行3D旋转和平移来最终调整新物体在三维场景中的位置。

2.3 对象与场景NeRF融合

三、实验效果

本文的实验在 MipNeRF-360 和 Instruct-NeRF2NeRF 中提出的真实室内和室外3D场景数据集上进行，定量实验的评估指标使用CLIP文本-图像相似度（Text-Image）、定向文本-图像相似度（Directional）和时间方向一致性（Temporal）。其中CLIP文本-图像相似度开源在CLIP嵌入空间中衡量不同视点渲染的图像之间的余弦相似度。定向文本-图像相似度用来衡量图像和文本 CLIP 嵌入之间从原始场景到编辑场景的变化方向的相似性。时间方向一致性需要给定原始场景和编辑场景中的两个相邻渲染视点，随后计算这两个视点之间图像嵌入的变化与原始场景中图像嵌入的变化程度。下表展示了本文方法与其他两个baseline方法的对比结果，可以看到，本文方法具有明显的优势。

为了更加全面的评估InseRF在生成对象插入编辑方面的效果，作者在下图中展示了本文方法的可视化示例，图中左边两侧为输入图像和插入GT图像，右侧为不同视角的编辑结果。可以看出，InseRF可以在场景中插入3D风格一致的对象。作者还提到，InseRF能够在缺乏精确的 3D 放置信息的情况下，在不同的表面上插入对象，这是一项具有挑战性的任务。

在下图中，作者展示了InseRF与其他baseline的生成效果对比，其中，I-N2N方法在场景中插入新物体时往往会导致场景发生全局变化，并将现有物体修改为目标物体，而不是创建新物体。MV-Inpainting方法使用多视图mask有助于将2D编辑限制在对象区域内，并提供强有力的空间引导。但是，不同视点的二维编辑仍无法保持一致，相比起来，InseRF能够对场景进行局部修改，并在三维空间中插入三维一致的物体，整体的效果更加稳定逼真。

四、总结

本文提出了一种新型的三维空间编辑框架InseRF，InseRF可以将用户期望的对象文字描述以及场景单一参考视角中的二维边界框作为输入，随后以一种三维一致的方式在三维场景中生成一个新物体。为了实现逼真高效的三维编辑效果，InseRF依赖于二维扩散模型的先验和单视角物体重建方法，并且提出了一种场景NeRF融合方法，来将生成的新对象自然的融合到原有场景中，同时无需指定明确的三维位置信息，具有较强的场景泛化能力。

参考

[1] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. arXiv preprint arxiv:2006.11239, 2020.

[2] Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, and Ren Ng. Nerf:Representing scenes as neural radiance fields for view synthesis. In ECCV, 2020.

[3] Ayaan Haque, Matthew Tancik, Alexei Efros, Aleksander Holynski, and Angjoo Kanazawa. Instruct-nerf2nerf: Editing 3d scenes with instructions. In Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023.

[4] Ren´e Ranftl, Katrin Lasinger, David Hafner, Konrad Schindler, and Vladlen Koltun. Towards robust monocular depth estimation: Mixing datasets for zero-shot cross-dataset transfer. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44(3), 2022.

Illustration From IconScout By Delesign Graphics