基于深度可分离卷积和注意力感知机制的多视图立体三维重建算法

本文提出了一种新颖的由粗到细的多视图立体三维重建框架，其特点是利用3D深度可分离卷积和多维深度-空间注意力感知机制来实现代价体正则化，从而使得模型能够估计准确的深度图，进而实现更加准确且高效的三维点云重建。本方法在内存占用和运行时间方面均优于主流的方法，同时本文在目前公用的DTU和TnT数据集上进行了实验，结果表明本方法达到或超越了现有的state-of-the-art方法，并具有潜力在其他领域推广使用。本文相关科研成果已于2023年5月被CAIS(Complex & Intelligent Systems)接收。

论文链接：https://link.springer.com/article/10.1007/s40747-023-01106-3
代码链接：https://github.com/zs670980918/DSC-MVSNet

一、背景介绍

多视图立体被广泛应用于增强现实和三维重建。MVS的目标是通过建立密集的对应关系，利用一系列相机校准的二维图像重建三维场景，这可以被表述为一个优化问题。因此，早期马尔科夫离散优化和空间补丁扩散等优化方法被用来解决这个问题。然而，上述方法在具有弱质地或非朗伯斯表面的场景中可能导致不完整的表面。

随着近年来深度学习的发展，通过稠密重建算法结合深度学习的方法来解决该优化问题成为了主流的研究方向。由于代价体的准确性直接决定了最终重建点云的质量，所以代价体正则化网络的改进成为了这些方法的主要研究内容。目前绝大多数方法均基于3D CNN构建UNet来实现代价体的正则化，尽管它们中有一些高效的策略被提出，但是这些方法都不可避免地使用了3D CNN来对参与代价体的正则化，从而导致模型的计算开销十分巨大，这对于低资源的设备是十分不友好的。

尽管后面一些基于RNN实现高效策略的方法被提出，但是这些方法在代价体正则化的过程中由于不能像3D UNet那样在代价体上聚合足够的上下文信息~(存在遗忘问题)，从而导致其性能受到一定的限制。因此，如何在保持性能的前提下大幅减少计算量是本文的主要研究问题。

二、方法介绍

整理架构

DSC-MVSNet的架构，如图二所示。在第一部分，我们使用一个informative feature extraction network来提取特征以建立粗糙的代价体。在第二部分，我们使用我们的DSC-Attention 3D UNet来正则化代价体。在第三部分中，我们使用一个Feature Transfer Module对低分辨的深度图进行上采样。在第四部分，我们使用GaussNewton层来进一步细化深度图。左下部分是我们的三维深度可分离卷积的示意图。右下部分是我们的深度-空间注意力感知模块的示意图。

网络流程描述:

3D深度可分离卷积

受2D深度可分离卷积机制的启发，我们试图通过3D 深度可分离卷积来代替普通的3D CNN，从而减少代价体正则化的计算。由于MVS本身是一个三维任务，因此我们希望结合代价体本身的特性来设计了3D卷积的划分策略。由于代价体本身是通过匹配不同深度的不同视图中不同空间位置的特征点的相似性来构建的。因此，我们考虑将3D CNN分为3D纵深卷积（纵深是深度维度，可以对深度维度的代价信息进行代价聚合）和3D点状卷积（点状是空间维度，对空间维度的代价信息进行代价聚合。

如下图三所示，在正则化过程中，我们用青色表示体素的感受野。水平是深度维度，垂直是通道维度。H和W分别表示高度和宽度。

此外，我们还将我们的3D-DSC正则化方案与其他主流正则化方案进行理论上的比较，以证明我们方案的有效性。我们在上图中展示了四种正则化方案：

（a）空间正则化（SR）是一种代价聚集方法，它过滤不同深度的代价信息。然而，由于感受野较小，SR的正则化结果受到很大影响；

（b）3D CNN正则化是一种基于CNN的方法，它使用3D CNN来获得更大的感受野以进行代价体正则化。但它造成了更多的计算成本；

（c）循环正则化是一种基于RNN的方法，它提出了顺序处理，将代价体分成与深度无关的代价图，以减少计算计算开销；

（d）我们的3D-DSC正则化是一种基于DSC的方法，我们将成本体积通过3D纵深卷积划分成中间特征图，然后应用3D点状卷积来建立这些中间特征图之间的关系，在减少计算开销的同时保持模型的性能。

与SR相比，我们的方法可以获得一个更大的感受野。虽然3D CNN正则化可以获得更好的性能，但它也会产生更高的计算成本。另一方面，我们的方案可以用较低的成本获得类似的性能。此外，循环正则化方案和我们的正则化方案是两个不同但相似的想法，我们都将代价体分割成中间特征图以降低计算成本。因此，我们得出结论，采用3D-DSC作为我们的正则化方案是可行且有效的。

多维深度-空间注意力感知机制

如下图四所示，针对不同深度的相似性置信度问题，我们使用3DA来缓解它。红色体素代表相似性置信度；为了表示成本量，我们排除了通道维度；浅红色表示置信度被削弱。

虽然在3D-DSC之后，代价体信息可以被有效地聚合，但仍然存在着影响代价体质量的代价信息(我们将其定义为"相似性置信度问题")。当来自不同关键点的特征被错误地匹配时，相似性置信度问题就会发生，这将导致代价体在同一空间位置上不同深度上存在相似性置信度，从而导致深度值估计不准确。如上图所示，一个参考特征在不同深度匹配了两个相似的源特征（图中佛像的两只手），而不同深度的置信度在代价体中的置信度中是相似的。这些相似的置信度会让估计的深度值不准确。由于注意力机制可以通过计算不同的权重来突出重要的信息，因此我们可以尝试使用注意力机制来解决相似性置信度问题。为此，我们提出了一个多维深度-空间注意力感知机制，该模块使用整个代价体的信息来计算注意力权重，以增强或削弱不同深度的相似置信度，从而缓解了这个问题。

代价通道注意力模块：它由一个多层感知机（MLP）构成，该感知器作用于代价体的多维代价通道，通过聚合不同维度的代价通道信息来得到代价通道注意力增强权重。公式定义如下:

空间-深度注意力模块：与普通的注意力不同，它采用的是完全感知（分别聚合空间和深度两个维度），空间-深度注意力模块是分别在两个不同维度上（如空间和深度）来感知代价信息。首先，我们使用核大小为1×7×7（同一深度的不同位置）的面向空间的各向异性卷积，沿空间方向聚合代价信息，同时保持同一深度的有效匹配代价信息。然后，使用一个面向深度的各向异性卷积，核大小为7×1×1（同一位置的不同深度），作用于深度维度，它有效地增强或削弱了同一空间位置不同深度的匹配代价信息。最后，我们使用核大小为7×7×7的各向同性卷积，作用于多维度（空间、深度），以充分聚合上述过程的代价信息。公式定义如下:

最后我们通过级联这两个模块形成多维深度-空间注意力感知机制。公式定义如下:

特征迁移上采样模块

然后，我们使用OWC块来计算用于指导深度图向上采样的权重和偏移量，其中k是一个超参数，我们设定k=12。然后我们用偏移量来指导特征采样，并将采样的特征与权重相乘，得到最终结果。最后，我们通过一个残差加法块得到HR深度图。公式定义如下:

三、实验结果

DTU

在DTU数据集上的结果:

我们在DTU数据集上与现有的state-of-art方法的定量对比如上表所示。我们的方法通过比较两种不同类型的方法（传统方法、基于深度学习的方法）都取得了state-of-art的性能。比如，我们的方法实现了最佳的Overall指标，同时也在Acc上达到了第二好的性能。

可视化效果对比图:

上图展示了DSC-MVSNet与大多数state-of-art方法的定性结果。如图中彩色方框(红色、黄色、绿色)所示，我们的DSC-MVSNet能够重建了一个更完整的点云这正好对应了我们在表格中最佳的Overall指标。

TnT

在Tanks and Temples Intermediate数据集上的结果:

上表展示了我们的模型的泛化能力。可以看出与传统的多视点立体重建方法(Colmap、Pix4D、OpenMVG+OpenMVS)相比，我们的DSC-MVSNet在所有场景下都获得了更好的重建分数。此外，我们的DSC-MVSNet在TnT上的F-score为53.48，超过了所有列出的基于深度学习的MVS方法。

可视化效果对比图:

此外我们还进行了定性分析。从上图可以看出，相比较于我们DSC-MVSNet的重建结果，PatchmatchNet的结果具有更多不准确的点和噪声。而我们的方法能够在降低噪声的同时获得更准确的点位置，这得益于我们提出的多维深度-空间注意力感知机制。

性能对比

和主流方法的性能对比:

如上表所示，我们展示了和现有的state-of-art方法在模型参数、内存消耗和运行时间等性能指标上的对比。结合定量结果和上表的结果，我们可以看出：我们的框架使用了比大多数最先进的深度学习方法更低的模型参数、内存消耗和时间，并且在性能上非常具备竞争力。尽管我们的方法运行速度较慢，但也具备了较小的内存消耗和参数(5.5 GB，253585)。

动态效果图

效果图是基于BlendedMVS中的一个场景进行制作的：

四、总结

本文我们提出的DSC-MVSNet是一个新颖的由粗到细的端到端框架，它用于实现更加有效和更加准确的深度估计。在这项工作中，我们首先使用3D深度可分离卷积来构建我们的正则化网络，以较低的参数和内存成本实现代价体的正则化。我们还提出了一个多维深度-空间注意力感知机制，让正则化网络能够更加专注于更重要的代价信息从而来缓解特征错误匹配的问题。此外，我们还提出了一个高效的特征迁移上采样模块来对低精度深度图进行上采样。

实验结果证明了我们方法的有效性和高效性，方法在内存占用和运行时间方面均优于主流的方法，同时超越了现有的state-of-the-art方法，并具有潜力在其他领域推广使用。

作者：StriveZs

本文来源：公众号【数智地球】