CVPR 2023 | 语义分割新范式：点监督遇上隐式场

密集预测(dense prediction)网络是解决诸如语义分割和图像本征分解(intrinsic decomposition)等场景理解问题的基本框架。现有工作[1-2] 通常使用像素级标注作为训练密集预测模型的监督。但是像素级别的密集标注非常昂贵，对一些任务也无法给出精准的像素标注，如在图像本征分解中为野外(in-the-wild)图像标注特定的反射率。这促使我们转而利用廉价的稀疏点监督来训练密集预测网络。

为利用点监督的自身特性，我们提出了一种基于坐标点查询的密集预测网络，它可以预测图像空间中每个连续二维坐标点的对应值，该方法被命名为密集预测场(Dense Prediction Field, DPF)。受最近成功的隐式表示[3-4]的启发，我们使用隐式神经函数来实现 DPF。DPF 为连续的二维空间位置生成可解析的视觉特征，从而允许输出任意分辨率的预测结果。

论文题目：DPF: Learning Dense Prediction Fields with Weak Supervision

论文链接：https://arxiv.org/abs/2303.16890

代码链接：https://github.com/cxx226/DPF

一、解决方案

网络架构

隐式密集预测场

二、实验结果

我们分别在语义分割数据集PASCALContext、ADE20K和图像本征分解数据集IIW上进行了定量和定性实验，分别如下所示：

DPF对不同backbone的影响，包含使用CNN-based网络(FASTFCN[8])与Transformer-based网络(DPT[1])两组baseline，均有大幅提升：

对PASCALContext（第一行）、ADE20K（第二行）和IIW（最后一行）进行定性比较的结果:

为探究backbone与guidance encoder的影响，我们还对latent code z与g分别进行了t-SNE可视化：

在本文中，为解决像素级标注的昂贵代价，我们专注于点监督密集预测，并提出了一种针对点坐标查询进行密集值预测的新范式——密集预测场 (DPF)。我们使用隐式神经函数对 DPF 进行建模，从而与点监督进行兼容，并生成更加平滑的预测结果。为在语义分割和图像本征分解任务上验证 DPF 的有效性，我们以三个大型公共数据集PASCALContext、ADE20K和IIW为benchmark，DPF在上述数据集上均达到SOTA的实验结果，相比baseline有显著提升。

参考文献

1. Vision transformers for dense prediction. In ICCV (2021)

2. Cerberus transformer: Joint semantic, affordance and attribute parsing. In CPVR (2022)

3. Deepsdf: Learning continuous signed distance functions for shape representation. In ICCV (2019)

4. LODE: Locally Conditioned Eikonal Implicit Scene Completion from Sparse LiDAR. In ICRA (2023)

5. Joint implicit image function for guided depth super-resolution. In ACMMM (2021)

6. Revisiting deep intrinsic image decompositions. In CVPR (2018)

7. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. In ECCV (2020)

8. Fastfcn: Rethinking dilated convolution in the backbone for semantic segmentation. In CVPR (2019)

作者：陈小雪