CVPR 2023 | 语义分割新范式:点监督遇上隐式场

2023-05-08 13:44 530 阅读 ID:1037
将门
将门

  密集预测(dense prediction)网络是解决诸如语义分割和图像本征分解(intrinsic decomposition)等场景理解问题的基本框架。现有工作[1-2] 通常使用像素级标注作为训练密集预测模型的监督。但是像素级别的密集标注非常昂贵, 对一些任务也无法给出精准的像素标注,如在图像本征分解中为野外(in-the-wild)图像标注特定的反射率。这促使我们转而利用廉价的稀疏点监督来训练密集预测网络。

为利用点监督的自身特性,我们提出了一种基于坐标点查询的密集预测网络,它可以预测图像空间中每个连续二维坐标点的对应值,该方法被命名为密集预测场(Dense Prediction Field, DPF)。受最近成功的隐式表示[3-4]的启发,我们使用隐式神经函数来实现 DPF。DPF 为连续的二维空间位置生成可解析的视觉特征,从而允许输出任意分辨率的预测结果。  

 论文题目:DPF: Learning Dense Prediction Fields with Weak Supervision

论文链接:https://arxiv.org/abs/2303.16890

代码链接:https://github.com/cxx226/DPF  

一、解决方案

网络架构

隐式密集预测场

二、实验结果

我们分别在语义分割数据集PASCALContext、ADE20K和图像本征分解数据集IIW上进行了定量和定性实验,分别如下所示:

                                                            表1 DPF在IIW上的定量结果
                                                表2 DPF在PASCALContext上的定量结果
                                                        表3 DPF在ADE20K上的定量结果

DPF对不同backbone的影响,包含使用CNN-based网络(FASTFCN[8])与Transformer-based网络(DPT[1])两组baseline,均有大幅提升:

                                                    表4 DPF使用不同backbone的定量结果

对PASCALContext(第一行)、ADE20K(第二行)和IIW(最后一行)进行定性比较的结果:

                                                     图2 DPF使用不同backbone的定量结果

为探究backbone与guidance encoder的影响,我们还对latent code z与g分别进行了t-SNE可视化:

                                                          图3 latent code的t-SNE可视化

在本文中,为解决像素级标注的昂贵代价,我们专注于点监督密集预测,并提出了一种针对点坐标查询进行密集值预测的新范式——密集预测场 (DPF)。我们使用隐式神经函数对 DPF 进行建模,从而与点监督进行兼容,并生成更加平滑的预测结果。为在语义分割和图像本征分解任务上验证 DPF 的有效性,我们以三个大型公共数据集PASCALContext、ADE20K和IIW为benchmark,DPF在上述数据集上均达到SOTA的实验结果,相比baseline有显著提升。

参考文献

1. Vision transformers for dense prediction. In ICCV (2021)

2. Cerberus transformer: Joint semantic, affordance and attribute parsing. In CPVR (2022)

3. Deepsdf: Learning continuous signed distance functions for shape representation. In ICCV (2019)

4. LODE: Locally Conditioned Eikonal Implicit Scene Completion from Sparse LiDAR. In ICRA (2023)

5. Joint implicit image function for guided depth super-resolution. In ACMMM (2021)

6. Revisiting deep intrinsic image decompositions. In CVPR (2018)

7. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. In ECCV (2020)

8. Fastfcn: Rethinking dilated convolution in the backbone for semantic segmentation. In CVPR (2019)

作者:陈小雪

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn