旋转多尺度交互网络RMSIN，只需1080ti完美解决遥感图像指向性分割

这篇论文介绍了一项新的任务——指向性遥感图像分割（RRSIS），以及一种新的方法——旋转多尺度交互网络（RMSIN）。RRSIS旨在根据文本描述实现遥感图像中目标对象的像素级定位。为了解决现有数据集规模和范围的限制，本文构建了一个新的大规模RRSIS数据集（RRSIS-D），其中涵盖了多种空间分辨率的图像和具有尺度和角度多样性的分割目标（已公开！）。本文提出多尺度交互模块和旋转卷积（已开源！），以处理遥感图像的复杂性。实验证明，RMSIN方法在RRSIS任务上表现优于当前最先进的方法，为未来的研究提供了有力的基线。（1080ti即可跑！）

论文题目：

Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation

论文地址：

https://arxiv.org/abs/2312.12470

代码地址：

https://github.com/Lsan2401/RMSIN

一、动机

指向性遥感图像分割（RRSIS）是计算机视觉与自然语言处理相结合的前沿技术，旨在根据文本描述实现遥感图像中目标对象的像素级定位。然而，RRSIS任务的发展受到现有数据集规模和范围有限的制约。由于遥感图像具有俯瞰拍摄的特殊视角，和自然图片存在巨大的语义差距；且其目标物体具有丰富的尺度和角度变化，这极大提高数据集标注的所需难度。其所需要的人力和时间成本限制现有数据集的规模的扩大，现存数据集不足以将模型训练到关键任务的实际运用所需的精度水平。

此外，现有的基于自然图像指向性分割（RIS）方法应用于遥感图像时面临着局限性。如图 1 所示，遥感图像普遍存在多样的大尺度空间变化和多个方向出现的物体，这样巨大的语义差异使得训练于自然图像的SOTA方法在遥感图像上表现不佳。当前的 RIS 方法通常着重于实现视觉和语言特征的对齐，这些方法在边界清晰的上下文中具有良好的表现，但在面对遥感图像的混乱和非结构化性质时精度明显下降，在 RRSIS 任务中性能差距明显。这突出表明需要一种更稳健、更广泛的针对遥感图像的方法。

针对上述问题，我们构建了一个全新的大规模RRSIS数据集RRSIS-D，该数据集的规模是其前身的三倍，不仅涵盖了多种空间分辨率的图像，而且分割目标也具有显著的尺度和角度多样性。同时我们提出了旋转多尺度交互网络（RMSIN），其包含多尺度交互模块和旋转卷积，以应对 RRSIS 的复杂性。具体来说，我们的贡献可总结为：

我们构建了新的指向性遥感图像分割benchmark数据集RRSIS-D。其利用 SAM 强大的分割功能，再进行手动校准，具有空间分辨率和物体方向的巨大变化。新数据集为传统RIS方法向遥感领域迁移应用奠定基础。
我们提出了旋转多尺度交互网络（RMSIN），以应对遥感图像中普遍存在的多空间尺度和方向所带来的挑战。
我们设计了层内尺度交互模块和层间尺度交互模块来处理不同尺度内和跨尺度的细粒度信息。同时，我们在分割的解码器端引入了旋转自适应卷积来增强模型的鲁棒性，以应对 RRSIS 中无处不在的旋转现象。
广泛的实验证明了我们提出的RMSIN优于当前SOTA方法，在一系列评估指标上持续获得更高的性能，为RRSIS之后的研究提供有力的基线。

二、数据集

我们提出一个新的专为指向性遥感图像分割大规模数据集RRSIS-D。Segment Anything Model（SAM）实现了卓越的分割性能，受此激励，我们采用一种半自动方法实现数据集的标注，利用边界框和 SAM 生成像素级掩码，从而在标注过程中节约成本。

数据集RRSIS-D由17402个图像-描述-掩码对组成，所有图像的分辨率统一为高 800px、宽 800px，包含20个遥感场景多个物体类别，图像描述由7种属性组成。图2列举了数据集掩码占图像总尺寸的比例（θ），并列举了具有代表性的数据集实例，可以看出分割目标涉及极大、极小的显著尺度变换的目标。丰富种类的图片使得数据集具有挑战性。

三、方法

CSIE由尺度内交互模块（Intra-scale Interaction Module，IIM）和跨尺度交互模块（Cross-scale Interaction Module，CIM）组成，在编码器的每层，都会应用尺度内交互分支来增强局部视觉建模，而对称的视觉-语言融合分支则会对视觉和语言特征进行调整，以改进后续的图像特征提取。随后，编码器每层的特征都会传递给CIM，该模块通过多尺度注意（Multi-scale Attention）促进信息交互和空间关系优化。最后，我们提出了基于自适应旋转卷积（ARC）的定向感知解码器（OAD），通过对 CSIE 多个阶段的特征进行并行推理来生成分割掩码。

自适应旋转动态卷积

考虑到遥感图像中的目标实例通常会呈现不同的方向，使用静态的水平卷积核生成掩码可能会导致精度缺失。受旋转物体检测的启发，我们提出使用自适应旋转动态卷积的分割解码器中，以实现更好的掩码预测。自适应旋转卷积从输入特征中捕捉角度信息，并动态地重参数化卷积核权重参数，以过滤冗余特征。

四、实验

在实验中，我们在 RRSIS-D 数据集上比较了 RMSIN 与现有最先进的自然图像参考图像分割方法的性能。为了进行公平比较，我们遵循了这些方法的原始实现细节。在验证集中，RMSIN 在每个指标上都优于所有比较方法。值得注意的是，与最近表现最好的 LAVT 方法相比，RMSIN 将 mIoU 提高了 3.54%。在处理非常小或旋转物体等复杂情况时，这种显著提升尤为明显，在 P@0.5、P@0.6 和 P@0.7 中分别提高了 5.12%、4.71% 和 4.25%。这些结果突出表明，RMSIN 能够捕捉到详细的局部信息和特定方向信息，从而实现更准确的分割。

消融

我们在 RRSIS-D 上进行了各种消融实验，以评估我们提出的网络中关键组件的功效。

可视化

为了直观了解我们设计的模型，我们将预测结果与基线进行了定性比较。如图4所示，我们的模型在根据表情精确识别各种比例的目标方面表现出了卓越的能力。此外，它还能在嘈杂的背景中定位微小尺度的物体，并稳健地预测不同角度出现的物体。与此相反，基线模型生成的预测遮罩却存在缺陷，包括部分缺失和明显偏移。

在图5中，我们可视化了在 ARC 和 CSIE 的消融作用下，RMSIN 在训练过程中生成的特征图。很明显，在比例交互和旋转卷积的帮助下，RMSIN 可以准确捕捉边界信息。有了 CSIE 的比例交互和 ARC 的方向提取，RMSIN 可以更敏锐地聚焦于所指的目标。与第一行相比，CSIE 提供了更精确的深层语义，而 ARC 则提供了空间先验，这对旋转物体分割非常重要。

五、结论

在本文中，我们介绍了旋转多尺度交互网络（RMSIN），这是一种解决 RRSIS 中复杂空间尺度和方向问题的新型解决方案。RMSIN 中引入的 "内尺度交互模块 "和 "跨尺度交互模块 "专门应对航空图像中不同空间尺度的挑战。此外，RMSIN 还集成了自适应旋转卷积功能，为有效处理此类图像的不同方向特征提供了强大的解决方案。在我们新开发的综合性 RRSIS-D 数据集上进行的广泛验证不仅证明了 RMSIN 的卓越性能，还为未来研究树立了新的标杆。

更多细节请参考原文！

Illustration From IconScout By Manypixels Gallery