上科大团队开发了一种面向未来光学AI的节能、轻量级、深度学习算法

计算成像（CI）取得了重大进展，其中深度卷积神经网络 (CNN) 已经证明可以重建稀疏散斑图案。然而，由于卷积算子的「局部」内核大小有限，对于空间密集的模式，例如通用人脸图像，CNN 的性能是有限的。

在这里，上海科技大学团队提出了一种「非局部」模型，称为 Speckle-Transformer (SpT) UNet，用于提取通用人脸图像的散斑特征。值得注意的是，轻量级的 SpT UNet 与 Pearson 相关系数（PCC）和结构相似性度量（SSIM）分别超过 0.989 和 0.950，表现出高效率和强对比性能。

该研究以「High performance 『non-local』 generic face reconstruction model using the lightweight Speckle-Transformer (SpT) UNet」为题，于 2022 年 10 月 8 日发布在《Opto-Electronic Advances》。

通过散点成像是一个经典的逆问题。作为一种直接的正向建模方法，深度学习（DL）最近在计算成像（CI）中实施，它为多个 CI 问题提供了高质量的解决方案。开创性的工作表明，深度卷积神经网络（CNN）可以提取散斑图案的统计特征。与支持向量回归（SVR）相比，深度卷积 UNet 架构在稀疏特征提取和一定的泛化能力方面表现出更好的性能。

由 S. Li 团队首次提出的 UNet 架构 IDiffNet 实现了散斑图像重建，尤其是针对稀疏模式。Y. Li 团队展示了一个可扩展扩散器的网络，该网络具有用于不同稀疏图案重建的各种微结构。PDSNet 由 E. Guo 团队提出，用于稀疏特征提取。

对于通用人脸数据集，网络使用 SSIM 实现的准确度要低得多，约为 0.75。换句话说，深度卷积 UNet 在空间密集散斑特征提取和重建上的性能是有限的。

由于卷积核的大小有限，CNN 是一种「局部」模型。作为一种「非局部」机制，注意力会权衡输入数据的每一部分的重要性，并提取特征图的长期依赖关系。注意力机制的泛化能力在稀疏模式的散斑重建中显示出优异的性能。Transformers 是完全依赖注意力机制的模块，可以很容易地并行化。此外，与深度学习中的卷积和循环对应物相比，Transformers 假设关于问题结构的先验知识最少。在视觉方面，Transformer 已成功用于图像识别、对象检测、分割、图像超分辨率、视频理解、图像生成、文本图像合成等。然而，在这之前没有一项研究探索过 CI 中 Transformers 的性能，例如散斑重建。

在这里，上海科技大学的研究人员提出了一种高性能的「非局部」通用特征提取和重建模型——SpT UNet。该网络是一个 UNet 架构，包括高级 Transformers 编码器和解码器块。为了更好的特征保留/提取，研究人员提出并演示了三个关键机制，即批前归一化（pre-BN），多头注意力/多头交叉注意力（MHA/MHCA）中的位置编码，以及自建的上/下采样管道。

对于「可扩展」数据采集，考虑了 40 mm 检测范围内的四种不同粒度的漫射器。他们进一步使用皮尔逊相关系数（PCC）、结构相似性度量（SSIM）、杰卡德指数（JI）和峰值信噪比（PSNR）四个科学指标对网络性能进行定量评估。与视觉中其他最先进的 Transformers 模型相比，SpT UNet 显示出更少的计算复杂性和更好的重建和泛化能力。

虽然研究人员只考虑了二值通用人脸图像的重建，但未来可以考虑使用 SpT UNet 重建灰度空间密集图像。对于生物医学成像，该团队相信该网络可以进一步应用于复杂组织成像，以提高图像对比度和范围深度。对于光子计算，作为并行处理模型，SpT UNet可以进一步实现为全光衍射神经网络，具有超越特征提取能力、光速甚至更低的能耗。

论文链接：https://www.oejournal.org//article/doi/10.29026/oea.2023.220049

相关报道：https://techxplore.com/news/2022-10-energy-efficient-light-weight-deep-learning-algorithm-future.html

上科大团队开发了一种面向未来光学AI的节能、轻量级、深度学习算法

作者信息

文章信息

上一篇

下一篇