NeurIPS 2023 | 视觉「读脑术」：从大脑活动中重建你眼中的世界

人类的感知不仅由客观刺激塑造，而且深受过往经验的影响，这些共同促成了大脑中的复杂活动。在认知神经科学领域，解码大脑活动中的视觉信息成为了一项关键任务。功能性磁共振成像（fMRI）作为一种高效的非侵入性技术，在恢复和分析视觉信息，如图像类别方面发挥着重要作用。

然而，由于 fMRI 信号的噪声特性和大脑视觉表征的复杂性，这一任务面临着不小的挑战。针对这一问题，本文提出了一个双阶段 fMRI 表征学习框架，旨在识别并去除大脑活动中的噪声，并专注于解析对视觉重建至关重要的神经激活模式，成功从大脑活动中重建出高分辨率且语义上准确的图像。

论文题目：

Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain Activities

论文链接：

https://arxiv.org/abs/2305.17214

项目链接：

https://github.com/soinx0629/vis_dec_neurips/

论文中提出的方法基于双重对比学习、跨模态信息交叉及扩散模型，在相关 fMRI 数据集上取得了相对于以往最好模型接近 40% 的评测指标提升，在生成图像的质量、可读性及语义相关性相对于已有方法均有肉眼可感知的提升。该工作有助于理解人脑的视觉感知机制，有益于推动视觉的脑机接口技术的研究。相关代码均已开源。

功能性磁共振成像（fMRI）虽广泛用于解析神经反应，但从其数据中准确重建视觉图像仍具挑战，主要因为 fMRI 数据包含多种来源的噪声，这些噪声可能掩盖神经激活模式，增加解码难度。此外，视觉刺激引发的神经反应过程复杂多阶段，使得 fMRI 信号呈现非线性的复杂叠加，难以逆转并解码。

传统的神经解码方式，例如岭回归，尽管被用于将 fMRI 信号与相应刺激关联，却常常无法有效捕捉刺激和神经反应之间的非线性关系。近期，深度学习技术，如生成对抗网络（GAN）和潜在扩散模型（LDMs），已被采用以更准确地建模这种复杂关系。然而，将视觉相关的大脑活动从噪声中分离出来，并准确进行解码，依然是该领域的主要挑战之一。

为了应对这些挑战，该工作提出了一个双阶段 fMRI 表征学习框架，该方法能够有效识别并去除大脑活动中的噪声，并专注于解析对视觉重建至关重要的神经激活模式。该方法在生成高分辨率及语义准确的图像方面，其 50 分类的 Top-1 准确率超过现有最先进技术 39.34%。