ICML 2023 | 你的AI被黑客攻击了吗？如何用期望扰动分数揭秘对抗数据？

对抗攻击（Adversarial Attack）旨在通过向样本中加入难以察觉的扰动来误导模型的预测结果，其产生的对抗样本（Adverasarial Samples）会对已经广泛部署的机器学习模型系统造成威胁，急需高性能的对抗防御方法来保障神经网络模型的安全性和鲁棒性。

现有的对抗样本处理策略主要分为对抗训练（Adversarial Training）、对抗净化（Adversarial Purification）和对抗检测（Adversarial Detection）。

对抗训练方法将对抗样本引入到训练过程中，从而提升模型的鲁棒性，然而可能面临性能退化问题和极高的计算复杂度；
对抗净化方法利用生成模型来净化对抗样本，再将净化后的样本输入到分类模型中，但是需要在自然和对抗精度（Natural and Adversarial Accuracy）间做出妥协，性能难以令人满意；
对抗检测方法则是根据分布差异来检测对抗样本，并拒绝为对抗样本做出预测，这类方法可以在几乎不损失自然精度的前提下确保安全的输入源，对现有模型体系十分友好。

然而，现有对抗检测方法大多仅针对某些特殊攻击方法，或仅用于某些特定分类模型，忽视了对自然样本和对抗样本空间分布的建模，难以应对不可见攻击（Unseen Attacks）或可转移的攻击（Transferable Attacks）。

此外，在高维空间中直接估计和比较两个数据分布十分困难，一般通过估计样本的对数概率密度梯度（a.k.a Score）来代替。该统计量在对抗防御和扩散模型领域已经成为一个强大的工具。然而，如何有效利用score进行对抗检测仍是一个未解决的难题。

本文介绍我们发表于ICML 2023的文章《Detecting Adversarial Data by Probing Multiple Perturbations Using Expected Perturbation Score》。文章中提出了基于期望扰动分数（Expected Perturbation Score, EPS）的对抗检测方法EPS-AD。在此基础上，我们从理论上验证了自然样本与对抗样本间的分布差异，并在CIFAR-10、ImageNet数据集上取得了一致性的优异性能。

论文链接：

https://arxiv.org/abs/2305.16035

代码链接：

https://github.com/ZSHsh98/EPS-AD.git

一、Motivations

最近，一些方法开始利用扩散模型（Diffusion Model）来净化（purify）对抗样本。Yoon et al[1]通过逐步移除对抗样本或自然样本中的噪声达到净化的目的。在净化过程中（ purification process），通过净化后的自然样本与净化后的对抗样本的score范数确定一个阈值停止对样本净化，防止过度净化对样本造成损坏。他们从经验上发现，在净化过程中自然样本通常比对抗样本拥有更低的score范数。

直观来看

可以用来表示样本向自然数据分布高密度区域的运动动量，较低的score范数意味着样本距离自然数据分布高密度区域更近，即样本遵循自然样本分布的概率更高。

本文通过实验验证了这一结果，在上图中，同一净化时刻（timestep），大多数自然样本的score范数始终低于对抗样本。然而，实验结果同样揭示出单个样本的score存在问题：在整个净化过程中，自然样本与对抗样本的score范数分布始终存在重合，且自然样本与对抗样本的score范数重合程度对净化过程的timestep十分敏感。

上述问题说明，单个样本的score所包含的信息并不足以完全分辨自然样本与对抗样本，会导致两类样本分布差异波动极大，难以实现高性能的对抗检测。

二、方法与分析

本文考虑利用多级扰动来获取单个样本的更多信息，以次构造了一个新的统计量：期望扰动分数（EPS）。基于该统计量，本文提出一种对抗检测方法，称为EPS-AD。方法框架如下图所示：

这里首先给出期望扰动分数的定义，并理论推导出自然样本和对抗样本EPS的分布差异。基于EPS，本文利用MMD（Maximum Mean Discrepancy）探索了一种通用的检测机制，称为EPS-AD。最后，以高斯核的MMD（Gaussian Kernel MMD）为例，给出对抗检测方法EPS-AD有效性的理论依据。

2.1 期望扰动分数（EPS）

上述实验表明，由于单个样本的score所包含的信息不足，自然样本与对抗样本之间score的分布差异会随扰动过程出现明显波动，不利于对抗检测性能的提高。对此，本文考虑通过加入多级扰动来获得单个样本的多个观测，并计算这些观测在相应扰动下score的期望（即EPS），从而获得一个样本充足的信息。

Theorem 1中的结论说明：

基于EPS所拥有的上述性质，可以很自然地将这种统计量用于样本分布的估计和比较，进而应用在对抗检测任务中。

2.2 基于EPS的对抗检测（EPS-AD）

一个初步的想法是直接使用EPS的范数来作为对抗检测的度量标准，然而，范数仅能表示EPS向量的模长，而忽略了向量方向中包含的信息。因此，选择一个可以充分利用EPS来衡量对抗样本与自然样本间距离的度量指标十分关键。

除此之外，为展现EPS统计量本身的价值，本文在实验中给出并分析了EPS-N方法，即通过比较测试样本与自然样本集合间EPSs的范数差异来检测对抗样本。实验发现，仅使用EPS-N的范数也可以取得较好的检测性能。

三、实验验证

3.1 EPS-AD在CIFAR-10、ImageNet数据集上均取得SOTA

在两个数据集上的实验中，EPS-AD与EPS-N均一致性地优于baseline方法，且EPS-AD在各种攻击方式的样本下均达到SOTA水平（其余5种常用攻击方式的结果请见文中附录E）。

3.2 EPS-AD在面对不可见攻击、可迁移的攻击时保持优异性能

在复杂多变的现实部署场景中，模型极有可能受到未知来源、未知方式的攻击，例如检测模块训练阶段没见过的攻击（Unseen Attack），或是针对其他分类器生成的、可迁移的攻击（Transferable Attack）。

面对上述攻击方式，尤其是迁移攻击，一些方法的性能严重下降，而EPS-AD通过建模对抗样本与自然样本间的数据分布差异来实现检测，不依赖具体的攻击方法，在此类场景下有较好的性能。为了验证这一点，本文设置了针对不可见攻击和可迁移攻击的评估实验。

对于可迁移攻击的检测，本文在ImageNet数据集上生成了针对ResNet-101分类器的对抗样本，并用来攻击ResNet-50分类器上训练的检测模型。从下表的结果可以看出，非diffusion的几个baseline方法（如KD,LID,MD和LiBRe）均出现了性能的大幅下降，而EPS-AD则始终保持SOTA性能，表明EPS-AD在多样的攻击场景都有好的检测性能。（其余5种常用攻击方式的结果请见文中附录G.1）

3.3 EPS-AD在面对低强度攻击、跨数据集攻击时保持优异性能

为展示EPS-AD的性能，本文在极低的攻击强度（e.g.∈=1/255 ）下进行了一项实验。当攻击强度极低时，攻击通常不能成功误导模型，但EPS-AD仍能精准度量对抗样本与自然样本间的分布差异，并给出正确的检测结果。

除此之外，由于EPS的估计需要借助预训练的扩散模型，检测算法的性能是否会依赖某一特定的扩散模型也是本文关心的问题之一。为此，本文设计了一个跨数据集迁移攻击的检测实验。具体来说，在CIFAR-10数据集上生成对抗样本，并采样出两个不相交的自然样本集与对抗样本集，接着，使用在ImageNet数据集上训练的扩散模型与核函数来检测这些样本。为了与原方法区分，本文将跨数据集的检测器称为EPS-AD*。

从上表的结果可以看出，EPS-AD* 的性能与原方法基本相当，进一步说明EPS统计量对于衡量分布差异的优异的性质，以及EPS-AD方法的通用性。

3.4 Timestep对检测性能的影响

四、总结与未来工作

本文提出了一种新的统计量：期望扰动分数（EPS），来获取单个样本丰富的的多个观测信息，并将其作为区分自然与对抗样本的有效度量。基于EPS，文中提出了一个新颖的对抗检测方法EPS-AD，并通过理论分析与实验证明了所提方法的优异性能。

与其他利用对抗样本在神经网络中的隐层特征来训练检测器的方法不同，EPS-AD通过建模自然样本与对抗样本的分布差异实现样本的区分，这使得模型在面对不同攻击方式、攻击强度和跨数据集的对抗样本时表现出惊人的鲁棒性和一致优异的性能。

一个可能的concern是，EPS-AD的推理阶段需要对样本进行多级的扩散过程，尤其是在高分辨率样本（e.g. ImageNet）时会花费较长的时间。在本文的实验部分也对此进行了探究，发现通过降低输入样本的采样精度或是选择更短的扩散时长可以显著的减少推理时间，但却需要对检测精度做出相应的妥协。在未来工作中，可以考虑如何简化扩散过程的构造，进一步缩减方法的推理时间，使得该方法能够用于实时检测。

Reference

[1] Adversarial Purification with Score-based Generative Models. ICML 2021.

作者：张书海