目前，以ChatGPT为代表的大型语言模型（LLMs）已逐渐进入到人们的日常生产生活中，如何对其生成内容进行安全性检测已经成为不容忽视的关键问题。目前的一些LLMs系统中已经设置了一些防范恶意攻击的屏蔽手段，但这种防御方式并不能在所有的攻击场景中奏效，综合来看，防范大模型攻击是一个具有挑战性的开放问题。

本文介绍一篇来自谷歌研究院和OpenAI合作完成的工作，作为具有大模型丰富开发部署经验的企业，本文的研究团队给出了一种鲁棒的攻击生成和防范框架。本文作者认为，收集现实场景中的攻击样本对LLMs进行训练是一种非常有效的方案，但是收集样本的代价非常昂贵，但是如果使用具有细小扰动的合成攻击样本（如单词替换）进行训练实际上并不能提高模型应对攻击的鲁棒性。基于这样的发现，本文提出了一种基于对抗学习的训练框架，利用数量较少的真实攻击样本来生成大规模的高效攻击样本来进一步优化模型，作者将本文框架在ANLI和仇恨言论检测基准数据集上进行了大量的实验，实验结果表明，本文方法可以明显的提升LLM应对攻击和仇恨言论的鲁棒性。

论文标题：

Break it, Imitate it, Fix it: Robustness by Generating Human-Like Attacks

论文链接：

https://arxiv.org/abs/2310.16955

一、引言

对抗鲁棒性在NLP领域是一个老生常谈的话题，在传统的NLP研究中，对抗样本通常是通过人工设计的扰动样本，其目的是诱到模型进行错误分类。但大量的实验表明，经过这种扰动样本微调后的NLP分类器仍然无法对来自真实世界中的对抗样本起效，这种现象在大模型时代仍然存在。同时，对于大模型来说，传统对抗领域的评估指标也有些过时，例如语义相似度（semantic proximity）、高攻击成功率（high attack success rate）和标签噪声率（low label noise）等指标，本文作者认为这些指标无法衡量来自真实场景中的攻击模式。相反，本文提出了一种基于对抗学习的攻击样本生成框架，从少量的真实样本中学习攻击分布，并且使用Dynabench框架来有针对性的测试生成样本中的各种攻击演变模式，本文的贡献可以总结为以下几点：

（1）证明合成攻击和真实攻击之间的不一致性：本文通过实验表明，现有的合成攻击方法不一定能提高模型对人类真实攻击的鲁棒性。

（2）可以通过模仿真实的对抗样本来克服偏差：本文提出的生成模型通过模仿人类的攻击分布可以有效提高模型对未来真实攻击的鲁棒性。

（3）目前常用的攻击质量指标与真实场景之间存在偏差：本文通过实验表明，语义相似度越高或攻击成功率越高，并不意味着某个攻击生成器在防御下游攻击方面比另一个生成器更好。

二、本文方法

2.1 问题定义

2.2 整体方法框架

2.3 攻击样本生成器设计

2.3.2 控制约束的模仿（Imitation + Controlled Exploration，ICE）：

作者认为DI方法存在一个很大的缺陷，而这种缺陷几乎存在于所有广义的受控生成方法中，即如何解决有噪声标签对模型带来的偏差。因为对攻击样本的定义本身就缺乏明确的界限，因此参与训练的第一批少量攻击样本中也有可能存在不同程度的错误标注情况，为了应对这一挑战，作者提出了一种改进的即插即用控制解码方法ICE，具体来说，是在生成器中添加一个额外的小型分类器来捕捉当前输入中涉及到的攻击属性，然后引导生成器来产生正确标注的攻击示例。在实际操作时，作者鼓励生成器优先选择线性分类器已经明确识别到真实标签的文本短语，如下表所示：

三、实验验证

本文的实验在对抗性自然语言推理（ANLI）和Dynabench仇恨言论检测基准数据集上进行，前者可以理解为是一项自然语言推理任务，其目标是根据前提中存在的事实信息，确定一个假设在逻辑上是顺承（entailment）、矛盾（contradiction）还是不确定（neutral）。后者是一个对抗性的环形结构数据集，其总共分为四轮生成过程。

3.1 实验baseline设置

本文的实验选择了可以兼容不同NLP理解和生成任务的T5-encoder-decoder结构作为生成器。同时选取了一些对比攻击生成器基线模型，例如TextFooler、BertAttack 和 CT-GAN，其中TextFooler 是一个非常流行的攻击生成库，它能转换最具预测性的单词，同时保留语义相似性和上下文一致性。BertAttack 可以使用所攻击的模型来识别输入中的易损词，然后使用 BERT 生成易损词的替代词。CT-GAN 是一种生成对抗网络，经过修改后用于控制文本生成，它可以直接将 NLI 任务中的前提内容作为控制文本。需要指出的是，上述几种方法均只依靠随机扰动而不学习攻击分布，这与本文提出的方法具有本质区别。

3.2 对比实验

下表展示了本文方法与其他方法在对抗性自然语言推理（ANLI）任务上的对比结果，仅使用第1轮生成的攻击数据进行训练时（在下表中标出的R1），本文提出的DI和ICE在ANLI数据集上的平均准确率均有提高，并且明显超过了使用原始数据集训练的效果，同时超过了对比的基线方法，这表明，使用合成的类人对抗数据可以提高模型对未来攻击的鲁棒性。

下表展示了本文方法在仇恨言论检测数据集上的结果，其中仅使用第 2 轮生成的攻击数据（R2）进行训练时，本文的方法DI和ICE在仇恨语音检测上的 AUC 指标同样取得了明显的改进。

3.3 现有的攻击指标的局限性

作者也通过实验证明目前常用的攻击指标，例如分布相似性并不能很好的衡量生成的攻击样本是否真实有效，下图展示了不同实验方法TextFooler(R1)、DI（R1）和ICE（R1）生成攻击文本之间的分布相似性图，虽然上面的实验结果已经表明，DI和ICE方法的性能明显高于TextFooler，但从下图的分布情况来看，他们所生成的文本的相似性非常接近。这表明，仅靠简单的文本层面的度量无法捕获攻击样本中的攻击细节。

3.4 真实攻击数据的重要性分析

作者还通过实验得到这样一个结论，即使只使用1000个左右的真实攻击样例，也可以提高模型对未知对抗的鲁棒性，ANLI R1的全部真实对抗示例数量为16.9k，作者在下表中展示了不断增加真实示例对模型鲁棒性的影响。

可以看到，当参与训练的真实示例小于500时，最终模型的鲁棒性提升并不明显，但时当超过1000时，生成的模拟样本已经可以提升模型应对未来攻击的鲁棒性。

四、总结

本文针对NLP模型的对抗鲁棒性展开了研究，作者提出了一种基于对抗学习的生成框架，该框架可以在包含少量真实攻击样本的数据集上进行训练，来提升模型对未来攻击的鲁棒性。此外作者发现，目前常用的攻击生成方法（如 TextFooler 和 CT-GANs 等方法）并没有在真实攻击分布的基础上进行训练，因此无法提高对未来真实攻击的鲁棒性。同时已有的攻击指标也只能反映一部分的生成效果，无法捕获真实的攻击细节。

参考

[1] Douwe Kiela. Dynabench: Rethinking benchmarking in NLP. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human La guage Technologies, pp. 4110–4124, Online, June 2021. Association for Computational Linguistics.

用魔法打败魔法！谷歌联合OpenAI提出攻击样本生成框架，提升NLP大模型鲁棒性