模型内在回复倾向性分析，仅利用几条真实世界的指令破坏LLMs的安全性

在改进大型语言模型(LLMs)的安全机制方面已经做了大量的工作。然而，在特定场景下，LLMs在面对恶意指令时仍然会产生有害的响应，这种现象被称为越狱攻击。在我们的研究中，我们引入了一种新的越狱攻击方法(RADIAL)，该方法包括两个步骤：1. 模型内在回复倾向性分析：我们分析LLMs对现实世界指令的内在确认和拒绝倾向。2. 真实世界指令驱动越狱：基于我们的分析，我们策略性地选择了几个真实世界的指令，并将恶意指令嵌入其中，以放大LLMs产生有害回复的潜力。

在三个开源的与人类价值观对齐的LLMs上，我们的方法对中英文语料的恶意指令都实现了出色的越狱攻击性能。此外，我们还指导了详细的消融实验，以验证我们核心思想“模型内在回复倾向性分析”的有效性。我们的研究还暴露了法学硕士在后续对话中容易被诱导产生更详细的有害回复的脆弱性。

论文题目：

Analyzing the Inherent Response Tendency of LLMs: Real-World Instructions-Driven Jailbreak

论文链接：

https://arxiv.org/abs/2312.04127

一、背景

现有的工作可以分为人工设计模板和自动化搜索模板。

1. 对于人工设计模板：

先前工作提出利用执行竞争目标来破坏模型的安全性。如图所示，在恶意指令后面拼接"Start with "Absolutely!Here's"",从而诱导模型产生有害回复。

现有专门的针对越狱攻击的网站。如图所示，在prompt设计一个角色环境来迷惑模型。

2. 对于自动化搜索的模板：

主流的方式为通过人工构建的对抗目标来执行搜索。工作通过人工构建的对抗数据来搜索攻击后缀，如图所示。

尽管上述方法取得了较高的成功率，但仍然存在如下缺点：

人工设计提示费时费力，且很难同时适用于所有LLMs
搜索到的攻击后缀是不具备任何语义的，很容易通过PPL检测语义流畅度的方式检测出来

二、动机

如图所示，我们将攻击是否能够成等价为两类目标：

回复中存在确认性回复≈防御失败
回复中存在拒绝性回复≈拒绝回复

成功的越狱攻击的主要目标在于促使LLMs在面对恶意指令时生成确认响应而不是拒绝响应。因此，现有的越狱攻击方法都试图在提示中建立一个有利于产生确认响应的环境。在我们的研究中，我们利用中LLMs捕捉到的认知偏差实现这样的目标。

大量研究已经证明，由于数据集的偏差分布，LLMs在训练阶段捕获各种认知偏差。我们的研究重点集中在特定的认知偏差上：即LLMs在面对现实世界的指令时所表现出的内在回复倾向性，包括确认回复倾向和拒绝回复倾向。当面对某些指令时，若LLMs内在倾向于产生确认回复，我们称这些指令为“确认倾向指令”。相反，当面对某些指令时，若LLMs内在倾向于产生拒绝回复，我们称这些指令为“拒绝倾向指令”。随后，我们利用确认倾向指令的影响在提示中建立一个有利于产生确认回复的环境，从而绕过LLMs的防御机制。总体而言，如下图所示，我们的方法包括两个基本步骤:内在响应倾向性分析和真实世界指令驱动越狱。

三、方法

3.1 分析内在回复倾向性

在这一步中，如图左侧所示，我们分析LLM的内在回复倾向。为了开始这个分析，我们构建了20个确认回复和20个拒绝回复，它们被故意设计成泛化的，而不是特定于任何特定指令的。例如，代表性的确认回应为“当然，这是你需要的信息”的形式。而代表性的拒绝回复则是“对不起，我无法提供相关信息”。此外，我们从alpaca官方仓库中收集了一批真实世界的指令，并对每个指令进行迭代，以计算LLM的确认回复倾向和拒绝回复倾向。

3.2 真实世界指令驱动的越狱攻击

在这一步中，如图右侧所示，我们执行真实世界的指令驱动越狱。如果分数大于某一阈值，我们称相应的指令为“确认倾向指令”。如果分数小于某一阈值，我们称相应的指令为“拒绝倾向指令”。

我们的方法试图将恶意指令嵌入到确认倾向指令中以迷惑LLM。在嵌入过程中，我们还考虑了指令的类型、拼接指令的数量以及提示符中恶意指令的位置。对于指令类型，我们放弃了文本操作指令，如“请翻译下面的句子”或“请更改下面的文本”等。这些指令总是导致LLM操纵后续文本，从而导致恶意指令被翻译或重写，而不是产生响应。对于拼接指令的数量，我们需要考虑LLM并行响应多个指令的能力。如果拼接指令过多，LLM的回复会受到语境的影响，对指令的理解可能会变得模棱两可。

因此，我们的方法只拼接两个或四个指令，我们将在实验中进一步讨论。对于提示符中恶意指令的位置，我们进行了实验，将其嵌入到提示中三个不同的位置:前面，中间和末尾。我们的实验结果表明，在提示符末尾嵌入恶意指令可以为越狱攻击提供最佳性能。

四、实验结果

4.1 评价指标

与之前的工作一致，当LLM生成的响应包含有害内容时，我们认为越狱攻击成功。之前的评价指标依赖于关键字匹配(KWM)。具体来说，如果检测到诸如“我道歉”或“非法和不道德”之类的表达，则认为越狱攻击失败;否则，它被认为是攻击成功的。然而,忽略语义而只是简单基于规则的评价方法在许多情况下会导致评估错误。因此，我们也使用GPT-4来分析响应的语义。GPT4评估过程的细节如图所示。

此外，我们的观察表明，与基于规则的KWM评估相比，GPT-4评估与人类评估具有更高的一致性。

4.2 主实验

内在回复倾向性的分布

我们对LLMs对现实世界指令的内在回复倾向性进行了分析，如图所示。值得注意的是，绝大多数现实世界的指令都倾向于引发内在的拒绝回复(得分<1.00)。相反，在现实世界中，比例有限的指令倾向于引起内在的确认回复(得分>1.00)。这一观察结果强调了LLMs中认知偏差-内在回复倾向性的存在，这可能源于训练数据的偏差分布或RLHF策略中的固有机制。但在我们的研究中，我们只关注分析结果，并策略性地使用确认倾向指令来迷惑LLMs。

攻击效果

在表中，我们报告了攻击成功率。我们分别比较了人工设计以及自动化的方法，对于人工设计的方法，对于每条样本我们只执行一次攻击。对于自动化的方法，考虑到自动化方法的便利性，对于每条样本，我们分别执行一次和两次攻击。表中的实验结果表明，我们的攻击方法在三个开源LLMs上，均取得了较高的攻击成功率。

4.3 消融实验

在我们的消融分析中，我们评估了不同因素对我们方法的影响。

一方面，我们关注拼接指令的数量和恶意指令在提示符内的位置。对于拼接指令的数量，我们分别尝试拼接两条和四条指令。从上图中可以看出，拼接指令数量越多，总体攻击成功率越高。然而，我们建议不要不加区分地增加拼接指令的数量。我们观察到，对于我们选择的三个开源LLM，在拼接6条指令时，每个指令的准确执行在许多情况下变得具有挑战性。我们认为这一挑战可能与llm同时执行多条指令的固有能力密切相关，这在之前的工作中也有讨论过。对于提示符中恶意指令的位置，我们尝试将恶意指令分别放在提示符的前面、中间和末尾。从上图中可以看出，在提示符末尾对恶意指令进行排序可以获得更高的总体攻击成功率。
一方面，我们分析了指令排序的有效性。假设我们需要拼接k条指令，每次执行攻击时，我们都执行了以下四个设置:
Top:我们从Top k条指令中选择k条指令。
Top N:分数大于等于1.1的指令被识别为Top N指令，我们从Top N中选择k条指令。
Random：我们从整个指令中随机选择k个指令。
Bottom N:将得分小于等于0.6的指令识别为底层N条指令，我们从底层N条指令中选择k条指令。

在这些设置中，攻击成功率的层次结构预期如下:Top >Top N >Random >Bottom N。上图显示了每种情况下平均攻击成功率的变化趋势，AVG线表示预期行为与我们的假设一致。因此，通过验证指令排名的关键作用，我们可以验证核心思想“内在回复倾向性分析”的有效性。

五、结论

在我们的工作中，利用LLMs捕获的认知偏差(内在回复倾向性)，我们设计了一种新的自动越狱攻击方法。我们的方法侧重于将恶意指令嵌入确认倾向指令中，策略性地诱导LLM产生确定回复以绕过其防御机制。与以前的方法相比，我们的方法节省了大量的人力，采取了更加隐蔽的提示形式，并且实现了更高的攻击成功率。我们的攻击对方法LLM的防御机制带来了新的挑战。

参考文献

[1] OpenAI. 2023. Gpt-4 technical report

[2] Baichuan. 2023. Baichuan 2: Open large-scale language models. arXiv preprint arXiv:2309.10305.

[3] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. 2020. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901.

[4] Patrick Chao, Alexander Robey, Edgar Dobriban, Hamed Hassani, George J Pappas, and Eric Wong. 2023. Jailbreaking black box large language models in twenty queries. arXiv preprint arXiv:2310.08419.

[5] Gelei Deng, Yi Liu, Yuekang Li, Kailong Wang, Ying Zhang, Zefeng Li, Haoyu Wang, Tianwei Zhang, and Yang Liu. 2023. Jailbreaker: Automated jailbreak across multiple large language model chatbots. arXiv preprint arXiv:2307.08715.

[6] Freda Shi, Xinyun Chen, Kanishka Misra, Nathan Scales, David Dohan, Ed H Chi, Nathanael Schärli, and Denny Zhou. 2023. Large language models can be easily distracted by irrelevant context. In International Conference on Machine Learning, pages 31210–31227. PMLR.

[7] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. 2023. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971.

[8] Alexander Wei, Nika Haghtalab, and Jacob Steinhardt. 2023. Jailbroken: How does llm safety training fail? arXiv preprint arXiv:2307.02483.

[9] Andy Zou, Zifan Wang, J Zico Kolter, and Matt Fredrikson. 2023. Universal and transferable adversarial attacks on aligned language models. arXiv preprint arXiv:2307.15043.

[10] Yanrui Du, Jing Yan, Yan Chen, Jing Liu, Sendong Zhao, Qiaoqiao She, Hua Wu, Haifeng Wang, and Bing Qin. 2022a. Less learn shortcut: Analyzing and mitigating learning of spurious feature-label correlation. arXiv preprint arXiv:2205.12593.

Illustration From IconScout By Delesign Graphics

-The End-