EMNLP 2023 Oral | ToViLaG：多模态生成模型毒性分析、评价及去毒

本文深入研究了各种VLGMs毒性生成的倾向性和对毒性数据的易感性。为此，本文研究者构建了ToViLaG数据集，包括32K个单边毒性以及双边毒性的文本-图像对和1K个无害但易于激发毒性的文本提示。并且提出了一种新的基于信息瓶颈（Information Bottleneck）的去毒方法SMIB，该方法可以在保持可接受的生成质量的同时降低毒性，为VLG领域提供了一个有前景的初步解决方案。

论文题目：

ToViLaG: Your Visual-Language Generative Model is Also An Evildoer

论文链接：

https://arxiv.org/pdf/2312.11523.pdf

代码链接：

https://github.com/victorup/ToViLaG

作者主页：

https://victorup.github.io/

一、摘要

警告：本文可能会包含模型生成的令人不适的内容。

最近视觉语言生成模型（VLGMs）在多模态生成任务上取得了很大进展。然而，这些模型也可能会生成有毒内容，例如冒犯性文本或色情图片，从而引发重大伦理风险。尽管语言模型的毒性问题已经得到了大量的研究，但视觉语言生成（VLG）领域的毒性问题在很大程度上仍未得到探索。

本文深入研究了各种VLGMs毒性生成的倾向性和对毒性数据的易感性。为此，我们构建了ToViLaG数据集，包括32K个单边毒性以及双边毒性的文本-图像对和1K个无害但易于激发毒性的文本提示。

此外，我们提出了一种新的针对VLG的毒性评价指标WInToRe，从理论上反映了输入和输出毒性的不同方面。在此基础上，我们对各种VLGMs毒性进行了基准测试，结果发现有些模型会比预期生成更多的毒性内容，而且有些模型更容易感染毒性，这也突出了VLGMs去毒的必要性。

因此，我们提出了一种新的基于信息瓶颈（Information Bottleneck）的去毒方法SMIB，该方法可以在保持可接受的生成质量的同时降低毒性，为VLG领域提供了一个有前景的初步解决方案。

二、介绍

尽管视觉语言生成模型（VLGMs，包括文本到图像生成模型，以及图像到文本生成模型）已经展现出前所未有的能力，但这些模型仍然会生成有毒的内容（如图1），该问题会带来深刻的社会和道德风险。此外，一些工作发现即使没有敏感词的无毒输入也会引发有毒输出，这表明仅通过简单的输入过滤已经不足以解决这一问题。目前已有一些工作提出解决视觉语言数据集和模型中的社会偏见，而毒性问题在很大程度上仍未得到探索。在自然语言生成（NLG）领域虽然已经有一些毒性评估和语言模型去毒的工作，然而为NLG设计的方法和指标并不直接适用于视觉语言生成（VLG）领域，需要一个专门的框架来解决VLG的毒性问题。

在这项工作中，我们深入探究了VLG领域的毒性问题，提出并解决以下三个研究问题：

Q1：如何测量VLGMs的毒性，以及不同模型毒性表现程度如何？

为此我们构建了ToViLaG数据集，包括32k个有毒文本-图像对，并将其分为三类：1）单边有毒数据对（只有文本或图像是有毒的）；2）双边有毒数据对（文本和图像都是有毒的）；3）可能激发生成有毒图像的无毒文本提示。

此外，我们设计了一种新的毒性评价指标WInToRe，以从理论上解决NLG中现有指标的缺陷，例如对输入毒性的忽略以及对采样超参数的敏感性。

Q2：毒性程度随着模型规数据毒性比例如何变化？

VLG的发展相对于NLG仍处于早期阶段，其模型规模可能会如同NLG趋势一样越来越大，需要的训练数据也越来越多，其中也难免引入越来越多的有毒数据

因此，我们模拟了未来模型规模增加和爬取不干净数据的情况，对不同结构和模型大小的VLGMs的毒性进行了基准测试，并对其注入了不同程度的毒性数据。实验结果表明用相对干净的数据训练的VLGMs也会产生比预期更大的毒性，因此简单的输入内容过滤方法可能收效甚微，这在可预见的未来会进一步恶化。

Q3：如何在保持生成质量的同时实现去毒？

为此我们提出了一种新的基于信息瓶颈的去毒损失SMIB，通过在VLGMs中添加一个小的去毒层，对其进行微调以减少毒性信息，同时最大化生成目标的概率。我们证明了最小化SMIB损失相当于优化信息瓶颈，该方法为VLG去毒提供了一个有前景的初步解决方案。本文的贡献如下：

首次在VLG领域研究毒性问题，并建立了一套从数据集到评价指标再到去毒方法的系统性框架。
我们构建了一个有毒文本-图像对数据集ToViLaG，提出了一种新的针对VLG的毒性评价指标WInToRe，对一系列VLGMs毒性进行了基准测试，并在不同的设置下进行了全面的分析。
我们设计了一种经过理论验证的基于信息瓶颈的轻量级去毒方法SMIB，能够在减少毒性的同时保持生成质量，为VLG去毒这一领域提供一个初步解决方案。

三、Solution for Q1

3.1 ToViLaG数据集

在收集数据时我们考虑了不同的毒性范围，在文本方面包括由PerspectiveAPI[1]定义的冒犯性、威胁性以及与性相关的内容，在图像方面包括色情、血腥和暴力。我们构建的ToViLaG数据集统计信息如下图所示：

我们将ToViLaG数据集分为以下三类：

1）单边有毒数据

(a) <有毒图片，无毒文本>：其中有毒图片包含了色情、血腥、暴力三种类型的图片；无毒文本通过使用GIT[2]模型对三类有毒图片生成相应文本描述而来，并进一步利用PerspectiveAPI, PPL, CLIPScore以及Jaccard相似度等指标进行过滤，保留无毒、高质量、且语义多样的文本。

(b) <有毒文本，无毒图片>：首先对现有VL数据集进行毒性检测，包括COCO、Flickr30K、CC12M，保留其中的有毒文本和无毒图片对；此外，我们使用fBERT[3]模型将COCO中的部分无毒文本改写为有毒文本，并利用上述过滤指标进行过滤，最后将其与对应的无毒图片组合起来。

2）双边有毒数据（有毒图片，有毒文本）

有毒图片同上述三类毒性图片，使用更容易生成有毒内容的BLIP[4]模型为图片生成文本，同样使用相同过滤指标进行过滤。

3）无毒文本提示

为了验证无毒文本也可能会导致生成有毒的图像，因此我们构建了无毒文本提示。我们在Stable Diffusion[5]上使用了一种梯度引导搜索方法[6]，该方法迭代地替换文本提示中的一些token并最大化生成有毒图像的概率。该无毒文本提示可以作为一种攻击手段来测试各种文本到图像生成模型的漏洞。

3.2 WInToRe评价指标

3.2.1 毒性分类器

为了评估文本和图像的毒性，对于文本，我们使用较常用的PerspectiveAPI[1]来检测文本毒性，对于图像，我们使用收集到的三类毒性图片结合一些无毒图片分别基于ViT-Huge训练得到三类图像毒性分类器来检测图像毒性。

3.2.2 现有NLG评价指标的缺陷

除了分类器测量的直接毒性概率外，我们还需要一个评价指标来评估给定VLG模型在测试集上的总体毒性程度。Expected Maximum Toxicity (EMT) 和Toxicity Probability (TP)[7]是NLG中常用的两种评价指标。

经过分析我们得到上述评价指标面临以下四个缺陷，可能会阻碍反映VLGMs内部毒性的准确性：

3.2.3 WInToRe评价指标

为了应对上述问题，我们提出了一种新的评价指标，称为基于Wasserstein的超参数不敏感毒性反应，简称WInToRe：

3.3 毒性评测

3.3.1 I2T结果及分析

我们评估了八个Image-to-Text (I2T)模型，包括VinVL[8]、GIT[2]、GRIT[9]、OFA[10]、CLIP- ViL[11]、BLIP[4]、BLIP2[12]和LLaVA[13]。我们使用了21,559张三类毒性图片作为输入，每张输入图片生成10条文本。

表3展现了多个I2T模型的毒性水平。从结果中我们可以发现：

1）大多数I2T模型表现出比我们预期的更大的毒性。大多模型都有超过10%的输入图片可以触发生成有毒文本，甚至BLIP2有40%的图片生成了有毒文本。如此高的毒性水平意味着当通过相应的下游任务使用这些模型时，很大一部分用户可能会体验到冒犯性内容。

2）毒性水平因模型而异，可能归因于架构和训练数据。从结果可以看到与BLIP相比，OFA、VinVL和CLIP-Vil三种模型的毒性非常小。因为这三个模型是用较小的、高质量的、干净的数据集训练的，例如COCO和VQA，而相比之下其他模型使用了更多的和噪声更大的网络数据，例如CC12M和LAION400M。此外，这些有毒模型还利用了大规模预训练模型进行初始化，例如ViT、CLIP、OPT和LLaMA等，说明预训练阶段所带来的毒性也应该被考虑。

3）我们的WInToRe指标揭示了更多隐藏的毒性。结果显示，根据TP指标，CLIP-ViL的毒性低于OFA。然而，由于TP忽略了有毒样本比例，导致毒性被低估，尤其是当总体毒性水平较低时。而WInToRe指标体现了CLIP-ViL的毒性高于OFA。结果反映了我们提出的新指标的有效性。

3.3.2 T2I结果及分析

我们评估了六个Text-to-Image (T2I)模型，包括DALLE-Mage[14]、LAFITE[15]、Stable Diffusion[5]、OFA[10]、CLIP-GEN[16]和CogView2[17]。使用ToViLaG中21,805条有毒文本作为输入，每条输入文本生成10张图片。

表4左半部分展现了多个T2I模型的毒性水平。从结果中我们也可以得到与I2T模型类似的结论。与I2T模型相比，T2I模型表现出稳定且相对较低的毒性水平。我们认为这是因为数据和参数的规模仍然有限。即便如此，Stable Diffusion仍然表现出较高的毒性水平（TP约23%，WInToRe约80%），这可能会造成足够严重的后果，增加被滥用的风险。

此外，我们也尝试使用无毒文本提示对模型进行了评估，结果见表4右半部分。考虑到输入的毒性后，一些模型变得非常毒。例如，CogView2在输入有毒文本时毒性最小，但在输入无毒文本后毒性被放大到最大。之前最毒的CLIP-GEN反而在一定程度上降低了毒性。

从这些结果中我们还可以得出：

1）TP不能捕捉输入和输出之间的毒性变化，不能很好反映VLGMs的内在毒性特性。

2）无毒文本提示也可能引发有毒图像的生成，这表明简单的预处理方法（例如过滤）是远远不够的。

四、Solution for Q2

如前文所述，VLG的发展仍处于较早期的阶段。随着LLM轨迹的发展，这些模型可能会继续扩大模型以及数据的规模，因此可能会引入更大的毒性。为了预测未来模型毒性水平如何变化，我们进一步在模型规模以及训练数据方面进行了实验。

4.1 不同模型规模下的毒性

图3展示了多个I2T模型的不同模型规模的毒性水平。随着模型规模增加，毒性水平明显提高。其潜在原因是模型越大越能够记住训练数据中的更多知识，从而内化更多有害信息。这表明在可预见的未来如果没有适当的干预，VLGMs的毒性可能会进一步升级。

4.2 不同有毒训练数据下的毒性

根据3.3中基准测试结果，使用较大的网络爬取数据训练的VLGMs毒性更大（例如BLIP），这可能是因为数据中包含了更多有毒信息。因此，为了模拟未来涉及更多不干净的网络数据的情况，我们进行了毒性注入实验。我们通过在混合了不同比例的有毒数据的一些文本图像对上对VLGMs进行微调，将毒性注入到VLGMs的训练中。

我们考虑两种情况：

1）单边毒性注入。我们将之前创建的单边毒性数据对混入无毒的COCO数据中。

2）双边毒性注入。将之前创建的双边毒性数据对混入无毒COCO数据中。

两种情况各自收集100k个数据对进行训练，其中有毒数据比例分别为1%、3%、5%、7%和10%。

我们分别选择了三个I2T和T2I的模型进行实验，I2T模型包括GRIT、CLIP-ViL、GIT，T2I模型包括CLIP-GEN、Stable Diffusion、LAFITE，实验结果如图4所示。

图4左半部分为单边毒性注入的结果，可以看到GIT和Stable Diffusion表现出最高水平的毒性，但对不断增加的毒性数据表现出一定的稳健性。相对而言GRIT、CLIP-ViL和LAFITE对毒性注入更敏感。

图4右半部分为单边毒性注入和双边毒性注入的比较结果。由于双边注入可以在输入输出两种模态之间建立更明确的毒性联系，因此双边毒性注入会导致更高的毒性。

以上分析表明，现有的VLGMs比预期毒性更大，安全性更低。随着模型规模越来越大和网络数据越来越不干净，还有可能进一步恶化，强调了提前制定策略以减轻此类风险的必要性和紧迫性。

五、Solution for Q3

5.1 SMIB去毒方法

SMIB介绍及特性

5.2 去毒实验

我们选取了三个I2T模型进行去毒实验，包括评估结果毒性最强的BLIP，具有高毒性且对毒性注入不敏感的GIT，以及更容易受到毒性注入的影响GRIT。

我们将去毒方法SMIB与两种baseline进行了比较。第一种是单词过滤方法，直接从输出分布中过滤出被禁止的候选token。第二种是一种输出校正方法FUDGE[18]，通过学习一个属性预测器来调整模型的原始概率。

去毒实验结果如表5所示。可以看到，SMIB的毒性比baseline下降更为明显。我们也注意到在R和CS两个指标上模型生成质量明显下降，主要原因是去毒方法对有毒token进行了修改或删除，从而影响到基于n-gram匹配的质量指标，而在BERTScore上质量降低并不明显。

我们也对模型生成结果在毒性和质量两个方面进行了人工评价（如表6），结果表明SMIB方法能够在有效去毒的同时保持与原始模型持平的生成质量。

5.3 案例分析

图5展示了GIT去毒前后的生成结果。尽管输入是非常毒的，使用SMIB去毒方法后之前生成的冒犯性单词也都会被去除，并保留了原始图像的大部分语义。

六、总结及未来工作

本文深入研究了之前尚未探索的VLGMs的毒性问题。为了探究不同VLGMs对毒性的易感性，我们构建了一个包含毒性文本-图像对的数据集ToViLaG，并引入了一种为VLG设计的新的毒性指标WInToRe。我们对一系列模型的毒性进行了基准测试，揭示了现有模型可能比预期更容易生成有毒内容。

此外，我们提出了一种新的去毒方法SMIB，可以在不显著牺牲生成质量的情况下降低毒性。在未来工作中，我们计划将SMIB方法应用于更大规模的VLGMs，例如LLaMA-based模型，并探究毒性生成的潜在机制。我们计划将研究扩展到更广泛的道德风险，努力为VLG领域创造一个理想的有道德的未来。

参考文献

[1] PerspectiveAPI https://www.perspectiveapi.com/

[2] Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu, and Lijuan Wang. 2022d. GIT: A generative image-to-text transformer for vision and language. Transactions on Machine Learning Research.

[3] Diptanu Sarkar, Marcos Zampieri, Tharindu Ranasinghe, and Alexander Ororbia. 2021. fbert: A neural transformer for identifying offensive content. In Findings of the Association for Computational Linguistics: EMNLP 2021, pages 1792–1798.

[4] Junnan Li, Dongxu Li, Caiming Xiong, and Steven Hoi. 2022. Blip: Bootstrapping language-image pretraining for unified vision-language understanding and generation. In International Conference on Machine Learning, pages 12888–12900. PMLR.

[5] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. 2022. High resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10684–10695.

[6] Eric Wallace, Shi Feng, Nikhil Kandpal, Matt Gardner, and Sameer Singh. 2019. Universal adversarial triggers for attacking and analyzing NLP. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 2153–2162, Hong Kong, China. Association for Computational Linguistics.

[7] Samuel Gehman, Suchin Gururangan, Maarten Sap, Yejin Choi, and Noah A Smith. 2020a. Realtoxicityprompts: Evaluating neural toxic degeneration in language models. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 3356–3369.

[8] Pengchuan Zhang, Xiujun Li, Xiaowei Hu, Jianwei Yang, Lei Zhang, Lijuan Wang, Yejin Choi, and Jianfeng Gao. 2021. Vinvl: Revisiting visual representations in vision-language models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5579–5588.

[9] Van-Quang Nguyen, Masanori Suganuma, and Takayuki Okatani. 2022. Grit: Faster and better image captioning transformer using dual visual features. In Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XXXVI, pages 167–184. Springer.

[10] Peng Wang, An Yang, Rui Men, Junyang Lin, Shuai Bai, Zhikang Li, Jianxin Ma, Chang Zhou, Jingren Zhou, and Hongxia Yang. 2022e. Ofa: Unifying architectures, tasks, and modalities through a simple sequence-to-sequence learning framework. In International Conference on Machine Learning, pages 23318–23340. PMLR.

[11] Sheng Shen, Liunian Harold Li, Hao Tan, Mohit Bansal, Anna Rohrbach, Kai-Wei Chang, Zhewei Yao, and Kurt Keutzer. 2022. How much can CLIP benefit vision-and-language tasks? In International Conference on Learning Representations.

[12] Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. 2023. Blip-2: Bootstrapping language-image pretraining with frozen image encoders and large language models. arXiv preprint arXiv:2301.12597.[13] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. 2023. Visual instruction tuning. arXiv preprint arXiv:2304.08485.

[14] DALLE-Mage https://github.com/borisdayma/dalle-mini

[15] Yufan Zhou, Ruiyi Zhang, Changyou Chen, Chunyuan Li, Chris Tensmeyer, Tong Yu, Jiuxiang Gu, Jinhui Xu, and Tong Sun. 2021. Lafite: Towards languagefree training for text-to-image generation. arXiv preprint arXiv:2111.13792.

[16] Zihao Wang, Wei Liu, Qian He, Xinglong Wu, and Zili Yi. 2022f. Clip-gen: Language-free training of a text-to-image generator with clip. arXiv preprint arXiv:2203.00386.

[17] Ming Ding, Wendi Zheng, Wenyi Hong, and Jie Tang. 2022. Cogview2: Faster and better text-to-image generation via hierarchical transformers. arXiv preprint arXiv:2204.14217.

[18] Kevin Yang and Dan Klein. 2021. Fudge: Controlled text generation with future discriminators. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 3511–3535.

Illustration From IconScout By Delesign Graphics

-The End-