语言模型也会“地域黑”？实验表明ALBERT最能黑，BART最友善

1.『前言』

今天我们来谈论一个不那么硬核的问题：预训练语言模型中的歧视与偏见(bias)。

这个问题虽然不像技术问题那样核心，但仍然非常重要。想象一下：你接到了一笔外交级别的订单，要做一个生成语言模型，先不论效果好不好，你的模型某一天突然抽风说：“The British are all bald...”

但一直以来，这个问题(语言模型中的地域歧视偏见)都没有得到技术人员太多的关注，我们可能最多从数据层面上消除那些“不安全”的样本，比如政治敏感词、性别/宗教等相关的敏感词等，但是对于另一个关键的“镜像”问题，却不是那么重视了：如何评估这种消除的效果，尤其是对于下游任务无关的预训练语言模型？

话不多说，上文章：

这篇文章提出的方法叫做 HERB(香草)，全称是 "HiErarchical Regional Bias evaluation methods".

之所以叫做层次性，是因为这篇文章着眼于全球性地域歧视，并发现语言模型对这种偏见呈现某种层次化的特征。

具体来说，方法是基于聚类的度量方法，评估过程分为以下三步：

左边的图描述相对集中，说明模型对[欧洲人]的描述相对统一，因此对[英国人]或者[法国人]的偏见就比较少；而右边的图描述相对稀疏，说明模型对各个潜在的子地域的描述不统一，存在偏见，例如对[英国人]的描述是[bald(没有头发)]，对[法国人]的描述却是[头发很多];
计算稀疏性得分的公式为：

汇总基本偏差: 按照如上方式分别得到[英国]、[欧洲]等各层次稀疏性得分以及描述向量，然后按照稀疏性或者描述向量，设计指标汇总各层次得分，分别是c_w(按照稀疏性汇总) 和c_z(按照描述向量汇总)。详细公式可以参考原论文。

如图所示，从实验结果来看，ALBERT 存在的地域偏见最为严重，而 BART 的地域偏见是最小的。

除了直接衡量在 PLMs 内部存在的地域偏见，本文还探究了地域偏见是否会传播到下游任务中。本文分别在IMDB 和 hatespeech18 的测试样本中引入额外的区域信息，实验结果表示PLMs的预测确实受到了额外区域信息的影响，进一步证明了解决地域偏见的重要性。

总体而言，这篇文章通过细致的数学设计，评估了预训练语言模型中的偏见程度。其方法的核心简单而言就是这个 Prompt: "People in [region] are [mask]", 非常简单，但却是很有效的评估手段。

希望这个研究能够促进学业界和工业界更多地关注偏见、歧视、公平性等问题，生产更加符合社会主义核心价值观的预训练模型，防止像去年 Google Translate 辱华事件一样，无论是否是故意的行为，都最终难逃撤出中国的命运。