COLING 2022 | 融合自适应机制与自训练框架的无监督文本顺滑方法

文本顺滑检测任务（Disfluency Detection）主要针对口语风格文本中存在的冗余重复语气词等不流畅现象进行检测和纠正。近年来，有监督深度学习方法已经在文本顺滑检测任务上取得很大进展，但大多数现有的方法严重依赖人工标注的数据集，这导致有监督方法应用在真实场景下成本很高。同时也有学者尝试采用自训练的方式来缓解这一问题，其在大量无标注数据上使用各种启发式方法来选择更可靠的伪标签样本进行迭代训练，在无监督领域取得了一定提升，但在自训练阶段中存在的选择偏差和错误累计问题严重影响了最终模型的性能。

本文提出了一种基于Re-weighting 机制的自适应自训练框架，根据每个样本的置信分配权重来解决上述存在的两个问题。通过在自训练过程中对每个候选样本赋予自适应权重进行训练，该自适应框架不仅可以整合传统启发式方法忽略的样本，还能减轻噪声样本的影响。

除此之外，本文还提出了一种基于对比的句对语法判别器来辅助提高自训练框架的性能。在英文标准数据集 Switchboard 以及多个跨领域数据集的实验结果表明，本文提出的优化方法性能相较当前无监督模型 SOTA 提升了 2.3 个点，且具有一定的泛化迁移能力。同时，作为无监督方法与当前的有监督方法 SOTA 也是可比的。

论文题目：

Adaptive Unsupervised Self-training for Disfluency Detection

论文链接：

https://aclanthology.org/2022.coling-1.632.pdf

一、任务背景

文本顺滑任务

得益于自动语音识别技术（ASR）的不断发展，对于一些实时性要求较高的任务（如机器翻译、任务型对话等），相较于传统文字输入，人们更倾向于使用方便快捷的语音输入；但口语语音信号的ASR输出通常包含很多天然的不流利元素，例如重复、修正、冗余等语言现象，这些都是口语风格输入所不可避免的问题。这些口语文本中不流利的噪声单词会极大的影响输出句子整体的可读性以及语义，进而对后续的文本处理任务（如：解析、机器翻译、摘要等下游任务）造成一定的阻碍。在此实际应用背景下，文本顺滑任务便应运而生。

所谓的文本顺滑任务[1]，就是对ASR模型输出的口语风格文本进行处理，去除掉其中的不流利元素（即噪声单词），从而使文本表达更流畅，提高后续文本处理任务的数据质量，最终达到提升下游任务模型性能的目的。

随着深度学习方法的不断发展，神经网络凭借其强大的建模能力，在文本顺滑任务上带来了很大的提升；2016年Wang率先提出将端到端神经网络模型用于文本顺滑的方法[2]，该方法将文本顺滑任务作为序列标注进行处理，得益于大规模预训练模型对语义信息的提取，在标准数据集上取得了很好的效果；之后的研究者也在有监督方法上不断进行改进与创新，Zayats针对有监督方法存在的问题尝试了多种解决方法，其通过使用LSTM来建模长短期依赖[3]，同时融入了规则匹配来提高模型性能，缓解深度学习的不稳定性[4]。

动机

本文提出基于Re-weighting的自适应Self-training框架的主要动机旨在解决先前Wang[5]基于自训练的文本顺滑方法中存在的两个问题（其方法流程如图2所示）：

1. 选择偏差问题：先前筛选教师模型标注伪数据的方法是训练一个句子级别的判别器直接进行筛选。该模型采用伪数据训练得到，其偏置很容易通过硬性选择直接影响自训练流程；

2. 错误累计问题：该框架下的教师模型也采用伪数据训练得到，其标注的伪数据可能存在一定的错误，该错误会伴随伪标签直接影响学生模型，随自训练不断累计；

本文通过将re-weighting机制融入self-training流程中，使得学生模型能够按不同权重在伪标签数据集上训练。对于语法判别器以及教师模型判断有误的样例，其标签置信度通常较低，通过re-weighting机制能够一定程度上缓解选择偏差和错误累计的问题；同时我们提出了一种更强的基于对比的语法判别器，根本上提高判别器的准确率，缓解选择偏差问题。

二、主要方法

主要架构

针对上述提到的问题，我们提出了一种基于Re-weighting机制的自适应自训练框架，其迭代流程如图3所示。首先通过构造伪数据得到教师模型与语法判别模型用于自训练迭代；在每轮自训练流程中：

1. 使用教师模型标注采样的训练集，得到伪标签训练集，保留其对每个伪标签的置信信息；

2. 使用语法判别模型筛选判别伪标签训练集，保留其对每个样本的判别输出；

3. 根据词级别置信信息以及句子级别判别信息赋予每个样本一个权重，在采样出的全体训练集上按权重训练得到学生模型；

4. 使用学生模型替代教师模型，如此迭代。

Re-weighting部分细节

根据教师模型打标置信以及语法判别模型得分来计算权重的细节如图4所示。

具体实现中我们将温度机制处理后的词级别得分与句子级别得分直接作用在训练目标各个token的交叉熵上：

通过温度机制可以一定程度上随自训练流程调节句子级别与词级别权重的比例，其中T随自训练流程不断降低：

训练初期教师模型能力较弱，其置信度可信度较低，采用高温使得词级别得分更加扁平，以句子级别判别得分为主；随着自训练迭代教师模型能力增强，采用低温使得词级别得分区分度更大，能有效缓解低置信错误标注对训练流程的影响，不断退火保证训练的稳定性。

基于对比的语法判别器

除了引入Re-weighting机制，本文用一个性能更强的基于对比的语法判别器替换了原先系统中的语法判别器，其工作原理如图5所示。其本质上还是一个二分类任务，只是将输入的格式从原本的标注正确的部分文本变为了修改前后文本的句对形式，这样能使模型分析修改前后的具体差异，从文本顺滑的角度而非语法结构的角度进行更有针对性的判别。

三、实验部分

数据集&评测指标

English Switchboard (SWBD)[6]是用于文本顺滑检测最大的(1.73×105句子用于训练) 标准语料库。我们使用英语Switchboard作为主实验数据集。

除此之外，为了验证我们方法的可迁移性我们还收集了三个跨领域的文本顺滑数据集：

CallHome（家庭成员间通话记录）
SCOTUS（转录最高法院法官和律师之间的口头辩论）
FCIC（两次从金融危机调查委员会转录的听证会）。

参照前人工作，我们采用序列标注任务的P、R、F1指数作为评价模型的指标。

主实验结果

主实验结果如表1所示，我们在SWBD上相比baseline（不采用Re-weightin机制的自训练框架）有2.3个点的提升，同时距离有监督模型的距离又更近一步。

跨领域实验结果

跨领域实验结果如表2所示，未经任何finetune，在新闻领域自训练得到的模型在CallHome、SCOTUS、FCIC三个跨领域数据集上相比baseline依然有很大提升。这说明我们的优化模型并非过度拟合当前数据集，而是具有一定可迁移性的。

消融实验结果

如表3、4、5所示，我们针对句对语法判别器（CGC）与原先单句语法判别器（SGC）、Re-weighting机制（Re-weight）、词级别得分（LCR）、句子级别得分（CGC）以及温度超参γ进行了消融实验，实验结果表明Reweighting机制以及句对语法判别器均能给自训练框架带来一定程度的提升，且这个提升是正交的。

图6为在构造二分类伪数据测试集上单句语法判别器（SGC）与基于对比的句对语法判别器（CGC）的ROC曲线，CGC相比SGC能够看到根据伪标签修改前后的句子差异，从而对打标结果做出更准确的判断。

四、总结

在这项工作中，我们提出了一种基于Re-weighting的自适应无监督训练框架来更好的解决文本顺滑任务。我们通过引入词级别置信与句子级别判别信息来赋予每个样本不同权重进行学习，同时采用更高效的基于对比的句对语法判别器，实现了一个更鲁棒、性能更好的无监督文本顺滑系统。实验表明，我们的优化方案能有效缓解选择偏差和错误累计的问题，在SWBD以及多个跨领域数据集上均有所提升。

参考文献

[1] 吴双志,张冬冬,周明.基于自注意力机制的口语文本顺滑算法[J].智能计算机与应用,2019,9(06):188-192.

[2] Shaolei Wang，Wanxiang Che，and Ting Liu. A neural attention model for disfluency detection. COLING 2016: Technical Papers.

[3] Vicky Zayats, Mari Ostendorf, and Hannaneh Hajishirzi. Disfluency detection using a bidirectional lstm. arXiv preprint arXiv:1604.03209. 2016.

[4] Vicky Zayats and Mari Ostendorf. Robust cross-domain disfluency detection with pattern match net works. arXiv preprint arXiv:1811.07236. 2018.

[5] Shaolei Wang, Zhongyuan Wang, Wanxiang Che, et al. Combining self-training and self-supervised learning for unsupervised disfluency detection. EMNLP 2020.

[6] J. J. Godfrey, E. C. Holliman and J. McDaniel. SWITCHBOARD: telephone speech corpus for research and development. ICASSP 1992.

作者：车万翔

文章来源：公众号【赛尔实验室】