丢弃99%的参数，阿里团队提出语言模型合体术，性能暴涨的同时无需重新训练和GPU

试想一下，如果我们能够轻而易举地将具备不同能力的多个模型融合成拥有全部能力的单个模型，那该是多么酷炫的一件事！现在，利用来自阿里团队的研究者们提出的语言模型合体术，我们有望实现这一目标！研究者们能够在无需重新训练和 GPU 的情况下将 WizardMath 的能力合并至 WizardLM 中，让 GSM8K 上的零样本准确率从 2.2 飙升至 66.3！

论文题目：

Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch

论文链接：

https://arxiv.org/abs/2311.03099

代码链接：

https://github.com/yule-BUAA/MergeLM

一、引言

人类总是通过各种方式（如电影和游戏）来表达获取额外能力的愿望。例如，在《X战警：天启》中，角色可以吸收其他变种人的能力来增强自身实力；在超级马里奥游戏中，主角可以通过吸收游戏中的道具获得扔火球的超能力。在本项工作中，阿里团队的研究者们发现语言模型与天启和超级马里奥类似，也可以通过吸收其他模型来增强自身的能力，且这一过程无需重新训练或 GPU。

对于语言模型（LM）而言，有监督式微调（SFT）是一种被广泛采用的策略。SFT 在预训练基模型的基础上，通过微调其参数来获得激发了特定能力的微调模型。显而易见，SFT 带来的效果体现在了模型在 SFT 前后的参数变化中，可以称之为 delta 参数。

阿里团队的研究者们首先证实 SFT 后的 LMs（无论是基于编码器还是基于解码器的）倾向于学习到大量冗余的 delta 参数。研究者们借鉴 Dropout 的思路提出了 DARE（Drop And REscale）来显著降低 delta 参数的冗余性。在将 DARE 应用于拥有 700 亿参数的 LMs 后，可以在维持模型性能的前提下去除多达 99% 的 delta 参数（见图 1(a)）。同时，LMs 拥有的参数越多，它就能容忍越大的。

进一步地，研究者们通过 DARE 来合并多个同源的 LMs（即从同一个预训练模型微调而来的多个模型）：首先使用 DARE 降低每个模型中的参数冗余性，而后利用现有模型合并方法来获得具有多样能力的单个模型。研究者们将 WizardMath 合并到了 WizardLM 中，实现了WizardLM 在 GSM8K 上的零样本准确率从 2.2 到 66.3 的飙升（见图 1 (b)）。为了提高工作的可复现性，研究者们开源了一个支持多种类型的 LMs 和常用的模型合并方法的代码库。

访问链接为：https://github.com/yule-BUAA/MergeLM

二、方法介绍

2.1 DARE：一种用于消除delta参数冗余性的简单方法

2.2 使用DARE进行模型合并

研究模型合并方法的一个难点在于：对原始的模型参数进行简单的加权平均等运算会产生参数冲突，导致合并得到的模型效果比融合前的模型差。研究者们认为 DARE 具备的大幅降低参数冗余性的能力能天然地克服这一问题，并将 DARE 作为一个通用的预处理技术来有效地合并多个 LMs。

研究者们首先使用 DARE 来消除每个模型中的冗余 delta 参数以缓解多个模型之间的参数冲突，而后基于现有的模型合并方法整合降低了冗余性的 delta 参数（见图 3）。DARE 能应用于任何现有的模型合并方法，以 Task Arithmetic 方法来举例，DARE 的应用过程可以写为如下公式：

三、实验结果

研究者们在基于编码器的 LMs（预训练模型为 BERT 和 RoBERTa）和基于解码器的 LMs（预训练模型为 LLaMA，Llama 2，Code Llama）进行了实验。实验用到了 GLUE 中的 8 个数据集，AlpacaEval，GSM8K，MATH，HumanEval 和 MBPP。

3.1 经过SFT后的LMs中delta参数的冗余性

在参数丢弃率的不同取值下 LMs 的表现如图 4 和图 5 所示。首先，可以观察到基于编码器和解码器的 LMs 的 delta 参数有非常高的冗余性。大多数情况下，利用 DARE 去掉 90% 甚至 99% 的 delta 参数不会显著降低性能，说明了 LMs 在 SFT 过程中只需要微调极少的参数就能学习到类似于 LoRA 的“低秩结构”。

其次，LMs 对丢弃率的容忍度随着模型参数量的增加而增加，即模型越大，能够承受的丢弃率越高。最后，值得注意的是，WizardLM-70B 在丢弃率为 0.9 时的表现急剧下降，研究者们猜测可能是指令遵循任务相对比较复杂，需要更多的 delta 参数来实现这一目标，这同时导致规模更大的模型中的参数依赖性变得更强。因此，更高的丢弃率可能会破坏这种依赖关系，导致性能的巨幅下滑。

3.2 利用DARE来合并多个LMs

研究者们首先使用 DARE 来去除 delta 参数中的冗余性，而后应用现有模型合并方法（包括 Average Merging, Task Arithmetic, Fisher Merging, RegMean 和 TIES-Merging）将多个 LMs 整合为单个 LM，结果如表 1 和图 6 所示。可以发现 DARE 通常能促进基于解码器的 LMs 的合并性能，在某些情况下取得比单个模型更好的表现。DARE 也能提升基于编码器的 LMs 的模型合并效果。

然而，合并的模型大多数情况下仍难以超越单个模型，这与先前研究基于编码器的 LMs 的模型合并工作结论一致。同时，研究者们指出 DARE 带来的提升在基于解码器的 LMs 上更明显。一个可能的原因是，由于模型大小的差异，基于解码器的 LMs 能够容纳更多的能力。

3.3 对于DARE中各组件的分析

研究者们验证了 DARE 中重新缩放操作的功能，也将 DARE 中的随机丢弃操作和基于参数量级的剪枝方法进行了比较。由于篇幅限制，仅展示在基于解码器的 LMs 上的实验结果，如图 7 和图 8 所示。实验结果显示 DARE 均取得了优于另外两种方法的效果，验证了 DARE 中两个组件的优越性。

3.4 对DARE应用条件的探究

研究者们还探索了 DARE 的适用条件，通过统计经过 SFT 的 LMs 相较于预训练模型的参数变化范围（见图 9）可以发现，WizardCoder-Python-13B 和 Llama-2-13b 之间 delta 参数的绝对值（通常大于 0.01）比 WizardCoder-Python-13B 和 CodeLlama-13b-Python 之间的绝对值（通常在 0.0002 以内）大几个数量级，导致 DARE 失败。

对于其他从 Llama-2-13b 进行 SFT 得到的模型，它们 delta 参数的绝对值绝大部分都小于 0.005，使得 DARE 成为一个合适的选择。研究者们得出结论，当 delta 参数的绝对值相对较小（例如小于 0.005）时，DARE 可以很好地发挥作用。否则，DARE 可能会失效。

原始论文中还包含许多其余的实验结果和分析，有兴趣的读者可以查看原文来了解。

四、总结

这篇工作重点围绕 “SFT 产生的 delta 参数存在极强的冗余性”展开研究。研究者们提出 DARE 来显著减少 SFT 所需的 delta 参数的数量，在保证模型性能的前提下可以丢弃 90% 甚至 99% 的 delta 参数。研究者们进一步将 DARE 作为适用于现有模型合并方法的通用预处理技术，将多个同源 LMs 合并成一个具有多样能力的 LM。

研究者们通过大量的实验证明了 DARE 在减少 delta 参数冗余性和促进模型合并性能上的有效性，同时对 DARE 的工作原理以及 DARE 的适用条件进行了深入分析。研究者们希望这项工作能激励更有效且高效的 SFT 策略设计，并相信 DARE 有潜力成为联邦学习领域中的一项新技术。

Illustration From IconScout By Pixel True