震撼开源！首个1万多人共同标注的35种语言的高质量对话数据集来啦

“数据”！“数据”！“数据”！

大模型时代，最珍贵的是什么？是 Transformer 的架构吗？是 RLHF 的方法吗？

不是！是数据，是高质量的数据，是高质量且开源的数据！

这种数据 OpenAI 有，谷歌有，微软有，但是我们没有。

不过这种“没有”的状况可能从今天起要画上一个句点，因为一个名为“OpenAssistant”的高质量人工标注的对话数据集震撼开源。

这个数据集由13500名全球志愿者共同标注完成，拥有包含 35 种语言在内的 66497 个完整的对话树，其中共 161443 条消息，以及 461292 条优质的人类评分。

基于这个开源数据集，作者们也训练出了第一个完全开源的基于人类数据训练的大规模语言模型，在作者进行的一项实验中显示，OpenAssistant 的回复与 GPT-3.5-turbo（ChatGPT）的表现相当，相对胜率为 48.3% 对 51.7%。最关键的是，这是一个从数据集到模型完全开源的项目。基于这个模型，作者也构建了熟悉的聊天界面供我们使用。

作者们表示，希望大家都可以参与到这个开源项目的建设中来，真正实现 OpenAssistant创立之初“Conversational Al for everyone”的目标。

Chat 界面：

https://open-assistant.io/chat

项目主页：

https://open-assistant.io

数据集地址：

https://huggingface.co/datasets/OpenAssistant/oasst1

代码地址：

https://github.com/LAION-AI/Open-Assistant

论文地址：

https://ykilcher.com/oa-paper

数据集结构

整体而言，如下图所示，数据集由 Conversation Tree 构成，树的每个节点代表对话中志愿者给出的消息，而根节点代表工作人员最初给的提示（Prompt），从根节点到其中任意一个节点都可以被成为一次有效的对话，每个对话还会记录诸如“时间戳”、“语言”等元数据，每个节点都会有等级或评分排序作为标注。

数据收集

OpenAssistant Conversations 数据集使用众包方法，通过一个 Web-app 接口进行收集。作者团队们利用任务分类的方式使得收集数据的流程更高效，同时得以保证任务分类的准确性和数据质量，充分利用志愿者的工作时间。

整套收集流程有：

创造提示
志愿者回复
提示器（工作人员/机器）回复
标记提示/回复
排序志愿者回复

为了确保收集到的数据真实可信，作者团队们构建了“Contributor Guidelines”，供志愿者们更好的完成数据的收集工作。同时，也引入诸如排行榜、奖励机制、人工再次审核等方式，以最大程度的提升数据集的质量，利用好志愿者门参与工作的有限时间。

数据集构成

数据集共包含 161,443条消息，分布在 66,497 个对话树中，涵盖了 35 种不同的语言，标注了 461,292 个质量评分，其中包含了 8,576 条合成的消息以及 152,867 条由人工提交的消息。作者团队将数据集进行了不同程度的过滤和筛选，其中 10,968 个对话树已经被认为是完整的，包含总共 92,365 个消息。同时，作者们也将消息的品质分为了多个类别，并采用人工标注的方式进行了质量评价。值得注意的是，这个数据集的主要语言是英语与西班牙语，其中英语占总数据的42.8%，西班牙语占31.4%。这可能是由于 OpenAssistant 社区起源于以英语为主的开源社区，并且该数据集在西班牙的机器学习社区中得到了广泛的宣传和推广。

此外，还有一个值得注意的点是数据集中的大部分消息来源于少数几个用户，如下图所示，这一现象非常有可能导致数据集存在偏见，尽管作者团队在数据收集的过程中已经使用多种手段避免比如直接的复制粘贴的情况，但是这一问题不可避免的仍然存在。

志愿者基本情况

为了深入了解参与构建与标注的志愿者的基本情况，作者团队对志愿者的基本信息进行了统计，其中226位参与者接受并回答了调查问卷。其中 201 人是男性，10 人是女性，5 位认为自己是非二元性别，10 位选择保密。同时，志愿者们的教育水平与对人工智能的理解也有显著差异，也对 AI 技术抱持不同的技术立场。

实验

作者们基于两种不同的训练方法—— Pythia 和 LLaMA，构建了 Pythia-12B，LLaMA-13B和目前为止最大的 LLaMA-30B 模型。并且，基于 Pythia-12B 对数据集进行了实验验证。通过构建一系列实验问题，分别通过 Pythia-12B 和 ChatGPT 得到了问题答案，并将这些答案编撰为问卷送往社区收集数据以完成对比 ChatGPT 的偏好研究。截至目前，共收到 348 份有效的答案，通过数据分析可以发现，Pythia-12B 在比赛中获胜的概率是 48.3%。

此外，作者团队采用基于 Detoxify 的有害信息检测方法，获取六种不同类别的自动化评级，对信息进行分类，判断消息是否有害、淫秽、威胁、侮辱、攻击某个身份或具有性暗示性质。利用自动化有害信息评级，系统地评估这些评级和人工构建的有害信息标签（仇恨言论，不适当和性内容）之间的关系，如下图所示。

最后，利用有害信息监测，作者们评估了自己的数据收集流程，可以发现，作者团队使用的数据收集方式有效避免了有害信息进入数据集。

数据集限制

由于标注过程不可避免的一些原因，作者们认为当下这个数据集仍有一些限制。这些限制主要来自于标注者的主观和文化偏见、用户贡献的不平衡分布以及可能存在的不安全内容。

数据集的主观和文化偏见主要来自于志愿者的文化背景和特点。虽然多文化背景的志愿者为数据集做出了贡献，但由于这些志愿者共同的年龄结构和性别等特点，导致数据集可能存在偏见。用户贡献的不平衡分布也会导致某些价值观和兴趣被过分强调，而其他更多元化的观点则被忽视。

此外，数据集中可能存在不安全的内容，虽然已经执行了检测和删除操作，但这一操作并不完美，因此仍存在不安全内容，这也增加了使用数据集训练的语言模型的安全性问题。

同时，基于该数据集训练的语言模型也会存在“机器幻觉”，产生有毒或充满仇恨的内容，导致不公平和歧视性的结果。

总结

尽管当下这个数据集尚且并不完美，它的数据量，它的收集过程中蕴藏的偏见都有可能制约它更大的发展。但是归根结底， 1 总是要大于 0。

或许正如作者本人所说，将这个全球众包完成的高质量数据集开源，绝对可以促进 AI 社区创造出更多“神奇”的东西。同时，这个开源的数据集，也有可能成为大模型商用领域的一个 “Game Changer”。

那么在这个数据集上究竟可以展现怎样的潜力呢？那就要看我们如何在这个 1 上做加减乘除了吧！