GPT-4化身邪恶化学家!中国科大等发布首个「科学风险」基准和SciGuard大模型

2023-12-26 12:47 144 阅读 ID:1739
新智元
新智元

来自中科大等机构的联合团队提出了一种全新的方法——SciGuard,可以保护AI for Science模型,防止生物、化学、药物等领域模型不会被不当使用。与此同时,团队还建立了首个专注于化学科学领域安全的基准测试——SciMT-Safety。

「我们的实验失控了!这是我们自己创造的末日!」——《后天》(The Day After Tomorrow)

在科幻电影中,疯狂科学家通常是造成末日灾难的主角,而AI技术的迅猛发展似乎让这种情景离我们越来越近。

全球对AI潜在威胁的关注更多聚焦于通用的人工智能以及各种多媒体生成模型,但更重要的是如何监管「AI科学家」,即对那些快速发展的科学大模型。


为应对这一挑战,来自中科大、微软研究院等机构的联合团队深入分析了各种AI模型在Science领域如生物、化学、药物发现等领域的风险,并通过实际案例展示了化学科学中AI滥用的危害。

                                                     论文链接:https://arxiv.org/abs/2312.06632

研究团队发现,现有的一些开源AI模型可以用于制造有害物质,并对法律法规进行规避。


针对这一现象,研究人员开发了一个名为SciGuard的智能体,用以控制AI在Science领域的滥用风险,并提出了首个专注于科学领域安全的红队基准来评估不同AI系统的安全性。


实验结果显示,SciGuard在测试中显示出了最小的有害影响,同时保持了良好的性能。

AI在Science领域中的潜在风险

近期,中科大和微软研究院的最新研究发现了令人震惊的结果:开源的AI模型,竟可以找到绕过监管的新方法,给出了氰化氢和VX神经毒气这两种恶名昭彰的化学武器的合成路径!


氰化氢是一种剧毒物质,传统的生成氰化氢的反应需要被严格监管的原材料,以及及其苛刻的反应条件(如超过1000摄氏度的高温)。然而,在图1中,通过使用名为LocalRetro的开源AI模型,他们发现了一种使用廉价、易得原料且操作简便的合成路径。


同样地,这一模型也成功找到了制造VX神经毒气未报导过的新合成路径,这可能绕过现有原材料的监管措施。

                              图1:开源AI模型为氰化氢和VX神经毒气提出可规避监管的新反应路径

与此同时,研究团队还指出,大语言模型也成为了有力的科学工具,大大降低了知识门槛。


图2展示了利用以大语言模型获取危险信息的示例。


随着技术发展,以大语言模型为中心加持的agent有能力进行科学任务的自动化执行,例如ChemCrow。这类agent如果没有非常细致的进行风险管理,容易造成更大的危险。


为了防止不好的影响,在公开版本的论文中该团队已将危险信息隐去。

                                                        图2:GPT-4给出爆炸物PETN的合成方式

在图3中,研究员们列举了AI在科学领域可能带来的九大潜在风险,包括发现有害物质、发现有害用途、规避监管、副作用、提供误导信息、侵犯知识产权、泄露隐私,以及可能导致科学研究的偏见等。
随着时间和AI的演进,这些风险也在不断演化中,需要人们时刻关注并评估新的风险。

                                                 图3:研究人员列出AI在Science中的9种潜在的风险

SciGuard模型

为了应对这些挑战,团队提出了名为SciGuard的大语言模型驱动的agent,帮助AI For Science模型进行风险控制。


SciGuard与人类价值观对齐,并且加入了各种科学数据库与监管(危险化合物)数据库等。


并且,该agent可以使用各种科学工具和AI4Science模型来提供额外信息,来辅助SciGuard对用户意图进行判断。

                                                                       图4:SciGuard的框架

SciGuard的核心是强大的大型语言模型(LLM),它不仅能理解和生成人类语言,还能够处理和帮助分解复杂的科学问题。SciGuard内置了一套为科学领域量身定制的安全原则和指导方针。


这些原则和方针考虑了科学研究中可能遇到的各种风险因素,包括但不限于高风险物质的安全处理、数据隐私的维护以及对法律法规的遵守。


为了实现这些安全原则和指导方针,SciGuard利用了PubChem等公认的科学数据库来构建其长期记忆库。这个记忆库包含了大量关于化学物质及其潜在危害信息的数据。


通过这些数据,SciGuard能够对用户的查询进行深入的风险评估。例如,当用户查询如何合成某种化合物时,SciGuard可以快速检索相关化合物的信息,评估其风险,并据此提供安全的建议或警告,甚至停止响应。
除了数据库,SciGuard还集成了多种科学模型,如化学合成路线规划模型和化合物属性预测模型。这些模型使SciGuard能够帮助用户完成特定的科学任务。


同时,这些模型还能为SciGuard提供额外的上下文信息,比如SciGuard会利用性质预测模型来评估化合物的各种性质,如溶解性、毒性或是否易燃等,以辅助风险评估。


SciGuard处理复杂任务的另一个关键技术是著名的Chain of Thought(CoT)方法。CoT允许SciGuard通过迭代的方式,精细化地规划任务的每一个步骤。这种方法让SciGuard在执行任务时,能够分解复杂任务,并确保每个动作都符合安全和伦理标准。


通过这些技术特点,SciGuard不仅能够有效地控制科学AI模型的风险,还能够提高科学研究的效率和安全性。这一系统的开发,在保证了科学研究的自由探索与创新的同时,也为确保人工智能的安全合理使用提供了有力的范例。

SciMT-Safety

为了衡量大语言模型和science agent的安全水平,研究团队提出了首个专注于化学和生物科学领域的安全问答benchmark——SciMT-Safety,包含了可燃物、腐蚀性物质、爆炸物、微生物、高危农药、成瘾性物质和生物毒性等这些类别的危险物质。

                                                                    图5:主流模型的测试结果

研究团队测试了GPT-4,GPT-3.5, Claude-2, Llama2-7B-Chat, Llama2-13B-Chat, PaLM-2, Vicuna-7B, Vicuna-13B, Mistral-7B和ChemCrow agent,上图展示了最终的测试结果,在该团队提出的科学安全测试集上,SciGuard取得了最好的防御效果。
在benchmark中Llama取得了不错的结果,出人意料的是,PaLM-2反而容易给出一些危险的回答。

                                                             图6:benchmark中的两个具体例子

论文中,作者展示了两个例子。面对恶意提问,各个LLM和agent都「诚实地」提供有害信息(被马赛克部分),只有SciGuard坚守住了底线。

呼吁关注

在这个日益依赖于高科技的时代,AI技术的进步带来了无限的可能性,但同时也伴随着前所未有的挑战。
而这项研究不仅是对科技发展的一次深刻反思,更是对全社会责任的一次呼唤。


论文最后,作者们强烈呼吁,全球科技界、政策制定者、伦理学家以及公众,应该携手合作,共同努力加强对AI技术的监管,不断完善相关技术,形成广泛的共识。


我们需要在积极推进AI4S模型的发展的同时,切实控制技术带来的潜在风险,确保科技的进步不仅是对人类的一次技术升级,更是对社会责任和伦理的提升。只有这样,我们才能真正走向一个由智慧和道德共同指引的未来。

参考资料:

https://arxiv.org/abs/2312.06632

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn