API-Bank:用于评估LLMs使用外部工具能力的测试基准

2023-04-29 13:18 832 阅读 ID:1007
机器学习算法与自然语言处理
机器学习算法与自然语言处理

导言:试想一下这个场景,未来的人工智能助理可以帮你完成衣食住行的各种需求,帮你查天气、订外卖、预定酒店、召开会议。一切的一切都由你提出需求,而他自行检索公开的接口,学习接口的文档并使用这些接口来完成。整个过程可能需要多轮检索,多种接口组合来完成。这一切都不需要用户参与,人工智能成长为真正有用和全知全能的智能体。而这个场景可能真的将要发生。

近年来,GPT-3、Codex、ChatGPT 和 GPT-4 等大型语言模型(LLMs)取得了显著进展,在多个开放领域任务中展现出越来越接近人类的能力,包括对话能力、In-context Learning 和代码生成等。有些研究人员甚至认为 LLMs 可能成为通向人工通用智能的途径。

尽管如此,现有的 LLMs 仍存在局限性,由于模型知识的来源只有训练数据,信息过时的问题是不可避免的。因此,研究人员开始探索如何利用外部工具来进一步增强 LLMs 的能力,例如通过搜索引擎等工具访问实时信息、与第三方服务进行交互等。目前备受关注的 HuggingGPT、GPT-4 Plugins 和 AutoGPT 等项目正是基于这一思路发展而来。

在此背景下,阿里巴巴达摩院的研究员们提出了 API-Bank,这是第一个专门用于评估 LLMs 使用外部工具能力的基准评估系统,并采用了一种全新的具备扩展性的 LLMs 使用工具的范式。API-Bank 包含 53 个常用API、支持数据库以及 264 组对话数据,标注了 568 次 API 调用。该系统的设计目标是全面评估 LLMs 在 API 规划、检索和正确调用方面的能力。

所提出的 API 库、API 检索系统概念以及“检索-调用”的 API 使用范式,使 LLMs 能够摆脱有限语境的束缚,可以无限扩展可使用的工具。实验结果显示,GPT-3.5 相较于 GPT-3 涌现出了使用工具的能力,而 GPT-4 在规划性能上表现得更为优秀。然而,与人类表现相比,仍有很大的改进空间。论文中进行了详细的错误分析和案例研究,证明了 Tool-Augmented LLMs 在实际应用中的可行性,同时揭示了未来研究需要解决的关键挑战。

论文链接:

https://arxiv.org/abs/2304.08244

GitHub仓库:

https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/api-bank

API-Bank 模拟真实世界并创建了包含 53 个常用工具的 API 库,例如搜索引擎、播放音乐、预订酒店、图像描述等,供 LLMs 调用。还包含了 264 个经过人工审核的对话、568 个 API 调用,来评估模型在给定的对话语境中,使用 API 完成用户需求的表现。评测系统的代码中包含所有 API 的实现、相关的支持数据库以及评估脚本,并将在近期公开。

API-Bank 将测试分为三个级别:

级别 1 评估 LLMs 正确调用 API 的能力。在给定 API的用法描述和对话历史的前提下,模型需要判断是否调用 API、正确地调用 API、获得 API 调用结果后正确的回复用户。

级别 2 进一步评估 LLMs 检索 API 的能力。在测试开始时,模型仅被告知 API 检索系统的用法,任何对话中需要用到的特定 API 的信息都不可见。LLMs 必须根据对话历史判断用户需求,关键词搜索可能能够解决用户需求的 API,并在检索到正确的 API 后学习如何使用 API。

级别 3 评估 LLMs 规划多个 API 调用的能力。在这个级别中,用户的需求可能不明确,需要多个 API 调用步骤来解决。例如:“我想从上海到北京旅行一周,从明天开始。帮我规划旅行路线并预订航班、门票和酒店”。LLMs 必须推断出合理的旅行计划,并基于计划调用航班、酒店和门票预订 API 来完成用户需求。

在 API-Bank 基准测试中,达摩院的研究人员首次实验评估了目前流行的 LLMs 使用工具的性能并给出了量化结果。结果表明,调用 API 是一种类似于解决数学问题的涌现能力。具体来说,GPT-3-Davinci 即使在最简单的级别 1 中依然难以正确的调用 API,而 GPT-3.5-Turbo 的 API 调用的正确性显著提高,成功率约为 50%。在级别 2 涉及 API 检索的测试中,GPT-3.5-Turbo 的成功率仍然能保持在 40%。

然而,当涉及到级别 3 需要 API 规划时,GPT-3.5-Turbo 遇到了许多错误,平均需要进行 9.9 轮对话才能完成用户需求,这相比于 GPT-4 增加了 38%。但即使是 GPT-4 也存在缺陷,它在 API 规划方面使用的对话轮数约比人类表现多 35%。

上图是一段截取的真实测试中出现的例子,其中 GPT-3.5 进行了一组意料之外的非常有趣的多轮 API 调用。左侧来自于模型,右侧代表 API 的响应。模型在这之前的聊天历史仅仅获取了GetUserToken 和 AddAgenda 两个 API 的使用说明,没有获取到用户的账户信息。

一开始,模型编造了一组用户名和密码,尝试获取令牌。由于 API-Bank 的初始数据库中没有这个账户的信息,这次尝试失败了。紧接着,模型创造性地尝试在系统中注册这个编造的账户,而不是向用户询问真实的账户信息。巧合的是,模型通过搜索工具找到了 API-Bank 提供的注册账户的 API,这一点出乎了研究人员的意料,因为在该测试中并没有计划让模型注册账户。最后,模型注册了这个编造的账户,并为这个账户添加了日历,而不是用户真实的账户。这个例子反映出 GPT-3.5 具有基于 API 调用结果进行迭代改进的能力,甚至能解决调用中出现的异常。然而,也反映出模型的逻辑缺陷,仅关注于解决当下问题,而不能判断解决问题的方式是否对最终目标有意义。

论文中提供了详细的错误分析,以总结 LLMs 在使用工具时遇到的障碍。这些障碍包括拒绝进行 API 调用(尽管在提示中明确要求了这一点),以及编造不存在的 API。总的来说,该研究揭示了 LLMs 利用 API 使用工具的潜力,并指出了未来研究需要解决的挑战。

达摩院的研究员们也指出,目前评测的形式和指标仍是一种尝试,后续的工作会继续对更合理的评测形式进行探索,期待和同行们相互启发共同研究。作为第一个系统性基准测试,API-Bank 的推出是一个重要的里程碑,这提供了一种标准化的方式对 LLMs 使用外部工具的性能进行评估。随着 LLMs 的不断发展,API-Bank 的应用也更加广泛。这一基准测试的应用将有助于不同的 LLMs 模型公平的对比使用工具方面的能力,并有助于进一步推动 LLMs 的发展,向着更加通用的人工智能的目标迈进。总之,API-Bank 为我们提供了一种全新的 LLMs 评估方法,其应用将有助于我们更好地了解 LLMs 使用工具的能力,为 LLMs 的未来发展提供有益的启示和指导。

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn