「AI世界」还缺点啥?牛津大学教授:现实世界

2022-10-08 11:29 465 阅读 ID:390
新智元
新智元

    在「无限猴子」定理中,「几乎必然」是一个有特定含义的数学术语,「猴子」也不是指一只真正意义上的猴子,而是被用来比喻成一台可以产生无限随机字母序列的抽象设备。

            一只黑猩猩随机打字,只要时间足够,几乎必然可以打出法国国家图书馆中的每本书

      这个理论说明,把一个很大但有限的数看成无限的推论是错误的,即使可观测宇宙中充满了一直不停打字的猴子,它们能够打出一部《哈姆雷特》的概率仍然少于 1/10^183800。
    而且,即使给无数只猴子无限的时间,它们也不会懂得如何欣赏吟游诗人诗意的措辞。「人工智能(AI)也是如此,」 牛津大学计算机科学教授 Michael Wooldridge 这样说道。  

                                                                      Michael Wooldridge

      在 Wooldridge 看来,虽然 GPT-3 等 AI 模型借助数百亿或数千亿的参数展现出了令人惊讶的能力,但它们的问题不在于处理能力的大小,而在于缺乏来自现实世界的经验。例如,一个语言模型可能会很好地学习「雨是湿的」,当被问及雨是湿的还是干的时,它很可能会回答雨是湿的,但与人类不同的是,这个语言模型从未真正体验过「潮湿」这种感觉,对它们来说,「湿」只不过是一个符号,只是经常与「雨」等词结合使用。

    然而,Wooldridge 也强调,缺乏现实物理世界知识并不能说明 AI 模型无用,也不会阻止某一 AI 模型成为某一领域的经验专家,但在诸如理解等问题上,如果认为 AI 模型具备与人类相同能力的可能性,确实令人怀疑。

    相关研究论文以「What Is Missing from Contemporary AI? The World」为题,已发表在《智能计算》(Intelligent Computing)杂志上。

    在当前的 AI 创新浪潮中,数据和算力已经成为 AI 系统成功的基础:AI 模型的能力直接与其规模、用于训练它们的资源以及训练数据的规模成正比。

    对于这一现象,DeepMind 研究科学家 Richard S. Sutton 此前就曾表示,AI 的「惨痛教训」是,它的进步主要是使用越来越大的数据集和越来越多的计算资源。  

                                                                                AI 生成作品

      在谈及 AI 行业的整体发展时,Wooldridge 给出了肯定。「在过去 15 年里,AI 行业的发展速度,特别是机器学习(ML)领域的发展速度,一再让我感到意外:我们不得不不断调整我们的预期,以确定什么是可能的,以及什么时候可能实现。」但是,Wooldridge 却也指出了当前 AI 行业存在的问题,尽管他们的成就值得称赞,但我认为当前大多数大型 ML 模型受到一个关键因素的限制:AI 模型没有真正体验过现实世界。

    在 Wooldridge 看来,大多数 ML 模型都是在电子游戏等虚拟世界中构建的,它们可以在海量数据集上进行训练,一旦涉及到物理世界的应用,它们就会丢失重要信息,它们只是脱离实体的 AI 系统。

    以支持自动驾驶汽车的人工智能为例。让自动驾驶汽车在道路上自行学习是不太现实的,出于这个和其他原因,研究人员们往往选择在虚拟世界中构建他们的模型。

    「但它们根本没有能力在所有最重要的环境(即我们的世界)中运行,」Wooldridge 说道。  

                                                                 来源:Wikimedia Commons

      另一方面,语言 AI 模型也会受到同样的限制。可以说,它们已经从荒唐可怕的预测文本演变为谷歌的 LAMDA。今年早些时候,一个前谷歌工程师声称人工智能程序 LAMDA 是有知觉的,一度成为了头条新闻。「无论这个工程师的结论的有效性如何,很明显 LAMDA 的对话能力给他留下了深刻的印象——这是有充分理由的,」 Wooldridge 说,但他并不认为 LAMDA 是有知觉的,AI 也没有接近这样的里程碑。

    「这些基础模型展示了自然语言生成方面前所未有的能力,可以生成比较自然的文本片段,似乎也获得了一些常识性推理能力,这是过去 60 年中 AI 研究的重大事件之一。」

    这些 AI 模型需要海量参数的输入,并通过训练来理解它们。例如,GPT-3 使用互联网上千亿级的英语文本进行训练。大量的训练数据与强大的计算能力相结合,使得这些 AI 模型表现得类似于人类的大脑,可以越过狭窄的任务,开始识别模式,并建立起与主要任务似乎无关的联系。  

                                                                               来源:OpenAI

      但是,Wooldridge 却表示,基础模型是一个赌注,「基于海量数据的训练使得它们在一系列领域具备有用的能力,也进而可以专门用于特定的应用。」

    「符号人工智能(symbolic AI)是基于‘智能主要是知识问题’的假设,而基础模型是基于‘智能主要是数据问题’的假设,在大模型中输入足够的训练数据,就被认为有希望提高模型的能力。」

    Wooldridge 认为,为了产生更智能的 AI,这种「可能即正确」(might is right)的方法将 AI 模型的规模不断扩大,但忽略了真正推进 AI 所需的现实物理世界知识。

    「公平地说,有一些迹象表明这种情况正在改变,」 Wooldridge说。今年 5 月,DeepMind 宣布了基于大型语言集和机器人数据的基础模型 Gato,该模型可以在简单的物理环境中运行。

    「很高兴看到基础模型迈出了进入物理世界的第一步,但只是一小步:要让 AI 在我们的世界中工作,需要克服的挑战至少和让 AI 在模拟环境中工作所面临的挑战一样大,甚至可能更大。」

    在论文的最后,Wooldridge 这样写道:「我们并不是在寻找 AI 道路的尽头,但我们可能已经走到了道路起点的尽头。」

    对此,你怎么看?欢迎在评论区留言。

      参考资料:
    https://spj.sciencemag.org/journals/icomputing/2022/9847630/
    https://www.eurekalert.org/news-releases/966063  

    免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
    反馈
    to-top--btn