双方互GAN,不如来试试群体博弈?更快更强更自由 | ICLR 2021

2021-05-29 21:28 197 阅读 ID:360
量子位
量子位

AI诞生之初,很长一段时间都停留在个体智能阶段,即面向“识别出图像中的内容”、“听懂一段语音”、“预测蛋白质的3D结构”这类目标单一的任务。

但随着技术发展,AI开始逐渐与其他智能群体产生交互,走向更加复杂的应用场景。

比如在2019年,DeepMind训练的游戏类AI就在星际争霸中超越了99.8%的活跃玩家,达到了最高的 Grandmaster段位。

这是一种以博弈论为机器学习模型的思路。沿着这种思路,DeepMind的几位研究者提出了一种名为EigenGame的理论,重新定义了PCA(主成分分析,Principal Component Analysis)方法。

“Eigen”与“Game”

“Eigen”意为特征。也是论文题目中所提到的PCA方法的核心概念。

PCA是ML领域里用于数据降维的经典方法。目的是在尽可能不丢失原数据信息的前提下,将高维数据映射(压缩)到低维空间,得到剔除了原有特征冗余信息的新特征

在目标数据集的数据属性过多,数据量过大的时候,模型训练和计算的性能可能受到很大影响。这时,就需要用到PCA进行数据降维。

而“Game”则意为博弈论*(Game Theory)*,是一种研究理性决策者之间的冲突与合作的数学模型。

纳什均衡(Nash equilibrium)作为博弈论的一个重要概念,指每个参与人在获取信息不完全的情况下,做出了针对其他参与人策略的最优反应,比如经典的囚徒困境。

那么,到底如何才能将博弈论与PCA结合起来呢?

如何将PCA过程重建为一场“博弈”

我们知道,PCA的最优解,是由可以组成方差值最大的投影矩阵,且互相正交的特征向量组成的。

那么,在EigenGame模型中,我们将每一个特征向量假设为一个参与者

每一个参与者(红点向量,指投影得到的降维数据),都会尽可能地使自己与最大方差方向一致(在同一条直线上),且与高维参与者(蓝点向量,指原数据)保持垂直。

所有参与者构成一个层级结构,其中设置一个只关注最大方差值的1号参与者。其他参与者可以通过计算方差值而受到奖励,也会在与其他参与者距离过近时被惩罚。

这里的参与者并不是主动地去推理最优解的整体性质,而只是对其他参与者策略的最佳响应。

如果所有向量都都使用梯度上升来同步且独立地最大化它们的性能(即每个参与者都发挥最佳状态),它们将实现这场博弈的纳什均衡。

我们也就得到了最佳的PCA解决方案。

“博弈”的意义

在机器学习问题的连续方法(continuum approach)上,研究人员通常有两种思路。

一种是使用凸或非凸优化理论,推理解的整体性质。

另一种则受神经科学启发,使用纯粹的连接主义方法和更新规则。但此时往往需要研究复杂的动力学系统,从而使对系统的分析愈发困难。

而EigenGame则是一种介于两者之间的理论。

参与者(特征向量)的优化和更新不限于功能梯度,而仅仅是对其他参与者当前策略的最佳响应。

这样,就能更加自由地设计功能或进行各种属性的优化更新——比如,可以在指定无偏或加速优化的同时,仍然确保Nash属性作用于整体系统之上。

而在博弈过程中,向量与向量之间展现了同步上升的独立特性。这种复杂的多人并行参与模式可以以更快的速度,处理更大规模的数据。

比如允许EigenGame计算分布在数十个TPU上,并在几小时内找到包含数百万个特征,或数十亿行的数百兆字节数据集的主要成分(Component)。

所以,在解决机器学习问题上,这种大型的多智能体系统(multi-agent system)超越了GAN双人参与的零和博弈(two-player, zero-sum),进入了更加复杂丰富的场景应用。

并且,当从多主体角度考虑时,EigenGame中每个发挥最大效能的参与者,都会产生并更新其效能。

神经科学领域的赫布理论(Hebbian Theory),就有类似的更新规则(突触可塑性)。


以前,PCA可以作为赫布更新(Hebbian updates)的解决方案,但又不能通过效用函数的梯度来导出。引入博弈论后,赫布学习就有了新的研究视角。

当博弈论遇上机器学习

其实,博弈论的思想一直存在于很多机器学习的探索过程中,不管是经典的 SVM,还是大火的 GAN,这些模型的背后都有博弈论的影子。

最初提出“博弈机器学习”这一概念的刘铁岩博士曾这样说过:

什么才是人工智能?想要解决这个问题,首先需要为「智能」提出一个定义。如果说过去对于个体智能的研究为计算机赋予了智商(IQ)的话,那么社会智能则对应着人工智能的情商(EQ)。

博弈论的引入让AI在过去只与环境交互的基础上,又学会了如何与其他智能体打交道。而当EigenGame这种与多智能群体交互的算法出现时,其意义就不仅是更多更快的数据运算。

按照既非随机,也非理性和对立的人类的行为规律去训练建模,那么AI就有了更多解决问题的新角度,也能在广告竞价、社交媒体、众包管理、交通疏导等多个领域中得到更广泛的应用。

或许,博弈论会是连接机器学习走向人和社会的一个桥梁。


参考链接:
[1]https://deepmind.com/blog/article/EigenGame
[2]https://openreview.net/forum?id=NzTU59SYbNq


—完—

@量子位 · 追踪AI技术和产品新动态

深有感触的朋友,欢迎赞同、关注、分享三连վ'ᴗ' ի ❤

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn