BCNetV2 | 适应人工智能任务需求，BCNetV2公平搜索最适AI网络结构

2023-02-09 14:28 338 阅读 ID：773

将门

本文全名Searching for Network Width with Bilaterally Coupled Network，简称BCNetV2，目前已发表在人工智能领域顶刊 IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)，影响因子 24.3。其前序工作为 BCNet: Searching for Network Width with Bilaterally Coupled Network，简称BCNetV1，该论文已发表在人工智能顶会 CVPR 2021。目前BCNetV2 和BCNetV1 均已开源。

BCNetV1 文章：https://openaccess.thecvf.com/content/CVPR2021/papers/Su_BCNet_Searching_for_Network_Width_With_Bilaterally_Coupled_Network_CVPR_2021_paper.pdf

BCNetV2 文章：

https://ieeexplore.ieee.org/document/9970301

BCNetV2 和 BCNetV1的代码：

https://github.com/xiusu/BCNetV2

当今世界，人工智能领域迅速发展，AI在各应用领域中均迅速突破。然而，针对不同的应用领域和AI模型，如何从近乎无穷的可能性中，找出最适合任务需求的模型，是一个极其困难的问题。为了解决这个问题，BCNetV2 提供了一种极其有效的思路，以建模一个公平涵盖所有可能AI模型的超网络数学模型。为了促进所有AI结构在超网络中都能得到公平的训练和对比，本文通过概率期望数学模型来表征超网络中不同权重的训练状态，以及它们与整个搜索空间中模型的对应关系。同时为了更准确的搜索优质AI模型，我们提出网络结构搭建的最小模型准则，并依据该准则完善数学模型，使得无论是超网络中的AI模型权重抑或是所有可能的搜索模型都能得到公平的训练和对待。本文方法在拥有128万张图片的ImageNet数据集和CIFAR10数据集以及众多不同的模型架构基础上得到了广泛的验证，在这些方法中均取得了顶级效果。该项工作由悉尼大学和商汤研究团队共同完成。

一、动机和背景

为了从海量的结构中搜索到最合适的网络模型，我们往往需要借助神经网络结构搜索和超网络结构设计的知识。基于一个预设的超网络数学模型，我们可以以此评价所有可能的人工智能网络模型的优劣。然而，如何准确评价不同AI模型的相互关系，并借以单一超网络结构实现不同模型的性能排序，是一个极其复杂的问题。为了解决这个问题，我们提出了双向耦合公平的数学模型。以使得超网络中的每一个参数和超网络对应的每一个模型，都能获得公平的对待。从而使得所有AI模型之间形成正确的排序关系，借以挑选出适合任务需求的最佳AI模型结构。

二、BCNet公平训练思路和数学模型：

这将导致超网络第c位置处的参数的训练程度如下，

因为是可变变量，从而使得，超网络中各参数训练程度严重不同，无法公平衡量所有可能的网络结构！

为了解决这个问题，本文BCNetV2提出任一可能的网络结构，对应分别来自超网络左右两端的网络权重，通过合并超网络中的2个网络的损失函数，共同表征单一网络结构。由此可知，结构c在超网络中对应的权重为

据此，我们可以计算出，所有不同结构c对应的训练次数为

为固定参数，表征最大结构可能性。所以，按照公式9，超网络中所有的网络结构都能得到相同程度的训练和对待! 因此，超网络的训练方式更新为，

对应的最有结构选择方式为，

三、优化遗传算法搜索途径：

为了能尽可能找到最佳AI网络模型，我们可选的网络模型结构数量往往超过

个。浩瀚如繁星般的可能性，让我们无法通过设计出的超网络结构，一一验证所有模型的好坏。

因此，本文提出通过遗传算法，选出相对任务需求最优的AI 模型。遗传算法十分依赖于初始解的选取，相比于传统方法随机构造初始解的思路。BCNetV2 采用了超网络训练过程中的损失函数作为评判网络结构性能的依据，显而易见的是，我们可以通过低网络损失的条件选择出优于随机组成的网络结构。

更进一步的，我们可以原子化网络结构，依据大数定则，在多数网络结构中表现较优的参数更可能组成有效的新AI网络结构。因此，我们可以通过训练过程中的有限次尝试，来揣测近乎无限的AI网络结构的可能性。

结合公式13, 14, 15。我们可以发现本问题变成典型的二次约束二次规划（QCQP）数学问题，可以简单通过众多数学工具求解。因此，我们通过上述数学过程，很容易的从有限尝试中推测出无限的结构可能性，并将其表征为QCQP问题。

四、BCNetV2 更进一步的超网络突破！

由于超网络的连续性问题，每层结构的设计参数，都不能太小，否则会导致AI网络信息传输过程中的重大信息丢失。因此，我们必须限定每层网络结构的最小参数量ls

然而，此番设计之后，将直接导致原本BCNet超网络中的平等训练规则被打破，

如公式19，超网络中不同参数训练程度将会出现差异。

为了解决这个问题，我们提出增广的BCNetV2 超网络模型，通过额外扩充一定程度不共有的双边网络参数，来解决上述问题，如下图 (c) 所示

因此，超网络与可选网络结构的对应方式更新为下式所示，

在此情况下，不同参数的训练程度为，

从而，所有参数在有最小参数量限制的情况下，仍能得到公平训练，所有结构理论上得到相同的训练程度。

五、实验与验证

本文在多种不同数据集和模型设计的情况下，均验证了算法具有 state-of-the-art的效果，部分实验结果展示如下。ImageNet数据集：

CIFAR-10数据集:

Channel-Bench-Marco:

不同数据集和不同模型结构基础上，通过本文方法获得的最佳AI模型的可视化：

由于篇幅限制，更多实验，文章的思路和公式请查阅TPAMI BCNetV2原文，谢谢。

作者：苏修

文章来源：知乎文章【https://zhuanlan.zhihu.com/p/593319732】

免责声明：作者保留权利，不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。

Emoji表情发布评论

快抢沙发！

加载更多评论

作者信息

将门

让创新获得认可
二维码

自定义二维码
网站

自定义网站或网址
文章信息
- 文章来源
  
  作者原创
- 赞同统计
  
  0
- 反对统计
  
  0
- 浏览统计
  
  338
- 评论统计
  
  0
- 发布时间
  
  2023/02/09 14:28
- 上一篇
  NeurIPS 2022｜DeepMind最新研究：大模型背后的ICL可能与数据分布密切相关
- 下一篇
  NeurIPS 2022 | 带噪多标签学习：基于标签相关性的噪声转移矩阵估计

反馈