ICML 2023 | y域码率控制：深度学习时代视频码率控制的新范式

我们提出了一种基于梯度下降的码率控制方法，并证明了其与使用准确码率失真依赖模型的 λ 域码率控制的等价性。经验结果表明我们的方法可以将深度学习视频压缩的性能提升15-30%。该论文由清华大学智能产业研究院，商汤科技研究院合作完成，已被ICML 2023接收。

论文链接：

https://arxiv.org/abs/2209.09422

代码链接（已开源）：

https://github.com/tongdaxu/Bit-Allocation-Using-Optimization

一、背景：λ 域码率控制

二、y域码率控制：针对深度学习视频压缩的码率控制新范式

对于深度学习视频压缩方法而言，λ 域码率分配同样适用。(Li et al., 2022b) 将HEVC上的 λ域码率分配迁移到了深度学习方法中并取得了不错的效果。然而，相比传统视频压缩而言，深度学习视频压缩具有端到端可导性。我们有没有办法利用这种可导性，更加直接地解决公式6的码率分配呢？

答案是肯定的。

三、y 域码率控制：朴素半均摊变分推断的实现

而非使用朴素同时梯度下降求解。

四、y 域码率控制：基于梯度下降的梯度下降进行的实现

为求解公式20的嵌套梯度下降问题，我们以两个隐变量，一步梯度下降的最简单情况为例：

其中倒数第二步即为关键步骤，我们需要对梯度下降后的结果再次求导，并将梯度反向传播回梯度下降前的值，该方法被称为梯度下降的梯度下降(back-prop through gradient descent) (Samuel & Tappen, 2009; Domke, 2012)。

从两个隐变量，一次梯度下降的例子开始，我们可以递归地多次应用梯度下降的梯度下降。进而，我们可以求解任意多个有向无环图依赖的隐变量，任意多次梯度下降的半均摊变分推断问题，算法如下：

理论上任意长度，任意帧依赖关系的深度视频压缩都可以被有向无环图概括。将该算法直接应用即可达到最优码率分配。

五、y 域码率控制：复杂度控制

事实上，由于复杂度限制，如上算法仅可用于非常小规模的问题 (5个隐变量，10步梯度下降)。然而，深度学习视频压缩规模较大 (超过20个隐变量，超过1000步梯度下降)。因此，直接应用该算法复杂度过高。我们提出两种简化，第一种是针对时间复杂度的简化。我们考虑近似梯度：

如此一来，我们无需梯度下降的梯度下降即可完成隐变量梯度的估算。进一步地，我们针对空间复杂度简化，只考虑当前帧后的C帧：

如此一来，算法的空间复杂度为常数，可以使得我们的方法适用于任意长的视频。

六、实验结果

我们在HEVC Class BCDE, UVG五个数据集上进行测试。我们选用DVC (Lu et al., 2019) ，DCVC (Li et al., 2021) ，HSTEM (Li et al., 2022a) 等多个深度学习视频压缩基线方法进行测试。在全部基线和数据集上，我们的y域码率控制算法均有非常好的效果：

具体地，在DVC，DCVC之上，使用我们的方法可以取得接近30%的性能收益。在自带部分码率分配的HSTEM上，使用我们的方法也可以取得接近15%的性能收益。更进一步地，经过y 域码率分配后，DVC可以达到接近DCVC的性能，DCVC可以达到HSTEM的性能，实现接近一代的性能提升。

同时，我们在较小的MNIST数据集和两层VAE上测试了我们基于梯度下降的梯度下降方法的性能。密度估计任务上的实验结果表明了我们方法的有效性。

七、讨论：码率分配与误差传播

深度学习视频压缩中的误差传播常常与码率分配分开讨论，并相互不引用。作者认为 (Sun 2021) 与Google公司的VCT确实是解决了误差传播问题，然而从码率分配到角度看，改解决方案是次优的。

事实上，在传统编码器中，我们会明确的区分两种码率分配算法。一种算法为最小均值算法(minAvg)，即我们的优化目标为最小平均R-D cost。该方法较为主流，也是本文讨论的方法。另一种算法为最小方差(minVar)算法，即我们的优化目标为每帧的质量方差尽可能小。该方法应用较少。我们讨论的码率分配是指最小平均的码率分配，误差传播为最小方差的码率分配。往往最小方差与最小均值的最优解不同。从这点来看， (Sun 2021) 与Google公司的VCT从平均R-D性能上讲均有提升空间。且通过最小化误差传播来提升R-D性能的目标是错误的。

八、结论

本文提出了 y域码率控制，是一种针对深度学习视频压缩的码率控制新范式。我们证明该方法等价于使用精确码率依赖与失真依赖的λ 域码率控制，进而证明了该方法的最优性。实验结果表明，在多个基线算法上，我们的方法有效提高深度视频压缩15-30%的性能。

参考文献

[1] Li, L., Li, B., Li, H., and Chen, C. W. λ-domain optimal bit allocation algorithm for high efficiency video coding. IEEE Trans. Circuits Syst. Video Technol., 28(1):130–142, 2016.

[2] Kim, Y., Wiseman, S., Miller, A., Sontag, D., and Rush, A. Semi-amortized variational autoencoders. In Int. Conf. on Machine Learning, pp. 2678–2687. PMLR, 2018.

[3] Marino, J., Yue, Y., and Mandt, S. Iterative amortized inference. In Int. Conf. on Machine Learning, pp. 3403– 3412. PMLR, 2018.

[4] Domke, J. Generic methods for optimization-based modeling. In Artificial Intelligence and Statistics, pp. 318–326. PMLR, 2012.

[5] Samuel, K. G. and Tappen, M. F. Learning optimized map estimates in continuously-valued mrf models. In 2009 IEEE Conference on Computer Vision and Pattern Recognition, pp. 477–484. IEEE, 2009.

[6] Sun, Z., Tan, Z., Sun, X., Zhang, F., Li, D., Qian, Y., and Li, H. Spatiotemporal entropy model is all you need for learned video compression. arXiv preprint arXiv:2104.06083, 2021.

[7] Lu, G., Cai, C., Zhang, X., Chen, L., Ouyang, W., Xu, D., and Gao, Z. Content adaptive and error propagation aware deep video compression. In European Conference on Computer Vision, pp. 456–472. Springer, 2020a.

作者：许通达

ICML 2023 | y域码率控制：深度学习时代视频码率控制的新范式

一、背景：λ 域码率控制

二、y域码率控制：针对深度学习视频压缩的码率控制新范式

三、y 域码率控制：朴素半均摊变分推断的实现

四、y 域码率控制：基于梯度下降的梯度下降进行的实现

五、y 域码率控制：复杂度控制

六、实验结果

七、讨论：码率分配与误差传播

八、结论

参考文献

作者信息

文章信息

上一篇

下一篇

ICML 2023 | y域码率控制：深度学习时代视频码率控制的新范式

一、背景：λ 域码率控制

二 、y域码率控制：针对深度学习视频压缩的码率控制新范式

三 、y 域码率控制：朴素半均摊变分推断的实现

四 、y 域码率控制：基于梯度下降的梯度下降进行的实现

五 、y 域码率控制：复杂度控制

六、实验结果

七 、讨论：码率分配与误差传播

八 、结论

参考文献

作者信息

文章信息

上一篇

下一篇

二、y域码率控制：针对深度学习视频压缩的码率控制新范式

三、y 域码率控制：朴素半均摊变分推断的实现

四、y 域码率控制：基于梯度下降的梯度下降进行的实现

五、y 域码率控制：复杂度控制

七、讨论：码率分配与误差传播

八、结论