浙大开源快速扩散语音合成模型FastDiff和ProDiff

扩散模型在深度生成模型中自成一派，最近成为最热门的话题之一。扩散模型展示了强大的生成能力，无论是生成高水平的细节还是其生成的多样性，都让人印象深刻。

扩散生成模型将生成式建模领域的标准提高到了一个全新的水平。迄今为止，扩散模型已被应用于各种生成式语音建模任务，如语音合成（speech synthesis）、语音转换（speech conversion）、语音编辑（speech editing）、语音转换（speech-to-speech translation）等等。

然而，传统扩散模型主要基于梯度匹配的训练目标，因此高生成质量的保证通常以数百的去噪迭代为代价，给样本的快速合成带来阻碍。当试图减少去噪步时，去噪模型在复杂的数据分布中的收敛出现明显退化，导致样本中的带噪与过平滑的低质量生成结果。

浙江大学正在算法和网络结构层面探索如何让深度学习里最先进（State-of-the-art）的非自回归生成模型：降噪扩散概率模型（Denoising Diffusion Probabilistic Model, DDPM），在解决其原来的速度瓶颈的同时，仍能生成出与人声难以分辨的高质量语音, 并挖掘其应用在语音合成上的潜力。

论文链接：

https://arxiv.org/abs/2204.09934

代码链接：

https://github.com/Rongjiehuang/FastDiff

论文链接：

https://arxiv.org/abs/2207.06389

代码链接：

https://github.com/Rongjiehuang/ProDiff

在今年的 IJCAI 2022 和 ACM-MM 2022 上，浙江大学的两篇论文提出了全新的语音合成条件扩散模型 FastDiff 和 ProDiff，能大幅减少 DDPM 每步降噪所需时间在解决其原来的速度瓶颈的同时，仍能生成出与人声难以分辨的高质量语音, 并挖掘其应用在语音合成上的潜力。FastDiff，ProDiff分别在声码器和语音合成上得到验证，揭示了扩散生成模型的包括去噪起点、生成算法、噪声采样的加速方法，克服了因模型加速带来的生成性能损失。

一、研究背景

降噪扩散概率模型（Denoising Diffusion Probabilistic Model，DDPM）是近两年开始火热起来的一种非自回归生成模型，特点是能以较为简单的训练方式在许多基准图像生成任务中达到跟 GAN 差不多甚至是更佳的生成质量。

在听感测试中，业内一些基于 DDPM 的声码器的合成质量已能赶上自回归模型，但生成速度仍要远低于同为非自回归模型的 Flow 和 GAN 模型。这是由于 DDPM 在建模上需要通过迭代几百上千个采样步数来得到有效的降噪，如何快速得到高质量的合成样本仍然是难以解决的瓶颈。

二、整体方案思路

扩散过程：

反向过程：

我们通过最大化证据下界（Evidence Lower Bound，ELBO），可以推导出简化的训练损失。这里，我们参考 BDDM [1]，有效的训练方法是用随机梯度下降优化：

其中，仅有噪声编制与去噪步数 T 是需要预先定义的，其他变量都可以依次计算出。

三、FastDiff：高效的带噪波形条件建模

FastDiff 的主要创新点来自于降噪模型结构方面：

如图（a）所示，FastDiff 模型主要由三层降采样块（DBlock）以及三层条件上采样块（Diffusion UBlock）构成。模型输入为带噪音频（Noisy Audio），噪声步数索引（表示为 t），梅尔频谱条件（Mel-spectrogram，表示为 c）。DBlock等同于 WaveGrad 中的 DBlock 结构。

而新设计的条件上采样块（Diffusion UBlock）如图（b）所示，先使用位置编码（Positional Encoding，PE）对 t 编码，然后经线性层后跟 c 相加，然后作为卷积核预测器（Kernel Predictor）的输入。预测的卷积核会在 Time-Aware Location-Variable Convolutoin（LVC）中使用。以下是引入 Time-Aware LVC 的作用和原理解释。

为了有效的捕获条件的局部信息，FastDiff 参考了 LVCNet [2] 设计 Time-Aware LVC，如图（c）所示，位置变量卷积能对梅尔频谱和噪声步数编码条件进行高效建模，使之能对应于不同的噪声水平，均能够高质量地生成所预测的卷积核。能在保持模型尺寸的同时获得了更优的音质和速度。该模块输入包括下采样的带噪音频，以及预测的卷积核。

在 Time-Aware LVC 中，Gated Activation Unit（GAU）门激活单元是为了提高本语音合成深度模型对于多说话人数据集的通用性，它在 WaveNet 中被证明能够有效地增加深度神器网络网络中的非线性。

总结 FastDiff 每步降噪的建模过程：

卷积核预测器以噪声等级和梅尔频谱为条件，输出预测的卷积核。
带噪音频通过三次下采样，经过 LReLU 激活与 Conv1d一维卷积计算后，与先前获得的预测卷积核，一同参与计算 Time-Aware LVC 区域卷积。
得到的音频通过 GAU 以增加非线性，与残差相加后送到下一层 Diffusion UBlock 的子层（共四层），最后模型输出预测还原的噪声向量。

当降噪神经网络被充分训练之后，FastDiff 利用 BDDM 算法训练 Schedule network 来得到步数更少的噪声编制。当得到搜索后的噪声编制，FastDiff 能用以下的采样算法来进行高速的音频合成。

在 LJSpeech 数据的实验中，如下表所示，FastDiff 能以 4 步降噪就能拿到相比前者最先进的声码器更优的主观及客观听感指标，同时 FastDiff 是首个在生成速度上能跟非 DDPM 类模型可比的（略比 WaveGlow 快）。在生成多样性上面，实验中较低的 NDB 和 JSD 也验证了 FastDiff 和其他 DDPM 类模型能比较避免模式坍塌问题。

四、ProDiff: 快速蒸馏式文本语音合成模型

ProDiff 的主要创新点来自于训练策略方面：

我们首先对文本到语音的扩散参数化进行了初步研究，发现传统扩散模型通过估计数据密度的梯度来生成样本（表示为基于梯度的参数化），需要数百或数千次迭代才能保证较高的感知质量。当减少采样步骤时，由于可感知的背景噪声，质量明显下降。相反，通过使用神经网络直接预测干净数据来参数化去噪模型的方法（表示为基于生成器的参数化）已证明其在加速复杂分布的采样方面的优势。

基于这些初步研究，我们设计了更好的文本到语音合成扩散模型。在本文中，我们提出了 ProDiff，关于高质量文本演讲的渐进式快速扩散模型。为了避免在减少反向迭代时感知质量显著下降，ProDiff 直接预测干净的数据并且不需要估计分数匹配的梯度；

受到 [3] 启发，我们使用知识蒸馏预测扩散过程中方差减小的粗粒度梅尔谱图。为了通过减少扩散迭代来应对模型收敛挑战，知识蒸馏了减少目标端的数据方差。具体来说，去噪模型使用 N 步 DDIM 教师生成的样本作为训练目标，并将行为提取为一个新的 N/2 步模型。因此，它允许模型进行精确预测，并进一步按数量级加速采样。

模型的损失函数主要由样本重建损失、结构相似性指数（SSIM）损失和声学特征（时长、音高、能量）重建损失。在训练 ProDiff 时，我们不使用原始的干净数据，而是通过运行教师的 2 个 DDIM 采样步骤来获得方差减小的目标值。结构相似性指数（SSIM）损失是衡量图像质量的最先进的感知指标之一，它可以捕获结构信息和纹理。声学特征（时长、音高、能量）重建损失为了提高生成语音的自然度和表现力，我们提供了更多的声学方差信息，包括音高、持续时间和能量。

在 LJSpeech 的实验表明，ProDiff 仅需 2 次迭代即可合成高保真音频，同时它通过保持了生成样本的质量和多样性，与 SOTA 模型相比具有竞争力。ProDiff 在单个 NVIDIA 2080Ti GPU 上实现 24 倍于实时的采样速度，从而实现扩散模型在低计算量的情况下适用于交互式、真实世界的语音合成应用。

为了评估反向采样中扩散模型的效率，我们报告了每次迭代后获得的 MCD 结果。如图所示，我们与高度优化的随机基线采样器 DiffSpeech [4] 进行了比较：

1. DiffSpeach 从高斯噪声中缓慢地细化粗粒度样本，高样本质量的保证是以数百个去噪步骤为代价的；

2. 相比之下，ProDiff Teacher 和 ProDiff 预测直接预测无噪数据，使用扩散生成模型后验分布加入扰动，更快、更有效地产生接近最优的结果。

五、总结

我们提出了一种用于高质量语音合成的快速条件扩散模型FastDiff和ProDiff。FastDiff采用时间感知的位置变量卷积，模拟自适应长期时间相关性，ProDiff以蒸馏样本为优化目标，减少数据方差并做出准确预测。实验结果表明，FastDiff和ProDiff模型在综合质量方面优于现有的最佳模型，在合成速度方面有了显著的提高，只需少次迭代即可生成高质量的样本；表现出很强的健壮性，并在对未见说话者的域外泛化中仍然保持到高质量的合成。FastDiff和ProDiff首次以低计算成本将扩散模型应用于交互式、真实世界的语音生成，将帮助并奠定未来高质量、低延迟、高动态性语音合成研究的基础。

参考文献

[1] Max W. Y. Lam, Jun Wang, Dan Su, and Dong Yu. “BDDM: Bilateral Denoising Diffusion Models for Fast and High-Quality Speech Synthesis.” In Proc. ICLR 2022.[2]Zeng Zhen, et al. “LVCNet: Efficient Condition-Dependent Modeling Network for Waveform Generation.” In Proc. ICASSP 2021.[3] Tim Salimans and Jonathan Ho. Progressive distillation for fast sampling of diffusion models. In Proc. ICLR 2022.[4] Jinglin Liu, Chengxi Li, Yi Ren, Feiyang Chen, Zhou Zhao. Diffsinger: Singing voice synthesis via shallow diffusion mechanism. In Proc. AAAI 2022.[5] https://github.com/NATSpeech/NATSpeech. A Non-Autoregressive Text-to-Speech (NAR-TTS) framework, including official PyTorch implementation of PortaSpeech (NeurIPS 2021) and DiffSpeech (AAAI 2022).

作者：黄融杰

文章来源：公众号【PaperWeekly】

Illustration by IconScoutstore from IconScout