可组合扩散模型主打Any-to-Any生成：文本、图像、视频、音频全都行

给定一句话，然后让你想象这句话在现实场景中的样子，对于人类来说这项任务过于简单，比如「一辆进站的火车」，人类可以进行天马行空的想象火车进站时的样子，但对模型来说，这可不是一件容易的事，涉及模态的转换，模型需要理解这句话的含义，然后根据这句话生成应景的视频、音频，难度还是相当大的。

现在，来自北卡罗来纳大学教堂山分校、微软的研究者提出的可组合扩散（Composable Diffusion，简称 CoDi）模型很好的解决了这个问题。比如，前面提到的「一辆进站的火车」，CoDi 根据这句话生成的效果如下：

与现有的生成式人工智能系统不同，CoDi 可以并行生成多种模态，其输入不限于文本或图像等模态。

众所周知，随着技术的发展，大模型的能力范围已经不仅仅局限于一种模态的生成，而是从一种模态生成另一种模态正在变成现实，如我们常见的文本到文本的生成，文本到图像的生成，以及文本到音频的生成。

然而，单一模态或一对一模态在应用到现实世界中会受到限制，因为现实世界是多模态的，然而将多种模态串联在一起难度较大。人们迫切期待开发出一种全面而具有多功能的模型，这种模型可以从一组输入条件中生成任意组合的模态，无缝地整合来自各种信息源的信息，从而实现强大的人机交互体验（例如，同时生成连贯的视频、音频和文本描述）。

CoDi 就是为了实现这一目标而进行的，可以说这是第一个能够同时处理和生成任意组合模态的模型。

研究者表示 CoDi 不仅可以从单模态到单模态的生成，还可以接收多个条件输入，以及多模态联合生成。举例来说，在给定文本 prompt 的情况下生成同步的视频和音频；或者在给定图像和音频 prompt 的情况下生成视频。

下面我们用具体的示例进行展示。首先考察 CoDi 生成图像的能力。

CoDi 可以将文本 + 音频作为输入，然后生成一张图片：

在这个示例中，文本 prompt 大致为：油画，恐怖画风，craig mullins 风格。

除了文本 + 音频，CoDi 还可以以文本 + 图像作为输入，然后生成一张图片：

在这个示例中，输入 prompt 为：花瓶里的花朵，静物画，Albert Williams 风格，以及一张图片。

除此以外，CoDi 还能以三种模态（文本 + 音频 + 图片）作为输入，生成符合要求的图片。

接下来是展示 CoDi 视频生成能力。给模型一句 prompt（坐在咖啡桌旁吃东西）+ 熊猫图片，之后一只活灵活现的大熊猫就动了起来：

此外，CoDi 还能输入单个或多个 prompt，包括视频，图像，文本或音频，以生成多个对齐输出。

在这个示例中，prompt 包括三部分（文本 + 图像 + 音频）：文本 prompt 为滑板上的泰迪熊，4k，高分辨率。图像是一个繁华的街道。语音输入为哗哗的雨声：

生成的视频如下：

不仅如此，CoDi 还能根据一句话生成视频和音频，如：空中绽放的烟花。

视频 + 音频效果如下：

了解更多展示效果，请参考论文主页。

方法概览

潜在扩散模型

扩散模型（DM）是这样一类生成式模型，它们通过模拟信息随时间的扩散来学习数据分布 p (x)。在训练期间，随机噪声被迭代地添加到 x，同时模型学习对示例进行去噪。对于推理，扩散模型对从简单分布（如高斯分布）中采样的数据点进行去噪。潜在扩散（LDM）学习对应于 x 的潜在变量 z 的分布。通过降低数据维数来显著降低计算成本。

可组合多模态调节

为了使自己的模型能够以任何 input/prompt 模态的组合进行调节，研究者对齐文本、图像、视频和音频的 prompt 编码器（分别用 C_t、C_i、C_v 和 C_a 表示），将来自任何模态的输入映射到同一个空间。然后通过对每个模态的表示进行插值来实现多模态调节。通过对齐嵌入的简单加权插值，他们利用单条件（即仅有一个输入）训练的模型来执行零样本多条件（即有多个输入）。整个过程如下图 2 (a)(2) 所示。

不过以组合方式同时对四种 prompt 编码器进行优化具有非常大的计算量，因此需要 O (n^2) 对。此外对于某些双模态，对齐良好的配对数据集有限或不可用，例如图像音频对。

为了解决这些问题，研究者提出了一种简单有效的方法「桥接对齐（Bridging Alignment）」，以高效地对齐编码器。如下图 2 (a)(1) 所示，他们选择文本模态作为「桥接」模态，因为该模态普遍存在于配对数据中，例如文本图像对、文本视频对和文本音频对。研究者从预训练文本图像配对编码器 CLIP 开始，然后使用对比学习在音频文本和视频文本配对数据集上训练音频和视频 prompt 编码器，同时冻结文本和图像编码器权重。

如此一来，所有四种模态在特征空间中对齐。CoDi 可以有效地利用和组合任何模态组合中的互补信息，以生成更准确和全面的输出。生成质量的高低不受 prompt 模态数量的影响。研究者继续使用桥接对齐来对齐具有不同模态的 LDM 的潜在空间，以实现联合多模态生成。

可组合扩散

训练一个端到端的 anything-to-anything 模型需要广泛学习不同的数据资源，并且需要保持所有合成流的生成质量。为了应对这些挑战，CoDi 被设计为可组合和集成的，允许独立构建特定于单一模态的模型，之后实现顺利集成。具体地，研究者首先独立训练图像、视频、音频和文本 LDM，然后这些扩散模型通过一种新机制「潜在对齐」来有效地学习跨模态的联合多模态生成。

先看图像扩散模型。图像 LDM 遵循与 Stable Diffusion 相同的结构，并用相同的权重进行初始化。重用该权重将在大型高质量图像数据集上训练的 Stable Diffusion 的知识和超高生成保真度迁移到 CoDi。

再看视频扩散模型。为了对视频时间属性进行建模的同时保持视频生成质量，研究者通过扩展具有时间模块的图像扩散器来构建视频扩散器。具体地，他们在残差块之前插入伪时间注意力。不过研究者认为伪时间注意力只能将像素（高度和宽度维数）展平为批维数来使视频帧在全局范围内彼此关注，从而导致局部像素之间跨帧交互的缺失。

接着是音频扩散模型。为了在联合生成中实现灵活的跨模态注意力，音频扩散器在设计时具有与视觉扩散器相似的架构，其中梅尔频谱图可以自然地被视为具有 1 个通道的图像。研究者使用 VAE 编码器将音频的梅尔频谱图编码为压缩的潜在空间。在音频合成中，VAW 解码器将潜在变量映射到梅尔频谱图，并且声码器从梅尔频谱图生成音频样本。研究者使用了 [33] 中的音频 VAE 和 [27] 的声码器。

最后是文本扩散模型。文本 LDM 中的 VAE 是 OPTIMUS [29]，它的编解码器分别是 [9] 和 GPT-2 [39]。对于去噪 UNet，与图像扩散不同的是，残差块中的 2D 卷积被 1D 卷积取代。

基于潜在对齐的联合多模态生成

最后一步是在联合生成中启用扩散流之间的交叉注意力，即同时生成两种或多种模态。这通过向 UNet ϵ_θ 添加跨模态注意力子层来实现，详见图 2 (b)(2)。

此外在图 2 (b)(3) 中，研究者在训练联合生成时也遵循了与「桥接对齐」类似的设计，即（1）首先训练图像和文本扩散器中的交叉注意力权重以及它们在文本图像配对数据上的环境编码器 V。（2）冻结文本扩散器的权重，并在文本音频配对数据上训练环境编码器和音频扩散器的交叉注意力权重。（3）冻结音频扩散器及其环境编码器，并在音频视频配对数据上训练视频模态的联合生成。

从结果来看，尽管只接受了三个配对联合生成任务（文本 + 音频、文本 + 图像和视频 + 音频）的训练，但 CoDi 能够同时生成训练中未见过的各种模态组合，例如下图 5 中的联合图像 - 文本 - 音频生成。