论文链接
代码链接
作者提出了一个可组合的扩散模型,该模型体现为能够处理任何输入模态的组合,进而输出任何模态组合的新型生成模型,如语言、图像、视频或音频。不同于已经存在的生成式人工智能系统,该算法能够并行生成多个模态并且他的输出不仅限于图像或文本这种子集。尽管对于许多模态的组合训练集是缺乏的,作者提出同时在输出和输入空间对齐多个模态。这使得该算法能够自由调节任何输入模态的结合并生成任何模态的组合,即使在数据训练数据中没有体现。该算法采用一个新颖的可组合式的生成策略,其中包含在扩散过程中通过桥接对齐建立一个共享的多模态空间,进而同步生成相互交织的模态,如暂时性对齐的视频和音频。
同一空间特征对齐、任意模态生成任意模态
作者首先进行模态的加权
提出了"Bridging Alignment",选择文本作为衔接,采用对比学习对齐
作者分别构建单个模态的模型,分别训练不同模态的扩散模型
图像:根据文献【41】
文本:
生成模态:联合生成,采用对比学习对齐。