利用最优传输理论来对齐并融合两个或多个Transformer模型。作者实现了对Transformer的关键组成部分,如多头自注意力、层归一化和残差连接的对齐和融合。
作者发现与全连接或卷积架构不同,软对齐(soft alignment)对Transformer模型融合起关键作用。作者在多个视觉和自然语言处理任务上验证了该方法,结果表明融合后的模型在微调后能够超越单个父模型的性能。
Transformer架构在各个领域取得了广泛的成功。将多个Transformer模型融合在一起可以发挥各模型独特的优势,提高性能。直接平均模型的参数(Vanilla Fusion)会损失每个模型独特的表达能力。相比之下,最优传输融合(OTFusion)通过对齐各模型的参数矩阵,可以有效地整合每个模型的知识。本文提出的OTFusion还支持不同尺寸模型的融合,这为利用现有的预训练模型提供了新的途径。尽管OTFusion已经在全连接和卷积网络上取得了成功,但针对复杂的Transformer架构还存在挑战。本文提出了一种方法,通过最优传输的视角有效地将多模型融合推广至Transformer架构。
OTFusion是最优传输融合(Optimal Transport Fusion)的简称,由Sidak Pal Singh和Martin Jaggi在2020年提出。它是一种利用最优传输理论来对齐和融合多个预训练神经网络模型的方法。
OTFusion的基本思想是:
将多个模型(比如model A和model B)视为分布,模型中的神经元对应分布中的点。
计算这些模型(分布)之间的最优传输映射(Optimal Transport map),这个映射表明哪些源模型中的神经元应该传输到目标模型的哪些神经元,以完成对齐。这里运用了最优传输理论来找到对齐不同模型的最佳策略。
按照最优传输映射,将源模型中的权重矩阵进行变换,与目标模型对齐。
对齐后的模型进行平均,得到融合后的新模型。
OTFusion的优点包括:
可以有效获取各个模型的独