定义:
迁移学习:它包括采用预先训练的模型(在源任务上训练的模型),并使用它来改进新目标任务的学习。这可以包括使用模型作为特征提取器,微调模型,或使用模型的部分作为初始化。
域自适应:它专注于调整在源域上训练的模型,使其在不同但相关的目标域上工作良好。任务保持不变,但数据分布发生了变化。挑战在于调整模型,使其在不忘记源域的情况下在新域上表现良好。
应用:
迁移学习:通常用于目标任务的标记数据有限的情况。例如,取一个在ImageNet上训练的模型(普通图像),并在特定医学图像的数据集上对其进行微调。
域自适应:通常用于处理来自不同域的数据的任务。例如,根据影评训练的情绪分析模型可能适用于书评。
类型:
迁移学习:技术包括特征提取、微调和多任务学习。
领域自适应:技术可分为有监督、无监督和半监督领域自适应。方法可能包括实例重新加权、特征空间对齐或对抗性训练。
在实践中,迁移学习和领域适应之间的界限可能很模糊,因为最终目标是利用已知任务或领域的知识来提高新任务或领域上的表现。有时,这两种技术的组合可能会被用来实现所需的结果。
总结:
(1)迁移学习侧重于对模型进行微调,以将源域模型适用于目标域。
(2)领域自适应侧重与接近源域与目标域的数据分布差异,最小化域间差异以将源域的训练模型用于目标域。
多源领域迁移学习和多任务学习都涉及从多个来源或任务中学习,但它们用于不同的目标,并遵循不同的原则。以下是他们之间的差异:
目标:
多源域迁移学习:主要目标是通过利用来自多个源域的信息来提高单个目标任务/域的性能。从本质上讲,你试图从不同的领域中提取和合并知识,以便在新的领域中表现得更好。
多任务学习:目标是通过在多个任务之间共享表示来提高它们的性能。其思想是,同时学习多个任务可以产生更强大的共享表示,使所有任务都受益。
模型结构:
多源域迁移学习:通常涉及将多个域的特征组合或调整为对目标域有用的机制。技术可能包括对齐特征空间,根据源域与目标域的相似性对其进行加权,或者采用对抗性方法来减少域差异。
多任务学习:通常包括共享层(通常是较低层),用于捕获任务之间的通用表示,以及特定于任务的层(通常为顶层),用于满足单个任务的需要。该模型经过训练,可以同时在所有任务中表现良好。
训练数据:
多源域迁移学习:需要来自多个源域的数据,有时还需要来自目标域的少量数据。
多任务学习:需要每个学习任务的数据。数据可以来自同一个域,也可以来自不同的域,具体取决于问题。
优点:
多源域迁移学习:在目标域的数据稀少或代表性不足的情况下提供帮助。通过利用相关的源域,该模型可以更好地推广到目标域。
多任务学习:有助于避免过度拟合,通常会导致更通用的表示,尤其是当单个任务没有大量数据时。共享表示可以捕捉任务之间的共性,每个任务都可以从其他任务的“辅助”学习信号中受益。