intro:深度学习取得的成果不仅是强大模型的功能,更是因为有海量的优质数据做支撑。但当训练可用的数据很差、存在各种各样的问题时该怎么办?
本讲座介绍了几种不完美的数据情形,例如联邦学习、长尾学习、噪声标签学习、持续学习等,并介绍如何使深度学习方法应对这些情形,依然保持强大。
Large-scaled labeled data
Good training data should have the following traits:
Federated Learning
Long-tail Learning
Noisy Label Learning
Continual Learning
Federated Learning Framework
联邦学习,不传数据,传模型参数。
一个类别的数据量远超过另一个类别的数据量。
majority class & minority class
针对数据不平衡问题,在深度学习流行以前,主要有两类常用的方法:
在深度学习问题面前,又有了新的挑战:
于是,在2019年提出了一个新的概念:长尾学习。
和传统的不平衡学习相比,长尾学习具有以下特点:
适用场景:标签存在一定的错误率。
方法:
Image source: B. Han et al., “A Survey of label-noise Representation Learning: Past, Present and Future”, 2020.
例如:
估计噪声转移矩阵,即估计某一类的样本会有多大的概率分成另一类。
Co-Teaching:
Future Direction: OOD Noise
Clean, ID noise, OOD Noise(out of distribution)
(终生学习、增量学习、数据流学习)
Data comes as time goes on.
trade-off:模型既要稳定,又要可塑。stability & plasticity
深度学习模型的可塑性是较容易的,但也很容易忘记以前学会的东西,这个现象即灾难性遗忘(catastrophic forgetting)。
在旧样本里挑一些具有代表性的,在新的训练中也加进来。
Select and keep a few representative samples in each task. Incorporate them into the training process of future tasks.
怎么用? 例如 GEM,加入了限制条件,新的模型在老的样本上的表现不能变差。
怎么选? 例如数据集压缩,Dataset Condensation。
回放模型的缺点:
但SOTA 的方法仍是基于 Dataset Condensation 的。
此类方法不存过往的数据,可以把模型存下来。在优化的过程中,要求新学的模型不能和老模型相差太多。
elastic weight consolidation
为每个任务指定不同的模型参数,以防止可能的遗忘。dedicate different model parameters to each task, to prevent any possible forgetting.
Generally, the important parameters of the past tasks are fixed.
模型很大,不是所有的参数都有用,所以大的模型可以压缩成小的模型,保持其功能。所以在每次学习后,将模型进行压缩,下一次再利用空出来的参数空间来学习下一个任务。
以上讨论了深度学习模型训练时的四种不完美数据:
Reference:
厦门大学 卢杨 信息技术前沿讲座
A u t h o r : C h i e r Author: Chier Author:Chier