INSURE: An Information Theory Inspired Disentanglement and Purification Model for Domain Generalization
公众号:EDPJ(添加 VX:CV_EDPJ 进交流群获取资料)
目录
域泛化(Domain Generalization,DG)旨在通过仅在多个观察到的源域上进行训练,来学习未见过的目标域上的可泛化模型。 尽管各种 DG 方法都专注于提取域不变特征,但特定于域的类相关特征引起了人们的关注,并被认为有利于泛化到未见过的目标域。 为了考虑到类相关的特定领域信息,在本文中,我们提出了一种信息论启发的解缠结和纯化模型(Information theory iNspired diSentanglement and pURification modEl,INSURE),以明确地解缠潜在特征,以获得充分且紧凑(必要的)类相关特征,以泛化到未见过的领域。 具体来说,我们首先提出一种信息论启发的损失函数,以确保解缠的类相关特征包含充分的类标签信息,并且其他解缠的辅助特征具有充分的领域信息。 我们进一步提出了一种配对的净化损失函数,让辅助特征丢弃所有的类相关信息,因此,类相关特征将包含充分且紧凑的(必要的)类相关信息。 此外,我们建议使用可学习的二进制掩码作为我们的解缠器,而不是使用多个编码器,以使解缠更有效并使解缠的特征彼此互补。 我们对四个广泛使用的 DG 基准数据集(包括 PACS、OfficeHome、TerraIncognita 和 DomainNet)进行了广泛的实验。 所提出的 INSURE 优于最先进的方法。 我们还凭经验表明,特定领域的类相关特征有利于领域泛化。
大多数统计机器学习算法的基本假设是训练数据和测试数据具有独立且相同的分布 (i.i.d.)。 然而,由于源数据和目标数据之间的分布变化,这种假设在实际应用中并不总是成立。 例如,汽车探测器应该适应不同的环境(例如,城市到农村的转变)和恶劣的天气条件(例如,晴天到雨天的转变)[1]。 经典的深度学习模型通常无法泛化到这种分布外 (out-of-distribution,OOD) 场景下的测试数据,因为不满足独立同分布 (i.i.d.) 假设。
为了缓解这种域转移问题,[2] 中引入了域泛化(DG)。 在 DG 中,模型在多个域上进行训练,并在未见过的目标域上进行测试。[3] 已经证明,特征表示是通用的,并且如果它们在跨领域保持不变的话,可以转移到不同的领域。 受这一理论的推动,人们提出了大量的算法 [4]-[8] 来学习跨源域的域不变特征。 然而,这种领域不变的特征可能不足以实现泛化。 [9] 从理论上证明,如果源域和目标域之间的边缘标签分布显着不同,则域不变表示会降低泛化能力。 此外,[10] 证明,域不变性的要求通常可能过于严格,并且可能并不总是导致一致的估计。
另一方面,特定领域的信息对于帮助泛化能力变得越来越流行。 [11] 采用了多个特定领域的神经网络,然后将它们与低秩约束对齐。 然而,太多的特定于域的网络使得很难扩展到大量的源域。 类似地,[12] 在网络内生成了多个掩码,每个掩码对应于训练过程中的一个域,然后对测试时从所有单个源域掩码获得的预测进行平均。 主要问题是重叠惩罚不足以获取特定领域的信息。 最近,[13] 通过最小化协方差矩阵和元学习(meta-learning),解耦特定领域和领域不变的潜在特征。 然而,它的计算复杂度较高,包含两个编码器和三个分类器,并且涉及高维的协方差矩阵计算。 此外,以前的方法只考虑了域特定或域不变特征的充分性,而忽略了冗余信息的去除。
在本文中,我们提出了一种信息论启发解缠结和纯化模型(Information theory iNspired diSentanglement and pURification modEl,INSURE),以显式解缠潜在特征 z 以获得充分且紧凑(必要)的类相关特征 z*,用于泛化到未见过的域和辅助特征 z′ 。 具体来说,受信息论的启发,我们设计了一种损失函数,最小化原始特征 z 和解纠缠的 z* 之间的 KL 散度,以确保 z* 具有充分的类相关信息。 为了丢弃 z* 中多余的特定领域信息,通过使用类似的信息理论启发的损失函数,z′ 被学习为包含充分的域信息。 据我们所知,此类损失函数在之前的 DG 工作中尚未使用过。我们进一步提出了一个配对的净化损失函数,让 z′ 去除所有的类相关信息,从而确保 z* 包含充分且必要的(紧凑)类相关信息。 我们建议使用可学习的二进制掩码作为我们的解缠器,而不是使用多个编码器,以使解缠更加有效,并使 z* 和 z′ 互补。 值得一提的是,我们所有的损失项都是通过对最终目标的理论分析得出的(即,解缠充分且紧凑的类相关特征)。 因此,这些损失项自然地与我们的框架保持一致,并且相互补充。
我们在这项工作中的贡献总结如下:
域泛化。 有大量的 DG 模型 [1]、[14],它们可以大致分为以下几类:
(1) 域对齐。 这些方法迫使潜在表示在不同领域具有相似的分布 [15]-[18]。
(2) 数据增强。 DG 还可以通过数据增强来改进。 各种技术利用不同的增强来模拟未见过的测试域条件,包括域随机化(domain randomization) [19]-[22]、对抗性数据增强(adversarial data augmentation) [23]-[25] 和数据/特征生成(data/feature generation) [26]-[34]。
(3) 学习策略。 包括集成学习(ensemble learning) [35]、[36] 和元学习(meta-learning) [5] 在内的几种学习策略也提高了域泛化能力。
(4) 解耦表示学习。 解耦表示学习的目标是将特征表示分解为可理解的组合(即领域不变和领域特定)。
虽然我们的 INSURE 模型属于解耦表示学习,但我们强调我们的贡献集中在解耦什么以及如何解耦。 特别是,我们(1)借助辅助特征 z′ 获得充分且紧凑(必要的)类相关特征 z*,以及(2)在统一框架中使用信息论启发的解缠结和净化损失函数。 此外,与之前通常采用两个编码器作为解缠器的工作相比,INSURE 模型利用可学习的二进制掩码来解缠潜在特征。 DG 技术也在各种场景中得到应用,包括但不限于少样本学习 [41]、高光谱图像分类(hyperspectral image classification) [42] 和行人重新识别(person re-identification) [43]。
DG 的信息理论学习。 最近,基于信息论的方法已广泛应用于领域泛化中。
可学习的掩码。
设 X ⊂ R^d 为输入空间,Y ⊂ R 为目标类标签空间。 域由从 X × Y 上的联合分布 P_XY 采样的数据组成。在域泛化的背景下,我们给出 N 个源域
每个域 S_i 与联合分布
相关。 请注意,每对域之间的联合分布是不同的。 典型的域泛化框架是从 N 个源域中学习可泛化的预测函数 C : X → Y 并在未见过的测试域 S_target 上实现最小预测误差。
我们考虑一个由特征提取器 E : X → Z (其中 Z 是特征嵌入空间)和分类器 F : Z → Y 组成的学习模型。我们根据潜在特征空间 Z 与域和标签的关联将其分为四个不同的部分,维恩图如图 1(a)所示。 为了简单起见,我们考虑具有两个源域 S^1 和 S^2 的情况,因此 Z_1 和 Z_2 是相应的潜在特征。 令I(·;·)表示两个变量的互信息,H(·|·)表示条件熵。 我们将这四个部分的定义如下:
定义 III.1。 对于特征提取映射 E : X → Z,如果 ∀ i,j = 1, ...,N, i ≠ j 使得
则特征是域专属类别相关的(Domain-Specific Class- Relevant),对应于 1 (a) 中的区域 III。
定义 III.2。 对于特征提取映射 E : X → Z,如果 ∀ i,j = 1, ...,N, i ≠ j 使得
则特征是域不变类别相关的(Domain-Invariant Class- Relevant),对应于 1 (a) 中的区域 IV。
定义 III.3。 对于特征提取映射 E : X → Z,如果 ∀ i,j = 1, ...,N, i ≠ j 使得
则特征是域专属类别无关的(Domain-Specific Class-Irrelevant),对应于 1 (a) 中的区域 I。
定义 III.4。 对于特征提取映射 E : X → Z,如果 ∀ i,j = 1, ...,N, i ≠ j 使得
则特征是域不变类别无关的(Domain-Invariant Class-Irrelevant),对应于 1 (a) 中的区域 II。
以前的工作通常首先将潜在特征分解为域特定的(区域 I+III)和域不变的(区域 II+IV),然后通过涉及类标签进一步学习域不变的类相关特征(区域 IV) 信息。 然而,有人认为,仍然存在来自特定领域部分(区域 III)的类相关信息,这可以提高未见过的目标领域的泛化性。 为了捕获整个类相关信息,我们的目标是解耦类相关 z*(区域 III+IV)和类无关 z′(区域 I+II)中的潜在特征 z,如图 1 (b) 所示。 因此,如何有效地解开这两个部分就成了一个问题。 为了回答这个问题,我们在下一节中介绍我们提出的框架。
在本节中,我们将详细描述如何在最终与类无关的辅助特征 z′ 的帮助下学习充分且必要的(紧凑)类相关特征 z*。 整个框架如图 2 所示。首先,如图 2(a) 所示,我们利用二值掩模解缠器解缠原始潜在特征以获得互补特征 z* 和 z′。 利用信息论保证 z* 包含充分的标签信息。 为了丢弃 z* 中多余的特定领域信息,z′ 被学习为包含充分的领域信息。 然后,如图 2(b) 所示,提出了配对净化损失函数来消除 z′ 中的所有标签相关信息,从而确保 z* 包含充分且必要的(紧凑)类相关信息。
如图 2 所示,输入图像 x 首先被输入特征提取器 E 以获得中间特征,称为 z,即z = E(x),z ∈ R^k,其中 k 是特征维度。 中间特征 z 耦合类相关/不相关和领域不变/特定信息。 我们的目标是从 z 中提取包含充分且必要的标签信息的 z*。 我们将问题转化为解耦 z 以获得与类相关的 z* 和与类无关的 z′,以充分利用来自多个源域的类标签和域索引信息,并同时训练类分类器 f 和域分类器 g。
我们将 z 的解耦视为特征选择问题,即在 z 中,有一些特征维度与类相关,而其余特征维度与类无关。 因此,我们建议应用二元掩模作为我们的解缠器。 更具体地说,给定中间特征 z = [z_1, ..., z_k]^⊤,我们引入掩模参数 m = [m1, ...,mk]^⊤ ∈ {0, 1}^k。 类相关特征 z* 和 z′ 定义如下:
其中 ⊙ 是逐元素乘法,σ(·) 是 sigmoid 运算,~mi 是可学习变量。
与基于编码器的方法相比,使用二进制掩码解耦潜在中间特征具有以下方面的优势:
受信息瓶颈(IB)原理 [45]、[55] 的启发,我们还希望在解缠器之前压缩潜在表示 z,这可以通过丢弃原始输入 x 中不相关的干扰因素来提高泛化能力。 因此我们在 z 上引入 IB 原理:
它鼓励 z 最大化预测能力,同时压缩来自原始图像 x 的信息,其中 ϵ ≥ 0 控制压缩。 基于 [55],−I(z; y)可以近似为经典的交叉熵损失,对于 z*,使用类标签分类的交叉熵损失,对于 z′,使用域索引分类的交叉熵损失。 I(z; x) 可以通过其变分上限最小化,该上限由
和高斯正态分布 r(z) ∼ N(0, 1) 之间的 KL 散度定义。 因此,解缠结的损失函数可以写为:
其中 y 表示类标签,d 是域索引,CE 表示交叉熵。
我们理想的目标是学习包含 z 拥有的充分且必要的标签信息的 z*。 第一步,我们确保 z* 保留对应于标签 y 的所有预测信息,即 I(z; y) = I(z*; y)。 然而,互信息估计被认为是一个具有挑战性的问题 [56]。 在本文中,继 [56] 之后,我们介绍了上述 “充分” 的实际计算。
定理 1. 假设潜在特征 z 足以预测标签。 如果 z 和 z* 的预测分布之间的 KL 散度等于 0,则 I(z; y) = I(z*; y),即 z* 对于标签来说也是充分的。
根据定理 1,我们为类相关特征 z* 定义基于信息论的损失:
其中 f 是类标签分类器。
z 和 z* 之间的互信息可以分解为两项 [56]、[57]:
其中 I(z; z*|y) 表示 z 中与类无关(多余)的信息。如果满足上述充分条件,即 I(z; y) = I(z*; y),则等式 5 变为:
其中 I(z; y) 表示区域 III+IV。 也就是说,虽然 z* 包含充分的标签信息,但它也可能包含来自区域 I和/或区域 II 的多余信息。 为了获得紧凑的(必要的)标签信息,我们努力丢弃区域 I 和区域 II 中的多余信息。 由于区域 I 包含特定领域的特征,我们考虑让 z′ 捕获所有特定领域的信息,从而强制 z* 丢弃区域 I 中的信息。
与使 z* 获得充分标签信息的努力类似,我们通过强制 I(z; d) = I(z′; d) 确保 z′ 保留所有对应于域索引的域信息,其中 d 表示域索引 。 根据定理 1,我们为域相关特征 z′ 定义基于信息论的损失:
其中 g 是域分类器。 通过满足 I(z; d) = I(z′; d),我们得到:
其中 I(z;d) 表示区域 I+III。
如上所述,z* 和 z′ 特征分别包含与类标签和域索引相关的充分信息。等式 4 中的 KL 散度损失强制 z* 包含区域 IV,因此 z′ 不包含区域 IV 的任何信息。 然而,距离我们的最终目标(即确保特征 z* 包含充分且必要的标签信息)仍有差距,这相当于让特征 z* 包含且仅包含区域 III+IV。
为了填补第一个差距,即从 z* 中去除区域 II,我们建议应用掩模稀疏正则化(mask sparsity regularization,MSR),它可以由掩模参数向量的 L1 范数定义为:
其中 k 是 z 的维数,σ(·) 指的是 sigmoid 运算。 这种损失促使 z* 通过打开潜在特征 z 中的少量元素来包含尽可能少的信息。 动机是保留或删除与区域 II 相关的特征(称为域不变类无关特征)不会影响如下任何损失函数
而与保留相比,删除此特征将减少 MSR 损失 ,从而减少总损失。
为了填补第二个空白,即将区域 III 分配给 z*,我们提出了一种纯化策略来防止 z′ 包含任何与类相关的信息。
假设 1. 将 z*_i 表示为输入 x_i 的类相关特征,将 z′_j 表示为任何其他输入 x_j 的类无关特征。 我们假设类别分布不受类别无关转移的变化的影响。 因此,以下不变性条件应成立:
这一假设表明,给定一个由一个样本(例如 i)的 z* 和另一个样本(例如 j)的 z′ 组合而成的特征,其类标签预测仅取决于 z* 部分,而与 z' 的变化无关。 也就是说,z′ 特征不包含任何标签信息(来自区域 III),如果包含,则等式 10 不会满足。
基于这个假设,我们建议使用
之间的距离作为配对净化损失函数,定义为
其中 ∥·,·∥ 表示均方误差(MSE)损失,f 指类别分类器,N 是样本对的数量。
总之,等式 9 帮助 z* 尽可能地丢弃区域 II,而等式 11 则帮助 z' 尽可能地丢弃区域 III,因此由于二值掩码的特性,区域 III 将被分配给 z*。
在训练阶段,我们联合训练特征提取器、可学习的二元掩模和两个分类器。 我们最终的损失函数是:
其中,
鼓励 z* 和 z′ 包含充分的信息,
一起进一步纯化 z*。 选择 α、β、γ 作为平衡参数来调整各分量的重要性。 在推理阶段,我们仅利用 z* 并根据类别分类器 f 获得最终预测。
本节说明了我们的方法相对于四个广泛使用的 DG 基准数据集的优越性。 此外,我们还进行详细的消融研究,以确定不同成分的影响。
数据集。我们的模型的性能在四个流行的数据集上进行评估,包括 PACS、OfficeHome、TerraIncognita 和 DomainNet。
实现细节。 在我们所有的实验中,我们使用开源代码 Domainbed [61]。
我们评估 INSURE 模型,并将其与四个标准基准数据集上的最先进方法进行比较,遵循 [13]、[61]的设置。 我们在表 I 中说明了结果。它表明,
每个组件的贡献:我们对 PACS 数据集进行了广泛的消融研究,以调查 INSURE 模型中每个组件的有效性。 在表 III 中,“Baseline” 模型应用二元掩模作为解缠结器,并且仅包含解缠结损失Ldis。 将每个损失项单独添加到基线模型可以提高显示每个组件有效性的性能。 具体来说,我们观察到将 Lmsr 和 LIT 组合到基线模型中的准确性比仅添加 Lmsr 更差。 这意味着,LIT 只鼓励充分性,而 z* 仍然包含多余的信息,这往往会降低性能。 通过将所有项组合在一起来实现最佳性能,这表明每个损失都是我们框架中不可或缺的组成部分。
为了进一步证明每个损失项的关联,我们在图 3 中可视化 z* 的分布,我们可以看到不同的类别更容易区分,例如,当结合所有组件时,人与其他类别之间的距离比其他方法之间的距离更大。
此外,我们利用可视化技术 [79] 以我们提出的方法学习到的 z* 形式呈现最后一个卷积层的注意图,如图 4 所示。它表明我们提出的 INSURE 更能够捕获完整的与其他类别相关的信息。 以大象为例(第一行),INSURE 关注整个大象和大象附近的一些区域,表明一些特定领域的类相关信息也可以提高泛化性。
二进制掩模解缠器的验证:我们通过将所提出的二进制掩模解缠器与两个基于多编码器的模型进行比较来验证其有效性(effectiveness)和效率(efficiency)。 第一个简单地用 INSURE 模型中的两个 MLP 编码器替换二进制掩模解缠器,而另一个则包含两个特征提取器 [13]。 由于存在多个编码器,传统的解缠结器通常会包含额外的参数,并且由于需要额外的损失来确保解缠结的特征既独立又无损,因此需要相当大的计算代价。 相比之下,我们的二元掩模解缠器只是一个可学习的向量,它直接保证解缠的特征是正交且无损的。 表 IV 显示了性能、训练时间(每步)和参数数量,这展示了二元掩模解缠器的优势。
此外,我们还评估了 PACS 基准数据集上不同面罩类型的性能。 虽然二进制掩码通常以硬方式使用,即所有元素只能为 0 或 1,但我们还评估了软二进制掩码的有效性。 即所有元素都可以是 0 到 1 之间的连续值。在训练和推理阶段使用硬和软二进制掩码,我们在表 V 中报告结果
参数敏感性:在表 VI 中,我们显示了对等式 12 中不同损失项的权重参数 α、β 和 γ 的敏感性分析。当我们分析对特定参数的敏感性时,其他两个保持选定值,即 α = 9,β = 1,γ = 1。
不同的随机种子。 训练过程会引入一定程度的随机性,例如训练集和验证集的分割方式、迭代数据样本的顺序、类标签分类器 f 和域索引分类器 g 的初始化等。 为了再现性,我们将正文中所有实验的随机种子固定为 0。 在这里,为了研究我们的模型对随机性的敏感性,我们使用随机种子进行了五次重复实验。 最小、最大、平均值和标准偏差数报告于表 VII 和表 VIII 中。 我们提出的方法对随机性不敏感,并且始终优于最先进的方法。
我们还在更具挑战性的场景(单源域泛化(single-DG))中评估 INSURE 模型,其中只有一个源域可用于训练。 由于它缺乏域索引信息,我们只需从框架中删除域分类器 g,即从损失函数中排除
表 IX 说明了 INSURE 模型在使用 ResNet-18 的 PACS 和使用 ResNet-50 的 DomainNet 上优于两个 SOTA 模型以及基线 ERM 模型。
在本节中,我们通过仅调整最终目标函数中的配对纯化损失项来研究域特定且类相关的特征(区域 III)是否真正有助于未见过的目标域的泛化。 如上所述,在等式 11 中,类分类器 f 上提出的损失函数使 z* 捕获所有区域 III。 类似地,我们还可以通过在域分类器 g 上定义配对纯化损失函数来使 z* 丢弃所有区域 III,如下所示:
如表 X 所示,当 z* 包含区域 III 时的性能优于当 z* 不包含区域 III 时的性能,这表明域特定且类相关特征对于泛化性是有效的。
在本文中,我们提出了 INSURE 模型来显式地解耦潜在特征,以获得用于领域泛化任务的充分且紧凑(必要)的类相关特征。 我们设计了基于信息论的损失函数,以确保两个解耦的特征分别包含足够的标签和域信息,并进一步提出了配对的纯化损失函数以获得充分且紧凑(必要)的类相关特征。 对四个 DG 基准数据集的综合实验表明,我们提出的模型优于最先进的方法。 我们还凭经验表明,特定领域的类相关特征有利于领域泛化。
Yu X, Tseng H H, Yoo S, et al. INSURE: An Information Theory Inspired Disentanglement and Purification Model for Domain Generalization[J]. arXiv preprint arXiv:2309.04063, 2023.
域泛化(Domain Generalization,DG)通过仅在多个观察到的源域上进行训练,来学习未见过的目标域上的可泛化模型。 尽管各种 DG 方法都专注于提取域不变特征,但特定于域的类相关特征引起了人们的关注,并被认为有利于泛化到未见过的目标域。本文提出了一种信息论启发的解缠结和纯化模型(Information theory iNspired diSentanglement and pURification modEl,INSURE),以明确地解缠潜在特征,以获得充分且紧凑(必要的)的类相关特征。
本文的主要贡献:
以前的工作通常首先将潜在特征分解为域特定的(区域 I+III)和域不变的(区域 II+IV),然后通过涉及类标签进一步学习域不变的类相关特征(区域 IV) 信息。 然而,有人认为,仍然存在来自特定领域部分(区域 III)的类相关信息,这可以提高未见过的目标领域的泛化性。
为了捕获整个类相关信息,本文的目标是把潜在特征 z 解耦为类相关 z*(区域 III+IV)和类无关 z′(区域 I+II),如图 1 (b) 所示。
整个框架如图 2 所示。