MetAug: Contrastive Learning via Meta Feature Augmentation

1. 摘要

什么对对比学习很重要？我们认为对比学习在很大程度上依赖于信息特征，或“硬”（正面或负面）特征。早期的作品通过应用复杂的数据增强和大批量或内存库来包含更多信息特征，最近的作品设计了精细的采样方法来探索信息特征。探索这些特征的关键挑战是源多视图数据是通过应用随机数据增强生成的，这使得始终在增强数据中添加有用信息是不可行的。因此，从这种增强数据中学习到的特征的信息量是有限的。作为回应，我们建议直接增强潜在空间中的特征，从而在没有大量输入数据的情况下学习判别表示。我们执行元学习技术来构建增强生成器，通过考虑编码器的性能来更新其网络参数。然而，输入数据不足可能会导致编码器学习折叠的特征，从而导致增强生成器出现故障。在目标函数中进一步添加了一个新的边缘注入正则化，以避免编码器学习退化映射。为了在一个梯度反向传播步骤中对比所有特征，我们采用了提出的优化驱动的统一对比损失，而不是传统的对比损失。根据经验，我们的方法在几个基准数据集上实现了最先进的结果。

2. 动机以及贡献

存在的问题

传统的学习范式需要大量对进行对比，并且许多对对模型没有信息，即正对非常接近而负对已经在隐蔽的空间中相距甚远。当对比对的数量有限时，对比损失可能导致传统对比学习方法学习折叠特征，例如，为所有图像输出相同的特征向量。
许多研究工作都致力于数据的强大增强，但是从增强数据中学习到的特征的信息量很难准确测量。

贡献

提出边际注入元特征增强，它直接增强潜在特征以生成信息丰富的和抗塌陷的特征。受益于这些特征，编码器可以有效地捕获判别信息。
提出优化驱动的统一对比，以在反向传播的一个步骤中包含所有可用特征，并通过测量配对特征对优化的贡献来加权配对特征的相似性。

元特征增强： 通过边缘注入元特征增强和优化驱动的统一对比度来学习视图特定编码器（带投影头）和辅助元特征增强生成器（MAG）。假设输入数据有M个视图，多视图数据被送入编码器以生成潜在特征。我们将M个神经网络初始化为视图的MAG，用于增强每个视图的特征。

有效的原因

边缘注入元特征增强，其中MAG在一次迭代中使用编码器的性能来改进下一次迭代的视图特定特征增强。通过这种方式，MAGs 促使编码器有效地探索输入的判别信息。对于MAGs生成的原始特征和增强特征，我们在它们的相似性之间注入了一个裕度 $R_σ$ ，避免了实例级特征的崩溃；
优化驱动的统一对比度，在一个梯度反向传播步骤中对比所有特征。这种建议的对比还可以放大偏离最佳的实例相似性的影响，并削弱接近最佳的实例类似性的影响。

3. 方法

3.1 模型框架

在这里插入图片描述

3.2 边缘注入元特征增强

首先在自监督对比学习的学习范式下训练 $f_θ(·)$ 和 $g_ϑ(·)$ 。然后，通过计算关于 $f_θ(·)$ 和 $g_ϑ(·)$ 性能的梯度来更新 $a_ω(·)$ 。

伪代码

在这里插入图片描述

编码器和投影头的网络参数 $θ$ 和 $ϑ$ 的更新目标

在这里插入图片描述

$\dot{ϑ}$ 和 $\dot{θ}$ 的更新

在这里插入图片描述

$\dot{ϑ}$ 和 $\dot{θ}$ 分别表示编码器和投影头的参数集

$ω$ 的更新

在这里插入图片描述

元更新目标背后的想法是我们执行二阶导数技术来训练 $a_ω(·)$

存在的问题

当原始特征信息量不足时，通过对比信息量不足的特征难以生成大梯度，MAGs $a_ω(·)$ 倾向于创建折叠的增强特征，例如，增强的特征和原始特征非常相似。作者认为特征崩溃的原因是编码器在投影头 $g_ϑ(f_θ(·))$ 旁边的小梯度变化导致 $a_ω(·)$ 的更新步长变得非常小，这使得 $a_ω( ·)$ 陷入局部最优。

裕度 $R_σ$ 的计算

裕度 $R_σ$ 是用来注入增强特征和原始特征之间的边距

在这里插入图片描述
${d(\{z^+\}k^+)\}$ 是由判别函数 $d (\cdot)$ 和 $k^+∈ \{1, ..., K^+\}$ 计算的一组正例的输出（相似性），其中 $K^+$ 表示小批量中正例的数量。 $d(\{z^−\}k^−)$ 是负样本的判别输出的集合，并且 $k^−∈\{1, ..., K^−\}$ 其中 $K^−$ 表示负样本的数量。
在这里插入图片描述

$[·]_+$ 表示截止零函数，定义为 $a]_+ = max(a, 0)$ 。

实际效果

在这里插入图片描述

3.3 优化驱动的统一对比

优化驱动的统一损失函数

在这里插入图片描述

$λ$ 是汇总的实例相似度之间的边距，以增强相似度分离的能力。

作者发现 $\sum^{K^−}_{k^−=1}d(\{z^−\}_{k^−})$ 和 $\sum^{K^+}_{k^+=1}d(\{z^+\}_{k^+})$ 之间的差异并不是越大越好。差异的过度增加可能会破坏优化的收敛性。

添加一个温度系数 $β$ 后的损失

在这里插入图片描述

当 $β \to + \infty$ 时，公式 8 等于公式 7。

引入加权因子 $Γ^−$ 和 $Γ^+$

在这里插入图片描述
这种方法旨在对偏离最优值的相似性给予更大的权重，对与最优值非常接近的相似性给予较小的权重。 $Γ^− = [d(\{z^−\}_{k^−})−O^−]_+$ 和 $Γ^+ = [O^+-d(\{z^+\}_{k^+})]_+$ ，其中 $O^−$ 和 $O^+$ 表示 $d(\{z^−\}_{k^−})$ 和 $d(\{z^+\}_{k^+})$ 的预期最优值。 $γ^+$ 和 $γ^−$ 用于替换 $λ$ 。
通过归一化 ${z^−\}_{k^−}$ 和 ${z^+\}_{k^+}$ 中的特征，将 $d(\{z^−\}_{k^−})$ 和 $d(\{z^+\}_{k^+})$ 限制在 $[0, 1]$ 的范围内，这样理论上, $d(\{z^−\}_{k^−})$ 的最优值为 0, $d(\{z^+\}_{k^+})$ 的最优值为 1。

减少参数量

在这里插入图片描述

$O^+ = 1 + γ、O^- = -γ、γ^+ = 1 - γ 、 γ^- = γ$

$Γ$ 变体

在实践中，作者发现引入加权因子 $Γ$ 不能直接改进方法。原因在于 $Γ$ 可能导致损失收敛过快，从而使网络参数处于局部最小值。因此，提出了一个变量来替换 $Γ$ ，即 $Γ=\frac{Γ}{\phi_{dec}}$ ，其中， $\phi_{dec}$ 是线性衰减系数，以线性衰减 $Γ$ 的影响，从而使当前值与最佳值之间的差值变小。

变体有效性证明

在这里插入图片描述

使用MetAug（仅限OUCL）来证明提议变体的有效性。

3.4 模型目标

在这里插入图片描述

$L^{ori}_{OUCL}$ 表示不包括元增强特征的损失， $L^{aug}_{OUCL}$ 表示包括这些特征的损失， $δ$ 是控制它们之间平衡的系数。

4. 实验结果

在这里插入图片描述

MetAug（仅OUCL）是无边缘注射元特征增强的消融变体。

batch size的影响

在这里插入图片描述
随着批大小的增加，每个比较方法在下游任务上都取得了更好的性能。作者推测，随着批大小的增大，训练步骤中可用特征的数量增加，因此模型可以探索更多信息特征以提高对比学习的性能。然而，随着batch size增加MetAug（仅OUCL）的性能与比较方法之间的差距变得更小。于是作者扩展了上述推测：随着在一个训练步骤中所有方法都可以探索更多信息特征，OUCL的优势变得不那么明显。OUCL的目标是包括所有可用的特征，以有效地训练模型，避免优化陷入局部最优，而增加批次大小，这意味着充分的自我监督，可以自然地提高优化效率，避免陷入局部最优。

相关阅读:
程序开发中表示密码时使用 password 还是 passcode？
【JavaScript】用echarts绘制饼图
ContextMenuStrip内容菜单源对象赋值学习笔记（含源码）
【C++ Primer Plus学习记录】复合类型总结
rk平台android12系统设置里面互联网选项中的以太网选项点击不了问题
EXCEL 中find，if and，if or
Webfunny前端监控如何接入飞书单点登录（SSO）
九、互联网技术——记忆背诵
飞桨部署到地平线
k8s基础随笔

原文地址：https://blog.csdn.net/weixin_43902773/article/details/127090501