论文解读（IGSD）《Iterative Graph Self-Distillation》

论文解读（IGSD）《Iterative Graph Self-Distillation》
论文信息

论文标题：Iterative Graph Self-Distillation
论文作者：Hanlin Zhang, Shuai Lin, Weiyang Liu, Pan Zhou, Jian Tang, Xiaodan Liang, Eric P. Xing
论文来源：2021, ICLR
论文地址：download
论文代码：download

1 Introduction

　　创新点：图级对比。

2 Method

　　整体框架如下：

　　

2.1 Iterative Graph Self-Distillation Framework

　　在 IGSD 中，引入了一个结构相似的两个网络，由 encoder $f_{θ}$ 、projector $g_{θ}$ 和 predictor $h_{θ}$ 组成。我们将教师网络和学生网络的组成部分分别表示为 $f_{θ^{'}}$ 、 $g_{θ^{'}}$ 和 $f_{θ}$ 、 $g_{θ}$ 、 $h_{θ}$

　　IGSD 过程描述如下：
- - 首先对原始输入图 $G_{j}$ 进行扩充，以获得增广视图 $G_{j}^{'}$ 。然后将 $G_{j}^{'}$ 和不同的图实例 $G_{i}$ 分别输入到两个编码器 $f_{θ}$ 、 $f_{θ^{'}}$ 中，用于提取图表示 $h, h^{'} = f_{θ} (G_{i}), f_{θ^{'}} (G_{j}^{'})$ ；
  - 其次，投影头 $g_{θ}$ ， $g_{θ^{'}}$ 通过 $z = g_{θ} (h) = W^{(2)} σ (W^{(1)} h)$ 和 $z^{'} = g_{θ^{'}} (h^{'}) = W^{' (2)} σ (W^{' (1)} h^{'})$ 转换图表示 $h, h^{'}$ 到投影 $z$ ， $z^{'}$ ，其中 $σ$ 表示ReLU非线性；
  - 最后，为防止崩溃为一个平凡的解，在学生网络中使用预测头来获得投影 $z$ 的预测 $h_{θ} (z) = W_{h}^{(2)} σ (W_{h}^{(1)} z)$ ；
　　通过对称传递两个图实列 $G_{i}$ 和 $G_{j}$ ，可以得到总体一致性损失：

　　　　 $L^{con} (G_{i}, G_{j}) = {‖ h_{θ} (z_{i}) - z_{j}^{'} ‖}_{2}^{2} + {‖ h_{θ} (z_{i}^{'}) - z_{j} ‖}_{2}^{2} (2)$

　　在一致性损失的情况下，teacher network 提供了一个回归目标来训练 student network，在通过梯度下降更新 student network 的权值后，将其参数 $θ^{'}$ 更新为学生参数 $θ$ 的指数移动平均值(EMA)：

　　　　 $θ_{t}^{'} \leftarrow τ θ_{t - 1}^{'} + (1 - τ) θ_{t} (3)$

2.2 Self-supervised Learning with IGSD

　　给定一组无标记图 $G = {G_{i}}_{i = 1}^{N}$ ，我们的目标是学习每个图 $G_{i} \in G$ 的低维表示，有利于下游任务，如图分类。

　　在 IGSD 中，为了对比锚定 $G_{i}$ 与其他图实例 $G_{j}$ （即负样本），使用以下自监督的 InfoNCE 目标：

　　　　 $L^{self-sup} = - E_{G_{i} \sim G} [\log \frac{\exp (- L_{i, i}^{c o n})}{\exp (- L_{i, i}^{c o n}) + \sum_{j = 1}^{N - 1} I_{i \neq j} \cdot \exp (- L_{i, j}^{c o n})}]$

　　其中， $L_{i, j}^{con} = L^{con} (G_{i}, G_{j})$ 。

　　我们通过用混合函数 ${Mix}_{λ} (a, b) = λ \cdot a + (1 - λ) \cdot b$ ：融合潜在表示 $h = f_{θ} (G)$ 和 $h^{'} = f_{θ^{'}} (G)$ ，得到图表示 $\tilde{h}$ ：

　　　　 $\tilde{h} = {Mix}_{λ} (h, h^{'})$

2.3 Semi-supervised Learning with IGSD

　　考虑一个整个数据集 $G = G_{L} \cup G_{U}$ 由标记数据 $G_{L} = {(G_{i}, y_{i})}_{i = 1}^{l}$ 和未标记数据 $G_{U} = {G_{i}}_{i = l + 1}^{l + u}$ （通常 $u ≫ l$ ），我们的目标是学习一个模型，可以对不可见图的图标签进行预测。生成 $K$ 个增强视图，我们得到了 $G_{L}^{'} = {(G_{k}^{'}, y_{k}^{'})}_{k = 1}^{K l}$ 和 $G_{U}^{'} = {G_{k}^{'}}_{k = l + 1}^{K (l + u)}$ 作为我们的训练数据。

　　为了弥合自监督的预训练和下游任务之间的差距，我们将我们的模型扩展到半监督设置。在这种情况下，可以直接插入自监督损失作为表示学习的正则化器。然而，局限于标准监督学习的实例性监督可能会导致有偏的负抽样问题。为解决这一问题，我们可以使用少量的标记数据来进一步推广相似性损失，以处理属于同一类的任意数量的正样本：

　　　　 $L^{supcon} = \sum_{i = 1}^{K l} \frac{1}{K N_{y_{i}^{'}}} \sum_{j = 1}^{K l} I_{i \neq j} \cdot I_{y_{i}^{'} = y_{j}^{'}} \cdot L^{con} (G_{i}, G_{j}) (5)$

　　其中， $N_{y_{i}^{'}}$ 表示训练集中与锚点 $i$ 具有相同标签 $y_{i}^{'}$ 的样本总数。由于IGSD的图级对比性质，我们能够缓解带有监督对比损失的有偏负抽样问题，这是至关重要的，但在大多数 context-instance 对比学习模型中无法实现，因为子图通常很难给其分配标签。此外，有了这种损失，我们就能够使用自我训练来有效地调整我们的模型，其中伪标签被迭代地分配给未标记的数据。

　　对于交叉熵或均方误差 $L (G_{L}, θ)$ ，总体目标可以总结为：

　　　　 $L^{semi} = L (G_{L}, θ) + w L^{self-sup} (G_{L} \cup G_{U}, θ) + w^{'} L^{supcon} (G_{L}, θ) (6)$

3 Experiments

节点分类

　　

　　

3 Conclusions

　　在本文中，我们提出了一种新的基于自蒸馏的图级表示学习框架IGSD。我们的框架通过对图实例的增强视图的实例识别，迭代地执行师生精馏。在自监督和半监督设置下的实验结果表明，IGSD不仅能够学习与最先进的模型竞争的表达性图表示，而且对不同的编码器和增强策略的选择也有效。在未来，我们计划将我们的框架应用到其他的图形学习任务中，并研究视图生成器的设计，以自动生成有效的视图。
论文信息
1 Introduction
2 Method
    2.1 Iterative Graph Self-Distillation Framework
    2.2 Self-supervised Learning with IGSD
    2.3 Semi-supervised Learning with IGSD
3 Experiments
3 Conclusions
__EOF__
本文作者： Blair
本文链接： https://www.cnblogs.com/BlairGrowing/p/16200705.html
关于博主： 评论和私信会在第一时间回复。或者直接私信我。
版权声明： 本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！
声援博主： 如果您觉得文章对您有帮助，可以点击文章右下角【推荐】一下。

论文信息

1 Introduction

2 Method

2.1 Iterative Graph Self-Distillation Framework

2.2 Self-supervised Learning with IGSD

2.3 Semi-supervised Learning with IGSD

3 Experiments

3 Conclusions