论文信息
论文标题:Large-Scale Representation Learning on Graphs via Bootstrapping
论文作者:Shantanu Thakoor, Corentin Tallec, Mohammad Gheshlaghi Azar, Rémi Munos, Petar Veličković, Michal Valko
论文来源:2021, ICLR
论文地址:download
论文代码:download
早先版本名字叫《Bootstrapped Representation Learning on Graphs》
1 介绍
研究目的:对比学习中不适用负样本。
本文贡献:
-
- 对图比学习不使用负样本
2 方法
2.1 整体框架(节点级对比)
上面是 online network,下面是 target network 。
步骤:
-
- 步骤一:分别应用随机图增强函数 A1 和 A2,产生 G 的两个视图:G1=(˜X1,˜A1) 和 G2=(˜X2,˜A2);
- 步骤二:在线编码器从其增广图中生成一个在线表示 ˜H1:=Eθ(˜X1,˜A1);目标编码器从其增广图生成目标表示 ˜H2:=Eϕ(˜X2,˜A2);
- 步骤三:在线表示被输入到一个预测器 pθ 中,该预测器 pθ 输出对目标表示的预测 ˜Z1:=pθ(˜H1,˜A1),除非另有说明,预测器在节点级别工作,不考虑图信息(仅在 ˜H1 上操作,而不是 ˜A1)。
2.2 BGRL更新步骤
更新 θ
在线参数 θ(而不是 ϕ),通过余弦相似度的梯度,使预测的目标表示 Z1 更接近每个节点的真实目标表示 ˜H2。
ℓ(θ,ϕ)=−2NN−1∑i=0˜Z(1,i)˜H⊤(2,i)‖˜Z(1,i)‖‖˜H(2,i)‖(1)
θ 的更新公式:
θ←optimize(θ,η,∂θℓ(θ,ϕ))(2)
其中 η 是学习速率,最终更新仅从目标对 θ 的梯度计算,使用优化方法如 SGD 或 Adam 等方法。在实践中,
我们对称了训练,也通过使用第二个视图的在线表示来预测第一个视图的目标表示。
更新 ϕ
目标参数 ϕ 被更新为在线参数 θ 的指数移动平均数,即:
ϕ←τϕ+(1−τ)θ(3)
其中 τ 是控制 ϕ 与 θ 的距离的衰减速率。
只有在线参数被更新用来减少这种损失,而目标参数遵循不同的目标函数。根据经验,与BYOL类似,BGRL不会崩溃为平凡解,而 ℓ(θ,ϕ) 也不收敛于 0 。
2.3. 完全非对比目标
对比学习常用的负样本带来的问题是:
-
- 如何定义负样本
- 随着负样本数量增多,带来的内存瓶颈;
本文损失函数定义的好处:
-
- 不需要对比负对 {(i,j)∣i≠j} ;
- 计算方便,只需要保证余弦相似度大就行;
2.4.图增强函数
本文采用以下两种数据增强方法:
-
- 节点特征掩蔽(node feature masking)
- 边缘掩蔽(edge masking)
3 实验
数据集
数据集划分:
-
- WikiCS: 20 canonical train/valid/test splits
- Amazon Computers, Amazon Photos——train/validation/test—10/10/80%
- Coauthor CS, Coauthor Physics——train/validation/test—10/10/80%
直推式学习——基线实验
图编码器采用 $\text{GCN$ Encoder 。
大图上的直推式学习——基线实验
结果:
归纳式学习——基线实验
编码器采用 GraphSAGE-GCN (平均池化)和 GAT 。
结果:
4 结论
介绍了一种新的自监督图表示学习方法BGRL。通过广泛的实验,我们已经证明了我们的方法与最先进的方法具有竞争力,尽管不需要负例,并且由于不依赖于投影网络或二次节点比较而大大降低了存储需求。此外,我们的方法可以自然地扩展到学习图级嵌入,其中定义消极的例子是具有挑战性的,并且所有的目标不具有规模。
__EOF__