论文解读（ClusterSCL）《ClusterSCL: Cluster-Aware Supervised Contrastive Learning on Graphs》

论文解读（ClusterSCL）《ClusterSCL: Cluster-Aware Supervised Contrastive Learning on Graphs》
论文信息

论文标题：ClusterSCL: Cluster-Aware Supervised Contrastive Learning on Graphs
论文作者：Yanling Wang, Jing Zhang, Haoyang Li, Yuxiao Dong, Hongzhi Yin, Cuiping Li
论文来源：2022, WWW
论文地址：download
论文代码：download

1 Introduction

　　图上的监督对比学习很难处理拥有较大的类内（intra-class）差异，类间（inter-class）相似性的数据集。
　　
　　Figure 1(a) 顶部中 (u1,u3) 、(u2,u4) 属于同一个类，但在不同的图社区(类内差异，intra-class variances)，而 (u1,u2)、(u3,u4) 来自不同的类但在同一图社区（类间相似性，inter-class similarities）。针对上述问题，需要找出一个复杂的决策边界，见 Figure 1(a) 底部。

　　当执行自监督对比（SupCon）为 u2 寻找锚节点，如 Figure 1(b) 所示，正样本对属于同一类但位于不同的簇，如。简单地把正对（相同标签节点）放在同一嵌入空间，可能间接把不同类的节点，如看成正对，因为和社区结构类似。同时，对属于不同类但位于同一簇中的负样本对，如，简单地把它们推开可能间接推开同一类的节点，如，因为在结构上与相似。

　　上述问题总结为：简单的执行类内差异小，类间方差大的思想，可能会造成分类错误，导致 Figure 1(c) 顶部显示的更复杂的决策边界。

　　本文的想法简单的如 Figure 1(b) 底部所示。

2 Method

2.1 Base CL Scheme: SupCon

　　对一个 batch 内的节点，其正样本下标集合，是正样本的索引。SupCon 损失函数如下：

　　　　

　　其中代表着经 -normalized 处理后的表示。

2.2 Proposed CL Scheme: ClusterSCL

　　假设有个簇，引入潜在变量来指示节点归于哪个簇。给定一个锚节点和一个节点，通过以下线性插值构造一个的加强版本：

　　　　

　　其中，表示簇原型。包含来自的信息，以及节点所属的簇的信息。

　　如果锚节点和对比样本本身在嵌入空间已经足够相近，那么可以选择直接对比，也可以为其分配一个更大的，使包含更多自身信息。相反，若和在嵌入空间中彼此远离，那么使用较小的来衰减来自的信息，以保证锚点和增强样本之间不会太远。

　　这种方式缩小了特征空间，并拉近了远正样本对之间的距离和拉远了近负样本对之间的距离，帮助保留节点的聚类分布。控制着拉近还是拉远，图解如 Figure 2 所示：

　　

　　本文从从正\负样本对的角度设计了调整的原则，计权重计算方式为：

　　　　

　　PS：和位于半径为的超球面的表面上，我们有，即表示内积越大代表着表示之间的欧几里得距离小。

　　mixup 和 CDA 都采用线性插值操作来生成虚拟数据点。在这里，阐述 CDA 与 mixup 之间的区别：
- - mixup 通过扩大训练集来提高神经网络的泛化能力，而 CDA 则旨在处理 SupCon 学习中的类内差异和类间相似的问题；　　
  - mixup 在两个样本之间执行线性插值，而 CDA 在一个样本和一个原型之间执行线性插值；　　
  - mixup 独立于学习过程，而 ClusterSCl 中的 CDA 被集成到学习过程中，以利用可学习的参数；
Integrating Clustering and CDA into SupCon Learning

　　流程如下：

　　

　　在执行 CDA 之前，需要通过下式知道锚节点属于哪个簇：

　　　　

　　其中，为用于调整聚类分布的温度参数，可以视为一个基于原型的软聚类模块。

　　基于 CDA 推导出的节点版本（即已经使用了线性插值），对以下实例识别任务进行建模（聚类感知识别器）：

　　　　

　　由于我们已经对软聚类模块和聚类感知识别器进行了建模，因此ClusterSCL 可以建模为以下实例识别任务：

　　　　

Inference and Learning

　　实际上，由于对数操作内的求和，最大化整个训练数据的对数似然值是不平凡的。我们可以采用 EM 算法来解决这个问题，其中我们需要计算后验分布：

　　　　

　　然而，由于对整个节点的求和，计算后验分布是禁止的。我们最大化了由以下方法给出的的 evidence 下界(ELBO)：

　　　　

　　其中是一个近似后。ELBO的推导在附录a中提供。在这里，我们将变分分布形式化为：

　　　　

　　其中在一个批次内计算。请注意，和都在该批处理中。此外，我们应用来估计中的、并在附录B中作出说明。

　　我们通过一种变分EM算法来优化模型参数，其中我们在 E 步推断，然后在 M 步优化ELBO。对一批节点进行采样，我们可以最大化以下目标：

　　　　

　　我们观察到，只有对集群原型使用随机更新才能得到平凡的解决方案，即大多数实例被分配给同一个集群。为了缓解这一问题，我们在每个训练阶段后应用以下更新：

　　　　

　　其中，表示由 METIS 导出的第个图社区中的节点集。在训练之前，我们根据节点间的互连将整个图划分为个图社区。我们使用社区来粗略地描述集群，并对每个社区中的节点嵌入进行平均，以在每个训练阶段后更新集群原型。请注意，ClusterSCL 采用了，为每个节点推导出一个细化的软集群分布。METIS 输出的硬集群分布仅用于原型更新。此外，我们观察到需要对进行细粒度搜索，这是低效的。根据经验，我们使用一个小的来推导一个相对可靠的聚类预测，并引入一个熵项来平滑预测的聚类分布。通过这样做，我们可以避免在上的细粒度搜索。最后，将 ClusterSCL 损失函数形式化为：

　　　　

　　其中，为控制平滑强度的熵项的权值。

　　Algorithm 1 显示了使用Clusterscl进行训练的伪代码。我们在附录C中提供了 ClusterSCL 的复杂性分析。

　　

3 Experiments

　　实验通过回答以下研究问题来展开：（1）ClusterSCL 如何在节点分类任务上执行？（2）CDA是否生效？（3）ClusterSCL 在不同大小的标记训练数据下表现如何？

节点分类

　　

CDA 有效性验证

　　

在不同大小的标记训练数据下的 ClusterSCL 的研究

　　

4 Conclusion

　　这项工作初步研究了用于节点分类的图神经网络的监督学习。我们提出了一种简单而有效的对比学习方案，称为聚类感知监督对比学习(聚类scl)。ClusterSCL改进了监督对比(SupCon)学习，并强调了在SupCon学习过程中保留内在图属性的有效性，从而减少了由类内方差和类间相似性引起的负面影响。ClusterSCL比流行的交叉熵、SupCon和其他图对比损失更具有优势。我们认为，ClusterSCL的思想并不局限于图上的节点分类，并可以启发表示学习的研究。
论文信息
1 Introduction
2 Method
2.1 Base CL Scheme: SupCon
2.2 Proposed CL Scheme: ClusterSCL
3 Experiments
4 Conclusion
__EOF__
本文作者： Blair
本文链接： https://www.cnblogs.com/BlairGrowing/p/16262575.html
关于博主： 评论和私信会在第一时间回复。或者直接私信我。
版权声明： 本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！
声援博主： 如果您觉得文章对您有帮助，可以点击文章右下角【推荐】一下。

论文信息

1 Introduction

2 Method

2.1 Base CL Scheme: SupCon

2.2 Proposed CL Scheme: ClusterSCL

3 Experiments

4 Conclusion