论文解读（NWR）《Graph Auto-Encoder via Neighborhood Wasserstein Reconstruction》

🚀 优质资源分享 🚀

学习路线指引（点击解锁）	知识定位	人群定位
🧡 Python实战微信订餐小程序 🧡	进阶级	本课程是python flask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。
💛Python量化交易实战💛	入门级	手把手带你打造一个易扩展、更安全、效率更高的量化交易系统

论文信息

论文标题：Graph Auto-Encoder via Neighborhood Wasserstein Reconstruction论文作者：Shaked Brody, Uri Alon, Eran Yahav论文来源：2022,ICLR论文地址：download 论文代码：download

1 Abstract

图神经网络(GNNs)近年来引起了广泛的研究关注，主要是在半监督学习的背景下。当任务不可知的表示是首选或监督完全不可用时，自动编码器框架与无监督GNN训练的自然图重建目标一起使用。然而，现有的图自动编码器是通过设计来重建直接链路的，因此以这种方式训练的gnn只针对面向邻近的图挖掘任务进行优化，当拓扑结构很重要时就会失败。在本研究中，我们重新讨论了gnn的图编码过程，它本质上学习了将每个节点的邻域信息编码为一个嵌入向量，并提出了一种新的图解码器，通过邻域瓦瑟斯坦重建(NWR)来重建关于邻近性和结构的整个邻域信息。

具体来说，NWR从每个节点的GNN嵌入中，联合预测其节点度和邻居特征分布，其中分布预测采用了基于瓦瑟斯坦距离的最优传输损失。在合成网络数据集和真实网络数据集上的大量实验表明，使用NWR学习的无监督节点表示在面向结构的图挖掘任务中具有更大的优势，同时在面向接近的图挖掘任务中也具有竞争性能。

2 Introduction

现有的图自动编码：

- 例如 GAE（Kipf & Welling, 2016）学习的节点表示由于其优化简单的重建目标以至无法区分像 (2, 4) 和 (3, 5)这样的点；
  - 例如 GraphWave (Donnat et al., 2018) 这样的面向结构的嵌入模型不考虑节点特征和空间接近度，无法区分像 (0, 1), (2, 4) 和 (3，5) 这样的节点对；

具体地说，本文将解码过程描述为从通过 GNN 编码器获得的多跳邻居表示上定义的一系列概率分布中进行迭代采样。然后，将重构损失分解为三个部分，即采样数（节点度）、邻居表示分布和节点特征。本文最重要的术语是“ 邻居表示分布重建”（neighborrepresentation distribution reconstruction），本文采用了基于 Wasserstein distance 的最优传输损失，因此将这个新的框架命名为 Neighborhood Wasserstein Reconstruction Graph Auto-Encoder (NWR-GAE).。如 Figure1 所示，NWR-GAE可以有效地在不同的角度区分所有不同的节点对，并简明地反映出它们在低维嵌入空间中的相似性。

为了更好地理解这一点，我们仔细分析了通过GNN在每个节点表示中编码的信息源。假设采用一个标准的消息传递 GNN (Gilmer等人，2017) 作为编码器，这是一个通用框架，包括 GCN 、GraphSAGE、GAT、GIN 等等。在 k-hop 消息传递后，在节点 vvv 的表示中编码的信息来源本质上来自于 vvv 的 k−hopk−hopk-hop 邻域（Fig.2）。因此，节点 vvv 的良好表示应该捕获其 kkk 跳邻域中所有节点的特征信息，这与下游任务是无关的。请注意，这可能不是理想的，因为 k−hopk−hopk-hop 邻域外的节点也可能提供有用的信息，但由于 GNN 编码器的架构，这是基于 GNN 的图自动编码器可以期望做的。这一观察结果促使我们研究了一种新的图解码器，该解码器可以更好地促进基于 GNN 的图自动编码器的目标。我们将在 Sec3 中正式确立这一原则。

Relation to the InfoMax principle
　　最近，DGI、EGI 在无监督GNN训练方法中使用了对比学习，并可能捕获定向链接之外的信息。它们采用了互信息最大化规则 (InfoMax)，它本质上是为了最大化学习到的表示和原始数据之间的某些对应关系。例如，DGI 最大化了节点表示与节点所属的图之间的对应关系，但这并不能保证重建节点邻域的结构信息。最近的研究甚至表明，最大化这种对应关系可能只捕获与下行任务无关的噪声信息，因为噪声信息本身足以让模型实现 InfoMax，我们的实验再次证明了这一点。相反，我们的目标是让节点表示不仅捕获信息来区分节点，而且捕获尽可能多的信息来重建邻域的特征和结构。

Optimal-transport (OT) losses
　　许多机器学习问题依赖于两个概率测度量之间的距离的描述。当两个分布有非重叠的部分时，fff 散度存在非连续的问题。

Suppose we have two probability distributions, PPP and QQQ :

∀(x,y)∈P,x=0 and y∼U(0,1)∀(x,y)∈Q,x=θ,0≤θ≤1 and y∼U(0,1)∀(x,y)∈P,x=0 and y∼U(0,1)∀(x,y)∈Q,x=θ,0≤θ≤1 and y∼U(0,1)\forall(x, y) \in P, x=0 \text { and } y \sim U(0,1) \forall(x, y) \in Q, x=\theta, 0 \leq \theta \leq 1 \text { and } y \sim U(0,1)

When θ≠0θ≠0\theta \neq 0 ：

DKL(P∥Q)=∑x=0,y∼U(0,1)1⋅log10=+∞DKL(P‖Q)=∑x=0,y∼U(0,1)1⋅log⁡10=+∞D_{K L}(P | Q) =\sum\limits _{x=0, y \sim U(0,1)} 1 \cdot \log \frac{1}{0}=+\infty　　　　DKL(Q∥P)=∑x

相关阅读:
Css的flex布局(弹性盒子)详解
Fragment碎片的切换
最刁钻的阿里面试官总结的面试者常用面试题，看看你会哪些？
Kafka概述
过拟合学习理解
【方法】如何给PDF文件添加“打开密码”？
前端懒加载
Spring源码-总体架构体系和源码环境搭建
javabasic
vue（2）

原文地址：https://blog.csdn.net/qq_43479892/article/details/126438408