论文解读（GMI）《Graph Representation Learning via Graphical Mutual Information Maximization》

论文解读（GMI）《Graph Representation Learning via Graphical Mutual Information Maximization》
Paper Information

论文标题：Graph Representation Learning via Graphical Mutual Information Maximization
论文作者：Zhen Peng、Wenbing Huang、Minnan Luo、Q. Zheng、Yu Rong、Tingyang Xu、Junzhou Huang
论文来源：WWW 2020
论文地址：download
论文代码：download

前言

　　1、自监督学习（Self-supervised）：属于无监督学习，其核心是自动为数据打标签（伪标签或其他角度的可信标签，包括图像的旋转、分块等等），通过让网络按照既定的规则，对数据打出正确的标签来更好地进行特征表示，从而应用于各种下游任务。

　　2、互信息（Mutual Information）：表示两个变量 X 和之间的关系，定义为：

　　　　

　　可以解释为由引入而使的不确定度减小的量，越大说明两者关系越密切。

1 Introduction

　　Deep Graph Infomax (DGI) ，通过最大化图级别表示向量和隐藏表示互信息之间的互信息【全局和局部信息之间的互信息】，来区分 Positive graph 和 Negative graph 。其存在的问题是：获取图级别表示的 Readout 函数常常是单设的，但是 Readout 的单射性质会受到参数训练方式的影响，这表明 Readout 函数在某些情况下会变成非单射。当 Readout 函数非单射时，图表示中包含的输入图信息将随着输入图的大小增大而减小【一对多造成】。

　　本文提出了一种直接的方法来考虑图结构方面的，而不使用任何 Readout 函数和 corruption function，作者通过比较编码器的输入（即由输入邻域组成的子图）和输出（即每个节点的隐藏表示），直接推导出。[ 改进 ]

　　

　　作者理论推导表明，直接导出的可以分解为每个邻居特征和隐藏向量之间的局部的加权和。这样，我们对输入特征进行了分解，使计算易于处理。此外，如果我们调整权值，这种形式的可以很容易地满足对称性质。由于上述主要是在节点特征级别上测量的，作者称之为特征互信息（FMI）。

　　关于上述提到的，存在着两个问题：
- - 组合的权重仍然未知；　　
  - 没有考虑到拓扑结构；　　
　　为解决这两个问题，作者定义了基于提出了 Graphical Mutual Information（GMI），GMI 将中的权重设置为表示空间中每个邻居和目标节点之间的距离。为了保留拓扑信息，GMI 通过一个额外的互信息项进一步将这些权值与输入的边特征相关联。

2 Graphical mutual information:definition and maximization

定义

　　图：，，

　　假设节点特征服从经验概率分布，由给出，其中表示节点的特征。

　　邻接矩阵表示连接关系，与边对应的可以是实数，也可以是多维向量。

　　图表示学习目标是根据输入的特征矩阵和邻接矩阵学习一个能获得潜在表示的编码器，这样潜在向量表示所有节点的高阶表示。

提出的改进

　　承接 Introduction 中提到的 [ 改进 ] ，编码过程可以在节点级重写。

　　作者将节点的和分别定义为其邻居的特征矩阵和对应邻接矩阵。特别地，当编码器是层的 GNN 时，由的所有邻居组成，显然还可以进一步在邻接矩阵中添加自环，那么它则会包含节点本身信息。图中节点编码过程: 。

图互信息定义的困难

　　根据 Deep InfoMax（DIM）的思想，应最大化每个节点表示和之间的（即）。但并没有一个较好的方法定义，原因是：
- - 应该具有平移不变性，即：如果和同构，那么。
  - 如果采用 MINE 方法进行计算，那么 MINE 中的判别器只接受固定大小的输入。但这对于是不可行的，因为不同的通常包含不同数量的邻居节点，因此具有不同的大小。
2.1 Feature Mutual Information

　　将的经验概率分布表示为，的概率分布表示为，联合分布用表示。根据信息论，和之间的可以定义为：

　　　　

　　　以下将根据互信息分解定理计算。

　　Theorem 1 (Mutual information decomposition). If the conditional probability is multiplicative, the global mutual information defined in Eq. (1) can be decomposed as a weighted sum of local MIs, namely,

　　　　

　　其中：
- - is the neighbor of node 　　
  - is the number of all elements in 　　
  - the weight satisfies for each 　　
　　为了证明 Theorem 1 ，引入两个 lemmas 和一个 definition。

　　Lemma 1. For any random variables , , and , we have

　　　　

　　证明：

　　　　

　　因此，我们得到。

　　Definition 1. The conditional probability is called multiplicative if it can be written as a product

　　　　

　　其中是 appropriate functions 。

　　Lemma 2. If is multiplicative, then we have

　　　　

　　现在来证明 Theorem 1 ：

　　根据 Lemma 1 ，对于任何一个：

　　　　

　　这意味着：

　　　　

　　另一方面，根据 Lemma 2 ，我们得到：

　　　　

　　根据和：

　　　　

　　因为，必须存在权重。当设置时，我们将实现，同时确保，进而证明了定理1。

　　利用 Theorem 1 中的分解，可以通过 MINE 计算出的右侧，因为鉴别器的输入现在成了对，它们的大小总是保持不变 (即 ) 。

　　此外，我们还可以调整权值，以反映输入图的同构变换。例如，如果只包含节点的邻居，则将所有权重设置为相同，将导致不同顺序的输入节点产生相同的。

　　尽管分解有一些好处，但很难表征权值的确切值，因为它们与的值及其潜在的概率分布有关。

　　一种简单的方法是将所有权值设置为，然后右边的最大化等价于最大化的下界，通过它，真正的 FMI 在一定程度上最大化。

2.2 Topology-Aware Mutual Information

　　受 Theorem 1 分解的启发，我们试图从图的另一个方面（即拓扑视图）构造可训练的权值，从而使的值更灵活，并捕获图的固有属性

　　Definition 2 (Graphical mutuak mutual information). The MI between the hidden vector and its support graph is defined as

　　　　

　　其中和的定义与 Theorem 1 相同，是邻接矩阵中的边权值，是一个函数

　　中第一项的衡量了一个局部对全局的贡献，通过和之间的相似性来实现贡献 (即 ) 。同时，最大化和输入图的边权重之间的，以强制符合拓扑关系。

　　从这个意义上讲，贡献的程度将与拓扑结构中的接近度一致，这通常被认为是，如果节点 “更接近”节点，可能更大，否则可能更小。该策略弥补了 FMI 只关注节点特征的缺陷，并使局部自适应地对全局有贡献。

　　请注意，适用于一般情况。对于某些特定的情况下，我们可以稍微修改以提高效率。例如，当处理未加权图时，我们可以用负交叉熵损失替换第二个项。最小化交叉熵也有助于最大化，并提供了一个更有效的计算。

　　有几点好处。首先，这种对输入图的同构变换是不变的。其次，它在计算上是可行的，因为右边的每个分量都可以用 MINE 来估计。更重要的是，GMI 在捕获原始输入信息方面比DGI更强大，因为它在细粒度节点级别的隐藏向量和节点和边缘的输入特征方面具有显式的相关性。

2.3 Maximization of GMI

　　借助于 MINE ，我们最大化 Eq.10 的第二项。在 MINE 中使用联合分布和边缘乘积之间的 KL 散度的 Donsker Varadhan(DV) 表示来估计的下界。

　　由于更关注的是最大化，而不是获得其特定值，所以可以使用其他非 KL 散度的替代方案，如 Jensen-Shannon MI estimator (JSD) 和 Noise-Contrastive estimator (infoNCE) 来代替它。

　　本文为了有效性和效率，选用 JSD 估计器，因为 infoNCE 估计器对负面采样策略（负面样本的数量）敏感，因此可能成为固定可用内存的大规模数据集的瓶颈。相反，JSD 估计器对负抽样策略的不敏感性及其在许多任务上的良好性能使其更适合我们的任务。

　　接着作者通过下式计算 Eq.10 中的第一项：

　　　　

　　其中
- - 是由参数为的神经网络构建的判别器；
  - 是来自的负样本；
  - ，即soft-plus function；　　
　　正如 3.2 节中提到的，我们通过计算交叉熵而不是使用 JSD 估计器使最大化，因为我们在实验中处理的图是未加权的。

　　　　

　　通过最大化所有隐藏向量上的 Eq.11 和 Eq.12 ，得到了 GMI 优化的完整目标函数。此外，我们还可以进一步添加权衡参数来平衡 Eq.11 和 Eq.12 的灵活性。

3 Experiments

　　在本节中，通过评估 GMI 在两个常见任务上的性能：节点分类（transductive and inductive）和链路预测。GMI 和另外两种无监督算法( EP-B 和 DGI )之间的另一个相对公平的比较进一步证明了其有效性。我们还提供了 t-SNE 图的可视化，并分析了模型深度的影响。

3.1 Datasets

　　

3.2 Classification

　　

3.3 Effectiveness of Objective Function

　　

3.4 Link Prediction

　　

3.5 Visualization

　　

论文参考类型

1~最大化神经网络输入与输出的互信息
　　InfoMax [3]
　　ICA [1, 21]
2~解决 1 无法计算高维连续变量之间的互信息
　　Mutual Information Neural Estimation (MINE) [2] 及其涉及到的 JS 散度 [30]
3~基于随机游走和分解的传统方法
　　[6, 15, 33, 34, 39]
4~图上监督表示学习方法
　　[7, 9, 25, 40, 48]
5~图上无监督表示学习方法
　　[11, 16, 41]
　　GraphSAGE [16]
　　DGI [41] ：无法保存输入图的精细信息。
Paper Information
前言
1 Introduction
2 Graphical mutual information:definition and maximization
    2.1 Feature Mutual Information
    2.2 Topology-Aware Mutual Information
    2.3 Maximization of GMI
3 Experiments
    3.1 Datasets
    3.2 Classification
    3.3 Effectiveness of Objective Function
    3.4 Link Prediction
    3.5 Visualization
论文参考类型
__EOF__
本文作者： Blair
本文链接： https://www.cnblogs.com/BlairGrowing/p/16060026.html
关于博主： 评论和私信会在第一时间回复。或者直接私信我。
版权声明： 本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！
声援博主： 如果您觉得文章对您有帮助，可以点击文章右下角【推荐】一下。

Paper Information

前言

1 Introduction

2 Graphical mutual information:definition and maximization

2.1 Feature Mutual Information

2.2 Topology-Aware Mutual Information

2.3 Maximization of GMI

3 Experiments

3.1 Datasets

3.2 Classification

3.3 Effectiveness of Objective Function

3.4 Link Prediction

3.5 Visualization

论文参考类型