Graph Representation Learning学习笔记-chapter5

Chapter5 The Graph Neural Network Model

之前的章节是为每个节点生成嵌入，而此章为整个图结构的节点生成嵌入，更为复杂

Permutation invariance

means that the function does not depend on the arbitrary ordering of the rows/columns in the adjacency matrix

permutation equivariance

means that the output of f is permuted in an consistent way when we permute the adjacency matrix.

Input

graph $G = (V, E)$
node features $\in R^{d \times |V|}$

generate

node embedding $z_u, \forall u \in V$

5.1 Neural Message Passing

GNN每一轮消息传递中，节点u的隐藏嵌入： $h_u^{(k)}$

表示每一个节点u都根据邻居的聚合信息进行更新

请添加图片描述

k=0时， $h_u^{(0)}=X_u$ ，也就是第一轮开始前，h为输入的节点特征
k=i时，聚合邻居信息和本身信息更新下一轮的输入(聚合了 i-hop neighborhood 的信息)
k=K时，输入最后一层的结果作为每一个节点的嵌入 $z_u=h_u^{(K)}$

特点

聚合了结构信息
基于特征

CNNs：从图像中spatially-defined patches聚合特征信息
GNNs：基于local graph neighborhoods聚合信息

basic GNN

basic GNN message passing(node-level equations)：

请添加图片描述

$h^{(k)}$ 代表可训练的参数矩阵
σ 代表一个非线性的函数，如tanh或ReLU
$b^{(k)}$ 代表 bias term

basic GNN message passing

请添加图片描述

$H^{(t)}$ 代表t层节点的表示矩阵
A 代表邻接矩阵

步骤

累加邻居信息
线性结合自身信息（previous embedding）
应用elementwize non-linearity

将basic GNN用UPDATE 和 AGGREGATE的形式表示：

请添加图片描述

self-loop GNN

请添加图片描述

update函数已经在aggregate过程中被定义

basic GNN的self-loops表示(graph-level) : $H^{(t)}= σ ((A+I)H^{(t-1)}W^{(t)})$

5.2 Generalized Neighborhood Aggregation

推广和改进basic GNN的AGGREATE

neighborhood normalization

采用累加邻居的嵌入 $m_{N(u)}= \sum _{v \in N(u)} h_v$ 的方式进行聚合的问题：

有时会不稳定
对节点的度高度敏感

改进方法1：用平均的方式代替累加

$m_{N(u)}=\frac {\sum _{v \in N(u)} h_v }{|N(u)|}$

改进方法2：symmetric normalization

$m_{N(u)}=\sum _{v \in N(u)} \frac { h_v }{\sqrt{|N(u)||N(v)|}}$

Graph convolutional networks (GCNs)

apply : symmetric-normalized aggregation + self-loop update approach

message passing function:

请添加图片描述

规范化的问题

结构特征会损失

Pooling

池化技术可以提升性能，将多个节点变成一个节点

Janossy pooling

不同于其他方法，它对邻居的排列顺序敏感

请添加图片描述

Π 代表一个排列集合
$ρ_φ$ 代表排列敏感函数

两种方法：

在每一次运用aggregator时，对可能的排列进行随机采样，采样的结果是一个随机的子集
对领域的节点进行规范排序（按度降序排序，with ties broken randomly）

Neighborhood Attention

基本思想：给每一个邻居分配一个注意力权重，用来权衡这个邻居在聚合中的影响

Graph Attention Network (GAT)

请添加图片描述

$\alpha _{u,v}$ ：对u节点进行聚合的时候邻居v的注意力

请添加图片描述

$\alpha$ ：可训练的注意力向量
W：可训练的矩阵
⊕：连接操作

不同的注意力函数：

请添加图片描述

包含bilinear attention model

请添加图片描述

使用MLPs

5.3 Generalized Update Methods

over-smoothing：经过多轮消息传递后，图中所有节点的表征会变得相似

当node-specific信息在几次消息传递后被”washed out”或”lost”时，会发生over-smoothing（也就是说，节点在update的时候过度依赖当前层的邻居信息，而忽略了先前层的信息）
缓减方法：尝试在update时直接保存之前几轮消息传递的信息
- use concatenations and skip-connection methods

度量u节点对v节点的影响的方法：examining the magnitude of the corresponding Jacobian matrix

请添加图片描述

1：a vector of all ones

定理：对于任意使用self-loop update方法和有着下面形式的聚合函数的GNN

请添加图片描述

我们有：

请添加图片描述

pG,K(u|v) 代表从节点u开始，长度为K的随机walk后，访问了节点v的可能性

最简单的skip connection update方法采用一个连接（concatenation）来在消息传递过程中保存更多的node-level信息：

请添加图片描述

其他skip connection update方法：

请添加图片描述

$α_1, α_2 ∈ [0, 1]^d$ : gating vectors
◦ 表示elementwise multiplication

Gated updates

从RNN上提取灵感：

用节点的hidden state代替hidden state argument of the RNN update function( $h^{(t)}$ )
用从本地邻居聚合的信息代替观察矩阵（ $x^{(t)}$ ）

该方法在deep GNN architectures（超过10层）和防止过平滑上十分有效

jumping knowledge connection

防止过平滑：利用每一层消息传递的表征而不仅使用最后一层的输出

请添加图片描述

$z_u$ 为最后一层的节点表示
$f_{JK}$ 是任意的可微函数

5.4 Edge Features and Multi-relational GNNs

处理多关系图或异构图的方法

Relational Graph Neural Networks (RGCN)

方法：为每个关系类型制定单独的转换矩阵（transformation matrix）

请添加图片描述

$f_n$ ：归一化函数
- 既依赖节点u的neighborhood
- 又依赖被聚合的邻居v
缺点：参数的数量会快速增长
- 会导致过拟合和学习速度慢

解决方法：basis matrix approach : parameter sharing with basis matrices

basis matrices:

请添加图片描述

$B_i$ ：basis matrix
$\alpha_{i,τ}$ ：特定关系的参数

aggregation function:

请添加图片描述

$\alpha_τ$ ：包含关系τ的basis combination weights

RGCN：学习每个关系的嵌入，以及在所有关系中共享的tensor

Attention and feature concatenation

利用attention中边的特征（或者在消息传递过程中将边的特征与邻居的嵌入连接）来重新定义一个aggregate函数 $AGGREGATE_{base}$

请添加图片描述

5.5 Graph Pooling

目标：为了学习整个图的嵌入，pool together node embeddings

设计一个池化函数 $f_p$ 将节点嵌入集合（ $z_1,z_2,...,z_{|v|}$ ）表征为整个图的嵌入（ $z_G$ ）

通过set pool的方式来学习graph-level嵌入

方法1：对节点嵌入做累加或取平均

请添加图片描述

- $f_n$：归一化函数
1

方法2：结合LSTMs和attention来pool节点嵌入

请添加图片描述

- $q_t$：a query vector for the attention at each iteration t
    - 用来计算每个节点的注意力得分
- 步骤：
    - 计算每个节点的注意力得分
    - 将得分归一化
    - 基于得分按权重累加节点嵌入
    - 用累加的结果和LSTM来更新query vector
1
2
3
4
5
6
7