AAAI 22： Orthogonal Graph Neural Networks - 码农知识堂 - 文章详情页

AAAI 22： Orthogonal Graph Neural Networks

1. motivation

文章 argue了之前的 over-smoothing现象。前面很多工作都从随机游走，markov，能量，图扩散角度都会说出多层gcn会到达一个稳态。这是正确的，但是实际上 gcn在7，8层就会很差了，k=8 远远小于 ∞，因此，作者说出这是训练的原因：包括 1.前向传播的特征amplifiy 2.反向传播梯度得消失

note：文章二作是 EGNN的作者（迪利克雷能量），一作吉大，文章和迪利克雷能量那篇文章有相似之处，都是对参数矩阵W进行处理，同时对后续训练过程中的W施加正交化范数限制。两篇文章的MPNN和 GCNII都很相似，采用 I 矩阵。同时点出解耦 AX XW的必要性。 XW导致难训练

 2. Forward and Backward Signaling Analysis

2.1 正向

这一部分就是分析前向传播和反向传播会出现的问题

前向过程 Msig 是后续层和第一层 hi的2范数比值之和。作者画出了 gcn和所提出model的。gcn会让表征一直放大

论点：注释中的两点，因此本文目的是不让传播过程指数增长

 2.2 反向

去掉非线性激活函数进行分析

定理1 表明了gcn梯度更新的问题

 methodology

1. Hybrid weight initialization

参数矩阵 = 采用glorot初始化的参数 + 一个单位初始化很像 GCNII

2. Orthogonal transformation

采用一个额外的正交转化层来使得 W在 XW之前正交。
正交转化包括两部分 1 通过对Q进行F范数约束 2 通过Q形成W。但计算 M的平方根是指数复杂的，采用牛顿迭代法计算

最终 W 通过下面的公式进行计算

 3. Orthogonal regularization

这里说出尽管对W正交，由推导可得，上一层表征矩阵的F范数是大于等于下一层。。。但这和前面向量的 2范数推出的不矛盾吗？

作者对于后续层的 W 仍然施加正则约束。这里和 EGNN的做法很像，EGNN的W-I，是正交化的一种特例

 实验

有一定效果，但是半监督节点分类，效果还是会掉（层数多的时候）、

代码

本文的代码是在 GCNII 原作者的代码基础上进行修改

model.py

GCN 包括输入输出，参数初始化，这里没有采用 linear来构造层，而是通过tensor parameter

多种初始化参数矩阵的方法

正交转化层：

54-56 对这个 Z初始化，形成S（论文中的P） S是 Z和Z的转置 + eps的单位矩阵，即原论文公式4 norm_s 是S的F范数。 62行计算出 Qhat。
63-66 是初始化每一层的Bt，从而通过67行计算出 W

网络定义通过 nn.moduleList 来堆叠一般顺序 dropout+conv+act 输出为 log_softmax

正交损失：迫使后续层的w 和w的转置和单位矩阵的范数相接近。对应原文的公式7

这篇文章和 EGNN也是比较相似的，代码中正交化 W和计算W的损失是可以给很多model使用的，本文实验也是给gcn gcnii配置了这个正交化进行了实验。

不同点：EGNN 直接采用对角阵和奇异值进行初始化，本文采用原始初始化+单位矩阵
相关阅读:
.NET7 中Autofac依赖注入整合多层，项目中可直接用
 Leetcode-每日一题792. 匹配子序列的单词数（分桶）
3GPP R17覆盖增强
 MQ（二）RabbitMQ快速入门
 互融云融资担保系统 | 数智化将成为融资担保行业发展新模式
 系统及其存储相关
 有趣的23000----整理（10）G词根
 【Linux】 - linux文本编辑器vim的常用操作
 02_CSS样式之背景参数设置
 7-6 选取医院建立的位置（C语言版详解）
原文地址：https://blog.csdn.net/qq_40926715/article/details/126915659