Hello!
非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~
自我介绍 ଘ(੭ˊᵕˋ)੭
昵称:海轰
标签:程序猿|C++选手|学生
简介:因C语言结识编程,随后转入计算机专业,获得过国家奖学金,有幸在竞赛中拿过一些国奖、省奖…已保研。
学习经验:扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语!
唯有努力💪
知其然 知其所以然!
本文仅记录自己感兴趣的内容
网络嵌入的目的是在嵌入空间中保持顶点的相似性
现有的方法通常通过节点之间的直接连接或共同邻域来定义相似性,即结构等价
然而,位于网络不同部位的顶点可能具有相似的角色或位置,即正则等价,这一点在网络嵌入文献中基本被忽略。
正则等价是用递归的方式定义的,即两个正则等价顶点具有同样正则等价的网络邻居。
因此,我们提出了一种新的深度递归网络嵌入方法来学习具有规则等价的网络嵌入。
更具体地说,我们提出了一个层规范化的LSTM,通过递归地聚合它们的邻域表示来表示每个节点。
我们从理论上证明了一些流行的、典型的、符合规则等价的中心性测度是我们模型的最优解。
有多种方法来量化网络中顶点的相似性。最常见的是结构等效[18]。
如果两个顶点共享许多相同的网络邻居,那么它们在结构上是等价的。
以往关于网络嵌入的研究大多旨在通过高阶近邻来保持结构等价性[33,35]
将网络邻居扩展为高阶近邻,如直接近邻、近邻的近邻等(嵌套循环)。
然而,在许多情况下,顶点具有相似的角色或占据相似的位置,而没有任何公共邻居。例如:
两位母亲与丈夫和几个孩子的关系模式相同。
虽然如果两位母亲没有相同的亲属,她们在结构上并不对等,但她们确实扮演着相似的角色或职位。
这些情况使我们得到了顶点相似的扩展定义,称为正则等价。
如果两个顶点的网络邻居本身相似(即规则等价),则它们被定义为规则等价
显然,规则等价是结构等价的一种松弛。结构等价保证了规则等价,但相反的方向不成立。
相比之下,规则对等更灵活,能够覆盖与结构角色或节点重要性相关的广泛的网络应用,但在很大程度上被网络嵌入的文献所忽视。
为了保持网络嵌入中的正则等价,即两个正则等价节点应该具有相似的嵌入。
一种简单的方法是显式计算所有顶点对的正则等价,并要求节点嵌入的相似性来近似其对应的正则等价。
但对于大规模网络来说,这是不可行的,因为计算规则等值的复杂性很高。
另一种选择是将常规等价替换为更简单的图论度量,例如中心性度量。
虽然已经设计了许多中心性度量来表征顶点的角色和重要性,但一个中心性只能捕捉网络角色的特定方面,这使得学习一般的和任务无关的节点嵌入变得困难。更不用说一些中心性度量,如中间性中心性,也具有很高的计算复杂性
如何在网络嵌入中有效、高效地保持正则等价仍然是一个有待解决的问题。
如前所述,正则等价的定义是递归的。这启发了我们以递归的方式学习网络嵌入,即一个节点的嵌入是通过它的邻居的嵌入聚合的
在一个递归步骤中(如图1所示),如果节点3和5、4和6、7和8规则等价,因此已经具有类似的嵌入,则节点1和2将具有类似的嵌入,从而导致它们的规则等价为真。
正是基于这种思想,我们提出了一种新的深度递归网络嵌入(DRNE)方法。
更具体地说
我们从理论上证明了一些流行的和典型的中心性度量是我们模型的最优解。
实验结果还表明,学习的节点表示能够很好地保持成对正则等价,并预测每个节点的多个中心性度量的值。
本文有以下贡献:
现有的大多数网络嵌入方法都是沿着保持观察到的成对相似性和结构等价的路线发展的。
在学习表示时,这些方法都不能保持规则等价
规则对等作为结构对等的一种放宽的概念,可以更好地捕捉结构信息
中心性度量是衡量网络中节点结构信息的另一种方法
为了研究如何更好地捕捉结构信息,提出了一组中心性[3,20,21]
由于它们中的每一个只捕获结构信息的一个方面,某种中心性不能很好地支持不同的网络和应用程序
此外,设计中心性度量的手工方式使得它们不太全面,无法纳入常规等效相关信息
综上所述,对于学习具有规则等价的节点表示,仍然没有很好的解决方案
DRNE整体框架图
图中步骤的理解:
参考:https://zhuanlan.zhihu.com/p/104488503
G = ( V , E ) G=(V,E) G=(V,E)
N ( v ) = { u ∣ ( v , u ) ∈ E } N(v)=\{u| (v,u)\in E\} N(v)={u∣(v,u)∈E}
X = R ∣ V ∣ × k \boldsymbol X= \mathbb{R}^{|V| \times k} X=R∣V∣×k:顶点的嵌入空间向量表示
d v = ∣ N ( v ) ∣ d_v=|N(v)| dv=∣N(v)∣:顶点 v v v的度
I
(
x
)
=
{
1
x
≥
0
0
e
l
s
e
I(x)=
Definition 3.1 (Structural Equivalence)
Definition 3.2 (Regular Equivalence)
根据定义3.2,我们以递归的方式学习节点嵌入,目标节点的嵌入可以用其邻居节点嵌入的聚合来近似
基于此概念,我们设计了如下损失函数:
其中Agg是聚合函数
在一个递归步骤中,学习到的嵌入节点可以保留其邻居的局部结构
通过迭代更新学习到的表示,学习到的节点嵌入可以在全局意义上融合其结构信息,这与规则等价的定义是一致的
由于真实网络的底层结构往往是高度非线性的[22],我们设计了一个深度模型,归一化长短时记忆层(ln-LSTM)[2]作为聚合函数
众所周知,LSTM对序列建模是有效的。然而,节点的邻居在网络中没有自然排序
这里我们使用节点的度作为将邻居排序成有序序列的标准
设
当LSTM Cell对嵌入序列进行从1到T的递归处理时,隐含表示 h t h_t ht的信息会越来越丰富
h T h_T hT可以看作是邻居的聚集表示。
为了学习长序列中的长距离相关性,LSTM利用了门控机制
具体来说,LSTM跃迁方程LSTMCell为:
此外,为了避免以长序列为输入的梯度[14]爆炸或消失的问题,我们还引入了层归一化
层归一化的LSTM使其不变地重新缩放所有的求和输入。它产生了更稳定的动力学
特别是,它在方程6后使用额外的归一化使细胞状态 C t C_t Ct居中并重新缩放,如下所示:
(1)式是按照定义3.2的递归嵌入过程,没有任何其他约束。
它具有很强的表达能力,只要满足给定的递归过程,就可以推导出多个解。
该模型退化为所有嵌入值为0的平凡解是有风险的
为了避免出现平凡解,我们将节点的度作为弱引导信息,并设置一个约束条件
据此,我们设计了以下正则化器:
其中
总而言之,我们通过组合公式1的重构损失和公式9的正则化来最小化目标函数:
其中
注意
Neighborhood Sampling
在现实网络中,节点的度往往服从重尾分布[9],即少数节点的度很高,而大多数节点的度很小
在Ln-LSTM算法中,为了提高算法的效率,在输入LN-LSTM之前,我们对节点的邻域进行了大次数的下采样。
具体地说,我们设置了邻居数S的上界,如果邻居数超过上界S,我们将它们下采样为S个不同的节点。
在幂律网络中,度大的节点比度小的普通节点携带更多独特的结构信息。
为此,我们设计了一种有偏采样策略:
为了优化前述模型,目标是最小化作为神经网络参数集θ和嵌入X的函数的总损失L(等式10)
Adam[16]被用来优化这些参数(使用Adam算法进行求解)
论文:Adam: A Method for Stochastic Optimization
我们进一步从理论上证明 D R N E DRNE DRNE的结果嵌入可以很好地反映几个典型的和常见的中心性度量,这些中心性度量与规则等价密切相关
在不丧失一般性的情况下,我们忽略方程9中用于避免平凡解的正则项。
定理3.3. 度中心性、特征向量中心性[5]、PageRank中心性[27]分别是我们模型的三个最优解。
利用引理3.4进行证明
引理3.4 对于任何可计算函数,都存在一个有限递归神经网络[24]来计算它。
证明过程略(看不懂)
定理3.5. 如果节点 v v v的中心性 C ( v ) C(v) C(v)满足 C ( v ) = ∑ u ∈ N ( u ) F ( u ) C ( u ) C(v) =\sum_{u\in N(u)}F(u)C(u) C(v)=∑u∈N(u)F(u)C(u) and F ( u ) = f ( { F ( u ) , u ∈ N ( v ) } ) F(u) = f (\{F (u), u∈N(v)\}) F(u)=f({F(u),u∈N(v)}),其中 F F F是任意可计算函数,那么 C ( v ) C(v) C(v)就是我们模型的最优解之一
证明过程略(看不懂)
通过 ( F ( v ) , f ( { x i } ) ) (F(v), f(\{x_i\})) (F(v),f({xi}))在表1中对中心性的定义,我们可以很容易地得到度中心性、特征向量中心性、PageRank中心性满足定理3.5的条件,从而完成了定理3.3的证明。
根据定理3.3,对于任何图,我们提出的方法都存在这样一个参数设置,即学习到的嵌入可以是三个中心性之一
这证明了我们的方法在捕获与规则等价相关的网络结构信息的不同方面的表达能力。
在本节中,我们将介绍样本外扩展和复杂性分析。
对于一个新到达的节点 v v v,如果已知它与现有节点的连接,我们可以直接将其邻居的嵌入输入到聚合函数中,用式1得到作为该节点嵌入的聚合表示。
该过程的复杂度为 O ( d v k ) O(d_vk) O(dvk)
在训练过程中,对于每次迭代的单个节点 v v v,计算梯度和更新参数的时间复杂度为 O ( d v k 2 ) O(d_v k^2) O(dvk2)
d v d_v dv为节点 v v v的度, k k k为嵌入的长度
由于采样过程的原因, d v d_v dv度不会超过限定的数值S。因此整体训练复杂度为 O ( ∣ V ∣ S k 2 I ) O(|V|Sk^2I) O(∣V∣Sk2I)
I I I为迭代次数
其它参数的设置
因此,训练过程的复杂度与节点数 ∣ V ∣ |V| ∣V∣成线性关系。
基线方法
参数设置
对于我们的模型,我们设置
我们将在4.5节中说明我们的模型对这些参数不是很敏感
杠铃网络可视化
空手道网络可视化
在本节中,我们评估学习到的嵌入是否在两个真实世界的数据集上保持规则等价
数据集
在这里我们设置了两个任务,包括规则等价性预测和中心性评分预测
对于第一个任务,我们使用常用的基于规则等价的相似性度量方法VS[18]作为基础真值。
两个节点的两两相似度由其嵌入的内积来衡量。
我们根据节点对的相似性对其进行排序,并将结果排序与VS. Kendall排序进行比较
使用[1]秩相关系数来衡量这两个秩的相关性。其定义如下:
结果如图5所示:
对于第二个任务,我们将4.1节中提到的四个中心性作为基准来计算
然后随机隐藏20%的节点,利用剩余的节点训练线性回归模型,基于节点嵌入预测中心性得分
训练后,我们使用回归模型来预测被屏蔽节点的中心性
采用均方误差(Mean Square Error, MSE)评价其性能。MSE定义如下:
其中
Y
Y
Y为观测值,
Y
^
\hat Y
Y^为预测值。
由于不同中心性的尺度存在显著差异,我们将MSE值除以相应的所有节点中心性的平均值来重新缩放。
结果如表2、表3所示。
基于结构角色的分类任务中,节点的标签与其结构信息的关联比与其相邻节点的标签的关联更大。
在本节中,我们评估学习嵌入在预测给定网络中节点的结构角色的能力。
数据集:欧洲航空交通网络和美国航空交通网络[29]
节点表示机场,边表示直航的存在。
降落加起飞的总人数或通过机场的总人数可以用来衡量他们的活动,反映他们在航班网络中的结构角色。
通过将每个机场的活动分布均匀地划分为四个可能的标签之一。
在得到机场的嵌入后,我们训练一个逻辑回归来预测基于嵌入的标签
我们随机抽取10% ~ 90%的节点作为训练样本,使用剩余的节点来测试性能。
平均精度用于评估性能。
结果如图6所示,其中实线表示网络嵌入方法,虚线表示中心性方法。
我们评估了嵌入维数 k k k、正则化器权重 λ λ λ和邻域大小上界 S S S的影响
为了证明可扩展性,我们测试每个epoch的训练时间
结果如图8所示
在本文中,我们提出了一个新的深度模型来学习网络中具有规则等价性的节点表示。
假设节点的规则等价信息已被其相邻节点的表示编码,我们提出一层归一化LSTM模型递归学习节点嵌入。
对于给定的节点,远距离节点的结构重要性信息可以递归地传播到相邻节点,从而嵌入到其嵌入中。
因此,学习到的节点嵌入能够在全局意义上反映节点的结构信息,这与规则的等价性和中心性度量是一致的。
实证结果表明,我们的方法可以显著和持续地优于最先进的算法。
整体思路大概了解了
但是由于对LSTM的不了解
细节上的东西还是没有理解到
若以后需要仔细探究,再仔细研究研究!
文章仅作为个人学习笔记记录,记录从0到1的一个过程
希望对您有一点点帮助,如有错误欢迎小伙伴指正