信息网络表征学习的目的:
利用网络的拓扑结构 、节点内容等信息将节点嵌入到低维的向量空间中 ,同时保留原始网络固有的结构特征和内容特征 ,从而使节点的分类、聚类、链路预测等网络分析任务能够基于低维、稠密的向量完成。【一种降维技术】
信息网络表征学习,也被称为表示学习或嵌入学习。
在嵌入过程中 ,高出(入)度节点的结构和内容信息可用于辅助低出(入)度节点的结构或语义特征的表示 ,从而有效缓解网络数据稀疏性问题 。通过嵌入 ,网络中的任意节点均可以用 一个低维的稠密向量来表示,使得网络结构/语义的 相关性能够快速计算出来 ,为网络可视化 、节点分 类、聚类以及链路预测、Facebook 搜索、社区检 测、微博用户标记等网络分析任务提供有力的支持。
如下图,将一个网络映射到二维向量空间中;不同颜色代表不同属性,相同属性映射后在低维空间中会比较相近。
异质信息网络的表征学习不仅能够有效缓解网络数据高维 、稀疏性问题 ,还能融合网络中不同类型的异质信息 ,使学习到的特征表示更有意义和价值。
网络表征学习常使用一阶邻近性和高阶邻近性表示节点间邻域结构的相似程度,使用属性相似性表示节点间属性特征的相似程度。
属性同质网络 (AHoN):
如果一个同质网络中每个节点都带有描述其性质的属性 ,则称该网络为属性同质网络 (AHoN)。
结构异质网络 (SHeN):
只用一个网络
G
=
(
V
,
ε
)
G= (V, ε)
G=(V,ε)表示 ,节点和边具有不同类型。
属性异质网络 (AHeN):
只用一个网络表示,节点和边具有不同类型 ,同时每个节点都有描述其属性的特征 ,表示为
G
=
(
N
,
ε
,
F
)
G=(N,ε,F)
G=(N,ε,F)。其中属性 特征矩阵
F
=
[
F
1
,
F
2
,
.
.
.
,
F
i
,
.
.
.
,
F
∣
N
∣
]
T
F=[F_1,F_2,..., F_i,..., F_{|N|}]^T
F=[F1,F2,...,Fi,...,F∣N∣]T将所有类 型节点的属性连接在一起 ,
F
F
F的行向量
F
i
F_i
Fi表示第i 个节点
v
i
∈
N
v_i ∈ N
vi∈N的属性特征。
例子:
- 上图中 G = ( N , ε , F ) G=(N,ε,F) G=(N,ε,F),是一个属性异质网络。
- 节点 N = { a 1 , a 2 , a 3 , a 4 , p 1 , p 2 , p 3 , p 4 , v 1 , v 2 } N=\{a_1,a_2, a_3,a_4,p_1,p_2,p_3,p_4,v_1,v_2\} N={a1,a2,a3,a4,p1,p2,p3,p4,v1,v2}
- 边 ε = { a 1 p 1 , p 1 v 1 , ⋯ } ε=\{a_1p_1,p_1v_1,\cdots\} ε={a1p1,p1v1,⋯}
- 节点映射函数: φ : N → { A , P , V } φ:N → \{A,P,V\} φ:N→{A,P,V}
- 边映射函数: ε → { 撰写 , 发表 , 引用 } ε → \{撰写 , 发表 , 引 用\} ε→{撰写,发表,引用}
- 属性矩阵 F = { F 1 , F 2 , ⋯ , F 10 } T F=\{F_1,F_2,\cdots,F_{10}\}^T F={F1,F2,⋯,F10}T
“不同 ”是指各个子网的节点类型不同 ,“相关 ”是指不同子网的节点之间具有特定类型的交互或关系 (跨层网络依赖)。
跨层网络依赖在某种程度上蕴含了节点邻近度 ,对网络内的边提供补充 信息 ,使隐特征更加全面和准确 ,有效缓解由于网络 内的边缺失带来的冷启动问题 ,对于理解整个系统 至关重要 。
例子:
例子:
多分辨率多网络 (MRMIN)
:没看懂令 { F ( i ) } , i = 1 , 2 , . . . , I \{F^{(i)}\}, i=1,2,..., I {F(i)},i=1,2,...,I是从 I I I个不同的视图为 N N N个实例收集的一组相关特征矩阵 ,其中最后一 个特征矩阵 F ( I ) = G F^{(I)}=G F(I)=G为描述 N N N个实例之间关系的加权邻接矩阵.
比如亚马逊上的产品有产品信息和客户评论等多种描述 ,这些描述相互补充,可用于构 建 { F ( i ) } \{F(i)\} {F(i)};而客户的购买记录可用于构建 G G G。
异质特征网络HeFN与属性异质网络AHeN 和属性多重异质网络 AMHeN的差异在于:
- AHeN 关注单个异质网络和单个特征矩阵;
- HeFN致力于 单个同质网络和多个特征矩阵;
- 而 AMHeN涉及多个异质网络和单个特征矩阵 。
表征学习目标:
学习网络中节点的低维向量
H
∈
R
∣
N
∣
×
d
H ∈R^{|N|×d}
H∈R∣N∣×d,同时保留原始网络中节点之间的结构和语义相关性 (比如一 阶邻近性和高阶邻近性 ),其中
d
d
d是嵌入维度 ,
∣
N
∣
|N|
∣N∣表示节点数目 ,
d
<
<
∣
N
∣
d<<|N|
d<<∣N∣。对于属性网络 ,
H
H
H需要保留节点属性间的相似性。
常用技术
异质信息网络中的随机游走可以分为结构游走和特征游走 ,前者捕捉节点间的结构邻近性,后者捕捉节点间的属性邻近性。
结构游走:
结构游走基于网络的拓扑结构获取节点序列,包括基于元路径、元图或网络模式的随机游走。
特征游走:
特征游走基于描述节点属性的特征矩阵获得节点序列。
特征游走不直接计算任何实例对之间的相似度,有效缓解了大规模网络中相似度计算时间、空间复杂度高的问题 ,并且各个特征矩阵上的游走可以按分布式的方式进行 ,使游走具有可扩展性。
尽管各个特征矩阵异质,但是在各个特征矩阵上游走获得的均是同质的节点序列,可以与结构游走获得的节点序列一同处理,自然融合了网络的结构和节点的多种属性信息。
负采样:
表征学习过程中,应尽量使每个中心节点与其邻居彼此靠近(嵌入向量相似)并远离所有其他节点。其他节点很多 ,为了减少计算成本,负采样 (NS)随机采样少量非邻居节点(负样本),中心节点只需要远离负样本即可。
- 许多算法在使用 NS时,负样本是从所有样本 N N N中随机选择,因此节点的邻居也可能被选择为负样本,这会带来 “流行邻居问题 ”,即度高的节点比度低的节点被选择的可能性大,导致度高节点的嵌入过度收缩,效果不佳。对于邻居节点的度也很高的节点,情况更糟。