《超图中模块化的新度量:有效聚类的理论见解和启示》
《A New Measure of Modularity in Hypergraphs: Theoretical Insights and Implications for Effective Clustering》
COMPLEX NETWORKS 2020, SCI 3区
具体实现源码见HyperNetX库
工作:
成果:
注意力限制在 k-均匀超图上,其中所有超边具有相同的固定大小。
提出合适的超图拉普拉斯算子来扩展一般超图的谱聚类框架——隐含了图扩展的思想
模块度最大化是图上聚类的另一种方法,它提供了一个标准来衡量模块化函数中的集群质量
经典方法为louvain算法
团扩展问题:会丢失编码在超边结构中的关键信息。也不会保留超图的节点度——这是模块度最大化方法基于的零模型所必需的
有多种切割超边的方法。根据切割不同侧节点的比例和分配,聚类将发生变化。需要考虑超边权重
节点的采样概率与其参与的超边的数量(或在加权情况下,总权重)成正比
P
i
j
h
y
p
=
d
(
i
)
×
d
(
j
)
∑
v
∈
V
d
(
v
)
P_{i j}^{h y p}=\frac{d(i) \times d(j)}{\sum_{v \in V} d(v)}
Pijhyp=∑v∈Vd(v)d(i)×d(j)
对于每个超边 e,节点度被多算了一个因子 (δ(e) − 1)。因此,我们可以通过将每个 w(e) 缩小一个因子 (δ(e) − 1) 来纠正它。这导致以下更正的邻接矩阵:
A
h
y
p
=
H
W
(
D
e
−
I
)
−
1
H
T
A^{h y p}=H W\left(D_e-I\right)^{-1} H^T
Ahyp=HW(De−I)−1HT
我们可以使用这种保留节点度数的缩减,将对角线归零,以实现方程式中的空模型。
超图模块度的表达式:
Q
h
y
p
=
1
2
m
∑
i
j
[
A
i
j
h
y
p
−
P
i
j
h
y
p
]
δ
(
g
i
,
g
j
)
Q^{h y p}=\frac{1}{2 m} \sum_{i j}\left[A_{i j}^{h y p}-P_{i j}^{h y p}\right] \delta\left(g_i, g_j\right)
Qhyp=2m1ij∑[Aijhyp−Pijhyp]δ(gi,gj)
与任何加权图一样,此函数的范围是 [−1, 1]。当超边中没有一对节点属于同一集群时,我们将得到 Qhyp = −1,而当属于同一超边的任何两个节点始终属于同一集群时,我们将得到 Qhyp = 1。 Qhyp = 0,对于任何一对节点 i 和 j,同时包含 i 和 j 的超边数等于包含 i 和 j 的随机连线超边数,由空模型给出。
问题:最小切割算法会支持尽可能不平衡的切割
思路:我们希望在簇中保留不平衡的超边,并切割更平衡的超边——可以通过增加获得不平衡切割的超边的权重,并减少获得更平衡切割的超边的权重来完成。
超边被一分为二,两边节点数分别为k1、k2:
t
=
(
1
k
1
+
1
k
2
)
×
δ
(
e
)
t=\left(\frac{1}{k_1}+\frac{1}{k_2}\right) \times \delta(e)
t=(k11+k21)×δ(e)
当
k
1
=
k
2
=
δ
(
e
)
/
2
k1=k2=\delta(e)/2
k1=k2=δ(e)/2时,t取最小值4,推广上式:
w
′
(
e
)
=
1
m
∑
i
=
1
c
1
k
i
+
1
[
δ
(
e
)
+
c
]
w^{\prime}(e)=\frac{1}{m} \sum_{i=1}^c \frac{1}{k_i+1}[\delta(e)+c]
w′(e)=m1i=1∑cki+11[δ(e)+c]
——+1 和 +c 项都被添加用于平滑,以解决任何 ki 为零的情况。我们除以 m 来归一化权重
令 wt(e) 为超边 e 在第 t 次迭代中的权重,w’(e) 为在给定迭代中计算的权重,则权重更新规则可写为:
w
t
+
1
(
e
)
=
α
w
t
(
e
)
+
(
1
−
α
)
w
′
(
e
)
w_{t+1}(e)=\alpha w_t(e)+(1-\alpha) w^{\prime}(e)
wt+1(e)=αwt(e)+(1−α)w′(e)
初始的切分很不均匀,有1:4、1:2、2:3等切分,改进后,不均匀的切割被去除——h1 和 h3 中的单个节点最初分配给另一个集群,已被拉回它们各自的(更大的)集群。
度量指标:
几种用作对比的方法:
团扩展+louvain
超图谱聚类
hMETIS 和 PaToH
数据集:
结果: