• 论文解读(DAEGC)《Improved Deep Embedded Clustering with Local Structure Preservation》


    论文信息

    论文标题:Attributed Graph Clustering: A Deep Attentional Embedding Approach
    论文作者:Chun Wang, Shirui Pan, Ruiqi Hu, Guodong Long, Jing Jiang, Chengqi Zhang
    论文来源:2019, IJCAI
    论文地址:download 
    论文代码:download 

    1 Introduction

      研究现状:目前的图表示学习方法都是两阶段方法,且融合结构和属性信息的机制并不完美。

      本文模型与传统的 two-step 方法的比较如 Figure 1 所示:  

        

    • 本文模型是将 节点表示 和 聚类 放在一个统一的框架中学习。
    • Two-step 方法则是先学习 node embedding,然后进行聚类。 

    2 Method

      总体框架:  

      

      组成部分:

      • Graph Attentional Autoencoder
      • Self-training Clustering

    2.1 Graph Attentional Autoencoder

    2.1.1 GAT encoder

      首先:衡量 node i 的邻居 Ni  对于节点 i 的影响,采用图注意力机制:

        zl+1i=σ(jNiαijWzlj)(1)

      其中:αij  is the attention coefficient that indicates the importance of neighbor node  j  to node  i

      对于注意力系数   αij 主要参考两个方面:

      1. 属性值(attribute values) ;
      2. 拓扑距离( topological distance );

      Aspact 1:属性值

      注意力系数 αij 可以表示为 由 xixj 拼接形成的单层前馈神经网络:

        cij=aT[WxiWxj](2)

      其中:

      • aR2m 是权重向量;  

      Aspact 2:拓扑距离

      考虑节点高阶邻居信息(指 t-order 邻居),得到  proximity matrix

        M=(B+B2++Bt)/t(3)

      其中:

      • B 是转移矩阵(transition matrix),当  eijE  有边相连,那么  Bij=1/di  ,否则  Bij=0
      • Mij  表示 node  i 和 node  jt  阶内的拓扑相关性。如果 node  i 和 node  j 存在邻居关系(t 阶之内),那么  Mij>0

      对节点 i 的领域做标准化,采用 softmax function

        αij=softmaxj(cij)=exp(cij)rNiexp(cir)(4)

      将 Eq.2cijEq.3 中的 Mij 带入 Eq.4,那么  attention 系数可以表示为:

        αij=exp(δMij(aT[WxiWxj]))rNiexp(δMir(aT[WxiWxr]))(5)

      其中,激活函数 δ 采用 LeakyReLU

      本文堆叠 2 个 graph attention layers

        z(1)i=σ(jNiαijW(0)xj)(6)

        z(2)i=σ(jNiαijW(1)z(1)j)(7)

      通过上述图注意力编码器,得到最终的 zi=z(2)i

    2.1.2 Inner product decoder

      解码器为  Inner product decoder ,用于重构图:

        ˆAij=sigmoid(zizj)(8)

      其中:

      • ˆA 是重建后的图结构矩阵;  

    2.1.3 Reconstruction loss

      最小化 A 和 ˆA 的重构错误:

        Lr=ni=1loss(Ai,j,ˆAij)(9) 

    2.2 Self-optimizing Embedding

      除优化重构误差外,还将 隐表示 输入一个自优化聚类模块,该模块最小化以下目标:

        Lc=KL(PQ)=iupiulogpiuqiu(10)

      其中:

      • qiu度量隐表示 zi 和聚类中心 μu 之间的相似性,本文通过 Student's t-distribution 度量;
      • piu 代表目标分布;  

        qiu=(1+ziμu2)1k(1+ziμk2)111

        piu=q2iu/iqiuk(q2ik/iqik)(12)

      聚类损失迫使当前分布  Q  接近目标分布 P

      算法概述

      • 首先使用没有用 selfoptimize clustering part 的自编码器获得初始 embedding ;
      • 其次为计算  Eq.11 ,先使用 kmeans 获得初始聚类中心 μ  
      • 然后根据 Lc  使用 SGD 进行优化更新 μz

      需要注意的是 :P5 个 iteration 更新一次,Q 每个 iteration 更新一次。

      算法步骤:

        

    2.3 Joint Embedding and Clustering Optimization

      联合优化 自编码器的重构损失 和 聚类损失,总目标函数为:

        L=Lr+γLc(13)

      其中:

      • Lr 代表着重构损失;
      • Lc 代表着聚类损失 ;

      最终 vi 的 软标签 通过 Q 获得:

        si=argmaxuqiu(14)

    3 Experiments

      

      

      

    4 Conclusion

      贡献:

      • 使用考虑了长距离结构信息图注意力网络的编码器;  
      • 采用内积重构邻接矩阵做;

    修改历史

    2022-02-19 创建文章
    2022-06-09 修订文章

     

    论文解读目录

     


    __EOF__

  • 本文作者: Blair
  • 本文链接: https://www.cnblogs.com/BlairGrowing/p/15908418.html
  • 关于博主: 评论和私信会在第一时间回复。或者直接私信我。
  • 版权声明: 本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
  • 声援博主: 如果您觉得文章对您有帮助,可以点击文章右下角推荐一下。
  • 相关阅读:
    20220802NOI模拟赛--考后总结
    docker+nginx 安装部署修改资源目录配置文件和容器端口信息
    基于ssm流浪动物救助管理系统
    贪心——区间问题
    gitlab本地备份(自动定时备份)
    深入理解LTE网络的CDRX
    中间件 | Redis - [分布式锁 & 事务]
    ChatGPT+MATLAB应用
    【一键生成】3DMAX配景楼生成插件使用教程
    iText实战--根据绝对位置添加内容
  • 原文地址:https://www.cnblogs.com/BlairGrowing/p/15908418.html