• 论文解读(NGCF)《LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation》


    论文信息

    论文标题:LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation
    论文作者:Xiangnan He, Kuan Deng, Xiang Wang, Yan Li, Yongdong Zhang, Meng Wang
    论文来源:2020, SIGIR
    论文地址:download 
    论文代码:download 

    1 Introduction

      舍弃了GCN的特征变换(feature transformation)和非线性激活(nonlinear activation),只保留了领域聚合(neighborhood aggregation )。 

    2 Prelimiaries

      NGCF 利用用户项交互图来传播嵌入如下:

        e(k+1)u=σ(W1e(k)u+iNu1|NuNi|(W1e(k)i+W2(e(k)ie(k)u)))e(k+1)i=σ(W1e(k)i+uNi1|NuNi|(W1e(k)u+W2(e(k)ue(k)i)))e(k+1)u=σ(W1e(k)u+iNu1|NuNi|(W1e(k)i+W2(e(k)ie(k)u)))e(k+1)i=σ(W1e(k)i+uNi1|NuNi|(W1e(k)u+W2(e(k)ue(k)i)))

      其中

      • e(k)ue(k)ue(k)ie(k)i 分别用户 uu 和物品 ii 在第 kk 层的嵌入;
      • σσ 代表着非线性激活函数;
      • NuNu 代表着和用户 uu 相关联的物品;
      • NiNi 代表着和物品 ii 相关联的用户;
      • W1W1W2W2 代表着各层的权重矩阵;
      • (e(0)u,e(1)u,,e(L)u)(e(0)u,e(1)u,,e(L)u) 代表着各层的用户嵌入;
      • (e(0)i,e(1)i,,e(L)i)(e(0)i,e(1)i,,e(L)i) 代表着各层的物品嵌入;

      接下来,对比不使用特征转换(feature transformation)和非线性激活函数(non-linear activation function):

      • NGCFfNGCFf, which removes the feature transformation matrices W1W1 and W2W2 .
      • NGCFnNGCFn, which removes the non-linear activation function σσ.
      • NGCFfnNGCFfn, which removes both the feature transformation matrices and non-linear activation function.

      实验:

      

      

    3 Method

    3.1 LightGCN

      它迭代地进行图卷积,即将邻居的特征聚合为目标节点的新表示。这种邻域聚合可以抽象为:

        e(k+1)u=AGG(e(k)u,{e(k)i:iNu})(2)e(k+1)u=AGG(e(k)u,{e(k)i:iNu})(2)

    3.1.1 Light Graph Convolution (LGC)

      在 LightGCN中,我们采用简单加权和聚合器,不再使用特征变换和非线性激活。LightGCN 中的图卷积运算定义为:

        e(k+1)u=iNu1|Nu||Ni|e(k)ie(k+1)i=uNi1|Ni||Nu|e(k)u(3)e(k+1)u=iNu1|Nu||Ni|e(k)ie(k+1)i=uNi1|Ni||Nu|e(k)u(3)

      其中,1|Nu||Ni|1|Nu||Ni|  是对称标准化项。

      LGC 只聚合已连接的邻居,而不集成目标节点本身(即自连接)。与 GCN 不同,后者通常聚合扩展的邻居,需要特别处理自连接。

    3.1.2 Layer Combination and Model Prediction

      只有可训练的模型参数是在第 00 层的嵌入,即所有用户的 e(0)ue(0)u 和所有物品的 e(0)ie(0)i。当给出它们时,可以通过 Eq.3 中定义的 LGC 来计算更高层的嵌入。在 K 层 LGC 之后,我们进一步结合在每一层获得的嵌入,形成最终的用户和物品表示:

        eu=Kk=0αke(k)u;ei=Kk=0αke(k)i(4)

      其中,αk0 表示第 k 层嵌入在构成最终嵌入中的重要性。它可以被视为一个需要手动调整的超参数,也可以作为一个需要自动优化的模型参数。在实验中,发现将 αk 均匀设置为 1/(K+1) 总体上具有良好的性能。

      因此,我们不设计特殊的组件来优化 αk,以避免不必要地使 LightGCN 复杂化,并保持其简单性。我们执行图层组合来得到最终表示的原因有三方面。

      • 随着层数增加,将导致过平滑的问题,故不能简单使用最后一层的嵌入;  
      • 不同层捕获了不同的语义信息;    
      • 将不同层的嵌入加权和,可以捕获与图卷积自连接的效果;  

      模型预测被定义为用户和项目最终表示的内积:

        ˆyui=eTuei(5)

    3.1.3 Matrix Form

      用户-物品交互矩阵(user-item interaction matrix)定义为:RRM×N,其中 MN 分别代表着用户、物品的数量。如果 Rui=1 ,则说明用户 u 和物品 i 有交互,否则为 0。因此,得到用户-物品图(user-item graph)的邻接矩阵:

        A=(0RRT0)(6)

      第 0 层的嵌入矩阵 E(0)R(M+N)×TT 代表着嵌入的维度,可以得到 LGC 的矩阵等价形式为:

        E(k+1)=(D12AD12)E(k)(7)

      其中 D 是一个 (M+N)×(M+N) 对角矩阵,其中每个元 Dii 表示邻接矩阵 A 的第 i 行向量中的非零项的数目。最后,我们得到了用于模型预测的最终嵌入矩阵为:

        E=α0E(0)+α1E(1)+α2E(2)++αKE(K)=α0E(0)+α1˜AE(0)+α2˜A2E(0)++αK˜AKE(0)(8)

      其中,˜A=D12AD12 代表着对称标准化矩阵。

    3.2 Model Analysis

    3.2.1 Relation with SGCN

      在[40]中,作者论证了GCN在节点分类中的不必要的复杂性,并提出了SGCN,它通过去除非线性并将多个权值矩阵压缩为一个权值矩阵来简化GCN。SGCN中的图卷积定义为:

        E(k+1)=(D+I)12(A+I)(D+I)12E(k)(9)

      其中,IR(M+N)×(M+N) 是一个单位矩阵,它被添加在 A 上以包含自连接。在接下来的分析中,为了简单起见,我们省略了 (D+I)12 项,因为它只重新缩放嵌入。在SGCN中,在最后一层获得的嵌入用于下游预测任务,可以表示为:【牛顿二项展开式】

        E(K)=(A+I)E(K1)=(A+I)KE(0)=(K0)E(0)+(K1)AE(0)+(K2)A2E(0)++(KK)AKE(0)(10)

      上述推导表明,在 A 中插入自连接并在其上传播嵌入,本质上等同于在每个LGC层上传播的嵌入的加权和。

    3.2.2 Relation with APPNP

      在工作[24]中,作者将 GCN 与Personalized PageRank[15] 联系起来,提出了一种名为 APPNP 的 GCN 变体,它可以远程传播而不会有过度平滑的风险。受个性化 PageRank 中的传送设计的启发,APPNP 补充了每个传播层的起始特征(即第 0 层嵌入),这可以平衡保持局部性的需要(即保持靠近根节点以缓解过度平滑)和利用来自一个大邻域的信息。在APPNP中的传播层被定义为:

        E(k+1)=βE(0)+(1β)˜AE(k)(11)

      其中 β 是控制传播中控制起始特征保留的传送概率。˜A 为归一化邻接矩阵。在APPNP中,最后一层用于最终的预测,即:

        E(K)=βE(0)+(1β)˜AE(K1)=βE(0)+β(1β)˜AE(0)+(1β)2˜A2E(K2)=βE(0)+β(1β)˜AE(0)+β(1β)2˜A2E(0)++(1β)K˜AKE(0)(12)

      结合 Eq.8,我们可以看到,通过相应地设置 αk,LightGCN可以完全恢复APPNP使用的预测嵌入。因此,LightGCN共享了APPNP在对抗过平滑方面的优势——通过正确地设置 α,我们允许使用一个大的 K 来进行具有可控过平滑的远程建模。另一个小的区别是,APPNP将自连接添加到邻接矩阵中。然而,正如我们之前所展示的,由于不同层的加权和,这是多余的。

    3.2.3 Second-Order Embedding Smoothness

      由于LightGCN 的线性性质,我们可以更深入地了解它是如何平滑嵌入的。在这里,我们分析了一个 2 层的 LightGCN 来证明其合理性。以用户方面为例,直观地说,二阶平滑在交互物品上有重叠的用户。更具体地说,我们有:

        e(2)u=iNu1|Nu||Ni|e(1)i=iNu1|Ni|vNi1|Nu||Nv|e(0)v(13)

      我们可以看到,如果另一个用户 v 与目标用户 u 有协同交互,那么 vu 上的平滑强度可以用系数(否则为0)来衡量:

        cv>u=1|Nu||Nv|iNuNv1|Ni|(14)

      这个系数是相当可解释的:二阶邻域 vu 的影响由 1)共交互物品的数量越多越大;2)共互动物品的受欢迎程度越低(即用户个性化偏好越明显)越大;3) v 的活动越少,越活跃越大。这种可解释性很好地满足了CF在测量用户相似度时的假设,并证明了LightGCN的合理性。

    3.3 Model Training

      LightGCN的可训练参数只是第 0 层的嵌入 Θ={E(0)}。我们采用 Bayesian Personalized Ranking (BPR)损失,一种成对的损失,鼓励对观察到的条目的预测高于未观察到的对应项:

        LBPR=Mu=1iNujNulnσ(ˆyuiˆyuj)+λE(0)2(15)

    4 Experiments

    数据集

      

    对比实验

      

    5 Conclusion

      在这项工作中,我们提出了不必要的复杂设计,并进行了实证研究来证明这一论点。我们提出了LightGCN,它由两个基本组件组成:光图卷积和层组合。在光图卷积中,我们放弃了特征变换和非线性激活——GCN 中的两种标准操作,但不可避免地增加了训练的难度。在层组合中,我们将一个节点的最终嵌入作为其嵌入对所有层的加权和,证明了它包含了自连接的影响,有助于控制过平滑。我们进行了实验来证明LightGCN在简单方面的优点:更容易被训练,更好的泛化能力,更有效。

     


    __EOF__

  • 本文作者: Blair
  • 本文链接: https://www.cnblogs.com/BlairGrowing/p/16266966.html
  • 关于博主: 评论和私信会在第一时间回复。或者直接私信我。
  • 版权声明: 本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
  • 声援博主: 如果您觉得文章对您有帮助,可以点击文章右下角推荐一下。
  • 相关阅读:
    国民经济行业代码查询系统-公司行业代码查询
    【mysql篇-基础篇】通用语法2
    百度SEO优化策略与经验分享(提升百度排名的8大步骤)
    JS高级 之 ES6~ES13 新特性
    Java基础:反射
    运放失调电压失调电流,计算输入电压信号大小,设计反向放大器
    基于java+ssm+vue+mysql的网络教学系统
    Redis持久化机制的三种方式:RDB、AOF和混合持久化
    elasticsearch-head安装及详细配置
    阿里云99元服务器新老用户同享396元4年!
  • 原文地址:https://www.cnblogs.com/BlairGrowing/p/16266966.html