• 跨域推荐:嵌入映射、联合训练和解耦表征


    The art of being wise is the art of knowing what to overlook .
    智慧的艺术是知道该忽视什么。

    ——威廉·詹姆斯(William James)

    1 导引

    1.1 跨域推荐简介

    推荐系统中常常面临用户冷启动问题[1],也即新注册的用户没有足够的交互记录,导致推荐模型不能学习到有效的表征。为了解决用户冷启动问题,近年来跨域推荐(CDR) 得到了许多关注[2]。一般来讲,跨域推荐旨在利用从其它相关源域收集的用户-物品交互信息以提升目标域的推荐质量。许多跨域推荐的工作会假设大量的用户在两个域都出现过(即重叠用户, overlapping users)以搭建起源域和目标域之间的桥梁。只在源域中存在的用户(即非重叠用户, non overlapping users)可以被视为目标域的冷启动用户。

    1.2 嵌入和映射的思路

    为了解决冷启动用户问题,传统的跨域推荐方法常常基于嵌入和映射(Embedding and Mapping,EMCDR) 的思路,也即学习一个映射函数将预训练的用户表征(embeddings)从源域迁移到目标域。如下图所示:

    如上图所示,EMCDR首先用基于协同过滤的模型(CF-based model)来为每个领域生成用户/物品表征,之后训练一个映射函数来将源域和目标域的重叠用户表征。然后,再给定源域的非重叠冷启动用户表征,就能够根据训练好的映射函数来预测目标域的用户表征了,之后再用于目标域的物品推荐。

    然而,正如我们上面所说的,这种方法在进行对齐操作之前,各领域需要先通过预训练以独立地得到用户/物品的embeddings。因此,有偏的(biased) 预训练表征将无可避免地包含领域特有的(domain-specific) 信息,从而会导致对跨领域迁移信息产生负面影响。

    事实上,跨域推荐的关键问题就在于:究竟需要在不同的域之间共享什么信息?也即如何让表征能够编码到领域间共享(domain-shared)的信息?

    1.3 联合训练的思路

    这种思路相比于EMCDR方法的优点在于,我们能够联合(jointly)学习跨领域的embeddings,从而能够进一步地关注于领域共享信息并限制领域特有的信息。

    在具体的手段层面,这种方法该类方法的大多数工作首先采用两个基础的编码器来对每个领域的交互记录建模,之后再引入不同的迁移层来对称地融合不同编码器学得的表征。比如,CoNet[3]利用MLP做为每个领域的基础编码器,并设计了交叉连接(cross-connections)网络来迁移信息。DDTCDR[4]进一步扩展了ConNet:学习了一个潜在的正交投影函数来迁移跨领域用户的相似度。PPGN[5]使用堆叠的(stacking)GCN来直接聚合来自各领域的表征信息以学得用户/物品表征。BiTGCF[6]利用LightGCN[7]做为编码器来聚合每个领域的交互信息,并进一步引入特征迁移层来增强两个基础的图编码器。CDRIB[8]则采用信息瓶颈的视角来获得领域间共享的信息(不过该方法关注的是为目标域中的不重叠(冷启动)用户做推荐,与前面的方法又有所区别)。

    1.4 解耦表征的思路

    尽管以上的方法在一定程度上有效,但它们基本上仍然忽略了对领域共享信息和领域特有信息的解耦(CDRIB除外),而这大大限制了模型迁移的效率。

    一个显著的例子如上图所示。对于Film和Book这两个领域,领域间共享的信息,比如“Story Topic”和“Category”能够为每个领域都提供有价值的信息。但领域特有的信息,比如Book领域的“Writing Style”可能会提供对于在“Film”领域做推荐无用的信息甚至会导致CDR领域的负迁移现象[9]。不幸的是,现有的CDR方法忽视了此问题并直接聚合领域间共享和领域特有的信息。这样的结果就是,学得的用户表征将不同领域的偏好纠缠(entangle)在一起,而这会导致获得次优(sub-optial)的推荐结果。

    解决该问题的手段是解耦领域间共享的领域特有的表征,其代表为DisenCDR模型[10]

    如上图所示,DisenCDR模型将领域共享的和领域特有的表征进行解耦,以达到跨领域知识迁移的目的。

    2 论文阅读

    2.1 ICDE 2022《Cross-Domain Recommendation to Cold-Start Users via Variational Information Bottleneck》[8]

    本方法属于采用联合训练的跨域推荐方法。本其关注的场景为当源域和目标域间的用户部分重叠时,为目标域中的不重叠(冷启动)用户做推荐。该方法所要解决的问题在于,究竟有哪些信息需要在领域间进行共享

    为了解决该问题,本文利用了信息瓶颈(information bottleneck)原理并提出了一个新的方法(CDIRB模型)来使表征编码到领域间共享的信息(domain shared information),从而用于各领域的下游推荐。为了得到无偏的表征,作者设计了两种正则项,其中信息瓶颈正则项来同时建模跨域/域间的用户-物品交互,这样相比EMCDR方法,就能够同时考虑所有域的交互信息从而达到去偏的目的;而对比信息正则项则负责捕捉跨域的用户-用户之间的关系(对齐不同域之间的重叠用户表征)。

    设有领域XY,设DX=(UX,VX,EX)DY=(UX,VX,EX)表示领域的数据,这里UVE分别表示每个领域用户、物品和边的集合。特别地,用户集合UXUY包含重叠的用户子集Uo=UXUY。接着,用户集合可以被形式化为UX={Ux,Uo}UY={Uy,Uo},这里UxUy为在每个领域中不重叠的用户集合。设AX={0,1}|UX|×|VX|AY={0,1}|UY|×|VY|为存储用户-物品交互信息的两个二值矩阵。这样,本文的任务可形式化地描述为:给定来自源域X的非重叠的(冷启动)用户uiUx,我们想要为其推荐来自目标域Y的物品vjVY(或为来自Uy的用户推荐来自VX的物品)。

    接下来作者借鉴了论文[11][12]提出的信息瓶颈理论,该理论旨在学习有效表征,这种有效表征能够在简洁性和广泛的预测能力之间做权衡(trade-off)[13]。形式化地,标准信息瓶颈有如下所示的目标函数:

    LIB:=βI(Z;X)I(Z;Y)

    该目标函数可以被解释为两部分:(1)最小化I(Z;X)旨在惩罚ZX之间的互信息,也即使得Z尽量“忘掉”X的信息。(2) 最大化I(Z;Y)则鼓励Z去预测Y。综合来看,信息瓶颈原理的目标为压缩X以得到表征Z,该表征能够去除掉对预测Y无用的因素而保留相关因素[14]。这也就是说IB使得Z做为一个最小充分统计量[15](在我们这个CDR应用中即领域间应该共享的信息)。在实践中,直接优化互信息是难解(intractable)的,因此变分近似[16]常常用于构建用于优化互信息目标函数的下界[13][17]

    本文提出的CDIRB模型包含变分子图编码器(variational bipartite graph encoder,VBGE)和两种的跨领域信息正则项,整体框架图如下图所示:

    其中绿色部分的网格代表物品表征,黄色和蓝色颜色的网格分别代表重叠和不重叠的用户表征。信息瓶颈正则项(图中的Information Bottleneck)捕捉了领域间用户和物品的相关性,而对比信息正则项(图中的Contrastive Information)则捕捉了领域间重叠用户之间的相关性。

    接下来我们叙述每个部分的细节。

    嵌入层

    嵌入层得到的领域X的用户/物品表征分别记作UXR|UX|×FVXR|VX|×F;领域Y的用户/物品表征分别记作UYR|UY|×FVYR|VY|×F

    变分二分图编码器(Variational Bipartite Graph Encoder,VBGE)
    为了在原始用户/物品表征的基础上,进一步提炼出用户/物品的隐向量表征,论文提出了变分二分图编码器(VBGE)。比如,通过重参数化来采样生成X领域的用户隐向量表征ZXv的过程如下:

    ˆUX=δ(Norm((AX))UXWXu),μXu=δ([δ(Norm(AX)ˆUXˆWXu,μ)UX]WXu,μ),σXu=φ([δ(Norm(AX)ˆUXˆWXu,σ)UX]WXu,σ),ZXuN(μXu,[diag(σXu)]2),

    zXui=μXui+σXuiϵ,ϵN(0,diag(I))

    信息瓶颈正则项

    接下来,论文引入了信息瓶颈正则项和对比信息正则项这两种正则项来捕捉领域间的相关性,以学得包含领域间共享信息的无偏表征。其中信息瓶颈正则化项旨在捕捉领域间用户和物品间的相关性,而对比信息正则化项旨在捕捉领域间的重叠用户和用户之间的相关性。

    XXuXv分别为领域X中所观测到的交互信息、用户信息和物品信息。领域X的用户集合包括重叠用户Uo和非重叠用户Ux这两个群体,领域Y亦然。以领域X为例,将用户表征ZXuR|UX|×F也划分为两个群体:ZxouR|Uo|×FZxuR|Ux|×F

    信息瓶颈正则项又可继续分为跨域(cross-domain)信息瓶颈正则项和领域内(in-domain)信息瓶颈正则项。首先我们来看跨域(cross-domain)信息瓶颈正则项,它包括包括信息压缩(即互信息最小化)和重构两部分,其结构化示意图如下:

    正如上图(a)所示。ZxouZyou是编码了各领域用户信息的重叠用户表征,而图(b)中的ZxuZyu是非重叠的(冷启动)用户表征。这里ZXvZYv是物品表征,默认是不重叠的。

    X领域迁移到Y领域为例(图中标红部分),我们需要使重叠用户隐向量Zxou和同领域的用户表征Xu互斥(信息压缩),而去接近于Y领域的交互信息Y(跨域重构);此外,对于Y领域的物品隐向量ZYv也需要使其与物品表征Yv互斥,并去接近于Y(因为不同领域物品不会重叠,这里采取域内重构)。综上,我们需要最小化:

    Lo2Y=β1I(Zxou;Xu)I(Zxou;Y)+β2I(ZYv;Yv)I(ZYv;Y)

    其中的跨域重构部分可以进一步通过互信息链式法则化简,也即I(Zxou;Y)+I(ZYv;Y)=I(Zxou;YZYv)+I(ZYv;Y)=I(Zxou,ZYv;Y)(这里假设ZxouZYv独立,故第一个等式成立)。

    最后,X领域导出的损失函数包括最小化(minimality)和跨域重构(reconstruction)两部分,也即最小化下式:

    Lo2Y=β1I(Zxou;Xu)+β2I(ZYv;Yv)Minimality I(Zxou,ZYv;Y)Reconstruction 

    接下来我们来看领域内(in-domain)信息瓶颈正则项,其结构化示意图如下:

    我们还是以X领域为例子(图中红色箭头部分),可以看到其损失函数同样也包括最小化和领域内重构两部分,也即最小化下式:

    Lx2X=β1I(Zxu;Xu)+β1I(ZXv;Xv)Minimality I(Zxu,ZXv;X)Reconstruction 

    对比信息正则项

    在对比信息正则化项中,作者通过最大化X的重叠用户表征Zxou和来自领域Y的重叠用户表征Zyou间的互信息,以进一步提炼重叠用户的表征。对比信息正则化项也就定义为最小化下式:

    Lcon =I(Zxou;Zyou)Contrastive 

    为了直观地理解该式,我们可以进一步将其转换为: Lcon=I(Zxou;Zyou)+[H(ZxouX)H(ZxouZyou,X)]=I(Zxou;Zyou)+I(Zxou;ZyouX)=I(Zxou;Zyou;X)=I(Zxou;X)I(Zyou;X)+I(Zxou,Zyou;X)。直观地看,最小化前两项促使隐向量ZxouZyou含有足够多的信息能够预测X,最小化最后一项则在惩罚ZxouZyou和交互信息X之间的联合信息(jointly information)[28]数量。换句话说,该正则项迫使每个领域的用户表征编码领域共享的信息。

    可求解的目标函数

    将上述的两种信息瓶颈正则项和对比信息正则项累加起来(同时包括XY领域的),就得到了需要最小化的目标函数:

    L=Lx2X+Lo2Y+Lo2X+Ly2Y+Lcon=β1(I(Zxu;Xu)+I(ZXv;Xv)+I(Zxou;Xu))+β2(I(Zyu;Yu)+I(ZYv;Yv)+I(Zyou;Yu))I(Zxou,ZYv;Y)I(Zxu,ZXv;X)I(Zyou,ZXv;X)I(Zyu,ZYv;Y)I(Zxou;Zyou)

    接下来看如何求解该目标函数。我们知道互信息是使用KL散度来定义的,比如I(Zxou;Xu)=DKL(pθ(ZxouXu)。现在我们不得不面对一个尴尬的问题,该项是难解(intractable)的,这是因为后验p_\theta\left(\boldsymbol{\bm{\bm{Z}}}_u^{x o} \mid \mathbf{X}^u\right)难以进行推断。于是,这里需要使用其变分近似q_{\phi_u^X}\left(\boldsymbol{\bm{\bm{Z}}}_u^{x o} \mid \mathbf{X}^u\right)[22],并去最小化互信息的变分上界:

    \begin{aligned} I\left(\boldsymbol{\bm{\bm{Z}}}_u^{x o} ; \mathbf{X}^u\right) & \leq D_{\text{KL}}\left(q_{\phi_u^X}\left(\boldsymbol{\bm{\bm{Z}}}_u^{x o} \mid \mathbf{X}^u\right) \| p\left(\boldsymbol{\bm{\bm{Z}}}_u^{x o}\right)\right) \\ \quad= & D_{\text{KL}}\left(\mathcal{N}\left(\boldsymbol{\mu}_u^{x o},\left[\operatorname{diag}\left(\boldsymbol{\sigma}_u^{x o}\right)\right]^2\right) \| \mathcal{N}(0, \operatorname{diag}(\boldsymbol{I}))\right)\end{aligned}

    这里如同大多数变分模型[18][24][25]所采用的,作者假设先验分布p\left(\boldsymbol{\bm{\bm{Z}}}_u^{x o}\right)为高斯分布\mathcal{N}(0, \operatorname{diag}(\boldsymbol{I}))。且与VGAE方法[26]类似,采用图神经网络编码器来产生变分近似分布q_{\phi_u^X}\left(\boldsymbol{\bm{\bm{Z}}}_u^{x o} \mid X^u\right)

    对于重构项,以I\left(\boldsymbol{\bm{\bm{Z}}}_u^{x o}, \boldsymbol{\bm{\bm{Z}}}_v^Y ; \mathbf{Y}\right)为例,有I\left(\boldsymbol{\bm{\bm{Z}}}_u^{x o}, \boldsymbol{\bm{\bm{Z}}}_v^Y ; \mathbf{Y}\right)=\mathbb{E}_{p_\theta\left(\boldsymbol{\bm{\bm{Z}}}_u^{x o} \mid \mathbf{X}^u\right) p_\theta\left(\boldsymbol{\bm{\bm{Z}}}_v^Y \mid \mathbf{Y}^v\right)}\left[\log p\left(\boldsymbol{A}^Y \mid \boldsymbol{\bm{\bm{Z}}}_u^{x o}, \boldsymbol{\bm{\bm{Z}}}_v^Y\right)\right]。该优化函数同样是难解的,这里需要转而去最大化其变分下界:

    \begin{array}{r}I\left(\boldsymbol{\bm{\bm{Z}}}_u^{x o}, \boldsymbol{\bm{\bm{Z}}}_v^Y ; \mathbf{Y}\right) \geq \mathbb{E}_{q_{\phi_u^X}\left(\boldsymbol{\bm{\bm{Z}}}_u^{x o} \mid \mathbf{X}^u\right) q_{\phi_v^Y}\left(\boldsymbol{\bm{\bm{Z}}}_v^Y \mid \mathbf{Y}^v\right)}\left[\log p\left(\boldsymbol{A}^Y \mid \boldsymbol{\bm{\bm{Z}}}_u^{x o}, \boldsymbol{\bm{\bm{Z}}}_v^Y\right)\right] \\ =\sum_{\left(u_i, v_j\right) \in \mathcal{E}^Y} \log \left(s\left(\boldsymbol{z}_{u_i}^{x o}, \boldsymbol{z}_{v_j}^y\right)\right)+\sum_{\left(u_i, \widetilde{v}_j\right) \notin \mathcal{E}^Y} \log \left(1-s\left(\boldsymbol{z}_{u_i}^{x o}, \boldsymbol{z}_{\widetilde{v}_j}^y\right)\right)\end{array}

    这里,作者定义了打分函数s(\cdot)来度量用户-物品交互的合理性(plausibility)。\left(u_i, v_j\right)/\left(u_i, \widetilde{v}_j\right)为用户-物品交互对的正/负样本,\bm{z}^{xo}_{u_i}\bm{z}^y_{v_j}\bm{z}^y_{\bar{v}_j}则为由VBGE产生的对应隐变量。

    对于对比互信息项,论文借鉴了infomax[14][20]的想法,利用神经网络来度量对比互信息。具体来说,论文定义了判别器\mathcal{D}来度量来自不同领域的重叠用户隐向量(来自领域Xz^{xo}_{u_i}和来自领域Yz^{yo}_{u_i})之间的相似度,也即I\left(\boldsymbol{\bm{\bm{Z}}}_u^{x o} ; \boldsymbol{\bm{\bm{Z}}}_u^{y o}\right)=\mathbb{E}_{p_\theta\left(\boldsymbol{\bm{\bm{Z}}}_u^{x o} \mid \mathbf{X}^u\right) p_\theta\left(\boldsymbol{\bm{\bm{Z}}}_u^{y o} \mid \mathbf{Y}^u\right)}\left[\log \mathcal{D}\left(\boldsymbol{\bm{\bm{Z}}}_u^{x o}, \boldsymbol{\bm{\bm{Z}}}_u^{y o}\right)\right]。同样地,这里去最大化其变分下界:

    \begin{aligned} & I\left(\boldsymbol{\bm{\bm{Z}}}_u^{x o} ; \boldsymbol{\bm{\bm{Z}}}_u^{y o}\right) \geq \mathbb{E}_{q_{\phi_u^X}\left(\boldsymbol{\bm{\bm{Z}}}_u^{x o} \mid \mathbf{X}^u\right) q_{\phi_u^Y}\left(\boldsymbol{\bm{\bm{Z}}}_u^{y o} \mid \mathbf{Y}^u\right)}\left[\log \mathcal{D}\left(\boldsymbol{\bm{\bm{Z}}}_u^{x o}, \boldsymbol{\bm{\bm{Z}}}_u^{y o}\right)\right] \\ & =\sum_{u_i, \tilde{u}_i \in \mathcal{U}^o, \tilde{u}_i \neq u_i}\left[\log \left(\mathcal{D}\left(\boldsymbol{z}_{u_i}^{x o}, \boldsymbol{z}_{u_i}^{y o}\right)\right)+\log \left(1-\mathcal{D}\left(\boldsymbol{z}_{u_i}^{x o}, \boldsymbol{z}_{\tilde{u}_i}^{y o}\right)\right)\right]\end{aligned}

    这里\bm{z}^{yo}_{\tilde{u}_i}是从\bm{Z}^{yo}_u采的负样本隐变量,且

    \mathcal{D}\left(\boldsymbol{z}_{u_i}^{x o}, \boldsymbol{z}_{u_i}^{y o}\right)=\operatorname{sigmoid}\left(\operatorname{MLP}\left(\boldsymbol{z}_{u_i}^{x o} \oplus \boldsymbol{z}_{u_i}^{y o}\right)\right)

    这样,就将原始目标函数转化为了最终完全可求解的目标函数。

    2.2 SIGIR 2022 《DisenCDR: Learning Disentangled Representations for Cross-Domain Recommendation》[4]

    本方法属于采用解耦表征的跨域推荐方法。与2.1所讲的基于信息瓶颈视角的方法不同的是,本方法旨在为两个领域中的重叠用户做推荐,因此在模型中只考虑两个领域中的重叠用户。在本方法中,所要解决的关键问题在于对于两个领域重叠用户的表征,如何分别出共享和不共享的部分?

    为了解决该问题,本文基于信息论提出了DisenCDR模型,该模型能够解耦领域间共享和领域特有的信息,从而只迁移领域间共享的信息以增强推荐表现。该方法包含了两个互信息正则项(包括互斥正则项信息增强正则项,详情参见后文),并据此导出了一个可以求解的解耦目标函数。

    本文采用和上面的文章几乎一样的符号,就是需要注意此处领域X和领域Y的用户空间相同。设领域X和领域Y的数据分别表示为\mathcal{D}^X=(\mathcal{U}, \mathcal{V}^X,\mathcal{E}^X)\mathcal{D}^Y=(\mathcal{U}, \mathcal{V}^X,\mathcal{E}^X),这里\mathcal{U}\mathcal{V}\mathcal{E}分别表示每个领域用户、物品和边的集合。设\bm{A}^X=\{0,1\}^{\left|\mathcal{U}\right| \times\left|\mathcal{V}^X\right|}\bm{A}^Y=\{0,1\}^{\left|\mathcal{U}\right| \times\left|\mathcal{V}^Y\right|}为存储用户-物品交互信息的两个二值矩阵。

    这里\bm{\bm{Z}}^X_v\bm{\bm{Z}}^X_u\bm{\bm{Z}}^Y_u\bm{\bm{Z}}^Y_v是领域特有的用户/物品表征,且\bm{\bm{Z}}^S_u是用户的领域共享表征,则DisenCDR的框架图可表示如下:

    注意,这里蓝色的KL意为计算\bm{\bm{Z}}的后验分布与其先验分布\mathcal{N}(0, \bm{I})之间的KL散度,在优化时需要使其最小化,从而使后验分布接近于先验分布;绿色的KL意为计算\bm{\bm{Z}}的后验分布之间的KL散度,在优化时亦要使其最小化;p_{\theta}(\dots)为对数据的重构项,在优化时需要最大化其对数似然。这些都来自本文提出的解耦目标函数,现在搞不懂没关系,我们后面会详述。

    下面我们来详细介绍该方法各个组成部分的细节:

    嵌入层

    嵌入层的作用同2.1中所述的方法相同,也即将用户和物品嵌入到低维空间中。不过还是正如我们前面所说的,这里X领域和Y领域的用户空间相同。设\boldsymbol{U}^S\in \mathbb{R}^{|\mathcal{U}|\times F}为领域X和领域Y的共享初始嵌入矩阵,\boldsymbol{U}^X \in \mathbb{R}^{|\mathcal{U}|\times F}\boldsymbol{V}^X \in \mathbb{R}^{\left|\mathcal{U}\right| \times F}分别为领域XY特有的初始化嵌入矩阵。此外,\boldsymbol{V}^X \in \mathbb{R}^{\left|\mathcal{V}^X\right| \times F}\boldsymbol{V}^Y \in \mathbb{R}^{\left|\mathcal{V}^Y\right| \times F}分别为领域X和领域Y的物品表征。

    变分二分图编码器

    DisenCDR的变分二分图编码器(VBGE)和我们 2.1 中讲的第一个基于信息瓶颈思想的模型一样,唯一的区别就是这里的共享隐向量同时利用了X领域的\boldsymbol{\overline{\mu}}_{u}^XY领域的\overline{\boldsymbol{\mu}}_u^Y来进行重参数化采样生成:

    \begin{gathered} \boldsymbol{\mu}_u^S=\lambda_u \odot \overline{\boldsymbol{\mu}}_u^X+\left(1-\lambda_u\right) \odot \overline{\boldsymbol{\mu}}_u^Y, \\ \boldsymbol{\sigma}_u^S=\lambda_u \odot \bar{\sigma}_u^X+\left(1-\lambda_u\right) \odot \overline{\boldsymbol{\sigma}}_u^Y, \\ \lambda_{u_i}=\frac{N_{u_i}^X}{N_{u_i}^X+N_{u_i}^Y}, \quad \bm{Z}_u^S \sim \mathcal{N}\left(\boldsymbol{\mu}_u^S,\left[\operatorname{diag}\left\{\sigma_u^S\right\}\right]^2\right) \end{gathered}

    生成和推断

    论文遵循VAE[18]的框架,这里假定所观测的交互信息\mathcal{D}^X\mathcal{ D}^Y采自一个联合概率分布p_{\mathcal{D}}(u, v^X, v^Y),每个元组\left(u_i, v_j, v_k\right) \sim p_{\mathcal{D}}\left(u, v^X, v^Y\right)描述了用户u_i和物品v_j \in \mathcal{V}^X和物品v_k \in \mathcal{V}^Y的交互信息。而交互数据正是经由领域共享表征(比如\bm{Z}_u^S)和领域特有(比如\bm{\bm{Z}}^X_u\bm{\bm{Z}}^X_v\bm{\bm{Z}}^Y_u\bm{\bm{Z}}^Y_v)表征生成,也即:

    \begin{array}{r} p_\theta\left(u, v^X, v^Y\right)=\int p_{\theta^X}\left(A^X \mid \bm{Z}_u^S, \bm{Z}_u^X, \bm{Z}_v^X\right) p_{\theta^Y}\left(A^Y \mid \bm{Z}_u^S, \bm{Z}_u^Y, \bm{Z}_v^Y\right) \\ p\left(\bm{Z}_u^S\right) p\left(\bm{Z}_u^X\right) p\left(\bm{Z}_u^Y\right) p\left(\bm{Z}_v^X\right) p\left(\bm{Z}_v^Y\right) \mathrm{d} \bm{Z}_u^S \mathrm{~d} \bm{Z}_u^X \mathrm{~d} \bm{Z}_u^Y \mathrm{~d} \bm{Z}_v^X \mathrm{~d} \bm{Z}_v^Y \end{array}

    下图(a)正是描述了交互数据的生成过程,而图(b)则描述了反向推断步骤:

    在推断过程中,直接最大化联合概率分布p_\theta\left(u, v^X, v^Y\right)的似然是难解的,因为后验分布p_\theta\left(\bm{Z}_u^X, \bm{Z}_u^Y, \bm{Z}_u^S, \bm{Z}_v^X, \bm{Z}_v^Y \mid \mathbf{X}, \mathbf{Y}\right)未知。因此采用近似推断[19]来近似真实的后验分布。根据上图(b)中的结构化假设,论文将近似后验分布分解为:

    \begin{array}{r} q_\phi\left(\bm{Z}_u^X, \bm{Z}_u^Y, \bm{Z}_u^S, \bm{Z}_v^X, \bm{Z}_v^Y \mid \mathbf{X}, \mathbf{Y}\right)=q_{\phi_u^X}\left(\bm{Z}_u^X \mid \mathbf{X}\right) q_{\phi_u^Y}\left(\bm{Z}_u^Y \mid \mathbf{Y}\right) \\ q_{\phi_v^X}\left(\bm{Z}_v^X \mid \mathbf{X}\right) q_{\phi_v^Y}\left(\bm{Z}_v^Y \mid \mathbf{Y}\right) q_{\phi_u^S}\left(\bm{Z}_u^S \mid \mathbf{X}, \mathbf{Y}\right) \end{array}

    互斥正则项(Exclusive regularizer)

    接下来作者从信息论的角度来探究领域间表征纠缠的问题,并推导了一个解耦目标函数。

    为了使领域间共享和领域特有的隐向量能够编码互斥的信息,作者引入了互斥正则项来最小化二者的互信息。为了分析最小化互信息的影响,作者又将互信息进行了进一步改写。我们以领域X为例,其对应的领域共享和领域特有隐向量的互信息I(\bm{\bm{Z}}^X_u; \bm{\bm{Z}}^S_u)可做如下改写:

    \begin{align} I\left(\bm{Z}_u^X ; \bm{Z}_u^S\right) & =I\left(\bm{Z}_u^X ; \bm{Z}_u^S\right)-\left(H\left(\bm{Z}_u^X \mid \mathbf{X}\right)-H\left(\bm{Z}_u^X \mid \bm{Z}_u^S, \mathbf{X}\right)\right) \\ & =I\left(\bm{Z}_u^X ; \bm{Z}_u^S\right)-I\left(\bm{Z}_u^X ; \bm{Z}_u^S \mid \mathbf{X}\right)\\ & =I\left(\bm{Z}_u^X ; \bm{Z}_u^S ; \mathbf{X}\right) \\ & =I\left(\mathbf{X} ; \bm{Z}_u^X\right) - I(\mathbf{X}; \bm{\bm{Z}}^X_u | \bm{\bm{Z}}^S_u) \\ & =I\left(\mathbf{X} ; \bm{Z}_u^X\right)- \left( I\left(\mathbf{X} ; \bm{Z}_u^X, \bm{Z}_u^S\right) - I\left(\mathbf{X} ; \bm{Z}_u^S\right)\right) \end{align}

    : 其中(1)是根据变分后验的结构化假设,即q\left(\bm{Z}_u^X \mid \mathbf{X}\right)=q\left(\bm{Z}_u^X \mid \mathbf{X}, \bm{Z}_u^S\right)进行的配凑;(2)是利用的条件互信息的定义;(3)是利用的三个随机变量互信息的定义,即I(X; Y; Z)=I(X; Y) - I(X; Y|Z)[21](4)是利用的是三个随机变量互信息的定义关于XYZ的对称性;(5)是利用条件互信息的链式法则。

    于是,直观地看,最小化I(\bm{\bm{Z}}^X_u; \bm{\bm{Z}}^S_u)实际上可视为在惩罚\bm{\bm{Z}}^X_u\bm{\bm{Z}}^S_u单独相关联的同时,促使\bm{\bm{Z}}^X_u\bm{\bm{Z}}^S_u共同与交互信息\mathbf{X}相关联(correlated)。

    信息增强正则项(Informative regularizer)

    光互斥并不能让我们学习到理想的解耦表征,原因是任意的互斥信息分解都能够满足该正则项要求,甚至\bm{\bm{Z}}^X_u编码到全部信息,而\bm{\bm{Z}}^S_u没有编码到信息都可以。这启发我们设计另一个正则项来获得更好的领域共享和领域特异的表征分解,也就是信息增强正则项。

    信息增强正则项实际上类似于对应我们在2.2信息瓶颈方法中所介绍的重构正则项,它旨在使每个领域共享的表征\bm{\bm{Z}}^S_u信息更丰富(informative),这里作者最大化互信息I\left(\bm{Z}_u^S ; \mathbf{X} ; \mathbf{Y}\right)来使得\bm{\bm{Z}}^S_u编码领域共享的信息。我们以领域X为例,有:

    \begin{aligned} I\left(\bm{Z}_u^S ; \mathbf{X} ; \mathbf{Y}\right) & =I\left(\bm{Z}_u^S ; \mathbf{X}\right)-I\left(\bm{Z}_u^S ; \mathbf{X} \mid \mathbf{Y}\right) % &\tag{2} \end{aligned}

    : 利用三个随机变量互信息的定义。

    事实上转换到这一步已经可以了,为了理解其物理意义我们可以利用链式法则进一步将其转换为I\left(\bm{Z}_u^S ; \mathbf{X} ; \mathbf{Y}\right) = I\left(\bm{Z}_u^S ; \mathbf{X}\right)-\left(I\left(\bm{Z}_u^S ; \mathbf{X}, \mathbf{Y}\right)-I\left(\bm{Z}_u^S ; \mathbf{Y}\right)\right)。直观地看,最大化第一项旨在促使\bm{Z}_u^S\mathbf{X}相关,最小化之后括号里的一项使得领域共享表征Z^S_u不仅够由领域XY的共同信息推断出来,而且能够由领域Y的单独信息推断出来。因此,我们自然地就可以认为最大化该正则项就是在促使\bm{Z}^S_u编码跨域的共享信息。

    总目标函数
    将上面所说的两个基于互信息的正则项(包括X领域和Y领域的)加起来,就得到了最终需要最小化的解耦目标函数:

    \begin{aligned} \mathcal{L}= & I\left(\bm{Z}_u^X ; \bm{Z}_u^S\right)+I\left(\bm{Z}_u^Y ; \bm{Z}_u^S\right)-\underline{2 I\left(\bm{Z}_u^S ; \mathbf{X} ; \mathbf{Y}\right) } \\ = & I(\mathbf{X}; \bm{\bm{Z}}^X_u) + I(\mathbf{X}; \bm{\bm{Z}}^S_u) - I(\mathbf{X}; \bm{\bm{Z}}^X_u; \bm{\bm{Z}}^S_u) \\ & I(\mathbf{Y}; \bm{\bm{Z}}^Y_u) + I(\mathbf{Y}; \bm{\bm{Z}}^S_u) - I(\mathbf{Y}; \bm{\bm{Z}}^Y_u; \bm{\bm{Z}}^S_u) \\ & -\underline{\left(I(\bm{\bm{Z}}^S_u; \mathbf{X}) - I(\bm{\bm{Z}}^S_u; \mathbf{X}|\mathbf{Y}) \right)} \\ & -\underline{\left(I(\bm{\bm{Z}}^S_u; \mathbf{Y}) - I(\bm{\bm{Z}}^S_u; \mathbf{Y}|\mathbf{X}) \right)} \\ = & I\left(\mathbf{X} ; \bm{Z}_u^X\right)+\underline{I\left(\bm{Z}_u^S ; \mathbf{X} \mid \mathbf{Y}\right)}-I\left(\mathbf{X} ; \bm{Z}_u^X, \bm{Z}_u^S\right) \\ & +I\left(\mathbf{Y} ; \bm{Z}_u^Y\right)+\underline{I\left(\bm{Z}_u^S ; \mathbf{Y} \mid \mathbf{X}\right)}-I\left(\mathbf{Y} ; \bm{Z}_u^Y, \bm{Z}_u^S\right) \end{aligned}

    : 其中对2 I\left(\bm{Z}_u^S ; \mathbf{X} ; \mathbf{Y}\right)(也即下划线标出的部分),按照三个随机变量互信息的定义关于\mathbf{X}\mathbf{Y}\bm{Z}的对称性,分别拆成了I(\bm{\bm{Z}}^S_u; \mathbf{X}) - I(\bm{\bm{Z}}^S_u; \mathbf{X}|\mathbf{Y})I(\bm{\bm{Z}}^S_u; \mathbf{Y}) - I(\bm{\bm{Z}}^S_u; \mathbf{Y}|\mathbf{X})

    进一步将物品隐向量\bm{Z}_v^X\bm{Z}_v^Y引入,并配凑一项I\left(\bm{Z}_u^S; \mathbf{X}, \mathbf{Y}\right),可以将损失函数放缩为:

    \begin{aligned}\mathcal{L} & \leq I\left(\mathbf{X} ; \bm{Z}_u^X\right)+I\left(\mathbf{X} ; \bm{Z}_v^X\right)+I\left(\mathbf{Y} ; \bm{Z}_u^Y\right)+I\left(\mathbf{Y} ; \bm{Z}_v^Y\right) \\ & \quad+I\left(\bm{Z}_u^S; \mathbf{X}, \mathbf{Y}\right)+I\left(\bm{Z}_u^S ; \mathbf{X} \mid \mathbf{Y}\right)+I\left(\bm{Z}_u^S ; \mathbf{Y} \mid \mathbf{X}\right) \\ & \quad-I\left(\mathbf{X} ; \bm{Z}_u^X, \bm{Z}_u^S, \bm{Z}_v^X\right)-I\left(\mathbf{Y} ; \bm{Z}_u^Y, \bm{Z}_u^S, \bm{Z}_v^Y\right) \end{aligned}

    正如我们前面所说过的,互信息I(X, Z)难以直接进行最小化,于是作者利用了变分上界与互信息的关系[23],将损失函数中许多项用ELBO(全称Evidence Lower Bound,意为证据下界,作者这儿属于符号误用了)来替代:

    \begin{aligned} & \mathcal{L} \leq \mathrm{ELBO}+I\left(\bm{Z}_u^S ; \mathbf{X} \mid \mathbf{Y}\right)+I\left(\bm{Z}_u^S ; \mathbf{Y} \mid \mathbf{X}\right) \end{aligned}

    最后,论文按照VAE的思路,将其化为了可以求解的目标函数(为了简略,省略了p_{\theta}的下标\thetaq_{\phi}的下标\phi):

    \begin{aligned} \mathcal{L} \leq & D_{\text{KL}}\left(q\left(\bm{Z}_u^X \mid \mathbf{X}\right) \| p\left(\bm{Z}_u^X\right)\right)+D_{\text{KL}}\left(q\left(\bm{Z}_v^X \mid \mathbf{X}\right)|| p\left(\bm{Z}_v^X\right)\right) \\ & +D_{\text{KL}}\left(q\left(\bm{Z}_u^Y \mid \mathbf{Y}\right) \| p\left(\bm{Z}_u^Y\right)\right)+ D_{\text{KL}}\left(q\left(\bm{Z}_v^Y \mid \mathbf{Y}\right) \| p\left(\bm{Z}_v^Y\right)\right) \\ & + D_{\text{KL}}\left(q\left(\bm{Z}_u^S \mid \mathbf{X}, \mathbf{Y}\right) \| p\left(\bm{Z}_u^S\right)\right) \\ & -\mathbb{E}_{q\left(\bm{Z}_u^X, \bm{Z}_v^X \mid \mathbf{X}\right) q\left(\bm{Z}_u^S \mid \mathbf{X}, \mathbf{Y}\right)}\left[\log p\left(\bm{A}^X \mid \bm{Z}_u^S, \bm{Z}_u^X, \bm{Z}_v^X\right)\right] \\ & -\mathbb{E}_{q\left(\bm{Z}_u^Y, \bm{Z}_v^Y \mid \mathbf{Y}\right) q\left(\bm{Z}_u^S \mid \mathbf{X}, \mathbf{Y}\right)}\left[\log p\left(\bm{A}^Y \mid \bm{Z}_u^S, \bm{Z}_u^Y, \bm{Z}_v^Y\right)\right] \\ & +\beta D_{\text{KL}}\left(q\left(\bm{Z}_u^S \mid \mathbf{X}, \mathbf{Y}\right) \mid q\left(\widetilde{\bm{\bm{Z}}}_u^S \mid \mathbf{Y}\right)\right)+\beta D_{\text{KL}}\left(q\left(\bm{Z}_u^S \mid \mathbf{X}, \mathbf{Y}\right) \| q\left(\widehat{\bm{\bm{Z}}}_u^S \mid \mathbf{X}\right)\right) \end{aligned}

    关于这个目标函数的解释如下:

    • 对于ELBO中的编码项(比如I(\mathbf{X}; \bm{\bm{Z}}^X_u)),正如大部分变分模型所采用的[18][27],促使编码器表示的后验分布(比如q_{\phi^X_u}\left(\bm{Z}_u^X \mid \mathbf{X}\right))去接近于对应的先验分布(比如 p(\bm{\bm{Z}}^X_u),这里取高斯 \mathcal{N}(0, \bm{I}))。

    • 对于ELBO中的解码项(如I\left(\mathbf{X} ; \bm{Z}_u^X, \bm{Z}_u^S, \bm{Z}_v^X\right),则使其对观测的交互数据进行重构,并用最大化解码器对数似然的方式来进行估计。

    • 对于I\left(\bm{Z}_u^S ; \mathbf{X} \mid \mathbf{Y}\right)I\left(\bm{Z}_u^S ; \mathbf{Y} \mid \mathbf{X}\right),正如前面所述,其物理意义是为了让表征\bm{\bm{Z}}^S_u编码更丰富的领域共享信息。为了对其进行估计,作者引入了两个VBGE来产生变分分布q_{\phi_Y^s}\left(\widetilde{\bm{\bm{Z}}}^S_u \mid \mathbf{Y}\right)q_{\phi_X^S}\left(\widehat{\bm{\bm{Z}}}_u^S \mid \mathbf{X}\right),并与q_{\phi_u^S}\left(\bm{Z}_u^S \mid \mathbf{X}, \mathbf{Y}\right)计算KL散度(也就是模型框架图中的绿色KL部分)。注意这里的编码过程和q_{\phi_u^X}\left(\bm{Z}_u^X \mid \mathbf{X}\right)q_{\phi_u^Y}\left(\bm{Z}_u^Y \mid \mathbf{Y}\right)相似。

    参考

    • [1] Lin X, Wu J, Zhou C, et al. Task-adaptive neural process for user cold-start recommendation[C]//Proceedings of the Web Conference 2021. 2021: 1306-1316.
    • [2] Zhu F, Wang Y, Chen C, et al. Cross-domain recommendation: challenges, progress, and prospects[J]. arXiv preprint arXiv:2103.01696, 2021.
    • [3] Hu G, Zhang Y, Yang Q. Conet: Collaborative cross networks for cross-domain recommendation[C]//Proceedings of the 27th ACM international conference on information and knowledge management. 2018: 667-676
    • [4] Li P, Tuzhilin A. Ddtcdr: Deep dual transfer cross domain recommendation[C]//Proceedings of the 13th International Conference on Web Search and Data Mining. 2020: 331-339.
    • [5] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv:1609.02907, 2016.
    • [6] Meng Liu, Jianjun Li, Guohui Li, and Peng Pan. 2020. Cross Domain Recommendation via Bi-directional Transfer Graph Collaborative Filtering Networks. In ACM International Conference on Information and Knowledge Management (CIKM).
    • [7] Xiangnan He, Kuan Deng, Xiang Wang, Yan Li, Yongdong Zhang, and Meng Wang. 2020. Lightgcn: Simplifying and Powering Graph Convolution Network for Recommendation. In ACM International Conference on Research on Development in Information Retrieval (SIGIR).
    • [8] Cao J, Sheng J, Cong X, et al. Cross-domain recommendation to cold-start users via variational information bottleneck[C]//2022 IEEE 38th International Conference on Data Engineering (ICDE). IEEE, 2022: 2209-2223.
    • [9] Zang T, Zhu Y, Liu H, et al. A survey on cross-domain recommendation: taxonomies, methods, and future directions[J]. ACM Transactions on Information Systems, 2022, 41(2): 1-39.
    • [10] Cao J, Lin X, Cong X, et al. DisenCDR: Learning Disentangled Representations for Cross-Domain Recommendation[C]//Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022: 267-277.
    • [11] Tishby N, Pereira F C, Bialek W. The information bottleneck method[J]. arXiv preprint physics/0004057, 2000.
    • [12] Tishby N, Zaslavsky N. Deep learning and the information bottleneck principle[C]//2015 ieee information theory workshop (itw). IEEE, 2015: 1-5.
    • [13] Alemi A A, Fischer I, Dillon J V, et al. Deep variational information bottleneck[J]. arXiv preprint arXiv:1612.00410, 2016.
    • [14] M. I. Belghazi, A. Baratin, S. Rajeshwar, S. Ozair, Y. Bengio, A. Courville, and D. Hjelm, “Mutual infor- mation neural estimation,” in International Conference on Machine Learning (ICML), 2018.
    • [15] Wu, H. Ren, P. Li, and J. Leskovec, “Graph information bottleneck,” in Annual Conference on Neural Information Processing Systems (NeurIPS), 2020.
    • [16] S. Gershman and N. Goodman, “Amortized inference in probabilistic reasoning,” in Proceedings of the Annual Meeting of The Cognitive Science Society, 2014.
    • [17] Wang \bm{\bm{Z}}, Chen X, Wen R, et al. Information theoretic counterfactual learning from missing-not-at-random feedback[J]. Advances in Neural Information Processing Systems, 2020, 33: 1854-1864.
    • [18] Kingma D P, Welling M. Auto-encoding variational bayes[J]. arXiv preprint arXiv:1312.6114, 2013.
    • [19] Gershman S, Goodman N. Amortized inference in probabilistic reasoning[C]//Proceedings of the annual meeting of the cognitive science society. 2014, 36(36).
    • [20] Hjelm R D, Fedorov A, Lavoie-Marchildon S, et al. Learning deep representations by mutual information estimation and maximization[J]. arXiv preprint arXiv:1808.06670, 2018.
    • [21] Cover T M. Elements of information theory[M]. John Wiley & Sons, 1999.
    • [22] Alemi A, Poole B, Fischer I, et al. Fixing a broken ELBO[C]//International conference on machine learning. PMLR, 2018: 159-168.
    • [23] Ben Poole, Sherjil Ozair, Aaron Van Den Oord, Alex Alemi, and George Tucker. 2019. On Variational Bounds of Mutual Information. In International Conference on Machine Learning (ICML).
    • [24] Higgins I, Matthey L, Pal A, et al. beta-vae: Learning basic visual concepts with a constrained variational framework[C]//International conference on learning representations. 2017.
    • [25] Chen R T Q, Li X, Grosse R B, et al. Isolating sources of disentanglement in variational autoencoders[J]. Advances in neural information processing systems, 2018, 31.
    • [26] Kipf T N, Welling M. Variational graph auto-encoders[J]. arXiv preprint arXiv:1611.07308, 2016.
    • [27] Xiaopeng Li and James She. 2017. Collaborative variational autoencoder for recommender systems. In ACM Knowledge Discovery and Data Mining (KDD).
    • [28] Hwang H J, Kim G H, Hong S, et al. Variational interaction information maximization for cross-domain disentanglement[J]. Advances in Neural Information Processing Systems, 2020, 33: 22479-22491.

    __EOF__

  • 本文作者: 猎户座
  • 本文链接: https://www.cnblogs.com/orion-orion/p/17219299.html
  • 关于博主: 研究生小菜一枚,机器学习半吊子,并行计算混子。
  • 版权声明: 欢迎您对我的文章进行转载,但请务必保留原始出处哦(*^▽^*)。
  • 声援博主: 如果您觉得文章对您有帮助,可以点击文章右下角推荐一下。
  • 相关阅读:
    精灵宝可梦属性克制表(精灵属性相克图)
    SQLite基础语法速用大法(Flutter)
    Gamba:将高斯溅射与Mamba结合用于单视图3D重建
    Keil 厂商DFP pack实现原理
    Gopher必读:HttpClient的两个坑位
    移动端的助农电商系统-计算机毕业设计源码08655
    Linux基础教程:9、linux进程管理(2)
    npm run dev和npm run serve
    (阿里云)Linux部署springboot项目全过程
    【深度学习】实验6答案:图像自然语言描述生成(让计算机“看图说话”)
  • 原文地址:https://www.cnblogs.com/orion-orion/p/17219299.html