博主继续更推荐系统的各个话题的文章,往期文章传送门:

Pre-training Graph Transformer with Multimodal Side Information for Recommendation
来自MM21,这篇工作结合预训练融合side Information来做推荐,框架如上,主要提出了一个在同质物品图上的预训练模型 PMGT (Pre-trained Multimodal Graph Transformer)。
https://dl.acm.org/doi/10.1145/3474085.3475709

MM-Rec: Multimodal News Recommendation
多模态新闻推荐,即融合新闻的文本和视觉信息来学习多模态新闻表示。模型图如上,
https://arxiv.org/abs/2104.07407

MGAT: Multimodal Graph Attention Network for Recommendation
多模态交互图+ GNN来捕获用户对不同模态的偏好。MGAT (Multimodal Graph Attention Network)的模型结构如上图,分为两条通道,首先信息会在不同模态的交互图上进行信息传播,再同时利用门控注意机制捕捉用户对不同模态的喜好。
https://www.sciencedirect.com/science/article/abs/pii/S0306457320300182?via%3Dihub

TransRec: Learning Transferable Recommendation from Mixture-of-Modality Feedback
这篇文章研究基于混合模态反馈的可迁移推荐系统。文章的motivation在于,推荐系统算法过度依赖用户ID与物品ID信息,但ID的不可共享性使其无法拥抱NLP和CV届的成果,从而形成了天花板。而在实际的推荐系统中,推荐的物品可以是各种新闻、图片或视频(如上图的source domain的来源可以是任何信息),因此基于混合模态反馈的推荐模型是实现可迁移和通用推荐的重要途径,并且可以迁移到属于任何源领域模态组合的目标域(如上图target domain可以是单模态,也可以是多模态)。
为了构建推荐系统的通用模型(general-purpose recommender systems,gpRS),这篇文章基于模态内容进行推荐而不是ID信息来表示。作者认为只有通过对模态特征进行建模,推荐模型才有可能在更广泛的意义上实现,即从ID回归到内容。
模型结构如下,基于双塔框架的直接替换,即把ID变为内容特征,就能实现很好的通用性和可迁移性。

具体来说,左侧是user encoder,由user的物品交互序列进入Bert获得用户的embedding。右侧是item encoder,通过模态编码器(如BERT和ResNet)获得item embedding,其中视觉信息用视频的首页图,文本则使用新闻的标题。最后通过计算用户和物品的相似度即可。
此外TransRec采用两个阶段的预训练策略,第一阶段针对user encoder,用next item预测进行单向Bert预训练。第二阶段针对双塔结构,采用Contrastive Predictive Coding(CPC) 来预测用户行为序列,即将序列划分为两个子序列来编码和预测它们之间的关系。
paper:https://arxiv.org/pdf/2206.06190.pdf