长尾(The Long Tail)这一概念是由“连线”杂志主编克里斯·安德森(Chris Anderson)在2004年十月的“长尾” 一文中最早提出,用来描述诸如亚马逊和Netflix之类网站的商业和经济模式。
事实证明80%以上的点击集中在20%流行内容之中,如上图所示。
在推荐系统中,长尾意味着推荐系统倾向于推荐热门商品,而忽略了非热门的商品,这样热门的越来越热门,冷门的越来越冷门,长期下去,会对总体点击率产生坏的影响。
为什么需要解决长尾效应:
1. 用户不可能多次点击同一个热门商品,用户购买过了商品后再看到这个商品回引起反感。
2. 推荐种类太少,很多用户是感性消费。
3. 每个用户都有自己的癖好,为了提升用户个性化体验。
· 解决曝光偏差(曝光偏差是指用户看到的商品是有限的,看不到他喜欢的商品,反而推荐的不喜欢的商品):
1.Heuristic:加权的矩阵分解以及动态MF,未观测到的交互被赋予较低的权重,但挑战性较强,不易于实现。
2.Sampling:采样,经常采用的采样策略有均匀的负采样,对于流行的负样本过采样,但是这些策略却较难捕捉到真实的负样本。
3.Exposure-based model:开发基于曝光的模型,这样可以知道一个商品被曝光到某个用户的可能性等。
· 解决流行度偏差(流行度偏差是指推荐热门商品的频率比数据集中显示的原始受欢迎程度还要高,因为模型通常会给热门项目的评分高于其理想值,简单地将不受欢迎的商品预测为负值):
1.正则:合适的正则可以将模型推向平衡的推荐列表。
2. 对抗训练:通过G和D之间的对抗学习,D学习流行项和利基项之间的隐式关联,G学习捕捉更多与用户历史相关的niche商品,从而为用户推荐更多长尾商品。
3. Causal graph:因果图是反事实推理的有力工具。
4. 其它方法:propensity score也可以被用来做popularity的bias。通过降低流行项对模型训练的影响,可以减轻流行偏差。
目前的推荐系统或者推荐算法,很难发现用户的隐性需求,需要调整长尾效应中商品推荐的比重,以避免或者降低长尾效应对用户体验的影响。
在推荐系统中可以使用自监督学习等方法减轻长尾效应增加鲁棒性。
参考链接:推荐系统的长尾问题 - 知乎