读本书的目的,是想了解推荐系统主流算法的发展过程。其中关于CF的知识与之前读过的《推荐系统实践》、吴恩达Coursera教程有重合,且当时记录的更为详细,这里不再重复。

理解传统模型是后续看深度学习的基础

协同过滤仅仅利用用户与物品的交互,不能引入上下文信息等特征。且其头部效应较明显,处理稀疏向量的能力弱。
即隐语义模型。
书中在这里解释了为什么选用梯度下降来得到用户和物品的隐类矩阵。问题可以简化为已知一个矩阵M=U*I^{T},求U和I。矩阵分解主要求解方法有:特征值分解(Eigen Decomposition)、奇异值分解(Singular Value Decomposition SVD)和梯度下降(Gradient Descent)。
特征值分解只能用于方阵;奇异值分解可以求解,但在互联网场景下矩阵过于稀疏庞大;因而用梯度下降法。
优点:是全局生成的推荐结果,与CF中取前K位相比保存了更多数据精度。一定程度上解决了数据稀疏问题,且空间复杂度低。
缺点:没能利用上下文特征,不方便新增用户和物品。
逻辑回归引入了上下文,生成更为全面的推荐结果。同时逻辑回归的另一种表现形式“感知机”也是神经网络的最基础神经元。CF和矩阵分解是求解与当前用户最相似的Top K个用户或物品,逻辑回归则把推荐问题转为点击率(Click Through Rate CTR)预估问题,即用户会对某物品进行正交互的概率。
1. 数学含义的支撑:线性回归假设y符合高斯分布,逻辑回归假设y符合伯努利分布,与典型掷偏心硬币问题的预测点击率相符合。
2. 可解释性强:用权重判断特征的重要性
3. 工程化的需要:益于并行化、模型简单、训练开销小
表达能力不强,无法进行特征交叉、特征筛选等高级操作,造成信息的损失。
多维度特征交叉的重要性:辛普森悖论。
数学表达式为:
该模型对于所有的特征进行了两两交叉组合并权重,在一定程度上解决了特征组合的问题。但是存在以下缺陷:
① 当遇到one-hot编码时会导致特征向量极度稀疏,缺少有效数据,无法收敛
② 参数规模由n到n^2,增加了训练复杂度
2.5.3 FFM模型——引入特征域的概念