机器学习（十六）推荐系统

机器学习（十六）推荐系统
文章目录
Log

2022.08.01开启新的一章！
2022.08.02继续学习
2022.08.04继续学习
2022.08.05继续学习
2022.08.06收工！去学下一章！
- 本篇文章我们来介绍一下推荐系统（Recommender Systems）。下面是为什么要谈论推荐系统的两个原因：
  - 第一，因为它是机器学习中的一个重要的应用，现在硅谷有很多团队在尝试建立更好的推荐系统，有很多的网站或系统试图推荐新产品给用户，比如亚马逊推荐新书给你，Netflix 试图推荐电影给你，诸如此类，这些推荐系统会浏览你以前买过什么书，或评价过什么电影，通过这种推荐系统会给亚马逊带来一笔很大的收入，对于 Netflix 这样的公司来说，给用户推荐的电影也占据了一大部分（用户所观看的电影），因此，推荐系统的性能的提高会对许多公司产生实质性的影响。推荐系统在机器学习的学术研究中是一种有趣的问题，以至于我们可以去参加一个机器学习的学术会议，推荐系统问题实际上受到的关注相对较少，或者说在学术界它仅占据了很小的份额，但是对于许多科技公司来说，建立这些系统的能力似乎是他们的首要任务，这就是为什么我们要介绍推荐系统；
  - 第二，当接近这门课的后几节时，我们会介绍一下机器学习中的一些大思想，并与你们分享机器学习中的一些伟大的想法，我们已经在前面的课程中见识到特征对于机器学习来说是非常重要的，我们选择的特征对于学习算法的性能有很大的影响，机器学习领域有一个伟大的想法：对于一些问题（可能不是所有问题），有一些算法可以自动地学习一系列合适的特征。所以比起手动设计或编写特征（这也是我们目前做得最多的事），这里有一些环境能让我们开发某个算法来学习使用哪些特征，而推荐系统就是那些环境中的一个例子（当然还有很多其他的），但是通过推荐系统我们能够领略一小部分特征学习的思想，并且我们能够至少了解一个关于这个伟大思想的例子。
一、问题形式（Problem formulation）
- 首先我们讲一个预测电影评分的问题，下面是问题内容。
1. 实例：电影评分预测（Predicting movie ratings）
- 假设我们有一个网站或者公司出售或者出租电影和其它东西，像亚马逊、Netflix，还有 iTunes（感觉他整个公司都能算例子），假设我们让我们的用户评价不同的电影，用 1 到 5 星级评级，所以用户可能会评定一星、二星、三星、四星或五星，为了让这个例子更好理解一些，我们将允许评级为 0 到 5 星，因为这会使得数学运算变得更加简单，虽然大多数网站使用 1 星到 5 星。
- 在这里，有 5 部电影（上图），分别是 Love at last（《终末之爱》）、Romance forever（《永恒浪漫》）、Cute puppies of love（《爱情傻狗》）、Nonstop car chases（《无尽车战》）、Swords vs. karate（《剑·空手道》）（应该都是杜撰的电影，顺手意译一下，XD）。并且有 4 个用户，他们分别是 Alice、Bob、Carol 和 Dave，名字的首字母分别是 A、B、C、D，我们称呼他们用户 1、2、3 和用户 4。假设 Alice 非常喜欢 Love at last，给其 5 星好评，并且也给 Romance forever 5星好评，她没有看过 Cute puppies of love，故没有进行评价，因此我们没有他的评分，Alice 并不喜欢 Nonstop car chases 和 Swords vs. karate，故都给出了 0 分的评价；另一个用户 Bob（用户 2），可能对其他电影进行评级，他可能喜欢 Love at last ，并没有看过 Romance forever 剩下的三个分别给出了 4 星、0 星、0 星；对于第三个用户，他的评级为 0 星、没看过、0 星、5 星、5 星；四号用户随便填几个。
- 下面来介绍一些符号，这些符号我们接下来都会用到：
  
  $\begin{aligned} n_{u} & = n o . u s e r s \\ n_{m} & = n o . m o v i e s \end{aligned}$
  nunm=no. users=no. movies
  - 我们将用 n_u 表示用户的数量，因此在这个例子中 n_u = 4，下标 u 表示具体哪一个用户；
  - n_m 表示电影的数量，这里有 5 部电影，所以 n_m = 5。
- 对于这个例子，比如我们有 3 部爱情片（或者成为爱情喜剧片）（上图左绿框中内容），有 2 部动作片（上图左红框圈出）。如果你观察这个例子，你就会发现 Alice 和 Bob 给这些爱情片很高的评价（上图中绿框），给了动作片很低的评价（上图中红框），而对于 Carol 和 Dave，评价恰好相反， Carol 和 Dave（用户 3 和用户 4）比较喜欢动作片（上图右红框），并给了它们较高的星级，但他们不喜欢爱情片（上图右绿框）。
- 具体来说，在推荐系统的问题中，给定以下数据，我们的数据组成如下：
  
  $\begin{aligned} r (i, j) & = 1 i f u s e r j h a s r a t e d m o v i e i \\ y^{(i, j)} & = r a t i n g g i v e n b y u s e r j t o m o v i e i \\ (d e f i n e d o n l y i f r (i, j) = 1) \end{aligned}$ $r (i, j) y^{(i, j)} = 1 i f u ser j ha s r a t e d m o v i e i = r a t in g g i v e n b y u ser j t o m o v i e i (d e f in e d o n l y i f r (i, j) = 1)$
- 我们有一种值 r(i,j)，当 r(i,j) = 1 时，代表用户 j 给电影 i 进行了评分，用户仅仅评价了一部分电影（即有一些电影我们没有获得该用户的评价）；当 r(i,j) = 1，也就是当用户 i 对电影 j 进行评分后，我们会得到一个值 y(i,j)，它表示用户 j 对电影 i 所给出的评分，因此 y(i,j) 是用从 0 到 5 的数字表示的，而这些具体的数值则取决于用户对电影进行的 0 到 5 星评级，因此推荐系统的问题是给出了 r(i,j) 和 y(i,j) 数据，然后去查找那些没有被评级的电影，并试图预测这些电影的评价星级。在这个特殊的例子中，只有较少的电影以及少量用户数量，因此大多数用户都对大多数电影进行了评价，但在现实情况中，每个用户可能仅评价我们所有电影中的一小部分。
- 观察这些数据，如果 Alice 和 Bob 都喜欢爱情片，我们就可以假设 Alice 会给 Cute puppies of love 评价 5 星，Bob 或许会给 Romance forever 评价 4.5 星，或者是更高的星级，并且我们认为 Carol 和 Dave 可能给爱情片非常低的评价，如果 Dave 真的喜欢动作片，那么他可能会给 Swords vs. karate 评价 4 星或者 5 星。
- 因此，如果我们想开发一个推荐系统，那我们的工作就是想出一个学习算法，一个能自动为我们填补这些缺失值的算法，这样我们就可以看一下该用户还有哪些电影没看过，并推荐新电影给该用户，我们可以去预测什么是用户会感兴趣的内容。
- 这是推荐系统问题的主要形式，下一节中我们将开发一个学习算法来解决这个问题。
二、基于内容的推荐算法（Content-based recommendations）
- 在上一节中，我们讨论了推荐系统的问题，例如，你可能有一些电影，并且你还可能有一些用户，每个用户都评价了一些电影，评价从 1 星到 5 星或者从 0 星到 5 星。我们要做的是观察这些用户，预测他们会如何评价那些他们还未评价的电影的评分。在本节中，我们会介绍第一种建立推荐系统的方法，这个方法被叫做基于内容的推荐算法（Content-based recommendations）。
1. 基于内容的推荐系统（Content-based recommender systems）
- 这是之前的一个数据集：
- 回顾一下之前的符号，我们使用 n_u 表示用户的数量，在这里 n_u = 4，同时 n_m 表示电影的数量，在这里 n_m = 5。那么怎样才能预测这些未知量（上图粉色圆圈圈出部分）的值呢？假设对于每一部电影，我们都有一个对应的特征集，特别的，我们假设每一个电影都有两个特征，我们用 x₁ 和 x₂ 来表示，其中 x₁ 衡量一部电影为爱情片的程度，x₂ 来衡量一部电影为动作片的程度。
- 举个例子，第一部电影 Love at last ，他为爱情片的程度是 0.9，这是一部纯爱情片，而它为动作片的程度是 0，所以这部电影几乎没有动作片剧情，而第二部电影 Romance forever 的爱情片程度为 1.0，包含大量爱情内容和 0.01 的动作内容，这 0.01 的动作成分大概是因为这部电影里有一起小型车祸（韩剧无疑）或者其他因素；Swords vs. karate 的爱情片程度为 0，没有任何爱情成分但有大量的动作成分，而 Nonstop car chases 这部电影里可能有一点点爱情成分，但主要的是动作成分，而电影 Cute puppies of love 又是一部没有动作成分的爱情片。
- 所以如果我们有类似这样的特征，那么每部电影就可以用一个特征向量来表示，比如说第一个电影有两个特征值 0.9 和 0，这两个特征值就是 x₁ 和 x₂ 的值。和往常一样，我们再加一个额外特征，称为截距特征 x₀，它的值是 1。然后把这些整理在一起，我们有一个特征量 x⁽¹⁾（下式），上标 1 表示它是电影 1 的特征向量，这个特征向量的第一个元素是 1，也就是 x₀，然后是两个特征量 0.9 和 0。
  
  $\begin{aligned} x^{(1)} = [\begin{matrix} 1 \\ 0.9 \\ 0 \end{matrix}] \end{aligned}$ $x^{(1)} = ⎣ ⎡ 1 0.9 0 ⎦ ⎤$
- 因此，对于 Love at last 我们会有一个特征向量 x⁽¹⁾，对于电影 Romance forever，我们会有单独的特征量 x⁽²⁾，以此类推，对于 Sword vs. karate 我们有单独的特征向量 x⁽⁵⁾，并且，与之前用的符号相同，我们用 n 来表示特征数量，不包括 x₀ 这项，所以 n = 2，因为我们有两个特征量 x₁ 和 x₂ 来表示每部电影里的爱情程度和动作程度。
  
  $\begin{aligned} F o r e a c h u s e r j, l e a r n a p a r a m e t e r θ^{(j)} \in \R^{3} (θ^{(j)} \in \R^{n + 1}, n = 2) . \\ P r e d i c t u s e r j a s r a t i n g m o v i e i w i t h (θ^{(j)})^{T} x^{(i)} s t a r s . \end{aligned}$ $F or e a c h u ser j, l e a r n a p a r am e t er θ^{(j)} \in R^{3} (θ^{(j)} \in R^{n + 1}, n = 2) . P re d i c t u ser j a s r a t in g m o v i e i w i t h (θ^{(j)})^{T} x^{(i)} s t a rs .$
- 现在为了作出预测，我们可以把每个用户的评价预测值看做是一个线性回归问题。特别规定，对于每一个用户 j，我们要学习参数向量 θ^(j)，它是一个 3 维向量，通常来说，θ^(j) 是 n + 1 维的，其中 n 是特征的数量，不包括 x₀ 这一项，然后我们要预测用户 j 评价电影 i 的值，也就是参数向量 θ 与特征量 x⁽ⁱ⁾ 的内积。
- 举一个特殊的例子，比如说用户 1，也就是 Alice，与 Alice 相关的是某个参数向量 θ⁽¹⁾，第二个用户是 Bob 就和另一个参数向量 θ⁽²⁾ 相关，Carol 将会和参数向量 θ⁽³⁾ 相关，Dave 和参数 θ⁽⁴⁾相关。假如我们想预测 Alice 对电影的评价，那么那部电影就会有某个参数向量 x⁽³⁾（下式），对于这个例子，假设我们用某种方式得到了 Alice 的参数向量 θ⁽¹⁾，我们之后会详细说明我们是怎么得到这个参数向量的。
  
  $\begin{aligned} x^{(3)} = [\begin{matrix} 1 \\ 0.99 \\ 0 \end{matrix}] θ^{(1)} = [\begin{matrix} 0 \\ 5 \\ 0 \end{matrix}] (θ^{(1)})^{T} x^{(3)} & = 5 \times 0.99 \\ = 4.95 \end{aligned}$ $x^{(3)} = ⎣ ⎡ 1 0.99 0 ⎦ ⎤ θ^{(1)} = ⎣ ⎡ 050 ⎦ ⎤ (θ^{(1)})^{T} x^{(3)} = 5 \times 0.99 = 4.95$
- 现在我们先假设我们用某个学习算法学习出了参数向量 θ⁽¹⁾，并且它等于 [0;5;0]（上式），所以我们对于 Alice 对 Cute puppies of love 的评分的预测，就会等于是 θ⁽¹⁾ 的转置（Alice 的参数向量的转置）再乘以 x⁽³⁾（Cute puppies of love 的特征向量），于是，这两个向量的内积是 4.95（上式），因此我们对上图第一个粉圈位置的值的预测就会是 4.95，它看起来是个合理的值。所以我们这里的操作是对每一个用户应用了不同的线性回归的副本，假如说 Alice 有参数向量 θ⁽¹⁾，我们用它来预测她的评价，并表示成一个方程，表示电影包含爱情和动作的程度，并且 Bob、Carol 和 Dave 他们每个人都有一个不同的线性方程来表示电影包含爱情成分的程度和包含动作成分的程度，这就是我们预测评价的方法。
2. 问题的正式形式（Problem formulation）
- 更正式一些，我们把具体问题写出来：
  
  $\begin{aligned} Problem\ \ formulation \\ Ⅰ \\ r (i, j) = 1 i f u s e r h a s r a t e d m o v i e i (0 o t h e r w i s e) \\ y^{(i, j)} = r a t i n g b y u s e r j o n m o v i e i (i f d e f i n e d) \\ Ⅱ \\ θ^{(j)} = p a r a m e t e r v e c t o r f o r u s e r j \\ x^{(i)} = f e a t u r e v e c t o r f o r m o v i e i \\ F o r u s e r j, m o v i e i, p r e d i c t e d r a t i n g : (θ^{(j)})^{T} (x^{(i)}) \\ Ⅲ \\ m^{(j)} = n o . o f m o v i e s r a t e d b y u s e r j \\ T o l e a r n θ^{(j)} : \\ min_{θ^{(j)}} \frac{1}{2 \red m^{(j)}} \green \sum_{i : r (i, j) = 1} {((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})}^{2} + \blue \frac{λ}{2 \red m^{(j)}} \sum_{k = 1}^{n} (θ_{k}^{(j)})^{2} \end{aligned}$ $Problem formulation Ⅰ r (i, j) = 1 i f u ser ha s r a t e d m o v i e i (0 o t h er w i se) y^{(i, j)} = r a t in g b y u ser j o n m o v i e i (i f d e f in e d) Ⅱ θ^{(j)} = p a r am e t er v ec t or f or u ser j x^{(i)} = f e a t u re v ec t or f or m o v i e i F or u ser j, m o v i e i, p re d i c t e d r a t in g : (θ^{(j)})^{T} (x^{(i)}) Ⅲ m^{(j)} = n o . o f m o v i es r a t e d b y u ser j T o l e a r n θ^{(j)} : θ^{(j)} min \frac{1}{2 m ^{(j)}} i : r (i, j) = 1 \sum ((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})^{2} + \frac{λ}{2 m ^{(j)}} k = 1 \sum n (θ_{k}^{(j)})^{2}$
- 如果用户 j 评价了电影 i，我们就将 r(i,j) 记为 1，而 y^(i,j) 是对该电影的评价，如果评价存在的话（即该用户评价过该电影）。
- 在前面的小节里我们也定义了 θ^(j)，它是每个用户 x⁽ⁱ⁾ 的一个参数，而 x⁽ⁱ⁾ 是特定电影的一个特征向量，对于每一个用户和电影，我们会进行这样的预测（上式Ⅱ）。
- 我们暂时介绍一下这个新的标记 m^(j)（上式Ⅲ），我们用 m^(j) 表示评价了电影 j 的用户数量（我们仅在本小节使用该符号）。为了学习参数向量 θ^(j)，我们该怎么做呢？这是一个基本的线性回归问题，我们可以直接选择一个参数向量 θ^(j)，那么这里的预测值会尽可能接近我们在训练集中观察的值。
- 为了学习参数向量 θ^(j)，我们来最小化参数向量各个 θ^(j) 的和，我们要把用户 j 所评价的所有电影进行求和，写出来就是： ∑_i:r(i,j)=1（上式Ⅲ绿色部分），这个求和式读起来就是：对所有的 i 值求和，所以 r(i,j) 等于 1。这样就是对所有用户 j 评价的所有电影求和。
- 然后我们要计算 θ^(j) 的转置乘以 x⁽ⁱ⁾ ，所以这就是用户 j 对电影 i 评价的预测值，减去 y^(i,j)，这就是实际观测值的平方。接着我们在除以用户 j 的评价过的电影数量，也就是 1 / (2m⁽ⁱ⁾)，这像是最小平方回归，就像线性回归，我们选择参数向量 θ^(j)，来最小化这种方差项，并且如果我们想的话，我们也可以加入一个正则化项（上式Ⅲ蓝色部分），在末尾加上 λ / 2m^(j) ，因为我们有 m^(j) 个样本，因为如果用户 j 评价了许多电影，这有点像我们有许多数据点来对应参数 θ^(j)，接着我们在这里加入我们的正则化项的剩余部分，通常这个求和项是从 k = 1 加到 n 的，所以这里 θ^(j) 就会是一个 n + 1 维的向量（在之前的例子里 n 等于 2，这里指的是一般情况，n 是每个电影所拥有的特征数量）。通常我们不会对 θ⁽⁰⁾ 进行正则化（不对偏执单元进行正则化），因为和是从 k = 1 到 n 的。
- 如果我们将 θ^(j) 这个公式最小化，我们会得到一个好的结果，会得到一个相当好的对参数向量 θ^(j) 的估计值，用来对用户 j 的电影评价做预测。对于推荐系统，我们会将这个符号稍微改动一下，简化之后的数学公式，我们将去掉 m^(j) 这项（上式Ⅲ标红部分），这只是一个常数，我们可以删掉它而不会改变 θ^(j) 的值，所以我们把它从优化过程中去掉，如果我们总体地看一下整个表达式，把他乘以 m^(j) ，这样就去掉了这个常数，当我们最小化它时，我们仍然能得到和之前一样的 θ^(j) 的值。
3. 优化目标（Optimization objective）

$\begin{aligned} Optimization\ \ objective:\ \ \\ T o l e a r n θ^{(j)} (p a r a m e t e r f o r u s e r j) : \\ min_{θ^{(j)}} \green \frac{1}{2} \sum_{i : r (i, j) = 1} {((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})}^{2} + \blue \frac{λ}{2} \sum_{k = 1}^{n} (θ_{k}^{(j)})^{2} \\ T o l e a r n θ^{(1)}, θ^{(2)}, . . ., θ^{(n_{u})} \\ min_{θ^{(1)}, . . ., θ^{(n_{u})}} \frac{1}{2} \green \sum_{j = 1}^{n_{u}} \sum_{i : r (i, j) = 1} {((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})}^{2} + \frac{λ}{2} \sum_{j = 1}^{n_{u}} \sum_{k = 1}^{n} (θ_{k}^{(j)})^{2} \end{aligned}$
Optimization objective: To learn θ(j) (parameter for user j): θ(j)min21i:r(i,j)=1∑((θ(j))Tx(i)−y(i,j))2+2λk=1∑n(θk(j))2To learn θ(1),θ(2),... ,θ(nu)θ(1),...,θ(nu)min21j=1∑nui:r(i,j)=1∑((θ(j))Tx(i)−y(i,j))2+2λj=1∑nuk=1∑n(θk(j))2
- 复习一下上一小节的内容，上面一式是我们的优化目标函数，为了学习 θ^(j)（即用户 j 的参数），我们将最小化这个关于 θ^(j) 的优化对象，绿色标注的部分是我们的方差项，蓝色标注的部分是我们的正则化项。
- 当构建推荐系统时，我们不是仅仅学习单个用户的参数，而是要学习的所有用户的参数，我们有 n_u 个用户，我们想要学习 θ⁽¹⁾, θ⁽²⁾, … , θ^(n_u) 所有这些参数，所以接下来我们要用这个优化目标函数，然后这里（上方二式绿色标注）做一个额外的求和，二式和一式是一样的，除了一式算的是对特定用户的 θ^(j)，而二式是对所有目标进行求和，并且要最小化这个总体优化目标函数，最小化这个总体代价函数。当我们最小化这个 θ⁽¹⁾, θ⁽²⁾, … , θ^(n_u) 的方程时，我们将得到每个用户的参数向量，接着我们就可以用这个来对所有的 n_u 个用户进行预测。
4. 优化算法（Optimization algorithm）

$\begin{aligned} Optimization\ \ algorithm: \\ min_{θ^{(1)}, . . ., θ^{(n_{u})}} \frac{1}{2} \sum_{j = 1}^{n_{u}} \sum_{i : r (i, j) = 1} {((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})}^{2} + \blue \frac{λ}{2} \sum_{j = 1}^{n_{u}} \sum_{k = 1}^{n} (θ_{k}^{(j)})^{2} \\ G r a d i e n t d e s c e n t u p d a t e : \\ θ_{k}^{(j)} := θ_{k}^{(j)} - α \sum_{i : r (i, j) = 1} ((θ^{(j)})^{T} x^{(i)} - y^{(i, j)}) x_{k}^{(i)} (f o r k = 0) \\ θ_{k}^{(j)} := θ_{k}^{(j)} - α \green (\sum_{i : r (i, j) = 1} ((θ^{(j)})^{T} x^{(i)} - y^{(i, j)}) x_{k}^{(i)} + λ θ_{k}^{(j)}) (f o r k \neq 0) \end{aligned}$
Optimization algorithm:θ(1),...,θ(nu)min21j=1∑nui:r(i,j)=1∑((θ(j))Tx(i)−y(i,j))2+2λj=1∑nuk=1∑n(θk(j))2Gradient descent update:θk(j):=θk(j)−αi:r(i,j)=1∑((θ(j))Tx(i)−y(i,j))xk(i) (for k=0)θk(j):=θk(j)−α⎝ ⎛i:r(i,j)=1∑((θ(j))Tx(i)−y(i,j))xk(i)+λθk(j)⎠ ⎞ (for k=0)
- 总结一下，上面的一式是我们的优化目标函数，将其换一种写法，记作 J(θ⁽¹⁾,…, θ^(n_u))，J 依旧是优化目标函数，也是我们试图最小化的项。下面，为了实现最小化，如果我们去推导这个梯度下降更新的话，会得到两个等式（二式和三式），我们要用 θ_k^(j) 减去 α （学习速率）再乘以右边这些项。我们有两种不同的情况，即当 k = 0 和当 k ≠ 0 时，因为一式里的正则化项（蓝色标注）仅对 θ_k^(j) 的值进行正则化，这里的 k 是不等于 0 的，所以这里我们没有对 θ⁽⁰⁾ 进行正则化，所以我们会有不同的更新，对应 k = 0 和 k ≠ 0 的情况。
- 三式中绿色标注部分是关于我们的优化目标函数的参数的偏导数（如下），因此这只是梯度下降，但是我已经计算出导数并将其代入到这里了。
  $\frac{\partial}{\partial\theta_k^{(j)}}J(\theta^{(1)},...\ ,\theta^{(n_u)})$
- 同时，如果这些的梯度下降更新与我们在线性回归中得到的结果很相似，那是因为他们本质上和线性回归是一样的，唯一不同之处在于，在线性回归中，我们有 1 / m 项，准确说是 1 / m^(j)，但是因为之前当我们推导优化目标函数时，我们去掉了这项，这就是为什么三式中绿色标注部分的前面没有 1 / m 项，但是它实际是误差训练样本的和，乘以 x_k，再加上正则化项（因为那个正则化项对导数有影响）。所以如果我们用梯度下降算法，这就是如何最小化代价函数 J 来学习所有的参数，用这些求导公式的时候，如果你愿意，你可以把它们代入到一个更高级的优化算法中（比如簇梯度或者 LBFGS 等等），并用它们来最小化代价函数 J 也可以。
- 在本节中，我们介绍了如何将变量应用到线性回归中来预测不同用户对不同电影的评级，这个特殊的算法叫做基于内容的推荐算法（或者基于内容的方法），因为我们假设变量是已有的不同电影的各个特征，即我们有描述电影内容的特征量，这个电影的爱情程度怎么样？电影里的动作成分有多少？同时我们用了这些描述电影内容特征量来做出预测。但是对许多电影来说，我们并没有这样的特征量，或者很难获取所有电影的此类特征或者其他我们销售的东西，所以在下一节中，我们将会介绍一个方法来做推荐系统，它不是基于内容的，并且不假设我们已经得到这些所有的电影的特征。
三、协同过滤（Collaborative filtering）
- 本节我们将要介绍一种方法来构建推荐系统，叫做协同过滤（Collaborative filtering），我们所讲的算法有一个很有意思的特性，叫做特征学习（feature learning），即这种算法能够自行学习所需要使用的特征。
1. 问题动机（Problem motivation）
- 这是之前的数据集，我们假定每一部电影都有一些人来评价并告诉我们这部电影爱情的程度是多少，又包含多少动作成分，但是想一下就知道，很难去花费时间以及花钱让每个人都实际地看完每一部电影后告诉你这部电影包含多少爱情，包含多少动作，而且我们通常还想要这两个特征之外的其它特征，那么该怎样得到这些特征呢？
- 我们先换个问题，假如我们有一个数据集，但我们不知道这些特征的值是多少，比如我们得到一些关于电影的数据，不同用户对电影的评分，也不知道每部电影的爱情指数以及每部电影的动作指数，所以我们把这些东西都换成问号。
- 现在我们稍微改变一下这个假设，假设我们采访了每一位用户，而且每一位用户都告诉我们他们喜欢爱情电影的程度以及喜欢动作电影的程度。这样 Alice 就有了对应的参数 θ⁽¹⁾，Bob 的是 θ⁽²⁾，Carol 的是 θ⁽³⁾ ，Dave 的是 θ⁽⁴⁾ ，对应如下的四个向量：
  
  $\begin{aligned} θ^{(1)} = [\begin{matrix} 0 \\ 5 \\ 0 \end{matrix}] θ^{(2)} = [\begin{matrix} 0 \\ 5 \\ 0 \end{matrix}] θ^{(3)} = [\begin{matrix} 0 \\ 0 \\ 5 \end{matrix}] θ^{(4)} = [\begin{matrix} 0 \\ 0 \\ 5 \end{matrix}] \end{aligned}$ $θ^{(1)} = ⎣ ⎡ 050 ⎦ ⎤ θ^{(2)} = ⎣ ⎡ 050 ⎦ ⎤ θ^{(3)} = ⎣ ⎡ 005 ⎦ ⎤ θ^{(4)} = ⎣ ⎡ 005 ⎦ ⎤$
- 并且，假如说 Alice 告诉我们她十分喜欢爱情电影，于是 Alice 的特征 x₁ 对应的值就是 5，假设 Alice 告诉我们她很讨厌动作电影，于是 x₂ 对应的就是 0，Bob 也有相似度喜好，所以我们有上面的 θ⁽²⁾ ，但 Carol 告诉我们她非常喜欢动作电影，于是对应的特征 x₂ 就被记录为 5，但是别忘了我们有 x₀ = 1，假设 Carol 告诉我们她不喜欢爱情电影之类的，而且 Dave 也是这样，于是我们就得到了 θ⁽³⁾ 和 θ⁽⁴⁾ 。假设在某种程度上我们可以听取用户的意见，每个用户 j 都告诉我们他们各自的 θ^(j) 是什么，这就向我们指明了他们对不同题材电影的喜欢程度。
- 如果我们能够从用户那里得到这些参数 θ 的值，那么我们理论上就能推测出每部电影的 x₁ 以及 x₂ 的值。举例来说，假如观察电影 1 对应的特征向量 x₁，我们假装不知道电影的名字，我们只知道 Alice 喜欢这部电影，Bob 也喜欢这部电影，Carol 和 Dave 不喜欢它，那么我们能推断出什么呢？我们能从特征向量中知道 Alice 和 Bob 喜欢爱情电影（因为他们的 x₁ 都评了 5 分），但对于 Carol 和 Dave，我们知道他们不喜欢爱情电影，但是他们喜欢动作电影（从 θ⁽³⁾ 和 θ⁽⁴⁾ 中可以得出）。
- 同时，由于我们知道 Alice 和 Bob 喜欢电影 1，而 Carol 和 Dave 不喜欢它，我们可以推断这可能是一部爱情片，而不太可能是动作片。这个例子在数学上可能某种程度上简化了，但我们真正需要的是特征向量 x⁽¹⁾ 应该是什么才能让 θ⁽¹⁾ 的转置乘以 x⁽¹⁾ 约等于 5，也就是 Alice 的评分值，然后 θ⁽²⁾ 的转置乘以 x⁽¹⁾ 也近似于 5，而 θ⁽³⁾ 的转置乘以 x⁽¹⁾ 约等于 0，这是 Carol 的评分，而 θ⁽⁴⁾ 的转置乘以 x⁽¹⁾ 也约等于 0。
  
  $\begin{aligned} (θ^{(1)})^{T} x^{(1)} \approx 5 \\ (θ^{(2)})^{T} x^{(1)} \approx 5 \\ (θ^{(3)})^{T} x^{(1)} \approx 0 \\ (θ^{(4)})^{T} x^{(1)} \approx 0 \end{aligned}$ $(θ^{(1)})^{T} x^{(1)} \approx 5 (θ^{(2)})^{T} x^{(1)} \approx 5 (θ^{(3)})^{T} x^{(1)} \approx 0 (θ^{(4)})^{T} x^{(1)} \approx 0$
- 由此可知，x⁽¹⁾ 的第一个元素是 1，这个 1 是截距项，再是 1.0 和 0.0，这样才能得出 Alice、Bob、Carol 和 Dave 四个人对电影评分的结果。一般来说，我们可以继续进行列举，并试着弄明白电影还有什么合适的特征。
  
  $\begin{aligned} x^{(1)} = [\begin{matrix} 1 \\ 1.0 \\ 0 \end{matrix}] \end{aligned}$ $x^{(1)} = ⎣ ⎡ 1 1.0 0 ⎦ ⎤$
2. 优化算法（Optimization algorithm）
- 让我们将这一学习问题标准化到任意特征 x⁽ⁱ⁾：
  $\begin{aligned} Optimization\ \ objective:\ \ \\ G i v e n θ^{(1)}, . . ., θ^{(n_{u})}, t o l e a r n x^{(i)} : \\ min_{x^{(i)}} \frac{1}{2} \green \sum_{j : r (i, j) = 1} \blue {((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})}^{2} + \purple \frac{λ}{2} \sum_{k = 1}^{n} (x_{k}^{(i)})^{2} \\ G i v e n θ^{(1)}, . . ., θ^{(n_{u})}, t o l e a r n x^{(1)}, . . ., x^{(n_{m})} : \\ min_{x^{(1)}, . . ., x^{(n_{m})}} \frac{1}{2} \pink \sum_{i = 1}^{n_{m}} \sum_{j : r (i, j) = 1} {((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})}^{2} + \frac{λ}{2} \pink \sum_{i = 1}^{n_{m}} \sum_{k = 1}^{n} (x_{k}^{(i)})^{2} \end{aligned}$
- 假设我们的用户告诉了他们的偏好，就是说用户已经提供了 θ⁽¹⁾ 到 θ^(n_u) 的值，而我们想要学习电影 i 的特征向量 x⁽ⁱ⁾，我们能做的就是提出该优化问题（上面一式），所以，想要把所有指数 j 相加（一式绿色），得到对电影 i 的评分，因为我们想要求得电影 i 的特征，也就是向量 x⁽ⁱ⁾，所以现在我们要做的是最小化这个平方误差（一式蓝色），我们要选择特征 x⁽ⁱ⁾，使得我们的用户 j 对电影 i 的预测评分跟我们从用户 j 处实际得到的评分值不会相差太远，也就是要使这个差值尽量地小。
- 总结一下，这一阶段要做的就是选择特征 x⁽ⁱ⁾，让所有已经评价过电影的用户 j，算法会预测出一个值，预测用户会如何评价某电影，而这个预测值在平方误差的形式中要尽量接近于用户实际的评分（平方误差项），与之前一样，我们再加上一个正则化项（一式紫色），来防止特征值变得太大。
- 这就是我们如何从一部特定的电影中学习到特征的方法，但我们要做的是学习出所有电影的所有特征，所以我们现在要做的是加上两个求和项（二式粉色），因为我们要对所有的电影求和（n_m 个电影），然后最小化上方这个目标函数（一式），这样我们就会得到下面的最优化问题（二式）。如果我们将它最小化，我们就能得到一系列合适的所有电影的特征。
3. 协同过滤（Collaborative filtering）
- 我们把之前章节讨论的算法以及刚刚讲的算法都总结一下：
  
  $\begin{aligned} Collaborative\ \ filtering \\ Ⅰ \\ G i v e n x^{(1)}, . . ., x^{(n_{m})} (a n d m o v i e r a t i n g s), \\ c a n e s t i m a t e θ^{(1)}, . . ., θ^{(n_{u})} \\ Ⅱ \\ G i v e n θ^{(1)}, . . ., θ^{(n_{u})}, \\ c a n e s t i m a t e x^{(1)}, . . ., x^{(n_{m})} \end{aligned}$ $Collaborative filtering Ⅰ G i v e n x^{(1)}, ..., x^{(n_{m})} (an d m o v i e r a t in g s), c an es t ima t e θ^{(1)}, ..., θ^{(n_{u})} Ⅱ G i v e n θ^{(1)}, ..., θ^{(n_{u})}, c an es t ima t e x^{(1)}, ..., x^{(n_{m})}$
- 上一节中我们讲的是，如果我们有所有电影评分的集合（Ⅰ部分），即 σ^(i,j) 和 y^(i,j)，我们有这些评分数据，于是根据不同电影的特征，我们可以学习参数 θ，如果我们已知这些特征，就能学习出不同用户的参数 θ 。我们在前面的小节中讲的是（Ⅱ部分），如果我们的用户愿意为我们提供这些参数，我们就能估计出各种电影的特征值，这有点像鸡和蛋的问题，先有鸡还是先有蛋？如果已知 θ，就能求出这些 x；如果已知 x，也能学习出 θ。
  
  $\begin{aligned} G u e s s θ \to x \to θ \to x \to θ \to x \to . . . \end{aligned}$ $G u ess θ \to x \to θ \to x \to θ \to x \to ...$
- 我们能做的就是（并且实际上也是可行有效的），随机地猜取一些 θ 值，在有了这些随机初始化的 θ 值以后，我们就能继续去用我们刚刚讲的方法来学习出不同电影的特征，然后在有这些初始的特征之后，我们就能运用前面的章节谈到的第一种方法来得到一个更好的对参数 θ 值得估计，这样我们就有了一系列能更好地估计用户的 θ 值，通过这些 θ 又可以得到更好的特征，以此类推。我们把这个迭代过程不断地重复进行，得到更好的 θ，x，θ，x，θ，x，并且效果确实很好。如果我们重复这个过程，那么我们的算法将会收敛到一组合理的电影特征，以及一组对合理的对不同用户的参数的估计，这就是最基本的协同过滤算法，这实际并不是最后我们要使用的算法，下一节将改进这个算法，让其在计算时更为高效。
- 通过上面的内容，我们可以明白如何规划出一个问题能让我们同时从这些电影中学习出参数和特征，对于这个推荐系统问题，该问题仅建立在每位用户都对数个电影进行了评价，并且每部电影都被数位用户评价过的情况下，这样我们才能重复这个迭代过程，来估计出 θ 和 x 。
- 在本节中我们见到了基本的协同过滤算法，协同过滤算法指的是当我们执行算法时，要观察大量的用户，观察这些用户的实际行为，来协同地得到更佳的每个人对电影的评分值，因为如果每个用户都对一部分电影作出了评价，那么每个用户都在帮助算法学习出更适合的特征，也就是说，通过自己对几部电影进行评分，我们就能帮助这个系统更好地学习特征，然后这些学习出的特征又可以被用来更好地预测其他用户的评分。协同的另一层意思是说每位用户都在帮助算法更好地进行特征学习。这就是协同过滤，在下一节中，我们会用这些我们所讨论的这些思想来尝试开发一种更好的算法，一种更好的协同过滤算法。
四、协同过滤算法（Collaborative filtering algorithm）
- 在前面几节里，我们谈到几个概念。首先，如果给你几个特征表示电影，就可以用它们来学习用户的参数 θ；第二，如果给你用户的参数，你可以用它们来学习电影的特征，本节我们会把这些概念结合起来，得到协同过滤算法。
1. 协同过滤优化目标（Collaborative filtering optimization objective）

$\begin{aligned} Collaborative\ \ filtering\ \ optimization\ \ objective:\ \ \\ G i v e n x^{(1)}, . . ., x^{(n_{m})}, e s t i m a t e θ^{(1)}, . . ., θ^{(n_{u})} : \\ min_{θ^{(1)}, . . ., θ^{(n_{u})}} \pink \frac{1}{2} \sum_{\green j = 1}^{n_{u}} \sum_{\green i : r (i, j) = 1} {((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})}^{2} + \red \frac{λ}{2} \sum_{j = 1}^{n_{u}} \sum_{k = 1}^{n} (θ_{k}^{(j)})^{2} \\ G i v e n θ^{(1)}, . . ., θ^{(n_{u})}, e s t i m a t e x^{(1)}, . . ., x^{(n_{m})} : \\ min_{x^{(1)}, . . ., x^{(n_{m})}} \pink \frac{1}{2} \sum_{\green i = 1}^{n_{m}} \sum_{\green j : r (i, j) = 1} {((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})}^{2} + \blue \frac{λ}{2} \sum_{i = 1}^{n_{m}} \sum_{k = 1}^{n} (x_{k}^{(i)})^{2} \\ M i n i m i z i n g x^{(1)}, . . ., x^{(n_{m})} a n d θ^{(1)}, . . ., θ^{(n_{u})} s i m u l t a n e o u s l y : \\ J (x^{(1)}, . . ., x^{(n_{m})}, θ^{(1)}, . . ., θ^{(n_{u})}) = \pink \frac{1}{2} \sum_{\green (i, j) : r (i, j) = 1} {((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})}^{2} + \blue \frac{λ}{2} \sum_{i = 1}^{n_{m}} \sum_{k = 1}^{n} (x_{k}^{(i)})^{2} + \red \frac{λ}{2} \sum_{j = 1}^{n_{u}} \sum_{k = 1}^{n} (θ_{k}^{(j)})^{2} \\ \purple min_{\binom{x^{(1)}, . . ., x^{(n_{m})}}{θ^{(1)}, . . ., θ^{(n_{u})}}} J (x^{(1)}, . . ., x^{(n_{m})}, θ^{(1)}, . . ., θ^{(n_{u})}) \end{aligned}$
Collaborative filtering optimization objective: Given x(1),... ,x(nm),estimate θ(1),... ,θ(nu):θ(1),...,θ(nu)min21j=1∑nui:r(i,j)=1∑((θ(j))Tx(i)−y(i,j))2+2λj=1∑nuk=1∑n(θk(j))2Given θ(1),... ,θ(nu), estimate x(1),... ,x(nm):x(1),...,x(nm)min21i=1∑nmj:r(i,j)=1∑((θ(j))Tx(i)−y(i,j))2+2λi=1∑nmk=1∑n(xk(i))2Minimizing x(1),... ,x(nm) and θ(1),... ,θ(nu) simultaneously:J(x(1),...,x(nm),θ(1),...,θ(nu))=21(i,j):r(i,j)=1∑((θ(j))Tx(i)−y(i,j))2+2λi=1∑nmk=1∑n(xk(i))2+2λj=1∑nuk=1∑n(θk(j))2θ(1),...,θ(nu)x(1),...,x(nm)minJ(x(1),...,x(nm),θ(1),...,θ(nu))
- 前面讲过，假如我们有了电影的特征，我们就可以解出上面一式对应的最小化问题，找到用户参数 θ；然后我们也讲过，如果我们拥有参数 θ，我们也可以用该参数估计特征 x，办法是通过解决上面二式对应的最小化问题得到 x 。那么我们可以做的事是不停地重复这些计算，或许是随机初始化这些参数，然后解出 θ，解出 x 再解出 θ，再解出 x，但实际上，存在一个更有效率地算法，可以让我们不再需要这样不停地计算 x 和 θ，而是能够将 x 和 θ 同时计算出来。
- 上面三式就是这种算法：我们需要做的是将这两个优化目标函数结合为一个，所以我们要定义这个新的优化目标函数 J，它是一个代价函数，是关于特征 x 和参数 θ 的函数，它其实就是上面那两个优化目标函数，但是我们将它们结合在一起。
- 为了把这个解释清楚，首先我们指出，一式和二式中的两个平方误差项（粉色标注）实际上是相同的，可能两个求和看起来有点不同，但让我们来看看它们到底在做什么：一式中的两个求和运算是所有用户 j 的总和，和所有被该用户评分过的电影总和（这其实是将所有 (i,j) 对全加起来，每项对应被某一用户评分过的某一电影，关于 j 的求和的意思是对每个用户对该用户评分的所有电影求和）；二式中的两个求和运算进行相反的计算，它表示对于每部电影 i，将所有对它评分过的用户 j 求和。
- 一式和二式的两个求和运算都是对所有 r(i,j) = 1 的 (i,j) 对求和，就是对所有有评分的用户-电影对进行求和，因此，这两个式子其实就是三式的第一项（粉色标注），注意三个式子中每个的第一项绿色标注部分的变化，三式中写着所有 r(i,j) 值为 1 的 (i,j) 对求和。
- 我们要做的是定义一个我们想将其最小化的合并后的优化目标函数，让我们能同时解出 x 和 θ，优化目标函数里的另一些项分别是一式和二式中的 θ 所进行的正则化项（分别用红色和蓝色对应）。这个优化目标函数 J 有一个很有趣的特性，如果我们假设 x 为常数，并关于 θ 优化的话，我们其实就是在计算这个式子，反过来也一样，如果我们把 θ 作为常量，然后关于 x 求 J 的最小值的话，那就与第二个式子相等，因为如果只关于 x 或 θ 进行最小化运算的话，后面的两项中会有一项变为常数。
  
  $\begin{aligned} S e t x^{(1)}, . . ., x^{(n_{m})} a s c o n s t a n t : \\ J (x^{(1)}, . . ., x^{(n_{m})}, θ^{(1)}, . . ., θ^{(n_{u})}) \\ = J (θ^{(1)}, . . ., θ^{(n_{u})}) \\ = \frac{1}{2} \sum_{j = 1}^{n_{u}} \sum_{i : r (i, j) = 1} {((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})}^{2} + \frac{λ}{2} \sum_{j = 1}^{n_{u}} \sum_{k = 1}^{n} (θ_{k}^{(j)})^{2} \\ S e t θ^{(1)}, . . ., θ^{(n_{u})} a s c o n s t a n t : \\ J (x^{(1)}, . . ., x^{(n_{m})}, θ^{(1)}, . . ., θ^{(n_{u})}) \\ = J (x^{(1)}, . . ., x^{(n_{m})}) \\ = \frac{1}{2} \sum_{i = 1}^{n_{m}} \sum_{j : r (i, j) = 1} {((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})}^{2} + \frac{λ}{2} \sum_{i = 1}^{n_{m}} \sum_{k = 1}^{n} (x_{k}^{(i)})^{2} \end{aligned}$ $S e t x^{(1)}, ..., x^{(n_{m})} a s co n s t an t : J (x^{(1)}, ..., x^{(n_{m})}, θ^{(1)}, ..., θ^{(n_{u})}) = J (θ^{(1)}, ..., θ^{(n_{u})}) = \frac{1}{2} j = 1 \sum n_{u} i : r (i, j) = 1 \sum ((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})^{2} + \frac{λ}{2} j = 1 \sum n_{u} k = 1 \sum n (θ_{k}^{(j)})^{2} S e t θ^{(1)}, ..., θ^{(n_{u})} a s co n s t an t : J (x^{(1)}, ..., x^{(n_{m})}, θ^{(1)}, ..., θ^{(n_{u})}) = J (x^{(1)}, ..., x^{(n_{m})}) = \frac{1}{2} i = 1 \sum n_{m} j : r (i, j) = 1 \sum ((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})^{2} + \frac{λ}{2} i = 1 \sum n_{m} k = 1 \sum n (x_{k}^{(i)})^{2}$
- 所以这个优化目标将关于 x 和 θ 的两个代价函数合并起来。为了提出一个综合的优化目标问题，我们要做的是将这个代价函数视为特征 x 和用户参数θ的函数，对它整体最小化（本小节开始处的三式下面紫色标注的式子），作为一个既关于 x 也关于 θ 的函数，这和前面的算法之间唯一的不同是不需要反复计算（不用不断地重复进行迭代过程，得到更好的 θ 和 x），不用我们需要做的就是对这两组参数同时进行最小化。
- 最后一件事是，当我们以这样的方法学习特征量时，之前我们所遵循的惯例是我们所使用的特征 x₀ = 1，对应于一个截距项。当我们以这种形式真的去学习特征量时，我们不再遵循这一惯例，这些我们将学习的特征量 x 是 n 维实数，而先前所有的特征值 x 是 n + 1 维（包括截距项），删除掉 x₀，我们现在只有 n 维的 x ，同样地，因为参数 θ 具有相同的维度，所以 θ 也是 n 维的，因为如果没有 x₀，那么 θ₀ 也不再需要。我们放弃这个惯例的理由是，我们现在是在学习所有的特征，我们没有必要将一个特征值硬编码为 1，因为如果算法真的需要一个特征永远为 1，它可以选择靠自己去获得 1 这个数值，如果这算法想要的话，它可以将特征值 x₁ 设为 1，所以没有必要将 1 这个特征定死，现在算法有了灵活性去自行学习。
- 把所有讲的这些合起来，就是我们的协同过滤算法。
2. 协同过滤算法（Collaborative filtering algorithm）

$\begin{aligned} Collaborative\ \ filtering\ \ algorithm \\ 1. I n i t i a l i z e x^{(1)}, . . ., x^{(n_{m})}, θ^{(1)}, . . ., θ^{(n_{u})} t o s m a l l r a n d o m v a l u e s . \\ 2. M i n i m i z e J (x^{(1)}, . . ., x^{(n_{m})}, θ^{(1)}, . . ., θ^{(n_{u})}) u s i n g g r a d i e n t \\ d e s c e n t (o r a n a d v a n c e d o p t i m i z a t i o n a l g o r i t h m) . E . g . f o r \\ e v e r y j = 1, . . ., n_{u}, i = 1, . . . n_{m} : \\ x_{k}^{(i)} := θ_{k}^{(j)} - α \blue (\sum_{j : r (i, j) = 1} ((θ^{(j)})^{T} x^{(i)} - y^{(i, j)}) θ_{k}^{(j)} + λ x_{k}^{(i)}) \\ θ_{k}^{(j)} := θ_{k}^{(j)} - α \blue (\sum_{i : r (i, j) = 1} ((θ^{(j)})^{T} x^{(i)} - y^{(i, j)}) x_{k}^{(i)} + λ θ_{k}^{(j)}) \\ 3. F o r a u s e r w i t h p a r a m e t e r s θ a n d a m o v i e w i t h (l e a r n e d) \\ f e a t u r e s x, p r e d i c t a s t a r r a t i n g o f θ^{T} x . \end{aligned}$
Collaborative filtering algorithm1. Initialize x(1),... ,x(nm),θ(1),... ,θ(nu) to small random values.2. Minimize J(x(1),... ,x(nm),θ(1),... ,θ(nu)) using gradient descent (or an advanced optimization algorithm). E.g. for every j=1,... ,nu,i=1,...nm :xk(i):=θk(j)−α⎝ ⎛j:r(i,j)=1∑((θ(j))Tx(i)−y(i,j))θk(j)+λxk(i)⎠ ⎞θk(j):=θk(j)−α⎝ ⎛i:r(i,j)=1∑((θ(j))Tx(i)−y(i,j))xk(i)+λθk(j)⎠ ⎞3. For a user with parameters θ and a movie with (learned)features x, predict a star rating of θTx.
- 首先我们会把 x 和 θ 初始为小的随机值，这有点像神经网络训练，我们也是将所有神经网络的参数用小的随机数值来初始化。
- 接下来我们要用梯度下降或者其它的高级优化算法把这个代价函数最小化，如果你求导的话，你会发现梯度下降法写出来的更新式是这样的（步骤 2 中的两个更新式），上面蓝色标注的部分是代价函数的偏微分，具体如下，分别是代价函数广义我们正在最小化的参数 x 和 θ 所做的偏微分（注意，在这里我们不再有 x₀ = 1 这一项，所以 x 和 θ 都是 n 维实数。在新的表达式里，我们将所有的参数 θ 和 x 做正则化，不存在 θ₀ 这种需要不同的正则化的特殊情况，或者说跟 θ₁ 到 θ_n 的正则化不同的 θ₀ 的正则化，所以不存在 θ₀，这就是为什么在这些更新式里我们并没有分出 k 等于 0 的特殊情况）：
  $\begin{aligned} \frac{\partial}{\partial x_{k}^{(i)}} J (x^{(1)}, . . ., x^{(n_{m})}, θ^{(1)}, . . ., θ^{(n_{u})}) = \sum_{j : r (i, j) = 1} ((θ^{(j)})^{T} x^{(i)} - y^{(i, j)}) θ_{k}^{(j)} + λ x_{k}^{(i)} \\ \frac{\partial}{\partial θ_{k}^{(j)}} J (x^{(1)}, . . ., x^{(n_{m})}, θ^{(1)}, . . ., θ^{(n_{u})}) = \sum_{i : r (i, j) = 1} ((θ^{(j)})^{T} x^{(i)} - y^{(i, j)}) x_{k}^{(i)} + λ θ_{k}^{(j)} \end{aligned}$
- 然后，我们使用梯度下降来最小化这个代价函数 J 关于特征 x 和参数 θ。
- 最后，给你一个用户，如果这个用户具有一些参数 θ，以及给你一部电影，带有已知的特征 x，我们可以预测该用户给这部电影的评分，会是 θ 的转置乘以 x 。补充说明一下，如果用户 j 尚未对电影 i 评分，那我们可以预测这个用户 j 将会根据 θ^(j) 转置乘以 x⁽ⁱ⁾，对电影 i 评分：
  $\begin{aligned} (θ^{(j)})^{T} (x^{(i)}) \end{aligned}$
- 这就是协同过滤算法，如果我们使用这个算法，我们可以得到一个十分有用的算法，可以同时学习几乎所有电影的特征和所有用户参数，能对不同用户会如何对他们尚未评分的电影做出评价，给出相当准确的预测。
五、矢量化：低秩矩阵分解（Vectorization: Low rank matrix factorization）
- 前面几节中，我们讨论了一个协同过滤算法，在这一节中，我将介绍一下这个算法的向量化实现，另外再介绍一下我们使用算法可以实现的一些功能。比如说，我们能做的事情是给定一个商品，我们可以找到与之相关的其它商品，比如说一个用户最近一直在寻找一个商品，有没有一些相关的其它商品我们能推荐给这个用户。我们来看看如何解决这个问题。
1. 协同过滤算法预测值的向量形式
- 我们希望可以找到另一种方法写出协同过滤算法的预测值。首先，这是我们的数据集（上图），包括五部电影，四个用户，这个矩阵 Y 是 5 行 4 列的矩阵。正如我们所知，构成矩阵时要包括所有的元素和所有的数据，包括问号，然后把它们按组写入矩阵。当然这个矩阵的第 (i,j) 个元素，我们之前说的 y^(i,j)，上标代表它是第 j 个用户给第 i 部电影的评分。
- 给定的矩阵 Y 包含所有我们已知的评分，有另一种方法可以写出这个算法的所有预测评分，尤其是如果你想查看某一个用户对某一个电影的评分预测，用户 j 对电影 i 的评分预测由下面这个公式给出：
  
  $\begin{aligned} Predicted\ \ ratings: \\ Y = [\begin{matrix} \red 5 & 5 & 0 & 0 \\ 5 & \pink ? & ? & 0 \\ ? & 4 & 0 & ? \\ 0 & 0 & 5 & 4 \\ 0 & 0 & 5 & ? \end{matrix}] & [\begin{matrix} \red (θ^{(1)})^{T} (x^{(1)}) & \blue (θ^{(2)})^{T} (x^{(1)}) & . . . & (θ^{(n_{u})})^{T} (x^{(1)}) \\ (θ^{(1)})^{T} (x^{(2)}) & \pink (θ^{(2)})^{T} (x^{(2)}) & . . . & (θ^{(n_{u})})^{T} (x^{(2)}) \\ . . . & . . . & . . . & . . . \\ \green (θ^{(1)})^{T} (x^{(n_{m})}) & (θ^{(2)})^{T} (x^{(n_{m})}) & . . . & (θ^{(n_{u})})^{T} (x^{(n_{m})}) \end{matrix}] \end{aligned}$ $Y = ⎣ ⎡ 55 ? 00 5 ? 400 0 ? 055 00 ? 4 ? ⎦ ⎤ Predicted ratings: ⎣ ⎡ (θ^{(1)})^{T} (x^{(1)}) (θ^{(1)})^{T} (x^{(2)}) ... (θ^{(1)})^{T} (x^{(n_{m})}) (θ^{(2)})^{T} (x^{(1)}) (θ^{(2)})^{T} (x^{(2)}) ... (θ^{(2)})^{T} (x^{(n_{m})}) ... ... ... ... (θ^{(n_{u})})^{T} (x^{(1)}) (θ^{(n_{u})})^{T} (x^{(2)}) ... (θ^{(n_{u})})^{T} (x^{(n_{m})}) ⎦ ⎤$
- 因此，如果你有一个预测评分的矩阵，你所拥有的就是上面那个矩阵，矩阵元素的标号为 i, j，这对应了预测的用户 j 给电影 i 的打分，这与 (θ^(j))^T 乘以 x⁽ⁱ⁾ 的值相等。因此，这个矩阵中第一个元素（即第一行第一列的元素，红色标注）是第一个用户对第一部电影的评分预测，第一行的第二个元素（蓝色标注），它是第二个用户对第一部电影的评分预测，以此类推，绿色标注的元素是第一个用户对最后一部电影的评分预测。如果我们要预测，上面右侧矩阵中红色的评分就是对左侧矩阵中红色的值的预测，右侧矩阵中粉色的评分就是对左侧矩阵中粉色的值的预测，以此类推。
- 现在，给定这个预测评分矩阵，则有一个比较简单的或者向量化的方法来写出它们，比如说，如果我们定义矩阵 X，其可以写成下面的形式：
  
  $\begin{aligned} X = [\begin{matrix} — — (x^{(1)})^{T} — — \\ — — (x^{(2)})^{T} — — \\ . . . \\ — — (x^{(n_{m})})^{T} — — \end{matrix}] Θ = [\begin{matrix} — — (θ^{(1)})^{T} — — \\ — — (θ^{(2)})^{T} — — \\ . . . \\ — — (θ^{(n_{u})})^{T} — — \end{matrix}] \end{aligned}$ $X = ⎣ ⎡ —— (x^{(1)})^{T} —— —— (x^{(2)})^{T} —— ... —— (x^{(n_{m})})^{T} —— ⎦ ⎤ Θ = ⎣ ⎡ —— (θ^{(1)})^{T} —— —— (θ^{(2)})^{T} —— ... —— (θ^{(n_{u})})^{T} —— ⎦ ⎤$
- 像之前讲过的线性回归的矩阵形式，第一行是 x⁽¹⁾ 的转置，然后第二行是 x⁽²⁾ 的转置，一直到 x^(n_m) 的转置，我将提取所有的电影的特征，然后逐行地写入到矩阵中。所以如果将每部电影看做一个样本，将不同的电影的所有属性都按行写入矩阵，如果我们找到一个矩阵，用大写的 Θ 表示，我们要做的是取出每个用户参数向量，像上面的方式按行写入。
- 现在已经给出了对矩阵 X 的定义以及矩阵 Θ 的定义，为了获得一个向量化方法来计算预测矩阵，我们可以只计算 X 乘以矩阵 Θ 的转置，它就是一个向量化的方法来计算这个矩阵。这个协同过滤算法有另一个名字，它也叫做低秩矩阵分解（Low rank matrix factorization），人们谈论低秩矩阵分解，基本上他们所说的就是我们正在讨论的这个算法，这个术语来自于这个矩阵的数学性质，矩阵 X 乘以矩阵 Θ 的转置在线性代数中有一个数学性质称为低秩矩阵（Low rank matrix），这就是算法起名叫低秩矩阵分解的原因（矩阵 X 乘以矩阵 Θ 的转置具有低秩性质，低秩的意思就是秩为 1）。
2. 利用已有属性找到相关电影
- 最后，在已经运行了协同过滤算法之后，再讲一个问题，利用已经学到的属性，来找到相关的电影。
  $\begin{aligned} F o r e a c h p r o d u c t i, w e l e a r n a f e a t u r e v e c t o r x^{(i)} \in \R^{n} \\ x_{1} = r o m a n c e, x_{2} = a c t i o n, x_{3} = c o m e d y, x_{4} = . . . \\ H o w t o f i n d m o v i e s j r e l a t e d t o m o v i e i ? \\ s m a l l | | x^{(i)} - x^{(j)} | | \to m o v i e j a n d i a r e " s i m i l a r " \\ 5 m o s t s i m i l a r m o v i e s t o m o v i e i : \\ F i n d t h e 5 m o v i e s j w i t h t h e s m a l l e s t | | x^{(i)} - x^{(j)} | | . \end{aligned}$
- 具体地说，就是对每个商品 i，比如对每个电影 i，我们已经学到一个属性向量 x⁽ⁱ⁾，当你学习某一组特征时，你之前并不知道该选取哪些不同的特征，但是如果你运行这个算法，一些特征将捕捉到有关电影和商品的重要的方面，这些重要的方面将导致一些用户喜欢某些电影，导致一些用户喜欢另外一些电影。可能你最终学习一个特征，比如 x₁ 代表爱情片，x₂ 代表动作片，也许学到另一个不同的属性 x₃ 来描述电影的喜剧效果，特征 x₄ 可能代表其它的特征，这样你总共有 N 个特征，在你学习完特征之后，实际上，很难理解这些被学习到的特征并对这些特征给出人类可以理解的解释，但是实际上即使这些特征难以可视化，人们难以理解这些特征的含义，但通常，算法将学到一些有意义的特征，它们捕捉到一部电影的最重要的特征，这些特征导致了你喜欢或不喜欢这部电影。
- 现在，再看下一个问题，比如你有一部电影 i，你想找到另一部电影 j，它与电影 i 相关。为什么你要这样做呢？假设你有一个用户正在浏览电影，他们正在看电影 j，那么在他们看完电影 j 后，推荐给他们哪一部电影比较合理呢？或者如果有人最近买了电影 j，那么向他们再推荐购买哪部电影更合理呢？既然我们已经学习到了这些特征向量，我们一种方便的方法去衡量两个电影的相似度，比如，电影 i 有一个特征向量 x⁽ⁱ⁾，如果找到另一个电影 j，x⁽ⁱ⁾ 和 x^(j) 的距离很小，那么，这就很明显的表明电影 j 和 i 相似，至少从这个意义上说，一些喜欢电影 i 的人也可能喜欢电影 j 。
- 现在简要地回顾一下，如果你的用户正在看某个电影 i，如果你想找的 5 个与电影 i 最相似的电影，目的是推荐五部新电影给用户，你要做的是找到 5 部电影 j，这些电影的特征向量与电影的特征向量有最小的距离，这样你就能向你的用户推荐几部不同的电影了。
- 通过以上的学习，我们现在知道如何使用一个向量化的实现来计算所有用户对所有电影的评分预测值，也可以实现利用已经学习到的特征来找到彼此相类似的电影或商品。
六、实施细节：均值归一化（Implementational detail: Mean normalization）
- 到目前为止，我们已经学习了推荐系统算法和协同过滤算法的所有要点。本节我们来分享一些最后实现过程中的细节，即均值归一化（mean normalization），有时它可以让算法运行得更好。
1. 问题引入（均值归一化的作用）
- 为了了解均值归一化的作用，我们考虑这样一个例子，有一个没有给任何电影评分的用户，加上之前我们的四个用户 Alice、Bob、Carol 和 Dave，我们现在加上了第五个用户 Eve，她没有给任何电影评分，看看协同过滤算法会对这个用户做什么。
  
  $\begin{aligned} min_{\binom{x^{(1)}, . . ., x^{(n_{m})}}{θ^{(1)}, . . ., θ^{(n_{u})}}} \blue \frac{1}{2} \sum_{(i, j) : r (i, j) = 1} {((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})}^{2} + \frac{λ}{2} \sum_{i = 1}^{n_{m}} \sum_{k = 1}^{n} (x_{k}^{(i)})^{2} + \green \frac{λ}{2} \sum_{j = 1}^{n_{u}} \sum_{k = 1}^{n} (θ_{k}^{(j)})^{2} \end{aligned}$ $θ ^{(1)} , ... , θ ^{(n_{u})} x ^{(1)} , ... , x ^{(n_{m})} min \frac{1}{2} (i, j) : r (i, j) = 1 \sum ((θ^{(j)})^{T} x^{(i)} - y^{(i, j)})^{2} + \frac{λ}{2} i = 1 \sum n_{m} k = 1 \sum n (x_{k}^{(i)})^{2} + \frac{λ}{2} j = 1 \sum n_{u} k = 1 \sum n (θ_{k}^{(j)})^{2}$
- 假设 n 等于 2，所以我们要学习两个特征变量，我们要学习出一个参数向量 θ⁽⁵⁾（这是一个二维向量，提醒一下，这个向量是 n 维的，而不是 n + 1 维的）。我们要学习 5 号用户 Eve 的参数向量 θ⁽⁵⁾，如果我们看这个优化目标的第一项（蓝色标注），用户 Eve 没给任何电影打过分，所以对用户 Eve 来说没有电影满足 r(i,j) = 1 这个条件，所以第一项完全不影响 θ⁽⁵⁾ 的值，因为没有电影被 Eve 评过分，所以这是影响 θ⁽⁵⁾ 值的唯一项（绿色标注），这就是说，我们想选一个向量 θ⁽⁵⁾，使得最后的正则化项尽可能地小，换句话说，想要最小化这个式子：
  
  $\begin{aligned} \frac{λ}{2} [(θ_{1}^{(5)})^{2} + (θ_{2}^{(5)})^{2}] \end{aligned}$ $\frac{λ}{2} [(θ_{1}^{(5)})^{2} + (θ_{2}^{(5)})^{2}]$
- 这就是这个与用户 5 有关的正则化项的成分。当然，如果我们目标是最小化上面这一项，那么我们最终得到的就会是 θ⁽⁵⁾ = [0;0]，因为正则化项会让我们的参数接近 0，如果没有数据能够使得参数远离 0，因为这第一项不影响 θ⁽⁵⁾ 值，我们就会得到 θ⁽⁵⁾ 等于零向量的结果，所以当我们要预测用户 5 会如何给电影打分，有 θ⁽⁵⁾ 的转置乘以 x⁽ⁱ⁾，对任意 i，结果都会等于 0 ，因为对任意 x 值，θ⁽⁵⁾ 都是 0，这个内积就会等于 0 。因此我们会得到，我们将预测 Eve 给所有电影的评分都是 0 颗星，但是这个结果看起来没什么用，就是说如果我们看不同的电影，比如第一个电影 Love at last，有两个人给它评了 5 星，对于电影 Sword vs. karate，也有人评了 5 星。有些人确实很喜欢某些电影，所以仅预测出 Eve 会给它们全部评 0 星是没用的。但实际上，如果预测出 Eve 会给所有电影评 0 星，我们还是没有任何好办法推荐电影给 Eve，因为所有这些电影都会被 Eve 给出一样的预测评分，所以没有一部电影拥有高一点儿的预测评分，使得能推荐给她，所以这种结果不太好。
- 均值归一化的想法可以解决这个问题，下面介绍它是如何工作的。
2. 均值归一化的具体工作过程

 ①均值归一化步骤
- 和之前一样，我们把所有的评分都放到矩阵 Y 里，就是把所有这些评分全部整合到矩阵 Y 中，Y 矩阵中全是问号的这列对应 Eve 没有给任何电影评分。现在要实现均值归一化，我们要做的就是计算每个电影所得评分的均值，我们要把它们存在一个叫 μ 的向量中：
  
  $\begin{aligned} Mean\ \ normalization: \\ Y = [\begin{matrix} 5 & 5 & 0 & 0 & ? \\ 5 & ? & ? & 0 & ? \\ ? & 4 & 0 & ? & ? \\ 0 & 0 & 5 & 4 & ? \\ 0 & 0 & 5 & 0 & ? \end{matrix}] μ = [\begin{matrix} 2.5 \\ 2.5 \\ 2 \\ 2.25 \\ 1.25 \end{matrix}] \to Y = [\begin{matrix} 2.5 & 2.5 & - 2.5 & - 2.5 & ? \\ 2.5 & ? & ? & - 2.5 & ? \\ ? & 2 & - 2 & ? & ? \\ - 2.25 & - 2.25 & 2.75 & 1.75 & ? \\ - 1.25 & - 1.25 & 3.75 & - 1.25 & ? \end{matrix}] \end{aligned}$ $Mean normalization: Y = ⎣ ⎡ 55 ? 00 5 ? 400 0 ? 055 00 ? 40 ? ? ? ? ? ⎦ ⎤ μ = ⎣ ⎡ 2.5 2.5 2 2.25 1.25 ⎦ ⎤ \to Y = ⎣ ⎡ 2.5 2.5 ? - 2.25 - 1.25 2.5 ? 2 - 2.25 - 1.25 - 2.5 ? - 2 2.75 3.75 - 2.5 - 2.5 ? 1.75 - 1.25 ? ? ? ? ? ⎦ ⎤$
- 所以第一个电影得到了两个 5 星和两个 0 星的评价，均值就是 2.5 星，而第二个电影的平均评价是 2.5 星等等，最后一个电影的评分是 0 0 5 0（最后一个改成 0 了，和前面的有点不一样），所以这四个数字的平均值就是 1.25星，我们要做的就是观察一下这些电影评分，现在我们要减去均分，得到上面的的矩阵 Y，我们所做的就是把每个电影评分都归一化，使其均分为 0 。
- 接下来我们要做的就是对这个评分数据集使用协同过滤算法，所以我们要假设上面的矩阵 Y 就是从用户那里得到的数据，或者假设它们就是我们从用户得到的实际评分，我们要把这个当做我们的数据集，用它来学习我们的参数 θ^(j) 和特征 x⁽ⁱ⁾，这就是用这些均值归一化后的电影评分来学习。
②电影评分预测步骤
- 当我们想要做电影评分预测时，我们要做的步骤如下：
  $\begin{aligned} F o r u s e r j, o n m o v i e i p r e d i c t : \\ (θ^{(j)})^{T} (x^{(i)}) + μ_{i} \\ U s e r 5 (E v e) : \\ θ^{(5)} = [\begin{matrix} 0 \\ 0 \end{matrix}] \underset{0}{\underset{⏟}{(θ^{(j)})^{T} (x^{(i)})}} + μ_{i} \end{aligned}$
- 对于用户j对电影 i 的评分，我们要预测它为 θ^(j) 的转置乘以 x⁽ⁱ⁾，其中 x 和 θ 都是从均值归一化的数据集中学习出的参数，但是因为我们已经对数据集减去了均值，所以为了给电影 i 预测评分，我们要把这个均值加回来，所以我们要再加回 μ_i，所以这就是我们得到的预测值，因为训练数据减去了所有的均值，所以当我们做预测时，我们需要给电影加回这个均值 μ_i。
- 所以对于用户 Eve，上一小节的问题在这里仍然存在，Eve 从来没有给任何电影打分，所以学习到的用户 Eve 的参数仍然还是会等于 0 0，所以我们会得到的是对这个特定的电影 i，我们预测 Eve 的评分是 θ⁽⁵⁾ 的转置乘以 x⁽ⁱ⁾，然后再加上 μ_i。所以，如果第一个成分等于 0，即 θ⁽⁵⁾ = 0，所以我们对电影 i 的评分最终会预测为 μ_i，这实际上是有意义的。因此，对于电影 1，我们会预测 Eve 对它的评分是 2.5，对于电影 2，预测 Eve 给它 2.5 星，对于电影 3，会预测 Eve 对它的评分是 2。这其实是有意义的，意思是如果 Eve 没有给任何电影评分，我们就对 Eve 一无所知，我们要做的就是预测每一部电影所获得的平均评分。
- 最后再补充一下，本节我们谈到了均值归一化，我们归一化了 y 的每一行，每行的均值都是 0。如果有些电影是没有评分的，这个情形类似于没有进行过评价的用户，但是如果你有些电影是没有评分的，你可以尝试这个算法的其他版本，你可以对不同的列进行归一化使得它们的均值为 0，而不是把行均值归一化为 0 ，虽然说这可能不太重要，因为如果你真的有个电影没有评分，你就不该把这个电影推荐给任何人，所以，比起关心这种没被评价过的电影，关注这些没进行过任何评价的用户来得更重要一些。
- 最后总结一下，这就是均值归一化的实现，它作为协同过滤算法的预处理步骤，根据不同的数据集，它有时能让算法表现的好一些。
总结
- 本篇文章主要介绍了推荐系统，在开篇之时我们说明了介绍推荐系统的两个原因：推荐系统的好的性能是当前科技公司的需要，并且推荐系统也是我们即将学习的伟大思想（对于一些问题，有一些算法可以自动地学习一系列合适的特征）的一个例子。
- 首先我们介绍了推荐系统问题的主要形式，举了一个通过用户已评价的电影来预测用户喜欢的电影类型的例子。
- 在基于内容的推荐算法中，我们介绍了如何将变量应用到线性回归中来预测不同用户对不同电影的评级，这个特殊的算法叫做基于内容的推荐算法（或者基于内容的方法），同时我们用了这些描述电影内容特征量来做出预测。但是对许多电影来说，我们并没有这样的特征量，或者很难获取所有电影的此类特征或者其他我们销售的东西，所以便有了对协同过滤的介绍。
- 在协同过滤中，我们介绍了一个方法来做推荐系统，它不是基于内容的，并且不假设我们已经得到这些所有的电影的特征。协同过滤算法指的是当我们执行算法时，要观察大量的用户的实际行为，来协同地得到更佳的每个人对电影的评分值，因为如果每个用户都对一部分电影作出了评价，那么每个用户都在帮助算法学习出更适合的特征，也就是说，通过自己对几部电影进行评分，我们就能帮助这个系统更好地学习特征，然后这些学习出的特征又可以被用来更好地预测其他用户的评分；协同的另一层意思是说每位用户都在帮助算法更好地进行特征学习。
- 随后介绍了协同过滤算法，它可以同时学习几乎所有电影的特征和所有用户参数，能对不同用户会如何对他们尚未评分的电影做出评价给出相当准确的预测。
- 在低秩矩阵分解中，介绍了如何使用一个向量化的实现来计算所有用户对所有电影的评分预测值，也可以实现利用已经学习到的特征来找到彼此相类似的电影或商品。
- 最后介绍了均值归一化，它作为协同过滤算法的预处理步骤，有时能让算法表现得更好一些。
相关阅读:
踩坑，发现一个ShardingJdbc读写分离的BUG
计算机网络之网络体系结构
 10个即时通讯软件开发项目经验教训
 Avalonia 11.0.0 正式版发布
 用 AWTK 和 AWPLC 快速开发嵌入式应用程序 (3)- 定时器
 百亿规模京东实时浏览记录系统的设计与实现
 【LeetCode算法系列题解】第46~50题
 appscan的两种手动探索扫描方式
 8 年 Java 开发含泪刷题，架构岗现在好难进，有点崩溃
 ＜算法＞贪心策略设计并解决会场安排问题
原文地址：https://blog.csdn.net/weixin_53312629/article/details/126049171

文章目录

Log

一、问题形式（Problem formulation）

1. 实例：电影评分预测（Predicting movie ratings）

二、基于内容的推荐算法（Content-based recommendations）

1. 基于内容的推荐系统（Content-based recommender systems）

2. 问题的正式形式（Problem formulation）

3. 优化目标（Optimization objective）

4. 优化算法（Optimization algorithm）

三、协同过滤（Collaborative filtering）

1. 问题动机（Problem motivation）

2. 优化算法（Optimization algorithm）

3. 协同过滤（Collaborative filtering）

四、协同过滤算法（Collaborative filtering algorithm）

1. 协同过滤优化目标（Collaborative filtering optimization objective）

2. 协同过滤算法（Collaborative filtering algorithm）

五、矢量化：低秩矩阵分解（Vectorization: Low rank matrix factorization）

1. 协同过滤算法预测值的向量形式

2. 利用已有属性找到相关电影

六、实施细节：均值归一化（Implementational detail: Mean normalization）

1. 问题引入（均值归一化的作用）

2. 均值归一化的具体工作过程

①均值归一化步骤

②电影评分预测步骤

总结