《机器学习——数学公式推导合集》1. 最小二乘法（least square method）求解线性模型

1.1 什么是最小二乘法（least square method）

最小二乘法： 基于均方误差最小化来进行模型求解的方法称为 “最小二乘法（least square method）”。

1.2 线性模型（linear model）基本形式

线性模型（linear model）试图学得一个通过属性的线性组合来进行预测的函数，即
$f(\mathbb{x}) = w_1x_1 + w_2x_2+...+w_dx_d+b \tag{1.1}$
一般用向量形式写成
$f(\mathbb{x})=\mathbf{w}^\text{T}\mathbf{x}+{b} \tag{1.2}$
其中 $\mathbf{w}=(w_1;w_2;...;w_d)$ 。 $\mathbf{w}$ 和 $b$ 学得之后，模型就得以确定。

摘录自《机器学习》周志华著清华大学出版社

1.3 公式推导 1

假设第 $i$ 个数据 $x_i$ 对应的真实值为 $y_i$ ，模型的输出值为 $f(x_i)$ ，所以我们的目标是使得 $f(x_i)$ 尽可能等于真实值 $y_i$ ，假设训练后 $f(x_i) \approx y_i$ 时，对应的参数为 $w^*$ 、 $b^*$ ，其中 $w^*$ 代表一组参数（ $w_1,w_2,...,w_m$ ，其中 $m$ 是特征的数目）。

此时 求解目标 可以表示为：
$(w^*,b^*)=\argmin_{(w,b)} \sum_{i=1}^m(f(x_i)-y_i)^2 \\ = \argmin_{(w,b)} \sum_{i=1}^m(y_i - (wx_i+b))^2 \tag{1.3}$

即求解当 $E_{(w, b)} = \sum_{i=1}^m(f(x_i)-y_i)^2$ 取得最小值时参数 $w^*$ 与 $b^*$ 的值。

现在分别对这两参数求偏导，可得
$\frac{\partial_{E_{(w,b)}}}{\partial_w}=2 \Bigl( w\sum_{i=1}^mx_i^2 - \sum_{i=1}^m(y_i-b)x_i \Bigr) \tag{1.4}$

$\frac{\partial_{E_{(w,b)}}}{\partial_b}=2 \Bigl( mb - \sum_{i=1}^m(y_i-wx_i)\Bigr) \tag{1.5}$

当公式 (1.4) 与公式 (1.5) 等于 0，可得到 $w$ 和 $b$ 的最优解的闭式解（closed-form）。

先求解公式 (1.5) ，如下：

$\Bigl( mb - \sum_{i=1}^m(y_i-wx_i)\Bigr) = 0 \\ \Longrightarrow mb = \sum_{i=1}^m(y_i-wx_i) \\ \Longrightarrow b = \frac{1}{m} \sum_{i=1}^m(y_i-wx_i) \ \Longrightarrow b = \overline{y} -w\overline{x} \tag{1.6}$

再来求解公式 (1.4)，需要代入刚刚求解得到的公式 (1.6)，

$\Bigl( w\sum_{i=1}^m x_i^2 - \sum_{i=1}^m(y_i-b)x_i \Bigr) = 0 \\ \Longrightarrow w\sum_{i=1}^m x_i^2 = \sum_{i=1}^m(y_i-b)x_i \\ \Longrightarrow w\sum_{i=1}^m x_i^2 = \sum_{i=1}^m(y_i- (\overline{y}-w\overline{x}))x_i \\ \Longrightarrow w\sum_{i=1}^m x_i^2 = \sum_{i=1}^m (y_i - \overline{y})x_i + w\overline{x}\sum_{i=1}^m x_i \\ \Longrightarrow w\Bigl(\sum_{i=1}^mx_i^2 - \overline{x}\sum_{i=1}^mx_i\Bigr) = \sum_{i=1}^m(y_i-\overline y)x_i \\ \Longrightarrow w=\frac{\sum_{i=1}^m(y_i-\overline y)x_i}{\sum_{i=1}^mx_i^2 - \overline{x}\sum_{i=1}^mx_i} \tag{1.7}$

为了方便也可以变形为：
$\frac{\sum_{i=1}^m x_iy_i - m\overline{x} \ \overline{y}}{\sum_{i=1}^mx_i^2 - m\overline{x}^2} \tag{1.8}$

也可以变形为：
$w=\frac{\sum_{i=1}^m(y_i-\overline y)x_i}{\sum_{i=1}^mx_i^2 - \overline{x}\sum_{i=1}^mx_i} \\ = \frac{\sum_{i=1}^m(y_i - \frac{1}{m}\sum_{i=1}^m y_i)x_i}{\sum_{i=1}^mx_i^2 - \frac{1}{m}\sum_{i=1}^mx_i \sum_{i=1}^mx_i} \\ = \frac{\sum_{i=1}^m y_i(x_i-\frac{1}{m}\sum_{i=1}^n x_i)}{\sum_{i=1}^mx_i^2 - \frac{1}{m}(\sum_{i=1}^mx_i )^2} \\ = \frac{\sum_{i=1}^m y_i(x_i - \overline{x})}{\sum_{i=1}^mx_i^2 - \frac{1}{m}(\sum_{i=1}^mx_i )^2} \tag{1.9}$

1.4 公式推导 2

当样本的特征更多时，上面的推导公式也应做相应的调整，以适应更一般的情况。

假设数据样本集 $D$ ，每个样本由 $d$ 个属性描述，此时学习目标转换为

$f(x_i) = w^\text{T}x_i + b \tag{1.10}$

使得 $f(x_i) \approx y_i$ 。

接下来会基于矩阵运算来推导参数的表达式，为了方便，让常量 $b^*$ 凑如到 $w^*$ 中，即，原表达式转换为

$f(x_i ) = w_1x_1 + w_2x_2 + \cdots + w_mx_m + b \cdot 1$
也就是说，对于原数据集，补充一列全部为 1 的特征，方便乘以孤孤单单无人作伴的 $b^*$ ，此时 $\mathbf{X}$ 可表示为：

$\mathbf{X} = (x11x12x13⋯x1d1x21x22x23⋯x2d1⋮⋮⋮⋱⋮1xm1xm2xm3⋯xmd1) = (xT11xT21⋮⋮xTm1)$

为了方便，记 $\mathbf{y} = (y_1; y_2; \cdots;y_m)$ ，接着同样引用最小二乘法，注意此时对矩阵运行不能单纯的平方了，而是转置后相乘。

$\hat{\mathbf{w}}^* = \argmin_{\hat{\mathbf{w}}}(\mathbf{y}-\mathbf{X\hat{w}})^\text{T}(\mathbf{y}-\mathbf{X\hat{w}}) \tag{1.11}$

令 $E_{\hat{\mathbf{w}}}=(\mathbf{y}-\mathbf{X\hat{w}})^\text{T}(\mathbf{y}-\mathbf{X\hat{w}})$ ，对 $\hat{\mathbf{w}}$ 求导，得

$\frac{\partial_{E_{\hat{\mathbf{w}}}}}{\partial_{\hat{\mathbf{w}}}} = 2 \mathbf{X}^{\text{T}}(\mathbf{X}\hat{\mathbf{w}} - \mathbf{y}) \tag{1.12}$

类似地，这里不考虑数据不足、特征量不足、特征量过多的情况，只从数学角度推导，可以得知，当公式 1.12 等于 0 时，得到对应的 $\hat w^*$ 。

$\mathbf{X}^{\text{T}}(\mathbf{X}\hat{\mathbf{w}} - \mathbf{y}) = 0\\ \Longrightarrow \mathbf{X}^{\text{T}}\mathbf{X}\hat{\mathbf{w}} = \mathbf{X}^{\text{T}}\mathbf{y} \\ \Longrightarrow \hat w^* = (\mathbf{X}^{\text{T}}\mathbf{X})^{-1}\mathbf{X}^{\text{T}}\mathbf{y} \tag{1.13}$

从第二行到第三行的过程是在等式等号两边分别在左边乘以 $(\mathbf{X}^{\text{T}}\mathbf{X})^{-1}$ 而得到的。

其中 $(\mathbf{X}^{\text{T}}\mathbf{X})^{-1}$ 时矩阵 $(\mathbf{X}^{\text{T}}\mathbf{X})$ 的逆矩阵。

1.5 本章总结

因为验证拟合效果是比较各个点的预测值与真实值之间的差异，为了避免 差异抵消 情况的出现，也是为了求导的方便，对目标表达式平方以后再求最小值时的参数情况更加合理一些。这里的差异抵消是指，前一行预测值比真实值小，而后一行预测值比真实值大，如果简单把差异总和加起来的可能出现抵消的情况，不能反应整体的拟合结果。

此外，这个公式推导的过程应该是比较简单的，可以考虑自己多推导推导，就当做是打发时间好了。

Smileyan
2022.8.26 23:50

`

相关阅读:
运动耳机哪种佩戴方式好？佩戴稳固舒适的运动耳机
No module named ‘pyqt5‘解决办法
计网第四章（网络层）（九）
无人机航迹规划：五种最新智能优化算法（SWO、COA、LSO、GRO、LO）求解无人机路径规划MATLAB
MySQL的InnoDB存储引擎中的自适应哈希索引技术
5年测试，面试结束后被HR怼了..（心塞）
牛客网SQL大厂真题—SQL158：每类视频近一个月的转发量/率
系统与应用监控的缜密思路
鼠标划过改变子元素的属性 vue
气象站有什么用？有哪些类型

原文地址：https://blog.csdn.net/smileyan9/article/details/126510725