最小二乘法求导-公式推导

多元线性回归模型

1. 建立模型：模型函数

$\hat{Y} = XW^T$

如果有 n+1 条数据，每条数据有 m+1 种x因素（每种x因素都对应 1 个权重w），则
👉已知数据：实际Y值=

[\begin{matrix} y_{0} \\ y_{1} \\ y_{2} \\ y_{3} \\ . . . \\ y_{n} \end{matrix}]

y_{0} y_{1} y_{2} y_{3} ... y_{n}

，X=

[\begin{matrix} x_{00}, x_{10} . . . x_{m 0} \\ x_{01}, x_{11} . . . x_{m 1} \\ x_{02}, x_{12} . . . x_{m 2} \\ x_{03}, x_{13} . . . x_{m 3} \\ . . . \\ x_{0 n}, x_{1 n} . . . x_{m n} \end{matrix}]

👉未知数据：模型

\hat{Y}

值=

[\begin{matrix} \hat{y_{0}} \\ \hat{y_{1}} \\ \hat{y_{2}} \\ . . . \\ \hat{y_{n}} \end{matrix}]

模型参数 W=

[\begin{matrix} w_{0}, w_{1}, w_{2}, w_{3}, . . ., w_{m} \end{matrix}]

2. 学习模型：损失函数

2.1 损失函数-最小二乘法

Loss = $∑(\hat{y}_{i计算}-y_{i实际})²$

$\hat{Y_{计算}}$ =

[\begin{matrix} \hat{y_{0}} \\ \hat{y_{1}} \\ \hat{y_{2}} \\ . . . \\ \hat{y_{n}} \end{matrix}]

\overset{y_{0}}{^} \overset{y_{1}}{^} \overset{y_{2}}{^} ... \overset{y_{n}}{^}

， 实际Y值=

[\begin{matrix} y_{0} \\ y_{1} \\ y_{2} \\ . . . \\ y_{n} \end{matrix}]

，

\hat{Y_{计算}} -Y

=

[\begin{matrix} \hat{y_{0}} - y_{0} \\ \hat{y_{1}} - y_{1} \\ \hat{y_{2}} - y_{2} \\ . . . \\ \hat{y_{n}} - y_{n} \end{matrix}]

则Loss =

[\begin{matrix} \hat{y_{0}} - y_{0}, \hat{y_{1}} - y_{1}, \hat{y_{2}} - y_{2}, . . ., \hat{y_{n}} - y_{n} \end{matrix}]

Loss =

(\hat{Y_{计算}} -Y)^T(\hat{Y_{计算}} -Y)

👉 $\hat{Y_{计算}} = X^TW$ ，因此 Loss = $X^TW-Y)^T(X^TW-Y)$

$X^TW-Y)^T=W^TX-Y^T= W^TX-Y^T$

则 Loss = $X^TW-Y)^T(X^TW-Y)=WX^TXW^T-Y^TXW^T-WX^TY+Y^TY$

2.2 求导解析解

👉 $\frac{∂(Loss)}{∂(W)} =\frac{∂(WX^TXW^T)}{∂(W)}-\frac{∂(Y^TXW^T)}{∂(W)}-\frac{∂(WX^TY)}{∂(W)}+\frac{∂(Y^TY)}{∂(W)}$
根据以下矩阵求导证明：
在这里插入图片描述

👉 $\frac{∂(Loss)}{∂(W)} =\frac{∂(WX^TXW^T)}{∂(W)}-\frac{∂(Y^TXW^T)}{∂(W)}-\frac{∂(WX^TY)}{∂(W)}+\frac{∂(Y^TY)}{∂(W)}$

👉 $\frac{∂(Loss)}{∂(W)} =2X^TXW-2X^TY$

👉当 $\frac{∂(Loss)}{∂(W)}=0，则W =\frac{1}{2}*(X^TX)^{-1}(2X^TY)=(X^TX)^{-1}(X^TY)$

当 $X^TX)^{-1}$ 计算时，只有当 $X^TX$ 为满秩矩阵时，W才有解

当 $W=(X^TX)^{-1}(X^TY)$ 时，👉 $\frac{∂(Loss)}{∂(W)}=0$ ，仅仅能证明Loss取到极值，并不能说明是极小值，还是极大值！(实际最小二乘法，本质就是个凸函数-平方和函数，也不用下列证明）

要如何判断Loss是极大值还是极小值？

当Loss处于极小值点时，一阶导 $Loss^{'}=\frac{d(Loss)}{W}=0$ ，二阶导 $Loss^{''}>0$
当Loss处于极大值点时，一阶导 $Loss^{'}=\frac{d(Loss)}{W}=0$ ，二阶导 $Loss^{''}<0$
在这里插入图片描述
已知最小二乘法损失函数一阶导 $Loss^{'}=\frac{d(Loss)}{W}=\frac{∂(Loss)}{∂(W)} =2XX^TW-2XY^T$
则二阶导为 $Loss^{''}=\frac{d(2XX^TW-2XY^T)}{W}=2XX^T=2*$

[\begin{matrix} x_{00}, x_{10} . . . x_{m 0} \\ x_{01}, x_{11} . . . x_{m 1} \\ x_{02}, x_{12} . . . x_{m 2} \\ x_{03}, x_{13} . . . x_{m 3} \\ . . . \\ x_{0 n}, x_{1 n} . . . x_{m n} \end{matrix}]

[\begin{matrix} x_{00}, x_{01} . . . x_{0 n} \\ x_{10}, x_{11} . . . x_{1 n} \\ x_{20}, x_{21} . . . x_{2 n} \\ x_{30}, x_{31} . . . x_{3 n} \\ . . . \\ x_{m 0}, x_{m 1} . . . x_{m n} \end{matrix}]

=

[\begin{matrix} x_{00} ², . . ., . . ., . . ., . . . \\ . . ., x_{11} ² . . . ., . . ., . . . \\ . . ., . . ., x_{33} ², . . ., \\ . . . \\ . . ., . . ., . . ., . . ., x_{m n} ² \end{matrix}]

L os s^{^{''}} = \frac{d ( 2 X X ^{T} W - 2 X Y ^{T} )}{W} = 2 X X^{T} = 2 * x_{00}, x_{10} ... x_{m 0} x_{01}, x_{11} ... x_{m 1} x_{02}, x_{12} ... x_{m 2} x_{03}, x_{13} ... x_{m 3} ... x_{0 n}, x_{1 n} ... x_{mn} x_{00}, x_{01} ... x_{0 n} x_{10}, x_{11} ... x_{1 n} x_{20}, x_{21} ... x_{2 n} x_{30}, x_{31} ... x_{3 n} ... x_{m 0}, x_{m 1} ... x_{mn} = x_{00}^{2}, ..., ..., ..., ... ..., x_{11}^{2} ...., ..., ... ..., ..., x_{33}^{2}, ..., ... ..., ..., ..., ..., x_{mn}^{2}

由于主元全为正数，且矩阵对称，因此二阶导数矩阵为正定实对称矩阵，特征值全大于0

马马虎虎…地…对于正定矩阵、实对称矩阵已经懵圈

在这里插入图片描述

2.3 迭代近似解-梯度下降法

参数迭代公式： $w_{k+1} = w_k-η*\frac{d(Loss_k)}{dw_k}$

沿着梯度的方向，正常情况下，Loss值会逐渐减小。
但当达到最小值后，下一次迭代，Loss值就会逐渐变大，因此当迭代后的Loss值比上次迭代的Loss值大，即 $Loss_{k+1}>Loss_{k}$ 就停止迭代。并取上次迭代的Loss值（即 $Loss_k$ )作为最终损失函数值，以上次迭代的 $W_k$ 参数，为模型参数。

但有时迭代次数过大，会导致训练很久很久很久，因此，可以设置一个最大迭代次数。

当迭代次数超过最大迭代次数后，仍未找到极值点 $Loss_k$ ，则停止迭代。（可修改参数初始值或学习率后，重新训练）

因此，迭代停止的条件为两个：
$Loss_{k+1}>Loss_{k}$ 或超过最大迭代次数

不过！！！ $Loss_{k+1}>Loss_{k}$ 并不意味着取到极小值，因为又可能迭代步长过长，使Loss超过极值点，因此，一般可以限制一个Loss差值范围，但这个差值范围要设置为多少呢？？？
这又是一门学问了，我还不懂、、、、

另外，有可能出现反复震荡，无法收敛到极小值的现象，那怎么办。。。凉拌

简单点：迭代停止的条件为-超过最大迭代次数，或迭代后的 $Loss_{k+1}>Loss_{k}$

3. 手动代码实现

# 1. 建立模型:多元线性回归模型
rows,columns = X.shape
X = np.array(X)
W = np.zeros(columns+1)
X_0 = np.ones((rows,1))
X = np.concatenate((X_0,X),axis=1)
Y_hat = np.matmul(X,W.T) # 创建多元线性回归模型
# print(Y.shape,Y_hat.shape)
# 2. 学习模型：损失函数模型+优化算法
# 求导法
def learn_model(X,Y,Y_hat):
    W = np.matmul((np.matmul(X.T,X))**-1,np.matmul(X.T,Y))
    Y_hat = np.matmul(X,W.T)
    Loss = np.sum((Y - Y_hat) *(Y - Y_hat))
    print("——————————求导法——————————")
    print(f'模型参数W为：{W}')
    print(f"最终损失值为{round(Loss, 2)}")

    return W,Loss,Y_hat
# 梯度下降法
def gradient_down(Y_hat,W):
    Loss1 = np.sum((Y - Y_hat) *(Y - Y_hat))
    Loss = np.sum((Y - Y_hat) *(Y - Y_hat))
    η = 0.01 # np.arange([0.1 for i in range(columns)]) # 设置学习率η
    times = 30
    # Y_hat = X*(W.T)
    while Loss1 <= Loss and times!=0:
        Loss = Loss1
        gradient = 2*np.matmul(np.matmul(X.T,X),W) - 2*np.matmul(X.T,Y)
        W = W - η * gradient
        Y_hat = np.matmul(X,W.T)
        Loss1 = np.sum((Y - Y_hat) *(Y - Y_hat))
        # print(f"第{31-times}次迭代，损失值为：{round(Loss,2)}")
        times -= 1
    print("——————————迭代法——————————")
    print(f"最终迭代次数为{30-times}，损失值为{round(Loss,2)}")
    print(f'模型参数W为：{W}')
learn_model(X,Y,Y_hat)
gradient_down(Y_hat,W)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39

在这里插入图片描述

3.1 求导法的实践问题

我不理解！！！！！！！为什么求导法得出的LOSS值，居然大于梯度下降法迭代1次的Loss值
why???
what’s wrong with my 程序。。。。

虽然没有进行归一化处理。。。但也不至于这么个结果啊！
于是，进行一下归一化处理

# 归一化处理
datas_1 = (datas_1-datas_1.min())/(datas_1.max()-datas_1.min())
1
2

在这里插入图片描述

I don’t understand

实际进行多元线性回归时，是不需要进行归一化的。因为预测Y的实值 $\hat{Y}=XW^T$ ，对X归一化后，数值大小发生了改变，预测出的实值也不再是原本的数值大小。

就像是原本收益Y一般是1000的，归一化后预测就会变得非常小，例如0.9

猜想：迭代法的 $W=(X^TX)^{-1}(X^TY)$ ，要求 $X^TX)^{-1}$ 是满秩矩阵，但实际数据的 $X^TX)^{-1}$ 并不是满秩矩阵，但numpy也能求出非满秩矩阵的逆矩阵，猜测，可以是伪逆矩阵求解。。。。【不懂，我胡说八道…】

总之，求导法实际不太可行。

3.1 梯度下降法的实践问题

梯度下降法有个很大的问题，很大很大的问题，学习率η的选取问题！！！！big problem

唉，懒得复盘了

η小小的改变，迭代效果差距非常大！！！！！！！！

看网上说，η也应该随着切线斜率同步改变的，但是。。。。。懒得想了

还不如直接就多运行几次，慢慢调整一下η的值就好

在这里插入图片描述
对比一下手动训练模型和sklearn训练模型的速度

查了一下sklearn的官方文档，说是用随机梯度下降法，但具体的实现没有曝光
但是，sklearn的速度好快啊！！！！！我…是它的670倍。。。。。。。。

呵呵。。。调包侠岂不是更快活！！！
在这里插入图片描述

import pandas as pd
import numpy as np
from sklearn import linear_model
import time
import matplotlib.pyplot as plt

# 获取所需数据：'推荐分值', '专业度','回复速度','用户群活跃天数'
datas = pd.read_excel('./datas1.xlsx')
important_features = ['推荐分值', '辅导老师专业度','回复速度','群活跃天数']
datas_1 = datas[important_features]

# 明确实值Y为'推荐分值'，X分别为'专业度','回复速度','用户群活跃天数'
Y = datas_1['推荐分值']
X_original = datas_1.drop('推荐分值',axis=1)

# 1. 建立模型:多元线性回归模型
rows,columns = X_original.shape
X_original = np.array(X_original)
X_0 = np.ones((rows,1))
X = np.concatenate((X_0,X_original),axis=1)
# 计时器：这是计时装饰器函数，参数 func 是被装饰的函数
def cal_time(func):
    def wrapper(*args, **kw):
        start_time = time.time()
        func(*args, **kw)
        end_time = time.time()
        print(f'用时：{end_time-start_time}秒\n')
    return wrapper
# 2. 学习模型：损失函数模型+优化算法
# 求导法
@cal_time
def learn_model():
    W = np.matmul((np.matmul(X.T,X))**-1,np.matmul(X.T,Y))
    Y_hat = np.matmul(X,W.T)
    Loss = np.sum((Y - Y_hat) *(Y - Y_hat))
    print("——————————手动：求导法——————————")
    print(f'模型参数W为：{W}')
    print(f"最终损失值为{round(Loss, 2)}")
    return W,Loss,Y_hat


# 梯度下降法
@cal_time
def gradient_down():
    W0 = np.zeros(columns + 1)
    Y_hat = np.matmul(X, W0.T)  # 创建多元线性回归模型
    Loss0 = np.sum((Y - Y_hat) *(Y - Y_hat))
    a = 0.00002 # 设置学习率a
    times = 10000000
    num = 0
    while num <= times:
        gradient = 2*np.matmul(np.matmul(X.T,X),W0) - 2*np.matmul(X.T,Y)
        W1 = W0 - a * gradient
        Y_hat = np.matmul(X,W1.T)
        Loss1 = np.sum((Y - Y_hat) *(Y - Y_hat))
        if Loss1 > Loss0:
            break
        # print(f"第{num+1}次迭代，损失值为：{round(Loss0,2)}")
        num += 1
        Loss0 = Loss1
        W0 = W1
    print("——————————手动：梯度下降法——————————")
    print(f'模型参数W为：{W0}')
    print(f"最终迭代次数为{num+1}，损失值为{round(Loss0,2)}")

# sklearn的坐标下降法
@cal_time
def sklearn_mulreg():
    # 1. 建立模型
    reg = linear_model.LinearRegression()

    # 2. 学习模型
    reg.fit(X_original, Y)
    w = reg.coef_
    b = reg.intercept_


    print("——————————sklearn:随机梯度下降法——————————")
    print(f'模型参数W为：{w,b}')
    Y_hat = np.matmul(X_original, w)+b
    Loss = np.sum((Y - Y_hat) * (Y - Y_hat))
    print(f"加了正则化，最终损失值为{round(Loss,2)}")

learn_model()
gradient_down()
sklearn_mulreg()


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88

相关阅读:
JS07_回调函数与异步编程
使用 Tailwind CSS 自定义基础样式层
算法学习杂谈
羧甲基荧光素6-FAM修饰聚缩醛Polyacetal/HA透明质酸纳米载体6-FAM-Polyacetal|6-FAM-HA（齐岳）
身份认证与提权攻击中的专属名词与缩略语整理
Rust基础知识讲解
Java 8的18个常用日期处理
软件项目管理==风险计划
支持向量机--svm.SVC类
GitHub 报告发布：TypeScript 取代 Java 成为第三受欢迎语言

原文地址：https://blog.csdn.net/weixin_50348308/article/details/130861622