最小二乘法(Least Squares Method)是一种统计方法,用于通过最小化观测数据与模型预测值之间的误差平方和来拟合数据。这种方法广泛应用于回归分析中,尤其是在线性回归模型中。
最小二乘法的基本思想是找到模型参数,使得预测值与实际观测值之间的误差平方和最小。对于线性回归模型,假设我们有一组数据点 ( x i , y i ) (x_i, y_i) (xi,yi),线性模型可以表示为:
y i = β 0 + β 1 x i + ϵ i y_i = \beta_0 + \beta_1 x_i + \epsilon_i yi=β0+β1xi+ϵi
其中, y i y_i yi 是因变量, x i x_i xi 是自变量, β 0 \beta_0 β0 和 β 1 \beta_1 β1 是需要估计的参数, ϵ i \epsilon_i ϵi 是误差项。
最小二乘法的目标是最小化以下目标函数:
S ( β 0 , β 1 ) = ∑ i = 1 n ( y i − ( β 0 + β 1 x i ) ) 2 S(\beta_0, \beta_1) = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_i))^2 S(β0,β1)=i=1∑n(yi−(β0+β1xi))2
通过求解 β 0 \beta_0 β0 和 β 1 \beta_1 β1,使得目标函数 S ( β 0 , β 1 ) S(\beta_0, \beta_1) S(β0,β1) 最小化,从而得到最佳拟合直线。
偏导数:对目标函数分别对
β
0
\beta_0
β0 和
β
1
\beta_1
β1 求偏导数,并设偏导数为零,得到一组方程:
∂
S
∂
β
0
=
−
2
∑
i
=
1
n
(
y
i
−
(
β
0
+
β
1
x
i
)
)
=
0
\frac{\partial S}{\partial \beta_0} = -2 \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_i)) = 0
∂β0∂S=−2i=1∑n(yi−(β0+β1xi))=0
∂
S
∂
β
1
=
−
2
∑
i
=
1
n
x
i
(
y
i
−
(
β
0
+
β
1
x
i
)
)
=
0
\frac{\partial S}{\partial \beta_1} = -2 \sum_{i=1}^{n} x_i (y_i - (\beta_0 + \beta_1 x_i)) = 0
∂β1∂S=−2i=1∑nxi(yi−(β0+β1xi))=0
解方程组:解上述方程组,得到
β
0
\beta_0
β0 和
β
1
\beta_1
β1 的估计值:
β
1
=
n
∑
i
=
1
n
x
i
y
i
−
∑
i
=
1
n
x
i
∑
i
=
1
n
y
i
n
∑
i
=
1
n
x
i
2
−
(
∑
i
=
1
n
x
i
)
2
\beta_1 = \frac{n \sum_{i=1}^{n} x_i y_i - \sum_{i=1}^{n} x_i \sum_{i=1}^{n} y_i}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2}
β1=n∑i=1nxi2−(∑i=1nxi)2n∑i=1nxiyi−∑i=1nxi∑i=1nyi
β
0
=
y
ˉ
−
β
1
x
ˉ
\beta_0 = \bar{y} - \beta_1 \bar{x}
β0=yˉ−β1xˉ
其中,
x
ˉ
\bar{x}
xˉ 和
y
ˉ
\bar{y}
yˉ 分别是
x
i
x_i
xi 和
y
i
y_i
yi 的均值。
优点:
局限性:
最小二乘法作为一种基本的统计方法,广泛应用于各个领域的数据分析和模型构建中,通过最小化误差平方和,实现数据的最佳拟合。