线性模型既能体现出重要的基本思想,又能构造出功能更加强大的非线性模型
线性模型假设输出变量是若干输入变量的线性组合,并根据这一关系求解线性组合的最优系数
最小二乘法可用于解决单变量线性回归问题,当误差函数服从正态分布时,与最大似然估计等价
多元回归问题也可以用最小二乘法求解,但极易出现过拟合线性
D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x N , y N ) } , 其中, x i ∈ R n , y i ∈ R , D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\},其中,x_i\in R^n,y_i\in R, D={(x1,y1),(x2,y2),⋯,(xN,yN)},其中,xi∈Rn,yi∈R,
即训练数据集 D D D 中有 N N N 个数据,一个数据有 n n n 个特征

1875年,从事遗传问题研究的英国统计学家弗朗西斯·高尔顿正在寻找子代与父代身高之间的关系。
他发现数据散点图大致呈直线状态(父代身高与子代身高呈正相关关系)
高尔顿将这种现象称为 回归效应 ,即大自然将人类身高的分布约束在相对稳定并不产生两极分化的整体水平,并给出了历史上第一个线性回归的表达式: y = 0.516 x + 33.73 y=0.516x+33.73 y=0.516x+33.73
相关性分析:分析变量之间是否具有相关性
回归分析:寻找存在相关关系的变量间的数学表达式
回归分析步骤
具体分为四个方向:一元线性回归 、多元线性回归 、一元非线性回归 、多元线性回归
线性回归假设输出变量是若干输入变量的线性组合,并根据这一关系求解线性组合中的最优系数
训练数据集:
D
=
{
(
x
1
,
y
1
)
,
⋯
,
(
x
i
,
y
i
)
,
⋯
,
(
x
n
,
y
n
)
}
,
i
=
1
,
2
,
⋯
,
n
D=\{(x_1,y_1),\cdots,(x_i,y_i),\cdots,(x_n,y_n)\},i=1,2,\cdots,n
D={(x1,y1),⋯,(xi,yi),⋯,(xn,yn)},i=1,2,⋯,n

假设有线性函数
y
ω
(
x
)
=
ω
T
x
→
y
y_{\omega}(x)=\omega^Tx\rightarrow y
yω(x)=ωTx→y
y
ω
(
x
i
)
=
ω
T
x
i
,
i
=
1
,
2
,
⋯
,
n
ω
=
(
ω
0
ω
1
⋮
ω
j
⋮
ω
m
)
∈
R
m
,
x
i
=
(
1
x
i
(
1
)
⋮
x
i
(
j
)
⋮
x
i
(
m
)
)
∈
X
∈
R
m
,
j
=
1
,
2
,
⋯
,
m
y_{\omega}(x_i)=\omega^T x_i\quad ,i=1,2,\cdots,n\\ \omega=\left(ω0ω1⋮ωj⋮ωm\right)\in R^m,x_i= \left(1x(1)i⋮x(j)i⋮x(m)i\right)\in \mathcal{X}\in R^m\quad ,j=1,2,\cdots,m
yω(xi)=ωTxi,i=1,2,⋯,nω=
ω0ω1⋮ωj⋮ωm
∈Rm,xi=
1xi(1)⋮xi(j)⋮xi(m)
∈X∈Rm,j=1,2,⋯,m
x
i
x_i
xi 表示第
i
i
i 个样本,
x
i
(
j
)
x_i^{(j)}
xi(j) 表示第
i
i
i 个样本的第
j
j
j 个特征值,
ω
j
\omega_j
ωj 理解为每个特征的相对权重 (weight)
ω 0 \omega_0 ω0 也可记作 b b b ——bias 偏差
J ( ω ) J(\omega) J(ω) 为线性模型的损失函数,通过调整参数 ω \omega ω ,使得 J ( ω ) J(\omega) J(ω) 最小
y
ω
(
x
i
)
y_{\omega}(x_i)
yω(xi) 与
y
i
y_i
yi 之间有差异,用
y
ω
(
x
i
)
−
y
i
y_{\omega}(x_i)-y_i
yω(xi)−yi 表示这种差异。模型在训练数据集上的整体误差为
∑
i
=
1
n
[
y
ω
(
x
i
)
−
y
i
]
=
∑
i
=
1
n
[
y
^
i
−
y
i
]
=
Y
^
−
Y
\sum\limits_{i=1}^n[y_{\omega}(x_i)-y_i]=\sum\limits_{i=1}^n[\hat{y}_i-y_i]=\hat{Y}-Y
i=1∑n[yω(xi)−yi]=i=1∑n[y^i−yi]=Y^−Y
一般用最小二乘法优化损失,便于计算,即
J
(
ω
)
=
1
2
n
∑
i
=
1
n
(
y
ω
(
x
i
)
−
y
i
)
2
J(\omega)=\frac{1}{2n}\sum\limits_{i=1}^n \left(y_{\omega}(x_i)-y_i\right)^2
J(ω)=2n1i=1∑n(yω(xi)−yi)2
对于参数
ω
\omega
ω 的不同取值,损失函数有大有小。可通过对损失函数
J
(
ω
)
J(\omega)
J(ω) 最优化,找到损失函数最小的参数值
ω
\omega
ω
最优化问题为 min ω J ( ω ) = 1 2 n ∑ i = 1 n ( y ω ( x i ) − y i ) 2 \min\limits_{\omega}J(\omega)=\frac{1}{2n}\sum\limits_{i=1}^n \left(y_{\omega}(x_i)-y_i\right)^2 ωminJ(ω)=2n1i=1∑n(yω(xi)−yi)2


梯度控制方向
方向对于梯度下降问题影响较大,步长只决定在梯度方向上移动的距离

步长大,出现振荡

步长小,收敛慢
y ω = ω 1 x + ω 0 y_{\omega}=\omega_1x+\omega_0 yω=ω1x+ω0

{
ω
0
[
t
]
←
ω
0
[
t
−
1
]
−
α
∂
J
(
ω
)
∂
ω
0
ω
1
[
t
]
←
ω
1
[
t
−
1
]
−
α
∂
J
(
ω
)
∂
ω
1
{ω[t]0←ω[t−1]0−α∂J(ω)∂ω0ω[t]1←ω[t−1]1−α∂J(ω)∂ω1
{ω0[t]←ω0[t−1]−α∂ω0∂J(ω)ω1[t]←ω1[t−1]−α∂ω1∂J(ω)
代入线性回归模型损失函数
∂
J
(
ω
1
,
ω
0
)
∂
ω
0
=
∂
∂
ω
0
[
1
2
n
∑
i
=
1
n
(
y
ω
(
x
i
)
−
y
i
)
2
]
=
1
n
∑
i
=
1
n
(
y
ω
(
x
i
)
−
y
i
)
∂
J
(
ω
1
,
ω
0
)
∂
ω
1
=
∂
∂
ω
1
[
1
2
n
∑
i
=
1
n
(
y
ω
(
x
i
)
−
y
i
)
2
]
=
1
n
∑
i
=
1
n
(
y
ω
(
x
i
)
−
y
i
)
x
(
1
)
∂J(ω1,ω0)∂ω0=∂∂ω0[12nn∑i=1(yω(xi)−yi)2]=1nn∑i=1(yω(xi)−yi)∂J(ω1,ω0)∂ω1=∂∂ω1[12nn∑i=1(yω(xi)−yi)2]=1nn∑i=1(yω(xi)−yi)x(1)
∂ω0∂J(ω1,ω0)∂ω1∂J(ω1,ω0)=∂ω0∂[2n1i=1∑n(yω(xi)−yi)2]=n1i=1∑n(yω(xi)−yi)=∂ω1∂[2n1i=1∑n(yω(xi)−yi)2]=n1i=1∑n(yω(xi)−yi)x(1)
一般化梯度下降算法
y
ω
(
x
)
=
ω
T
x
=
∑
j
=
1
m
ω
j
x
(
j
)
y_{\omega}(x)=\omega^T x=\sum\limits_{j=1}^m\omega_j x^{(j)}
yω(x)=ωTx=j=1∑mωjx(j)
最优化损失函数有
ω
0
[
t
]
←
ω
0
[
t
−
1
]
−
α
∂
J
(
ω
)
∂
ω
0
=
ω
0
[
t
−
1
]
−
α
1
n
∑
i
=
1
n
(
y
ω
(
x
i
)
−
y
i
)
ω
j
[
t
]
←
ω
j
[
t
−
1
]
−
α
∂
J
(
ω
)
∂
ω
j
=
ω
j
[
t
−
1
]
−
α
1
n
∑
i
=
1
n
(
y
ω
(
x
i
)
−
y
i
)
x
(
j
)
\omega_0^{[t]}\leftarrow \omega_0^{[t-1]}-\alpha \frac{\partial J(\omega)}{\partial\omega_0}=\omega_0^{[t-1]}-\alpha \frac{1}{n}\sum\limits_{i=1}^n \left(y_{\omega}(x_i)-y_i\right)\\ \omega_j^{[t]}\leftarrow\omega_j^{[t-1]}-\alpha \frac{\partial J(\omega)}{\partial\omega_j}=\omega_j^{[t-1]}-\alpha\frac{1}{n}\sum\limits_{i=1}^n \left(y_{\omega}(x_i)-y_i\right)x^{(j)}
ω0[t]←ω0[t−1]−α∂ω0∂J(ω)=ω0[t−1]−αn1i=1∑n(yω(xi)−yi)ωj[t]←ωj[t−1]−α∂ωj∂J(ω)=ωj[t−1]−αn1i=1∑n(yω(xi)−yi)x(j)

通过归一化,使各特征维度均匀
x
(
j
)
←
x
(
j
)
m
a
x
(
x
(
j
)
)
−
m
i
n
(
x
(
j
)
)
x^{(j)}\leftarrow \frac{x^{(j)}}{max(x^{(j)})-min(x^{(j)})}
x(j)←max(x(j))−min(x(j))x(j)

x
(
j
)
←
x
(
j
)
−
x
‾
m
a
x
(
x
(
j
)
)
−
m
i
n
(
x
(
j
)
)
x^{(j)}\leftarrow \frac{x^{(j)}-\overline{x}}{max(x^{(j)})-min(x^{(j)})}
x(j)←max(x(j))−min(x(j))x(j)−x


f ′ ( x 0 ) = f ( x 0 ) Δ x = f ( x 0 ) x 0 − x 1 x 0 − x 1 = f ( x 0 ) f ′ ( x 0 ) x 1 = x 0 − f ( x 0 ) f ′ ( x 0 ) x 2 = x 1 − f ( x 1 ) f ′ ( x 1 ) ⋮ x t = x t − 1 − f ( x t − 1 ) f ′ ( x t − 1 ) f'(x_0)=\frac{f(x_0)}{\Delta x}=\frac{f(x_0)}{x_0-x_1}\\ x_0-x_1=\frac{f(x_0)}{f'(x_0)}\\ x_1=x_0-\frac{f(x_0)}{f'(x_0)}\\ x_2=x_1-\frac{f(x_1)}{f'(x_1)}\\ \vdots\\ x_t=x_{t-1}-\frac{f(x_{t-1})}{f'(x_{t-1})} f′(x0)=Δxf(x0)=x0−x1f(x0)x0−x1=f′(x0)f(x0)x1=x0−f′(x0)f(x0)x2=x1−f′(x1)f(x1)⋮xt=xt−1−f′(xt−1)f(xt−1)
适用于严格凸函数
可能存在局部最优情况

垂直距离 p p p 与竖直距离 v v v ,在斜率为 t a n α = k tan\alpha=k tanα=k 前提下, p = v c o s α p=vcos\alpha p=vcosα
即最小二乘法精确的垂直距离可以用竖直距离代替,即函数值相减
对于一元回归模型 y ω ( x ) = ω 1 x 1 + ω 0 y_{\omega}(x)=\omega_1x_1+\omega_0 yω(x)=ω1x1+ω0
最小二乘法损失函数 L ( ω 1 , ω 0 ) = 1 2 n ∑ i = 1 n ∥ ω 1 x i ( 1 ) + ω 0 − y i ∥ 2 2 L(\omega_1,\omega_0)=\frac{1}{2n}\sum\limits_{i=1}^n\Vert \omega_1x_i^{(1)}+\omega_0-y_i\Vert^2_2 L(ω1,ω0)=2n1i=1∑n∥ω1xi(1)+ω0−yi∥22
由最优化理论,令
∂
L
∂
ω
0
=
0
,
∂
L
∂
ω
1
=
0
\frac{\partial L}{\partial \omega_0}=0,\frac{\partial L}{\partial \omega_1}=0
∂ω0∂L=0,∂ω1∂L=0
∂
L
∂
ω
0
=
1
n
∑
i
=
1
n
(
ω
1
x
i
(
1
)
+
ω
0
−
y
i
)
=
0
⇒
∑
i
=
1
n
ω
0
=
∑
i
=
1
n
(
y
i
−
ω
1
x
i
(
1
)
)
⇒
ω
0
=
1
n
∑
i
=
1
n
(
y
i
−
ω
1
x
i
(
1
)
)
∂L∂ω0=1nn∑i=1(ω1x(1)i+ω0−yi)=0⇒n∑i=1ω0=n∑i=1(yi−ω1x(1)i)⇒ω0=1nn∑i=1(yi−ω1x(1)i)
∂ω0∂L=n1i=1∑n(ω1xi(1)+ω0−yi)=0⇒i=1∑nω0=i=1∑n(yi−ω1xi(1))⇒ω0=n1i=1∑n(yi−ω1xi(1))
∂ L ∂ ω 1 = 1 n ∑ i = 1 n ( ω 1 x i ( 1 ) + ω 0 − y i ) x i ( 1 ) = 0 ⇒ ω 1 ∑ i = 1 n [ x i ( 1 ) ] 2 + ω 0 ∑ i = 1 n x i ( 1 ) − ∑ i = 1 n y i x i ( 1 ) = 0 ⇒ ω 1 ∑ i = 1 n [ x i ( 1 ) ] 2 + 1 n ∑ i = 1 n ( y i − ω 1 x i ( 1 ) ) ∑ i = 1 n x i ( 1 ) − ∑ i = 1 n y i x i ( 1 ) = 0 ⇒ ω 1 { ∑ i = 1 n x i 2 − 1 n ( ∑ i = 1 n x i ) 2 } = ∑ i = 1 n y i ( x i − 1 n ∑ i = 1 n x i ) ⇒ ω 1 = ∑ i = 1 n y i ( x i − 1 n ∑ i = 1 n x i ) ∑ i = 1 n x i 2 − 1 n ( ∑ i = 1 n x i ) 2 ∂L∂ω1=1nn∑i=1(ω1x(1)i+ω0−yi)x(1)i=0⇒ω1n∑i=1[x(1)i]2+ω0n∑i=1x(1)i−n∑i=1yix(1)i=0⇒ω1n∑i=1[x(1)i]2+1nn∑i=1(yi−ω1x(1)i)n∑i=1x(1)i−n∑i=1yix(1)i=0⇒ω1{n∑i=1x2i−1n(n∑i=1xi)2}=n∑i=1yi(xi−1nn∑i=1xi)⇒ω1=n∑i=1yi(xi−1nn∑i=1xi)n∑i=1x2i−1n(n∑i=1xi)2 ∂ω1∂L=n1i=1∑n(ω1xi(1)+ω0−yi)xi(1)=0⇒ω1i=1∑n[xi(1)]2+ω0i=1∑nxi(1)−i=1∑nyixi(1)=0⇒ω1i=1∑n[xi(1)]2+n1i=1∑n(yi−ω1xi(1))i=1∑nxi(1)−i=1∑nyixi(1)=0⇒ω1⎩ ⎨ ⎧i=1∑nxi2−n1(i=1∑nxi)2⎭ ⎬ ⎫=i=1∑nyi(xi−n1i=1∑nxi)⇒ω1=i=1∑nxi2−n1(i=1∑nxi)2i=1∑nyi(xi−n1i=1∑nxi)
损失函数构造
n
n
n 个数据表示为
{
ω
0
+
ω
1
x
1
(
1
)
+
⋯
+
ω
n
x
1
(
m
)
=
y
ω
(
x
1
)
ω
0
+
ω
1
x
2
(
1
)
+
⋯
+
ω
n
x
2
(
m
)
=
y
ω
(
x
2
)
⋮
ω
0
+
ω
n
x
1
(
1
)
+
⋯
+
ω
n
x
n
(
m
)
=
y
ω
(
x
n
)
{ω0+ω1x(1)1+⋯+ωnx(m)1=yω(x1)ω0+ω1x(1)2+⋯+ωnx(m)2=yω(x2)⋮ω0+ωnx(1)1+⋯+ωnx(m)n=yω(xn)
⎩
⎨
⎧ω0+ω1x1(1)+⋯+ωnx1(m)=yω(x1)ω0+ω1x2(1)+⋯+ωnx2(m)=yω(x2)⋮ω0+ωnx1(1)+⋯+ωnxn(m)=yω(xn)
表示为矩阵形式为
[
1
x
1
(
1
)
x
1
(
2
)
⋯
x
1
(
m
)
1
x
2
(
1
)
x
2
(
2
)
⋯
x
2
(
m
)
⋮
⋮
⋮
⋱
⋮
1
x
n
(
1
)
x
n
(
2
)
⋯
x
n
(
m
)
]
(
ω
0
ω
1
ω
2
⋮
ω
m
)
=
(
y
ω
(
x
1
)
y
ω
(
x
2
)
⋮
y
ω
(
x
n
)
)
⇒
X
ω
=
Y
^
\left[ 1x(1)1x(2)1⋯x(m)11x(1)2x(2)2⋯x(m)2⋮⋮⋮⋱⋮1x(1)nx(2)n⋯x(m)n \right]\left( ω0ω1ω2⋮ωm \right)=\left( yω(x1)yω(x2)⋮yω(xn) \right)\Rightarrow X\omega = \hat{Y}
11⋮1x1(1)x2(1)⋮xn(1)x1(2)x2(2)⋮xn(2)⋯⋯⋱⋯x1(m)x2(m)⋮xn(m)
ω0ω1ω2⋮ωm
=
yω(x1)yω(x2)⋮yω(xn)
⇒Xω=Y^
优化问题变为
S
=
∥
X
ω
−
Y
∥
2
2
S=\Vert X\omega-Y\Vert_2^2
S=∥Xω−Y∥22 ,即求
S
S
S 的最小化
ω
^
=
a
r
g
min
ω
∥
X
ω
−
Y
∥
2
2
\hat{\omega}=arg\min\limits_{\omega}\Vert X\omega-Y\Vert_2^2
ω^=argωmin∥Xω−Y∥22
LMS最优化
∥
X
ω
−
Y
∥
2
2
=
(
X
ω
−
Y
)
T
(
X
ω
−
Y
)
=
(
ω
T
X
T
−
Y
T
)
(
X
ω
−
Y
)
=
ω
T
X
T
X
ω
−
ω
T
X
T
Y
−
Y
T
X
ω
+
Y
T
Y
=
(
ω
T
X
T
Y
)
1
×
m
×
m
×
n
×
n
×
1
为标量
ω
T
X
T
X
ω
−
2
ω
T
X
T
Y
+
Y
T
Y
‖
∥Xω−Y∥22=(Xω−Y)T(Xω−Y)=(ωTXT−YT)(Xω−Y)=ωTXTXω−ωTXTY−YTXω+YTY(ωTXTY)1×m×m×n×n×1为标量ωTXTXω−2ωTXTY+YTY
令
∂
S
∂
ω
=
0
\frac{\partial S}{\partial \omega}=0
∂ω∂S=0 ,有
∂
(
ω
T
X
T
X
ω
−
2
ω
T
X
T
Y
+
Y
T
Y
)
∂
ω
=
∂
(
ω
T
X
T
X
ω
)
∂
ω
−
2
X
T
Y
\frac{\partial (\omega^TX^TX\omega-2\omega^TX^TY+Y^TY)}{\partial \omega}=\frac{\partial(\omega^TX^TX\omega)}{\partial \omega}-2X^TY
∂ω∂(ωTXTXω−2ωTXTY+YTY)=∂ω∂(ωTXTXω)−2XTY
引理:
d
(
u
T
v
)
d
x
\frac{d(u^Tv)}{dx}
dxd(uTv)
d
(
u
T
v
)
d
x
=
d
u
T
d
x
v
+
d
v
T
d
x
u
d
(
x
T
B
x
)
d
x
=
d
x
T
d
x
B
x
+
d
(
x
T
B
T
)
d
x
x
=
B
x
+
B
T
x
=
(
B
+
B
T
)
x
∴
∂
(
ω
T
X
T
X
ω
)
∂
ω
=
(
X
T
X
+
X
T
X
)
ω
=
2
X
T
X
ω
\frac{d(u^Tv)}{dx}=\frac{du^T}{dx}v+\frac{dv^T}{dx}u\\ \frac{d(x^TBx)}{dx}=\frac{dx^T}{dx}Bx+\frac{d(x^TB^T)}{dx}x=Bx+B^Tx=(B+B^T)x\\ \therefore \frac{\partial(\omega^TX^TX\omega)}{\partial \omega}=(X^TX+X^TX)\omega=2X^TX\omega
dxd(uTv)=dxduTv+dxdvTudxd(xTBx)=dxdxTBx+dxd(xTBT)x=Bx+BTx=(B+BT)x∴∂ω∂(ωTXTXω)=(XTX+XTX)ω=2XTXω
对于最优化问题
∂
S
∂
ω
=
2
X
T
X
ω
−
2
X
T
Y
=
0
⇒
X
T
X
ω
=
X
T
Y
ω
^
=
(
X
T
X
)
−
1
X
T
Y
\frac{\partial S}{\partial \omega}=2X^TX\omega-2X^TY=0\Rightarrow X^TX\omega=X^TY\\ \hat{\omega}=(X^TX)^{-1}X^TY
∂ω∂S=2XTXω−2XTY=0⇒XTXω=XTYω^=(XTX)−1XTY
由于 X ∈ R n × m X\in R^{n\times m} X∈Rn×m , X T X ∈ R m × m X^TX\in R^{m\times m} XTX∈Rm×m ,
若
m
>
n
m>n
m>n ,根据秩的关系
r
(
X
T
X
)
≤
r
(
X
)
≤
n
<
m
r(X^TX)\le r(X)\le n
解决方法
随机梯度为0
不用LMS
降维,使得 m ≤ n m\le n m≤n
正则化项——岭回归
约束具有共线性的维度,使其权重不要太大
LMS计算量来源于计算求逆的计算量
梯度下降存在局部收敛问题,收敛速度满,步长的选取
最优实践,普通线性模型,数据量不超过百万级,可以不用梯度下降



对于数据集 D = { ( 0 , 2 ) , ( 1 , 2 ) , ( 2 , 3 ) } D=\{(0,2),(1,2),(2,3)\} D={(0,2),(1,2),(2,3)}
线性回归模型为
(
0
,
2
)
→
X
⋅
0
+
b
=
2
(
1
,
2
)
→
X
⋅
1
+
b
=
2
(
2
,
3
)
→
X
⋅
2
+
b
=
3
(0,2)\rightarrow X\cdot 0+b=2\\ (1,2)\rightarrow X\cdot 1+b=2\\ (2,3)\rightarrow X\cdot 2+b=3
(0,2)→X⋅0+b=2(1,2)→X⋅1+b=2(2,3)→X⋅2+b=3
即有
[
0
1
1
1
2
1
]
[
a
b
]
=
[
2
2
3
]
[
α
1
,
α
2
]
ω
=
y
^
{
y
^
=
X
ω
e
=
y
−
y
^
=
y
−
X
ω
\left[ \right]\left[\right]=\left[\right]\\\\ [\alpha_1,\alpha_2]\omega=\hat{y}\\\\
012111
[ab]=
223
[α1,α2]ω=y^{y^=Xωe=y−y^=y−Xω

由几何可知
{
e
⋅
α
1
=
0
e
⋅
α
2
=
0
⇒
{
α
1
T
⋅
e
=
0
α
2
T
⋅
e
=
0
⇒
X
T
e
=
0
\Rightarrow \Rightarrow X^Te=0
{e⋅α1=0e⋅α2=0⇒{α1T⋅e=0α2T⋅e=0⇒XTe=0
故有
X
T
(
y
−
y
^
)
=
X
T
(
y
−
X
ω
)
=
X
T
y
−
X
T
X
ω
=
0
ω
=
(
X
T
X
)
−
1
X
T
y
X^T(y-\hat{y})=X^T(y-X\omega)=X^Ty-X^TX\omega=0\\ \omega=(X^TX)^{-1}X^Ty
XT(y−y^)=XT(y−Xω)=XTy−XTXω=0ω=(XTX)−1XTy
从 概率论 的角度解释,线性回归得到的是统计意义上的拟合结果,在单变量的情形下,可能一个样本点都没有落在求得的直线上
对上述现象的解释是:回归结果可以完美匹配理想样本点的分布,但训练中使用的真实样本点是理想样本点和噪声叠加的结果,因而与回归模型之间产生了偏差,每个样本点上噪声的取值等于 y i = ω T x i + ε i y_i=\omega^Tx_i+\varepsilon_i yi=ωTxi+εi
设
ε
i
=
y
i
−
ω
T
x
i
\varepsilon_i=y_i-\omega^Tx_i
εi=yi−ωTxi 服从
(
0
,
σ
2
)
(0,\sigma^2)
(0,σ2) 的正态分布,即
p
(
ε
i
)
=
1
2
π
σ
e
−
ε
i
2
2
σ
2
p(\varepsilon_i)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\varepsilon_i^2}{2\sigma^2}}
p(εi)=2πσ1e−2σ2εi2

这意味着噪声等于0的概率密度最大。

在这种情况下,对参数
w
w
w 的推导就可以用 最大似然估计 进行,即在已知样本数据及其分布的条件下,找到使样本数据以最大概率出现的参数假设
w
w
w ,
y
i
∼
N
(
f
(
x
i
;
ω
)
,
σ
2
)
y_i\sim N(f(x_i;\omega),\sigma^2)
yi∼N(f(xi;ω),σ2)
p
(
y
i
∣
x
i
,
ω
)
=
1
2
π
σ
e
−
(
y
i
−
ω
T
x
i
)
2
2
σ
2
p(y_i\vert x_i,\omega)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y_i-\omega^Tx_i)^2}{2\sigma^2}}
p(yi∣xi,ω)=2πσ1e−2σ2(yi−ωTxi)2
在假设每个样本独立同分布的前提下,似然概率写作
L
(
ω
)
=
L
(
ω
∣
X
,
Y
)
=
P
(
x
1
,
x
2
,
⋯
,
x
n
∣
w
)
=
∏
i
n
1
2
π
σ
e
−
(
y
i
−
w
T
x
i
)
2
2
σ
2
L(\omega)=L(\omega\vert X,Y)=P(x_1,x_2,\cdots,x_n\vert w)=\prod\limits_{i}^n\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}}
L(ω)=L(ω∣X,Y)=P(x1,x2,⋯,xn∣w)=i∏n2πσ1e−2σ2(yi−wTxi)2
最大似然估计的任务就是让上述表达式的取值最大化。为便于计算,对似然概率取对数
l
n
L
(
ω
)
=
ln
P
(
x
1
,
x
2
,
⋯
,
x
n
∣
w
)
=
−
∑
i
n
[
ln
2
π
σ
+
(
y
i
−
w
T
x
i
)
2
2
σ
2
]
lnL(\omega)=\ln P(x_1,x_2,\cdots,x_n\vert w)=-\sum\limits_{i}^n\left[\ln \sqrt{2\pi}\sigma+\frac{(y_i-w^Tx_i)^2}{2\sigma^2}\right]
lnL(ω)=lnP(x1,x2,⋯,xn∣w)=−i∑n[ln2πσ+2σ2(yi−wTxi)2]
令
∂
l
n
L
(
ω
)
∂
ω
=
0
\frac{\partial lnL(\omega)}{\partial \omega}=0
∂ω∂lnL(ω)=0 ,有
∂
∂
ω
∑
i
=
1
n
(
y
i
−
w
T
x
i
)
2
=
0
\frac{\partial}{\partial\omega}\sum\limits_{i=1}^n(y_i-w^Tx_i)^2=0
∂ω∂i=1∑n(yi−wTxi)2=0
即似然概率的最大化等效为
∑
k
=
1
n
(
w
T
x
k
−
y
k
)
2
\sum\limits_{k=1}^n(w^Tx_k-y_k)^2
k=1∑n(wTxk−yk)2 的最小化
得到解为
ω
=
(
X
T
X
)
−
1
X
y
\omega=(X^TX)^{-1}Xy
ω=(XTX)−1Xy
将参数 ω \omega ω 看做随机变量
目标:给定一组观测数据,求参数 ω \omega ω 的最大后验分布 p ( ω ∣ X ) p(\omega\vert X) p(ω∣X)
采用贝叶斯估计的线性回归称为贝叶斯线性回归
p
(
ω
∣
x
,
y
;
ν
,
σ
)
=
p
(
ω
,
y
∣
x
;
ν
,
σ
)
∑
ω
p
(
ω
,
y
∣
x
;
ν
,
σ
)
∝
p
(
y
∣
x
,
ω
;
σ
)
p
(
ω
;
ν
)
后验概率
=
似然概率
⋅
先验概率
N
(
ω
;
0
,
ν
2
I
)
log
p
(
ω
∣
x
,
y
;
ν
,
σ
)
∝
log
p
(
y
∣
x
,
ω
;
σ
)
+
log
p
(
ω
;
ν
)
∝
−
1
2
σ
2
∑
i
n
(
y
i
−
w
T
x
i
)
2
−
1
2
ν
2
ω
T
ω
=
−
1
2
σ
2
∥
y
−
ω
T
⋅
x
∥
2
−
1
2
ν
2
ω
T
ω
正则化系数
λ
=
σ
2
ν
2
R
s
r
m
∝
−
σ
2
log
p
(
ω
∣
x
,
y
;
ν
,
σ
)
=
1
2
∥
y
−
ω
T
⋅
x
∥
2
+
λ
2
∥
ω
∥
2
2
p(ω∣x,y;ν,σ)后验概率logp(ω∣x,y;ν,σ)正则化系数λRsrm=∑ωp(ω,y∣x;ν,σ)p(ω,y∣x;ν,σ)∝p(y∣x,ω;σ)p(ω;ν)=似然概率⋅先验概率N(ω;0,ν2I)∝logp(y∣x,ω;σ)+logp(ω;ν)∝−2σ21i∑n(yi−wTxi)2−2ν21ωTω=−2σ21∥y−ωT⋅x∥2−2ν21ωTω=ν2σ2∝−σ2logp(ω∣x,y;ν,σ)=21∥y−ωT⋅x∥2+2λ∥ω∥22
即由求解贝叶斯估计的最大后验概率变为最小二乘的求解


引入先验
在大量复杂的实际任务中,每个样本属性的数目甚至会超过训练集中的样本总数,此时求出的 ω ^ \hat{\omega} ω^ 不是唯一的,解的选择依赖于学习算法的归纳偏好
但无论怎样选择标准,存在多个最优解的问题不会改变,极易出现过拟合现象——正则化解决过拟合问题
即添加额外的惩罚项。根据使用的惩罚项不同,分为
其共同思想:通过惩罚项的引入抑制过拟合现象,以训练误差增加为代价换取测试误差下降
也称 参数衰减
岭回归实现正则化的方式是在原始均方误差的基础上,加一个待求解参数的二范数项,即最小化求解的对象变为
∥
y
i
−
w
T
x
i
∥
2
+
∥
Γ
w
∥
2
,
Γ
为季霍诺夫矩阵
\Vert y_i-w^Tx_i\Vert^2+\Vert \Gamma w\Vert^2,\Gamma为季霍诺夫矩阵
∥yi−wTxi∥2+∥Γw∥2,Γ为季霍诺夫矩阵
有优化问题
L
(
ω
)
=
J
(
ω
)
+
λ
∥
ω
∥
2
2
=
1
2
n
[
∑
i
=
1
n
(
ω
(
0
)
+
ω
(
1
)
x
i
(
1
)
+
⋯
+
ω
(
m
)
x
i
(
m
)
−
y
i
)
2
+
λ
∑
j
=
1
m
ω
(
j
)
2
]
⇒
ω
(
j
)
[
t
]
←
ω
(
j
)
[
t
−
1
]
−
α
∂
L
(
ω
)
∂
ω
j
=
ω
(
j
)
[
t
−
1
]
−
α
1
n
[
∑
i
=
1
n
(
y
ω
(
x
i
)
−
y
i
)
x
(
j
)
+
λ
ω
(
j
)
[
t
−
1
]
]
⇒
ω
(
j
)
[
t
]
←
(
1
−
α
λ
n
)
ω
(
j
)
[
t
−
1
]
−
α
1
n
∑
i
=
1
n
(
y
ω
(
x
i
)
−
y
i
)
x
(
j
)
L(ω)⇒⇒=J(ω)+λ∥ω∥22=2n1[i=1∑n(ω(0)+ω(1)xi(1)+⋯+ω(m)xi(m)−yi)2+λj=1∑mω(j)2]ω(j)[t]←ω(j)[t−1]−α∂ωj∂L(ω)=ω(j)[t−1]−αn1[i=1∑n(yω(xi)−yi)x(j)+λω(j)[t−1]]ω(j)[t]←(1−nαλ)ω(j)[t−1]−αn1i=1∑n(yω(xi)−yi)x(j)
即形式上,对于
X
T
X
X^TX
XTX 不可逆的情况,可以加正则项
ω
^
=
(
X
T
X
+
λ
I
′
)
−
1
X
T
y
\hat{\omega}=(X^TX+\lambda I')^{-1}X^Ty
ω^=(XTX+λI′)−1XTy
其中
I
′
=
(
0
1
⋱
1
)
=
(
0
0
0
I
)
(
n
+
1
)
×
(
n
+
1
)
I'=\left( \right)=\left( \right)_{(n+1)\times(n+1)}
I′=
01⋱1
=(000I)(n+1)×(n+1)
最小绝对缩减和选择算子(Least Absolute Shrinking and Selecting Operator)
通过将权重设为0,去除冗余特征,但由于
min
L
0
\min L_0
minL0 是一个离散函数,不好优化,选择
L
1
L_1
L1 代替
L
0
L_0
L0 作为惩罚项,即最小化求解的对象变为
∥
y
k
−
w
T
x
k
∥
2
+
λ
∥
w
∥
1
\Vert y_k-w^Tx_k\Vert^2+\lambda \Vert w\Vert_1
∥yk−wTxk∥2+λ∥w∥1
即损失函数变为
J
(
ω
)
=
1
2
∥
X
ω
−
Y
∥
2
2
+
λ
∥
ω
∥
1
=
1
2
∥
X
ω
−
Y
∥
2
2
+
λ
∑
j
=
1
m
∣
ω
(
j
)
∣
J(ω)=21∥Xω−Y∥22+λ∥ω∥1=21∥Xω−Y∥22+λj=1∑m∣ω(j)∣
注:


需要对每个维度都要进行搜索
线性组合



具体计算:
在一个特征方向上确定最优值,再确定其他方向

向右,损失函数减小;再向右,损失函数增大,则拐点为一个方向上最优值
多个特征方向同时调整
每一步考虑所有方向上的最优解

每一步都计算相应的损失函数




从最优化角度
岭回归:二范数惩罚项的作用在于优先选择范数较小的 w w w 。相当于在最小均方误差之外额外添加了一重约束条件,将最优解限制在高维空间内的一个球内
LASSO回归:引入稀疏性,降低了最优解 w w w 维度,使一部分参数的贡献度 w i = 0 w_i=0 wi=0 ,使得 w w w 中元素数目大大小于原始特征的数目
从概率角度看
岭回归是在 w i w_i wi 满足正态先验分布的条件下,用最大后验概率进行估计得到的结果
LASSO回归是在 w i w_i wi 满足拉普拉斯先验分布的条件下,用最大后验概率进行估计得到的结果
回归直线与各观测点的近似程度称为回归直线对数据的拟合优度
总平方和 SST :反映因变量的
n
n
n 个观察值与均值的总偏差
∑
i
=
1
n
(
y
i
−
y
‾
)
2
\sum\limits_{i=1}^n(y_i-\overline{y})^2
i=1∑n(yi−y)2
回归平方和 SSR :由于
x
x
x 与
y
y
y 的线性关系引起的
y
y
y 的变化部分(回归直线可解释部分造成的误差)
∑
i
=
1
n
(
y
^
i
−
y
‾
)
2
\sum\limits_{i=1}^n(\hat{y}_i-\overline{y})^2
i=1∑n(y^i−y)2
残差平方和 SSE :由于
x
x
x 与
y
y
y 的线性关系外的关系引起的
y
y
y 的变化部分(回归直线不可解释部分造成的误差)
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
\sum\limits_{i=1}^n(y_i-\hat{y}_i)^2
i=1∑n(yi−y^i)2
总平方和可以分解为回归平方和、残差平方和
S
S
T
=
S
S
R
+
S
S
E
SST=SSR+SSE
SST=SSR+SSE
∑
i
=
1
n
(
y
i
−
y
‾
)
2
=
∑
i
=
1
n
(
y
^
−
y
‾
)
2
+
∑
i
=
1
n
(
y
−
y
^
)
2
\sum\limits_{i=1}^n(y_i-\overline y)^2=\sum\limits_{i=1}^n(\hat{y}-\overline{y})^2+\sum\limits_{i=1}^n(y-\hat{y})^2
i=1∑n(yi−y)2=i=1∑n(y^−y)2+i=1∑n(y−y^)2
R 2 = S S R S S T = 回归平方 总平方和 = ∑ i = 1 n ( y ^ i − y ‾ ) 2 ∑ i = 1 n ( y i − y ‾ ) 2 = 1 − ∑ i = 1 n ( y i − y ^ ) 2 ∑ i = 1 n ( y i − y ‾ ) 2 R^2=\frac{SSR}{SST}=\frac{回归平方}{总平方和}=\frac{\sum\limits_{i=1}^n(\hat{y}_i-\overline{y})^2}{\sum\limits_{i=1}^n(y_i-\overline{y})^2}=1-\frac{\sum\limits_{i=1}^n(y_i-\hat{y})^2}{\sum\limits_{i=1}^n(y_i-\overline{y})^2} R2=SSTSSR=总平方和回归平方=i=1∑n(yi−y)2i=1∑n(y^i−y)2=1−i=1∑n(yi−y)2i=1∑n(yi−y^)2
理想情况 R 2 = 1 R^2=1 R2=1 ,残差平方和为 0 0 0(即整体误差完全由线性误差引起)回归方程完全可解释 x x x 与 y y y 的关系
由于回归方程是根据样本数据得到的,是否真实反映了变量 X X X 和 Y Y Y 之间的关系,需要通过检验后才可以确定
显著性检验包括两方面:
检验 X X X 和 Y Y Y 的线性关系是否显著,是否可用线性模型表示
将均方回归( MSR )和均方残差( MSE )进行比较,应用
F
F
F 检验来分析二者之间的差别是否显著
SSR 除以相应的自由度(参数个数 m)SSE 除以自由度(
n
−
m
−
1
n-m-1
n−m−1)线性误差 非线性误差 \frac{线性误差}{非线性误差} 非线性误差线性误差
若 ω = 0 \omega=0 ω=0 ,即所有回归系数与0无显著差异,则 y y y 与全体 x x x 的线性关系不显著
计算检验统计量
F
=
S
S
R
/
m
S
S
E
/
n
−
m
−
1
=
∑
i
=
1
n
(
y
^
i
−
y
‾
)
2
/
m
∑
i
=
1
n
(
y
−
y
^
)
2
/
n
−
m
−
1
=
M
S
R
M
S
E
∼
F
(
m
,
n
−
m
−
1
)
\\F=\frac{SSR/m}{SSE/n-m-1}=\frac{\sum\limits_{i=1}^n(\hat{y}_i-\overline{y})^2/m}{\sum\limits_{i=1}^n(y-\hat{y})^2/n-m-1}=\frac{MSR}{MSE}\sim F(m,n-m-1)
F=SSE/n−m−1SSR/m=i=1∑n(y−y^)2/n−m−1i=1∑n(y^i−y)2/m=MSEMSR∼F(m,n−m−1)
检验每个回归系数 ω \omega ω 与 0 0 0 是否有显著性差异,来判断 Y Y Y 与 X X X 之间是否有显著的线性关系
若 ω ≈ 0 \omega \approx0 ω≈0 则总体回归方程中不含 X X X 项,因此,变量 Y Y Y 与 X X X 之间不存在线性关系
若 ω ≠ 0 \omega \neq 0 ω=0 ,则变量 Y Y Y 与 X X X 有显著的线性关系
如:
ω ^ 1 \hat{\omega}_1 ω^1 是根据最小二乘法求出的样本统计量,服从正态分布,有 E ( ω ^ 1 ) = ω 1 E(\hat{\omega}_1)=\omega_1 E(ω^1)=ω1 ,标准差 σ ω 1 = σ ∑ x i 2 − 1 n ( ∑ x i ) 2 \sigma_{\omega_1}=\frac{\sigma}{\sqrt{\sum x_i^2-\frac{1}{n}(\sum x_i)^2}} σω1=∑xi2−n1(∑xi)2σ
由于
σ
\sigma
σ 未知,需要用其估计量 标准差
S
e
S_e
Se 来代替得到
ω
^
1
\hat{\omega}_1
ω^1 的估计标准差
S
ω
^
1
=
S
e
∑
x
i
2
−
1
n
(
∑
x
i
)
2
S
e
=
∑
(
y
i
−
y
^
i
)
2
n
−
K
−
1
=
M
S
E
S_{\hat{\omega}_1}=\frac{S_e}{\sqrt{\sum x_i^2-\frac{1}{n}(\sum x_i)^2}}\\ S_e=\sqrt\frac{\sum(y_i-\hat{y}_i)^2}{n-K-1}=\sqrt{MSE}
Sω^1=∑xi2−n1(∑xi)2SeSe=n−K−1∑(yi−y^i)2=MSE
计算检验的统计量:
t
=
ω
^
1
−
ω
S
ω
^
1
∼
t
(
n
−
2
)
t=\frac{\hat{\omega}_1-\omega}{S_{\hat{\omega}_1}}\sim t(n-2)
t=Sω^1ω^1−ω∼t(n−2)
线性关系检验的是自变量与因变量是否可以用线性关系表示;回归系数的检验是判断通过样本计算得出的回归系数是否为0
在一元线性回归中,自变量只有一个,线性关系检验与回归系数检验是等价的
线性关系检验 F = S S R / 1 S S E / n − 1 − 1 = M S R M S E ∼ F ( 1 , n − 2 ) = t ( n − 2 ) F=\frac{SSR/1}{SSE/n-1-1}=\frac{MSR}{MSE}\sim F(1,n-2)=t(n-2) F=SSE/n−1−1SSR/1=MSEMSR∼F(1,n−2)=t(n−2)
回归系数检验 t = ω ^ 1 − ω 1 S ω ^ 1 ∼ t ( n − 2 ) t=\frac{\hat{\omega}_1-\omega_1}{S_{\hat{\omega}_1}}\sim t(n-2) t=Sω^1ω^1−ω1∼t(n−2)
多元回归分析中,线性关系检验只能用来检验总体回归关系的显著性。回归系数检验可以对各个回归系数分别进行检验
点估计:利用估计的回归方程,对 x x x 的一个特定值,求解 y ^ i \hat{y}_i y^i 的一个估计值
区间估计:利用估计的回归方程,对于 x x x 的一个特定量,求出 y y y 的一个估计量的区间
度量观测值围绕着回归直线的变化程度(点估计)
S
e
=
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
n
−
2
S_e=\sqrt\frac{\sum\limits_{i=1}^n(y_i-\hat{y}_i)^2}{n-2}
Se=n−2i=1∑n(yi−y^i)2
预测结果具有可靠性的范围
y ^ 0 ± t α 2 s e 1 n + ( x i + 1 − x ‾ ) 2 ∑ i = 1 n ( x i − x ‾ ) 2 \hat{y}_0\pm t_{\frac{\alpha}{2}}s_e\sqrt{\frac{1}{n}+\frac{(x_{i+1}-\overline{x})^2}{\sum\limits_{i=1}^n(x_i-\overline{x})^2}} y^0±t2αsen1+i=1∑n(xi−x)2(xi+1−x)2
在
1
−
α
1-\alpha
1−α 置信水平下预测区间为
y
^
0
±
t
α
2
s
e
1
+
1
n
+
(
x
i
+
1
−
x
‾
)
2
∑
i
=
1
n
(
x
i
−
x
‾
)
2
\hat{y}_0\pm t_{\frac{\alpha}{2}}s_e\sqrt{1+\frac{1}{n}+\frac{(x_{i+1}-\overline{x})^2}{\sum\limits_{i=1}^n{(x_i-\overline{x})^2}}}
y^0±t2αse1+n1+i=1∑n(xi−x)2(xi+1−x)2
eg
广告费与销售额的关系如图,若2003年广告费120万元,用一元线性回归求 2003年产品销售额的置信区间与预测区间( α = 0.05 \alpha=0.05 α=0.05)

ω 1 = ∑ i = 1 n y i ( x i − 1 n ∑ i = 1 n x i ) ∑ i = 1 n x i 2 − 1 n ( ∑ i = 1 n x i ) 2 = 9 ∑ i = 1 9 x i y i − ∑ i = 1 9 x i ∑ i = 1 9 y i 9 ∑ i = 1 9 x i 2 − ( ∑ i = 1 9 x i ) 2 = 0.57 ω ^ 0 = y ‾ − ω ^ 1 x ‾ = − 3.65 故有一元线性回归方程 y ^ = ω ^ 0 + ω ^ 1 x = − 3.65 + 0.57 x y ^ 10 = − 3.65 + 0.57 × 120 = 64.75 t α 2 ( n − 2 ) = t 0.025 ( 7 ) = 2.365 , S e = ∑ i = 1 9 ( y i − y i ^ ) 2 n − 2 = 2.43 y 0 ^ ± t α 2 s e 1 n + ( x 10 − x ‾ ) 2 ∑ i = 1 9 ( x i − x ‾ ) 2 = 64.75 ± 2.365 × 2.43 × 0.743 = 64.75 ± 4.2699 y 0 ^ ± t 1 + α 2 s e 1 n + ( x 10 − x ‾ ) 2 ∑ i = 1 9 ( x i − x ‾ ) 2 = 64.75 ± 2.365 × 2.43 × 1.2459 = 64.75 ± 4.3516 ω1=i=1∑nxi2−n1(i=1∑nxi)2i=1∑nyi(xi−n1i=1∑nxi)=9i=1∑9xi2−(i=1∑9xi)29i=1∑9xiyi−i=1∑9xii=1∑9yi=0.57ω^0=y−ω^1x=−3.65故有一元线性回归方程y^=ω^0+ω^1x=−3.65+0.57xy^10=−3.65+0.57×120=64.75t2α(n−2)=t0.025(7)=2.365,Se=n−2i=1∑9(yi−yi^)2=2.43y0^±t2αsen1+i=1∑9(xi−x)2(x10−x)2=64.75±2.365×2.43×0.743=64.75±4.2699y0^±t1+2αsen1+i=1∑9(xi−x)2(x10−x)2=64.75±2.365×2.43×1.2459=64.75±4.3516

调整的多重判定系数:
R
2
=
1
−
(
1
−
R
2
)
×
n
−
1
n
−
m
−
1
R^2=1-(1-R^2)\times\frac{n-1}{n-m-1}
R2=1−(1−R2)×n−m−1n−1
m
m
m 为系数个数,
n
n
n 为样本容量
eg

散点图:

故可设 y ^ = a + b 1 x \hat{y}=a+b\frac{1}{x} y^=a+bx1 ,令 1 x = x ′ ⇒ y ^ = a + b x ′ \frac{1}{x}=x'\Rightarrow \hat{y}=a+bx' x1=x′⇒y^=a+bx′
标准方程为
{
∑
i
=
1
n
y
i
=
n
a
+
b
∑
i
=
1
n
x
′
∑
i
=
1
n
x
′
y
=
a
∑
i
=
1
n
x
′
+
b
∑
i
=
1
n
(
x
′
)
2
\left\{\right.
⎩
⎨
⎧i=1∑nyi=na+bi=1∑nx′i=1∑nx′y=ai=1∑nx′+bi=1∑n(x′)2
将数据代入的
{
X
=
−
0.4377
b
=
60.4
\left\{\right.
{X=−0.4377b=60.4
有 y ^ = − 0.4377 + 60.4 x ′ = − 0.4377 + 60.4 1 x \hat{y}=-0.4377+60.4x'=-0.4377+60.4\frac{1}{x} y^=−0.4377+60.4x′=−0.4377+60.4x1
回归模型中两个或多个自变量彼此相关
引起的问题:
多重共线性检验方法:
容忍度
T
o
l
i
=
1
−
R
i
2
Tol_i=1-R_i^2
Toli=1−Ri2
方差膨胀因子
V
I
F
i
=
1
1
−
R
i
2
=
1
T
o
l
i
VIF_i=\frac{1}{1-R_i^2}=\frac{1}{Tol_i}
VIFi=1−Ri21=Toli1

y
ω
(
x
)
=
ω
T
ϕ
(
x
)
→
y
y_{\omega}(x)=\omega^T\phi(x)\rightarrow y
yω(x)=ωTϕ(x)→y
ϕ
(
⋅
)
\phi(\cdot)
ϕ(⋅) 为基函数,非线性函数,相当于将
x
x
x 做一个非线性变换
非线性模型与线性模型唯一区别的地方就是基函数
经验风险最小化
R
e
m
p
=
1
2
∑
n
=
1
N
(
y
n
−
ω
T
ϕ
(
x
n
)
)
2
R_{emp}=\frac{1}{2}\sum\limits_{n=1}^N\left(y_n-\omega^T\phi(x_n)\right)^2
Remp=21n=1∑N(yn−ωTϕ(xn))2

随着 M M M 的增大,其多项式系数也变大, x x x 有轻微扰动,结果就会有很大波动
R s r m = 1 2 ∑ n = 1 N ( y n − ω T ϕ ( x n ) ) 2 + λ 2 ω T ω R_{srm}=\frac{1}{2}\sum\limits_{n=1}^N\left(y_n-\omega^T\phi(x_n)\right)^2+\frac{\lambda}{2}\omega^T\omega Rsrm=21n=1∑N(yn−ωTϕ(xn))2+2λωTω