统计学习方法的三要素为 模型+策略+算法
假设空间(Hypothesis Space):所有可能的条件概率分布或决策函数,用 F \mathcal{F} F表示。
例如,线性回归:
例如,逻辑回归:
损失函数:度量模型一次预测的好坏,记作 L ( Y , f ( X ) ) L(Y, f(X)) L(Y,f(X))
风险函数:度量平均意义下模型预测的好坏
R
exp
(
f
)
=
E
P
[
L
(
Y
,
f
(
X
)
)
]
=
∫
X
×
Y
L
(
y
,
f
(
x
)
)
P
(
x
,
y
)
d
x
d
y
经验风险:模型f(X)关于训练集的平均损失
R
e
m
p
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
R_{e m p}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)
Remp(f)=N1i=1∑NL(yi,f(xi))其中训练集
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
⋯
,
(
x
N
,
y
N
)
}
T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right) \cdots,\left(x_{N}, y_{N}\right)\right\}
T={(x1,y1),(x2,y2)⋯,(xN,yN)}
当 N → ∞ N \rightarrow \infty N→∞ 时,根据大数定律,经验损失就会趋于风险函数,所以在一定程度上,用经验损失作为风险函数的估计是合理的
R
emp
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
⟶
R
exp
(
f
)
=
E
P
[
L
(
Y
,
f
(
X
)
)
]
,
N
→
∞
R_{\text {emp }}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) \longrightarrow R_{\exp }(f)=E_{P}[L(Y, f(X))], \quad N \rightarrow \infty
Remp (f)=N1i=1∑NL(yi,f(xi))⟶Rexp(f)=EP[L(Y,f(X))],N→∞
min
f
∈
F
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)
f∈FminN1i=1∑NL(yi,f(xi))
但在现实生活中,样本容量N一般是有限的,甚至会很小,所以仅仅用经验风险来估计风险函数,效果并不理想,所以需要对其进行矫正
结构风险:
R
s
r
m
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
R_{s r m}=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)
Rsrm=N1i=1∑NL(yi,f(xi))+λJ(f)
结构风险最小化:
min
f
∈
F
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)
f∈FminN1i=1∑NL(yi,f(xi))+λJ(f)
注:以上笔记素材来自于 [B站_简博士_十分钟 机器学习 系列视频 《统计学习方法》]