指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。
每个具体的输入是一个实例(instance),通常由**特征向量(feature vector)**表示。所有特征向量存在的空间称为特征空间(feature space)。特征空间的每一维对应于一个特征。
有时假设输入空间与特征空间为相同的空间,对它们不予区分;
有时假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间。
模型实际上都是定义在特征空间上的。
在监督学习中,将输入与输出看作是定义在输入(特征)空间与输出空间上的随机变量的取值。
变量可以是标量或向量,都用相同类型字母表示。
输入实例x的特征向量记作
KaTeX parse error: {align} can be used only in display mode.
$x^{(i)} $ 表示 x 的第 i 个特征。
注意 $x^{(i)} $ 与 $x_{i} $ 不同, 本书通常用 x i x_{i} xi 表示多个输入变量中 的第 i 个变量, 即
x i = ( x i ( 1 ) , x i ( 2 ) , ⋯ , x i ( n ) ) T x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(n)}\right)^{\mathrm{T}} xi=(xi(1),xi(2),⋯,xi(n))T
训练集的表示
监督学习从训练数据(training data)集合中学习模型,对测试数据(test data)进行预测。训练数据由输入(或特征向量)与输出对组成,训练集通常表示为
KaTeX parse error: {align} can be used only in display mode.
输入与输出对又称为样本(sample)或样本点。
根据输入输出变量的不同类型,对预测任务给予不同的名称:
训练数据与预测数据被看作是依联合概率分布P(X, Y)独立同分布产生的。统计学习假设数据存在一定的统计规律,X和Y具有联合概率分布就是监督学习关于数据的基本假设。
监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。
具体描述可以是条件分布形式也可是决策函数形式
1.得到一个有限的训练数据集合
2.确定模型的假设空间,也就是所有的备选模型
3.确定模型选择的准则,即学习的策略
4.实现求解最优模型的算法
5.通过学习方法选择最优模型
6.利用学习的最优模型对新数据进行预测或分析

模型(假设空间)
决策函数
F = { f ∣ Y = f θ ( X ) , θ ∈ R n } F = \left\{f \mid Y = f_{\theta}(X), \theta \in R^{n}\right\} F={f∣Y=fθ(X),θ∈Rn}
参数向量 θ \theta θ取值于 n 维欧氏空间$ \mathbf{R}^{n}$ ,称为参数空间(parameter space)。用来确定模型。
条件概率分布
F = { P ∣ P θ ( Y ∣ X ) , θ ∈ R n } F = \left\{P \mid P_{\theta}(Y \mid X), \theta \in R^{n}\right\} F={P∣Pθ(Y∣X),θ∈Rn}
策略
引入损失函数与风险函数的概念。损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
0-1损失函数
$L(Y, f(X))=\left{1,Y≠f(X) 0,Y=f(X)
平方损失函数
$ L(Y, f(X))=(Y-f(X))^{2} $
绝对损失函数
$ L(Y, f(X))=|Y-f(X)| $
对数损失函数
$ L(Y, P(Y \mid X))=-\log P(Y \mid X) $
目的
经验风险最小化:
min f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \min _{f \in F} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) minf∈FN1∑i=1NL(yi,f(xi))
结构风险最小化:
min f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \min _{f \in F} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f) minf∈FN1∑i=1NL(yi,f(xi))+λJ(f)
加入正则项,防止过拟合
算法:
挑选一个合适的算法,使得可以求解最优模型
训练误差:
1 N ∑ i = 1 N L ( y i , f ^ ( x i ) ) \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, \hat{f}\left(x_{i}\right)\right) N1∑i=1NL(yi,f^(xi))
测试误差
1 N ′ ∑ i = 1 N ′ L ( y i , f ^ ( x i ) ) \frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} L\left(y_{i}, \hat{f}\left(x_{i}\right)\right) N′1∑i=1N′L(yi,f^(xi))
如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高。这种现象称为过拟合(over-fitting)。过拟合是指**学习时选择的模型所包含的参数过多,以至出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。**可以说模型选择旨在避免过拟合并提高模型的预测能力。

1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f) N1∑i=1NL(yi,f(xi))+λJ(f)
数据集随机划分为3部分: 训练集\测试集\验证集

学习方法的泛化能力(generalization ability)是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。
首先给出泛化误差的定义。如果学到的模型是 f ^ \hat{f} f^ , 那么用
个模型对末知数据预测的误差即为泛化误插(generalization error):
R
exp
(
f
^
)
=
E
P
[
L
(
Y
,
f
^
(
X
)
)
]
=
∫
X
×
Y
L
(
y
,
f
^
(
x
)
)
P
(
x
,
y
)
d
x
d
y
Rexp(ˆf)=EP[L(Y,ˆf(X))]=∫X×YL(y,ˆf(x))P(x,y)dx dy
事实上,泛化误差就是所学习到的模型的期望风险。
学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的,简称为**泛化误差上界(generalization error bound)。**具体来说,就是通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。泛化误差上界通常具有以下性质:它是样本容量的函数,当样本容量增加时,泛化上界趋于0;它是假设空间容量(capacity)的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。
定理 1.1 (泛化误差上界) 对二类分桊问题, 当假设空间是有限个函数的集合 $\mathcal{F}=\left{f_{1}, f_{2}, \cdots, f_{d}\right} $ 时, 对任意一个函数 f ∈ F f \in \mathcal{F} f∈F , 至少以概率 $ 1-\delta, 0<\delta<1 $, 以下 不等式成立:
R ( f ) ⩽ R ^ ( f ) + ε ( d , N , δ ) R(f) \leqslant \hat{R}(f)+\varepsilon(d, N, \delta) R(f)⩽R^(f)+ε(d,N,δ)
其中,
ε ( d , N , δ ) = 1 2 N ( log d + log 1 δ ) \varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)} ε(d,N,δ)=2N1(logd+logδ1)
其中
R
(
f
)
=
E
[
L
(
Y
,
f
(
x
)
)
]
R
^
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
R(f)=E[L(Y,f(x))]ˆR(f)=1N∑Ni=1L(yi,f(xi))
前者代表泛化误差(期望风险),即在其他的数据集上的误差,后者代表经验风险,即在训练集上的误差。
该不等式的含义:期望风险一定是有一个上界的,看这个上界能不能接受,作为选择模型的一个参考。
证明中采用Hoeffding不等式
下面简单介绍一下:
设 $X_{1}, X_{2}, \cdots, X_{N} $ 是独立随机变量, 且 X i ∈ [ a i , b i ] , i = 1 , 2 , ⋯ , N X_{i} \in\left[a_{i}, b_{i}\right], i=1,2, \cdots, N Xi∈[ai,bi],i=1,2,⋯,N ; $\bar{X} $是 $ X_{1}, X_{2}, \cdots, X_{N} 的经验均值 , 即 的经验均值, 即 的经验均值,即 \bar{X}=\frac{1}{N} \sum_{i=1}^{N} X_{i} $, 则对任意 t>0 , 以下不等式成立:
P [ E ( X ˉ ) − X ˉ ⩾ t ] ⩽ exp ( − 2 N 2 t 2 ∑ i = 1 N ( b i − a i ) 2 ) P[E(\bar{X})-\bar{X} \geqslant t] \leqslant \exp \left(-\frac{2 N^{2} t^{2}}{\sum_{i = 1}^{N}\left(b_{i}-a_{i}\right)^{2}}\right) P[E(Xˉ)−Xˉ⩾t]⩽exp(−∑i=1N(bi−ai)22N2t2)
可以带入得到
P ( t S n n − S n n ⩾ t ′ ) ⩽ exp ( − 2 ( n t ′ ) 2 ∑ i = 1 n ( b i − a i ) 2 ) P\left(t \frac{S_{n}}{n}-\frac{S_{n}}{n} \geqslant t^{\prime}\right) \leqslant \exp \left(-\frac{2(n t^{\prime})^{2}}{\sum_{i = 1}^{n}\left(b_{i}-a_{i}\right)^{2}}\right) P(tnSn−nSn⩾t′)⩽exp(−∑i=1n(bi−ai)22(nt′)2)
此处 t ′ = t n = E t^{\prime}=\frac{t}{n}=\mathcal{E} t′=nt=E
由于是针对二分类, X i ∈ [ 0 , 1 ] X_{i} \in[ 0, 1] Xi∈[0,1],因此 b i − a i = 1 b_{i}-a_{i}=1 bi−ai=1, ∑ i = 1 n ( b i − a i ) 2 = n {\sum_{i = 1}^{n}\left(b_{i}-a_{i}\right)^{2}}=n ∑i=1n(bi−ai)2=n,可以化简为:$\exp \left(-\frac{2(n t{\prime}){2}}{\sum_{i = 1}{n}\left(b_{i}-a_{i}\right){2}}\right) = = =\exp \left(-{2n (t{\prime}){2}}\right)$
由此可得,
P ( R ( f ) − R ^ ( f ) ⩾ E ) ⩽ e x p ( − 2 N E 2 ) P(R(f)-\hat{R}(f) \geqslant \mathcal{E}) \leqslant e x p\left(-2 N \mathcal{E}^{2}\right) P(R(f)−R^(f)⩾E)⩽exp(−2NE2)
希望经验风险尽可能小,由于 F = { f 1 , f 2 , ⋯ , f d } \mathcal{F}=\left\{f_{1}, f_{2}, \cdots, f_{d}\right\} F={f1,f2,⋯,fd}是一个有限集合, 一共有d项,故
KaTeX parse error: {align} can be used only in display mode.
解释部分U≤Σ:一个基本不等式,就像1U2=2≤1+2=3一样。
等价地,KaTeX parse error: {align} can be used only in display mode.
令
δ = d exp ( − 2 N ε 2 ) \delta=d \exp \left(-2 N \varepsilon^{2}\right) δ=dexp(−2Nε2)
则
P ( R ( f ) < R ^ ( f ) + ε ) ⩾ 1 − δ P(R(f)<\hat{R}(f)+\varepsilon) \geqslant 1-\delta P(R(f)<R^(f)+ε)⩾1−δ
即至少以概率$ 1-\delta $有 R ( f ) < R ^ ( f ) + ε R(f)<\hat{R}(f)+\varepsilon R(f)<R^(f)+ε , 其中 ε \varepsilon ε 可以由 δ = d exp ( − 2 N ε 2 ) \delta=d \exp \left(-2 N \varepsilon^{2}\right) δ=dexp(−2Nε2)得到。
总结:这部分不太常用,因为实际中假设空间一般为无限个函数。
生成方法:
P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y \mid X)=\frac{P(X, Y)}{P(X)} P(Y∣X)=P(X)P(X,Y)
一般只要出现联合概率分布就是生成模型,相当于是从源头上求解。
判别方法:
$ f(X) 或 P(Y \mid X) $
评价指标
预测为正类的样本(predict)中有多少被分对了(true)
P = T P T P + F P P=\frac{T P}{T P+F P} P=TP+FPTP
在实际正类中(true),有多少正类被模型发现了(predict)
R = T P T P + F N R=\frac{T P}{T P+F N} R=TP+FNTP
是精确率和召回率的调和均值,精确率和召回率都高时,F值也会高。
2
F
1
=
1
P
+
1
R
F
1
=
2
T
P
2
T
P
+
F
P
+
F
N
2F1=1P+1RF1=2TP2TP+FP+FN
输入:
x = ( x ( 1 ) , x ( 2 ) , ⋯ , x ( n ) ) T x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}\right)^{T} x=(x(1),x(2),⋯,x(n))T
输出:
y = ( y ( 1 ) , y ( 2 ) , ⋯ , y ( n ) ) T y=\left(y^{(1)}, y^{(2)}, \cdots, y^{(n)}\right)^{T} y=(y(1),y(2),⋯,y(n))T