统计学习的对象:数据。
统计学习的目标:考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能提高学习效率。
实现统计学习方法的步骤:
统计学习包括监督学习、非监督学习、半监督学习、强化学习。主要讨论监督学习。
输入空间、特征空间、输出空间
联合概率分布
假设空间
方法=模型+策略+算法
在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。
模型的假设空间包含所有可能的条件概率分布或决策函数。
有了模型的假设空间,统计学习(机器学习)接着需要考虑的是按照什么样的准则学习或者选择最优的模型。统计学习的目标在于从假设空间中选取最优模型。
首先引入损失函数与风险函数的概念。损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
损失函数(loss function)
风险函数(risk function):
经验风险最小化:
是解决优化问题(ERM):
经营风险最小化容易出现过拟合,而结构风险最小化是为了防止过拟合而提出的策略。
结构风险最小化:
结构风险最小化等价于正则化。在经验风险的基础上增加表示模型复杂度的正则化项或罚项。
所以,监督学习问题就变成了经验风险或结构风险的最优化问题,这时经验风险和结构风险是最优化的目标函数。
算法指的是学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后考虑需要用什么样的计算方法求解最优模型。
训练误差:可判定是不是一个容易学习的问题
测试误差:反应学习方法对未知测试数据集的预测能力
过拟合:指学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测得很好,但对于未知数据预测得很差。
模型选择旨在避免过拟合并提高模型的预测能力。
模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现,在经验风险的基础上增加表示模型复杂度的正则化项或罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大。比如,正则化项可以是模型参数向量的范数。
交叉验证的基本思想是重复地使用数据;把给定的数据进行切分,将切分的数据集组合为训练集和测试集,在此基础上反复地进行训练、测试以及模型选择。
简单交叉验证: 70%的训练集,30%的测试集;然后用训练集在各种条件下(不同参数个数)训练模型,从而得到不同的模型;在测试集上评价各个模型误差,选出测试误差最小的模型。
K折交叉验证: 随机地将已给数据切分为K个互不相交的大小相同的子集;然后利用K-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的K种选择重复进行;最后选出K次评测中平均测试误差最小的模型。
留一交叉验证: K折交叉验证的特殊情形是S=N,称为留一交叉验证。N为给定数据集的容量。
泛化能力:指由该方法学习到的模型对未知数据的预测能力。
现实中采用最多的办法是通过测试误差来评价学习方法的泛化能力,但该种评价依赖于测试数据集的,因为测试数据集有限,很有可能得到的评价结果不可靠,所以试图从理论上对学习方法的泛化能力进行分析。
监督学习方法可以分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型。
生成方法: 由数据学习联合概率分布,然后求出条件概率分布作为预测模型,即生成模型:
P
(
Y
∣
X
)
=
P
(
X
,
Y
)
P
(
X
)
P(Y|X)=\frac{P(X,Y)}{P(X)}
P(Y∣X)=P(X)P(X,Y)
之所以称为生成方法,是因为模型表示了给定输入X产生输出Y的生成关系。
典型的生成模型有:朴素贝叶斯法和隐马尔可夫模型。
判别方法: 由数据直接学习决策函数 f ( X ) f(X) f(X)或者条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)作为预测的模型,即判别模型。
典型的判别模型有:k近邻法、感知机、决策树、逻辑回归模型、最大熵模型、支持向量机、提升方法和条件随机场。
评价分类器的性能指标一般是准确率。
准确率:正确分类的样本数/总样本数
二分类问题常用的评价指标是精确率和召回率。
标注问题是分类问题的一个推广,是更复杂的结构预测问题的简单形式。标注问题输入的是一个观测序列,输出的是一个标记序列或状态序列。
标注问题常用的统计学习方法有:隐马尔可夫模型、条件随机场
回归问题用于预测输入变量(自变量)和输出变量(因变量)之间的关系。回归问题的学习等价于函数拟合:选择一条函数曲线使其更好地拟合已知数据且更好地预测未知数据。
回归学习最常用的损失函数是平方损失函数,由最小二乘法求解。