“算法”是指从数据中学得“模型”的具体方法,“算法”产出的结果称为“模型”,通常是具体的函数或者可抽象地看作为函数。
样本:也称为“示例”,是关于一个事件或对象的描述。因为要想让计算机能对现实生活中的事物进行机器学习,必须先将其抽象为计算机能理解的形式,计算机最擅长做的就是进行数学运算,因此考虑如何将其抽象为某种数学形式。显然,线性代数中的向量就很适合,因为任何事物都可以由若干“特征”(或称为“属性”)唯一刻画出来,而向量的各个维度即可用来描述各个特征。
样本空间:也称为“输入空间”或“属性空间”。由于样本采用的是标明各个特征取值的“特征向量”
来进行表示,根据线性代数的知识可知,有向量便会有向量所在的空间,因此称表示样本的特征向量所在的空间为样本空间,通常用花式大写的 X 表示。
数据集:数据集通常用集合来表示,令集合 D = {x1, x2, …, xm} 表示包含 m 个样本的数据集,一般同一份数据集中的每个样本都含有相同个数的特征,假设此数据集中的每个样本都含有 d 个特征,则第 i个样本的数学表示为 d 维向量:xi = (xi1; xi2; …; xid),其中 xij 表示样本 xi 在第 j 个属性上的取值。
模型:首先收集若干样本(假设此时有 100 个),然后将其分为训练样本(80 个)和测试样本(20 个),其中 80 个训练样本构成的集合称为“训练集”,20 个测试样本构成的集合称为“测试集”,接着选用某个机器学习算法,让其在训练集上进行“学习”(或称为“训练”),然后产出得到“模型”(或称为“学习器”),最后用测试集来测试模型的效果。执行以上流程时,表示我们已经默认样本的背后是存在某种潜在的规律,我们称这种潜在的规律为“真相”或者“真实”,当我们应用某个机器学习算法来学习时,产出得到的模型便是该算法所找到的它自己认为的规律,由于该规律通常并不一定就是所谓的真相,所以也将其称为“假设”。通常机器学习算法都有可配置的参数,同一个机器学习算法, 使用不同的参数配置或者不同的训练集,训练得到的模型通常都不同。
标记:上文提到机器学习的本质就是在学习样本在某个方面的表现是否存在潜在的规律,我们称该方面的信息为“标记”。例如在学习西瓜的好坏时,“好瓜”和“坏瓜”便是样本的标记。一般第 i 个样本的标记的数学表示为 yi,标记所在的空间称为“标记空间”或“输出空间”,数学表示为花式大写的 Y。标记通常也看作为样本的一部分,因此,一个完整的样本通常表示为 (x, y)。根据标记的取值类型不同,可将机器学习任务分为以下两类:
当标记取值为离散型时,称此类任务为“分类”,例如学习西瓜是好瓜还是坏瓜、学习猫的图片是白猫还是黑猫等。当分类的类别只有两个时,称此类任务为“二分类”,通常称其中一个为“正类”,另
一个为“反类”或“负类”;当分类的类别超过两个时,称此类任务为“多分类”。由于标记也属于样本的一部分,通常也需要参与运算,因此也需要将其数值化,例如对于二分类任务,通常将正类记为1,反类记为 0,即 Y = {0, 1}。
当标记取值为连续型时,称此类任务为“回归”,例如学习预测西瓜的成熟度、学习预测未来的房价等。由于是连续型,因此标记的所有可能取值无法直接罗列,通常只有取值范围,回归任务的标记取值范围通常是整个实数域 R,即 Y = R。无论是分类还是回归,机器学习算法最终学得的模型都可以抽象地看作为以样本 x 为自变量,标记 y为因变量的函数 y = f (x),即一个从输入空间 X 到输出空间 Y 的映射。
例如在学习西瓜的好坏时,机器学习算法学得的模型可看作为一个函数 f (x),给定任意一个西瓜样本 xi = (青绿; 蜷缩; 清脆),将其输入进函数即可计算得到一个输出 yi = f (xi),此时得到的 yi 便是模型给出的预测结果,当 yi 取值为 1 时表明模型认为西瓜 xi 是好瓜,当 yi 取值为 0 时表明模型认为西瓜 xi 是坏瓜。
根据是否有用到标记信息,可将机器学习任务分为以下两类:
泛化:由于机器学习的目标是根据已知来对未知做出尽可能准确的判断,因此对未知事物判断的准确
与否才是衡量一个模型好坏的关键,我们称此为“泛化”能力。例如学习西瓜好坏时,假设训练集中共有 3
个样本:{(x1 = (青绿; 蜷缩), y1 = 好瓜), (x2 = (乌黑; 蜷缩), y2 = 好瓜), (x3 = (浅白; 蜷缩), y3 = 好瓜)},
同时假设判断西瓜好坏的真相是“只要根蒂蜷缩就是好瓜”,如果应用算法 A 在此训练集上训练得到模型
fa(x),模型 a 学到的规律是“色泽等于青绿、乌黑或者浅白时,同时根蒂蜷缩即为好瓜,否则便是坏瓜”,
再应用算法 B 在此训练集上训练得到模型 fb(x),模型 fb(x) 学到的规律是“只要根蒂蜷缩就是好瓜”,因
此对于一个未见过的西瓜样本 x = (金黄; 蜷缩) 来说,模型 fa(x) 给出的预测结果为“坏瓜”,模型 fb(x)
给出的预测结果为“好瓜”,此时我们称模型 fb(x) 的泛化能力优于模型 fa(x)。
数据作为训练集可以有多个假设空间,且在不同的假设空间中都有可能学得能够拟合训练集的模型,我们将所有能够拟合训练集的模型构成的集合称为“版本空间”。
当选用一元线性回归算法时,学得的模型是一元一次函数,当选用多项式回归算法时,学得的模型是一元二次函数。
不同的机器学习算法有不同的偏好,我们称为“归纳偏好”。对于当前房价预测这个例子来说,这两个算法学得的模型哪个更好呢?



错误率:E = a/m ,其中 m 为样本个数,a 为分类错误样本个数。
精度:精度 =1-错误率。
误差:学习器的实际预测输出与样本的真实输出之间的差异。
经验误差:学习器在训练集上的误差,又称为“训练误差”。
泛化误差:学习器在新样本上的误差。
错误率和精度很容易理解,而且很明显是针对分类问题的。误差的概念更适用于回归问题。在分类问题中也会使用误差的概念,此时的“差异”指的是学习器的实际预测输出的类别与样本真实的类别是否一致,若一致则“差异”为 0,若不一致则“差异”为 1,训练误差是在训练集上差异的平均值,而泛化误差则是在新样本(训练集中未出现过的样本)上差异的平均值。
过拟合是由于模型的学习能力相对于数据来说过于强大,反过来说,欠拟合是因为模型的学习能力相对于数据来说过于低下。
本文介绍三种模型评估方法::留出法、交叉验证法、自助法。留出法由于操作简单,因此最常用;交叉验证法常用于对比同一算法的不同参数配置之间的效果,以及对比不同算法之间的效果;自助法常用于集成学习产生基分类器。
对比同一算法的不同参数配置之间的效果:假设现有数据集 D,且有一个被评估认为适合用于数据集D 的算法 L,该算法有可配置的参数,假设备选的参数配置方案有两套:方案 a,方案 b。下面通过交叉验证法为算法 L 筛选出在数据集 D 上效果最好的参数配置方案。
以 3 折交叉验证为例,首先按照“西瓜书”中所说的方法,通过分层采样将数据集 D 划分为 3 个大小相似的互斥子集:D1, D2, D3,然后分别用其中 1 个子集作为测试集,其他子集作为训练集,这样就可获得 3 组训练集和测试集:
训练集 1:D1 ∪ D2,测试集 1:D3
训练集 2:D1 ∪ D3,测试集 2:D2
训练集 3:D2 ∪ D3,测试集 3:D1
接下来用算法 L 搭配方案 a 在训练集 1 上进行训练,训练结束后将训练得到的模型在测试集 1 上进行测试,得到测试结果 1,依此方法再分别通过训练集 2 和测试集 2、训练集 3 和测试集 3 得到测试结果2 和测试结果 3,最后将 3 次测试结果求平均即可得到算法 L 搭配方案 a 在数据集 D 上的最终效果,记为 Scorea。同理,按照以上方法也可得到算法 L 搭配方案 b 在数据集 D 上的最终效果 Scoreb,最后通过比较 Scorea 和 Scoreb 之间的优劣来确定算法 L 在数据集 D 上效果最好的参数配置方案。
对比不同算法之间的效果:同上述“对比同一算法的不同参数配置之间的效果”中所讲的方法一样,只需将其中的“算法 L 搭配方案 a”和“算法 L 搭配方案 b”分别换成需要对比的算法 α 和算法 β 即可。
从以上的举例可以看出,交叉验证法本质上是在进行多次留出法,且每次都换不同的子集做测试集,最终让所有样本均至少做 1 次测试样本。这样做的理由其实很简单,因为一般的留出法只会划分出 1 组训练集和测试集,仅依靠 1 组训练集和测试集去对比不同算法之间的效果显然不够置信,偶然性太强,因此要想基于固定的数据集产生多组不同的训练集和测试集,则只有进行多次划分,每次采用不同的子集作为测试集,也即为交叉验证法。