首先了解一下假设空间
1.3 假设空间
归纳&演绎: 归纳(induction)和演绎(deduction)是科学推理的两大基本手段。归纳是从特殊到一般的“泛化”过程;而演绎是从一般到特殊的“特化”过程。
假设空间: 我们可以把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配(fit)的假设”。
1.4 归纳偏好
在假设空间中,对应的模型在面临新样本的时,可能会产生不同的输出。而对于一个具体的学习算法而言,其必须产生一个模型。那么学习算法本身的“偏好”就会起到关键作用去决定输出。
机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”。
其实上述归纳偏好的含义就是我们根据训练集是可以构建出很多满足条件的不一样的模型。但是对于一个x来说,一定必须产生一个结果y才是合理的,所以这时就需要学习算法在某一个模型上产生偏好,从而舍弃另一个模型而采用该模型训练且测试。
发现有两个模型穿过所有训练集,但是我们应该采用哪个模型?引入“奥卡姆剃刀”原则。
奥卡姆剃刀原则: 是一种常用的、自然科学研究中最基本的原则,即:“若有多个假设与观察一致,那么选择最简单的那个。”
很明显,图1.3中两个曲线平滑的A相较于崎岖的B更为简单,所以我们会自然偏好平滑的曲线A。
但是,这样一定是对的吗?奥卡姆剃刀有科学依据吗?
根据图1.3,假设学习算法εa基于某种归纳偏好产生了曲线A的模型,学习算法εb基于某种归纳偏好产生了曲线B的模型。基于刚才的想法,我们认为学习算法εa更优,但是这只是训练数据中仅仅的6个点而已:
那么换成另一种判定方法:
通过对所有可能的f按照均匀分布对误差求和,会发现结果的值与所采用的学习算法无关!
也就是说,无论学习算法εa多聪明,学习算法εb多笨拙,它们的期待性能竟然相同。这就是“没有免费的午餐”定理,No Free Lunch Theorem,简称NFL。
但是NFL却有一个非常重要的前提,那就是所有问题出现的机会完全相同,或所有问题同等重要,但是其实事实上并非如此,试想若我们想对房价进行预测,大部分的训练集数据会集中在80平米到120平米之间,而只有很少量训练数据会出现在上千平方吗,几乎没有上万平方米的数据,这就与NFL的前提相违背。再比如我们想要设计一个导航,从北京西直门到北京新街口,太小的概率出现火车飞机火箭抵达吧,而是大概率的自行车以及出租车地铁。
但是其实NFL并非什么用处都没有,NFL给予我们的启发是:让我们清楚的认识到,脱离开具体问题,空泛的谈论“什么学习算法更好”毫无意义。