• 为什么会过拟合?判断依据?训练集验证集和测试集之间的关系?


    在学深度学习的过程中,突然就蹦出这么个疑问,总提到过拟合过拟合,那什么是过拟合?又为什么会出现过拟合呢?

    首先,给出官方的定义:
    给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。

    如果你不知道你理解的是否正确,我通俗的给你讲下:
    就是说在一个空间中,有一个假设h,和一个假设h’,在训练集上,h的错误率比h’低,这时候你就会认为h是比较好的。但实际上在整个实例分布中h’的错误率是比h低的,也就是说h’才是我们想要的,你以为的h并不是最好的,这种现象被称为过拟合。

    可能你还会有疑问,训练集和整个实例之间是怎样的一种关系呢?
    答:
    对于一个模型,需要训练集(training set)、验证集(validation set)和测试集(test set)。
    首先是训练集,如果将你的模型比作考生,那训练集就是你平时做的训练,像习题集、练习册等等。在这部分,你当然是希望做的越多越好,因为做的越多,理论上你学到的东西就会越多,在最后的考试中你就会表现得更好。
    接着是验证集,所谓的验证集,可以理解为正式考试之前的模拟考试。在这部分通常做的工作就是确定最终的模型是什么样子的,换句话说,就是想要找到考生最好的一种状态去参加最后的考试。举个例子,我们可能之前训练了许多个模型,那哪个模型效果更好呢?在验证集上跑跑试试就知道了;或者是,一个模型中可能会存在许多的超参数,也就是我们无法实现确定的一些参数,像训练的轮数。我们在训练集上训练5轮或者训练8轮,可能跑出来是完全不同的两个模型。那怎么知道哪个更好呢?在验证集上试试就知道了。
    最后是测试集,也就是我们打比方中的最后一张试卷,是好是坏都看这一张卷子了。那理论上来说,我们是希望测试集和训练集和验证集之间是完全没有重叠的。因为训练集是平时的训练,验证集呢是我们的模拟考试,模拟考试肯定不希望出训练里的原题给你,那样会让你产生你很强的一种错觉。那测试集呢,就更不希望又重复了。就像高考一样,肯定是你从未见过的题,这样得到的最后的分数才是有意义的、才是具有可比性的。
    同样的,比较两个模型的好坏,在同一个测试集上才有意义。理论上说,两者的训练集验证集和测试集都一样是最有说服力的。

    言归正传,为什么会出现过拟合呢?
    通常的原因有以下几点:
    (1)建模样本选取有误、样本标签错误等,导致样本数据不足以代表预定的分类规则;
    (2)样本噪音干扰过大,使得机器将学习了噪音,并误以为是特征,从而使得预设的分类规则产生错误;
    (3)假设的模型无法合理存在;
    (4)参数太多,模型复杂度过高

    那如何判断是否过拟合呢?
    模型在验证集合上和训练集合上表现都很好,而在测试集合上变现很差。

  • 相关阅读:
    docker部署mysql无法远程连接2003解决
    Jetson nano 环境配置
    MySQL数据库中表操作之增删改查(CRUD)
    【操作系统】 用户态&内核态内存映射
    终于,进亚马逊了~
    Go For Web:Golang http 包详解(源码剖析)
    排序---堆排
    Windows10下Tomcat8.5安装教程
    数据库课程设计——学籍管理系统
    Java.Integer.bitCount(int)源码解析
  • 原文地址:https://blog.csdn.net/qq_43504141/article/details/126877344