• 为什么会过拟合?判断依据?训练集验证集和测试集之间的关系?


    在学深度学习的过程中,突然就蹦出这么个疑问,总提到过拟合过拟合,那什么是过拟合?又为什么会出现过拟合呢?

    首先,给出官方的定义:
    给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。

    如果你不知道你理解的是否正确,我通俗的给你讲下:
    就是说在一个空间中,有一个假设h,和一个假设h’,在训练集上,h的错误率比h’低,这时候你就会认为h是比较好的。但实际上在整个实例分布中h’的错误率是比h低的,也就是说h’才是我们想要的,你以为的h并不是最好的,这种现象被称为过拟合。

    可能你还会有疑问,训练集和整个实例之间是怎样的一种关系呢?
    答:
    对于一个模型,需要训练集(training set)、验证集(validation set)和测试集(test set)。
    首先是训练集,如果将你的模型比作考生,那训练集就是你平时做的训练,像习题集、练习册等等。在这部分,你当然是希望做的越多越好,因为做的越多,理论上你学到的东西就会越多,在最后的考试中你就会表现得更好。
    接着是验证集,所谓的验证集,可以理解为正式考试之前的模拟考试。在这部分通常做的工作就是确定最终的模型是什么样子的,换句话说,就是想要找到考生最好的一种状态去参加最后的考试。举个例子,我们可能之前训练了许多个模型,那哪个模型效果更好呢?在验证集上跑跑试试就知道了;或者是,一个模型中可能会存在许多的超参数,也就是我们无法实现确定的一些参数,像训练的轮数。我们在训练集上训练5轮或者训练8轮,可能跑出来是完全不同的两个模型。那怎么知道哪个更好呢?在验证集上试试就知道了。
    最后是测试集,也就是我们打比方中的最后一张试卷,是好是坏都看这一张卷子了。那理论上来说,我们是希望测试集和训练集和验证集之间是完全没有重叠的。因为训练集是平时的训练,验证集呢是我们的模拟考试,模拟考试肯定不希望出训练里的原题给你,那样会让你产生你很强的一种错觉。那测试集呢,就更不希望又重复了。就像高考一样,肯定是你从未见过的题,这样得到的最后的分数才是有意义的、才是具有可比性的。
    同样的,比较两个模型的好坏,在同一个测试集上才有意义。理论上说,两者的训练集验证集和测试集都一样是最有说服力的。

    言归正传,为什么会出现过拟合呢?
    通常的原因有以下几点:
    (1)建模样本选取有误、样本标签错误等,导致样本数据不足以代表预定的分类规则;
    (2)样本噪音干扰过大,使得机器将学习了噪音,并误以为是特征,从而使得预设的分类规则产生错误;
    (3)假设的模型无法合理存在;
    (4)参数太多,模型复杂度过高

    那如何判断是否过拟合呢?
    模型在验证集合上和训练集合上表现都很好,而在测试集合上变现很差。

  • 相关阅读:
    light client轻节点简介
    JVM学习(三)--运行时数据区
    【MySQL】索引特性
    【区块链 | 默克尔树】如何利用Merkle实现空投,像Uniswap一样使用Merkle执行Airdrop
    初阶数据结构(6)(队列的概念、常用的队列方法、队列模拟实现【用双向链表实现、用数组实现】、双端队列 (Deque)、OJ练习【用队列实现栈、用栈实现队列】)
    Java 在Word文档中添加艺术字
    外汇交易新手福利:入门必看,快速提升交易技能
    【leetcode】【2022/9/12】1608. 特殊数组的特征值
    23-职位分类展示平台响应式网页模板{HTML JS CSS)
    tkinter-TinUI-xml实战(8)轻型浏览器
  • 原文地址:https://blog.csdn.net/qq_43504141/article/details/126877344