为什么会过拟合？判断依据？训练集验证集和测试集之间的关系？

在学深度学习的过程中，突然就蹦出这么个疑问，总提到过拟合过拟合，那什么是过拟合？又为什么会出现过拟合呢？

首先，给出官方的定义：
给定一个假设空间H，一个假设h属于H，如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小，但在整个实例分布上h’比h的错误率小，那么就说假设h过度拟合训练数据。

如果你不知道你理解的是否正确，我通俗的给你讲下：
就是说在一个空间中，有一个假设h，和一个假设h’，在训练集上，h的错误率比h’低，这时候你就会认为h是比较好的。但实际上在整个实例分布中h’的错误率是比h低的，也就是说h’才是我们想要的，你以为的h并不是最好的，这种现象被称为过拟合。

可能你还会有疑问，训练集和整个实例之间是怎样的一种关系呢？
答：
对于一个模型，需要训练集(training set)、验证集(validation set)和测试集(test set)。
首先是训练集，如果将你的模型比作考生，那训练集就是你平时做的训练，像习题集、练习册等等。在这部分，你当然是希望做的越多越好，因为做的越多，理论上你学到的东西就会越多，在最后的考试中你就会表现得更好。
接着是验证集，所谓的验证集，可以理解为正式考试之前的模拟考试。在这部分通常做的工作就是确定最终的模型是什么样子的，换句话说，就是想要找到考生最好的一种状态去参加最后的考试。举个例子，我们可能之前训练了许多个模型，那哪个模型效果更好呢？在验证集上跑跑试试就知道了；或者是，一个模型中可能会存在许多的超参数，也就是我们无法实现确定的一些参数，像训练的轮数。我们在训练集上训练5轮或者训练8轮，可能跑出来是完全不同的两个模型。那怎么知道哪个更好呢？在验证集上试试就知道了。
最后是测试集，也就是我们打比方中的最后一张试卷，是好是坏都看这一张卷子了。那理论上来说，我们是希望测试集和训练集和验证集之间是完全没有重叠的。因为训练集是平时的训练，验证集呢是我们的模拟考试，模拟考试肯定不希望出训练里的原题给你，那样会让你产生你很强的一种错觉。那测试集呢，就更不希望又重复了。就像高考一样，肯定是你从未见过的题，这样得到的最后的分数才是有意义的、才是具有可比性的。
同样的，比较两个模型的好坏，在同一个测试集上才有意义。理论上说，两者的训练集验证集和测试集都一样是最有说服力的。

言归正传，为什么会出现过拟合呢？
通常的原因有以下几点：
（1）建模样本选取有误、样本标签错误等，导致样本数据不足以代表预定的分类规则；
（2）样本噪音干扰过大，使得机器将学习了噪音，并误以为是特征，从而使得预设的分类规则产生错误；
（3）假设的模型无法合理存在；
（4）参数太多，模型复杂度过高

那如何判断是否过拟合呢？
模型在验证集合上和训练集合上表现都很好，而在测试集合上变现很差。

相关阅读:
light client轻节点简介
JVM学习(三)--运行时数据区
【MySQL】索引特性
【区块链 | 默克尔树】如何利用Merkle实现空投，像Uniswap一样使用Merkle执行Airdrop
初阶数据结构（6）（队列的概念、常用的队列方法、队列模拟实现【用双向链表实现、用数组实现】、双端队列 (Deque)、OJ练习【用队列实现栈、用栈实现队列】）
Java 在Word文档中添加艺术字
外汇交易新手福利：入门必看，快速提升交易技能
【leetcode】【2022/9/12】1608. 特殊数组的特征值
23-职位分类展示平台响应式网页模板{HTML JS CSS）
tkinter-TinUI-xml实战（8）轻型浏览器

原文地址：https://blog.csdn.net/qq_43504141/article/details/126877344