码农知识堂 - 1000bd
Python
PHP
JS/TS
JAVA
C/C++
C#
GO
Kotlin
Swift
机器学习入门教学——过拟合、欠拟合、模型验证、样本拆分
1、过拟合
定义
过拟合指的是模型对训练数据拟合的太好,以至于无法很好地泛化到新数据。
原因
训练数据不足
模型太复杂(如深层神经网络)
训练时间太长
后果
模型在训练数据上表现良好,但在测试数据上表现较差。
解决方法
增加训练数据
使用正则化,如L1、L2正则
Early Stopping(提前终止训练)
降低模型复杂度(如减少网络层数)
Drop out技术
2、欠拟合
定义
欠拟合指的是模型不能在训练集上获得足够多的特征,即模型在训练集上没有办法找到规律。
原因
训练数据不足
模型复杂度过低
训练时间不够长
没有使用任何正则化方法
后果
模型在训练数据上表现较差,在测试数据上表现也较差。
解决方法
增加训练数据量
选择更复杂的模型
增加模型训练时间
尝试不同模型或调参
3、模型验证
当我们训练出一个模型后,我们需要对它的质量进行评估和验证。
模型质量
模型质量是预测的准确性的关键度量值。模型的预测越接近实际发生的情况,则模型质量越高,即预测结果越准确模型质量越高。
模型质量有很多度量指标,如平均绝对误差。
平均绝对误差MAE
误差
绝对误差
平均绝对误差
4、样本拆分
假设,有一组数据,我们使用这组数据训练了一个模型。然后我们再用这组数据来对该模型进行验证,如计算平均绝对误差,结果表示模型质量良好。
这样计算出的得分被称为
“样本内”分数
,因为我们完全依托于样本进行分析和预测,并且预测的结果也是样本中给出的。结果自然显得准确(因为模型学习到了该数据集的所有可能性),但遇到新的数据可能会产生问题。
所以我们要将手头的数据进行拆,可以拆分成
训练数据、验证数据和测试数据
。
训练数据负责训练模型,练数据集占数据集的大部分比例,一般占60%~80%。
验证数据负责验证模型对新数据的准确性,一般占数据集的10%~20%。
测试数据负责测试最终模型的性能指标。这部分数据完全独立,不可用于训练,以得到最终的模型评估。一般占数据集的10%~20%。
相关阅读:
专业的人做专业的事 GBASE参编数据库发展研究报告(2022年)、入选全球数据库产业图谱
【人工智能】AI领域专业术语
如何解决ajax跨域问题
Redis数据库
Qt——QGridLayout
NoSQL之Redis配置使用
MIPI CSI-2笔记(12) -- Low Level Protocol(数据加扰,扰码,Data Scrambling)
Android Studio 中MotinLayout的简单使用
爬虫ip在使用中被封了如何解决 ?
简论UWB三种定位算法的区别
原文地址:https://blog.csdn.net/weixin_45100742/article/details/132777629
最新文章
攻防演习之三天拿下官网站群
数据安全治理学习——前期安全规划和安全管理体系建设
企业安全 | 企业内一次钓鱼演练准备过程
内网渗透测试 | Kerberos协议及其部分攻击手法
0day的产生 | 不懂代码的"代码审计"
安装scrcpy-client模块av模块异常,环境问题解决方案
leetcode hot100【LeetCode 279. 完全平方数】java实现
OpenWrt下安装Mosquitto
AnatoMask论文汇总
【AI日记】24.11.01 LangChain、openai api和github copilot
热门文章
十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
奉劝各位学弟学妹们,该打造你的技术影响力了!
五年了,我在 CSDN 的两个一百万。
Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
面试官都震惊,你这网络基础可以啊!
你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
心情不好的时候,用 Python 画棵樱花树送给自己吧
通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
13 万字 C 语言从入门到精通保姆级教程2021 年版
10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系
2656653265@qq.com
京ICP备2022015340号-1
正则表达式工具
cron表达式工具
密码生成工具
京公网安备 11010502049817号