码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 决策树算法中处理噪音点


    目录

    如何解决?——采用剪枝的方法。

    预剪枝

    后剪枝


    如果训练集中存在噪音点,模型在学习的过程总会将噪音与标签的关系也学习进去,这样就会造成模型的过拟合化,也就是模型在训练集的分类效果很好,在未知数据上处理效果不好。

    如何解决?——采用剪枝的方法。

    一般存在“预剪枝”和“后剪枝”两种策略。

    预剪枝

    预剪枝即为在决策树生成过程中,对当前节点的划分结果进行评价,如果该划分不能带来决策树泛化能力(即处理未见过示例的能力)的提升,则停止划分,将当前结点标记为叶节点;

    后剪枝

    先生成一颗完整的决策树,然后自底向上的对非叶节点进行评价,如果剪掉该枝可以使得泛化性能提升,则将该子树替换为叶子节点。预先剪枝可能会过早的终止决策树的生长,后剪枝一般能够产生更好的效果。但后剪枝在子树被剪掉后,决策树生长的一部分计算就被浪费了。

    这里简单介绍一个剪枝算法,首先我们要明确,剪枝的目的是为了减小过拟合带来的不良影响,降低决策树模型的复杂度,但是同时也要保证其对于训练数据有较好的分类效果。因此,定义一个损失函数,如下:

    C_{\alpha }(T)=C(T)+\alpha|T|

    其中,\alpha \geq 0为参数,C(T)表示模型对于训练数据的预测误差。|T|表示叶子节点的个数,可用于表示模型的复杂度。可以看出,参数\alpha控制着模型复杂度和对训练数据拟合程度两者之间的影响。较大的\alpha促使我们选择一个较简单的树,而较小的\alpha则偏向于对训练数据有更好的拟合效果。

    因此可以利用上面的损失函数进行剪枝操作,这样得到的决策树既考虑到对训练数据的拟合,又增强了泛化能力。

    其他一些剪枝算法借助验证集实现,有的算法通过设置信息赠益的阈值来作为剪枝判断标准,具体的算法过程可以参考相关文献。


  • 相关阅读:
    Linux创建用户和密码相关的命令useradd、groupadd、passwd和userdel应用
    python随手小练1
    【C++·峰顶计划】缺省参数操作与函数重载细则
    【Mysql性能优化系列】Mysql优化方案你知道哪些
    黑马瑞吉外卖之菜品的启售停售
    JavaEE-线程进阶
    动态内存管理(1)
    客流人数管理新趋势:景区客流采集分析系统的功能特点
    C语言中的文件操作那些事儿~~
    Debian/Ubuntu 安装 NodeJS【详细步骤】
  • 原文地址:https://blog.csdn.net/m0_57656758/article/details/128209228
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号