码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 机器学习第9天:决策树分类


    文章目录

    机器学习专栏

    介绍

    基本思想

    使用代码 

    深度探索

    优点

    估计概率

    训练算法

    CART成本函数

    实例数与不纯度

    正则化

    在鸢尾花数据集上训练决策树


    机器学习专栏

    机器学习_Nowl的博客-CSDN博客


    介绍

    作用:分类

    原理:构建一个二叉树,逐级条件判断筛选


    基本思想

    假如有小明,小红和小张三个人,我们知道他们的身高体重,要通过身高体重来判断是哪个人,决策树算法会构建一个二叉树,逐级判断,如下


    使用代码 

    1. from sklearn.tree import DecisionTreeClassifier
    2. tree_clf = DecisionTreeClassifier(max_depth=2)
    3. tree_clf.fit(X, y)

    max_depth参数设置的是决策树的深度,上图的深度是2,它代表决策的次数


    深度探索

    优点

    我们来看决策树的过程:每到一个节点进行一次询问,然后将数据集分向其他的节点,这样的特性决定了数据不需要经过特征缩放的处理


    估计概率

    决策树模型可以输出每个类的概率

    这意味着我们可以使用predict_proba方法,这将输出每个类的概率

    1. model = DecisionTreeClassifier(max_depth=2)
    2. model.fit(x, y)
    3. model.predict_proba(x)

    训练算法

    决策树的训练算法被称为CART算法,它的目标是选择一个特征(k)和阈值(t)(在最开始的例子中,身高体重是特征,170和60kg是阈值),CART算法会通过成本函数不断优化,选择每个节点合适的特征和阈值

    CART成本函数

    J(k, t_{k})=\frac{m_{left}}{m}G_{left}+\frac{m_{right}}{m}G_{right}

    m为实例数

    G为不纯度

    下标left和right分别代表该节点的左右子树


    实例数与不纯度

    实例数就是被分到某节点实例数量,在最开始的例子中,根节点的左实例数会这样记录:1个小明,0个小红,0个小张,右实例数会记为0个小明,1个小红,1个小张

    不纯度代表着节点中类的混合程度,在最开始的例子中左节点只有一类,不纯度就为0,而右节点有两类,不纯度就较高,决策树算法中往往采用基尼不纯度来判定

    它的公式为

    G_{i}=1-\sum_{k=1}^{n}(\frac{sample_{k}}{sample})^{2}

    sample_{k}为第k类的实例数

    sample为总实例数


    正则化

    为了防止过拟合,我们当然要进行正则化,决策树的正则化通过控制参数max_depth来决定,越大则越可能过拟合


    在鸢尾花数据集上训练决策树

    1. from sklearn.datasets import load_iris
    2. from sklearn.tree import DecisionTreeClassifier
    3. iris = load_iris()
    4. X = iris.data[:, 2:] # petal length and width
    5. y = iris.target
    6. tree_clf = DecisionTreeClassifier(max_depth=3)
    7. tree_clf.fit(X, y)

    当我们用上面代码训练模型时(使用花瓣长和宽做特征,决策树深度设为3),可能得到如下模型图

  • 相关阅读:
    Three.js 与 Python 语法 (PyWeb3D)
    还记得高中生物书上的莫斯密码吗?利用Python破解摩斯密码的代码示例!
    高等数学(第七版)同济大学 习题7-5 个人解答
    JS中字符串常用方法(总结)
    医院项目-预约挂号-第四部分
    pytorch之nn.Conv1d详解
    管理者到底该管什么?就这5件事,其他别管!
    如何使用Java反射获取指定类的全部属性呢?
    es 分组后排序 再分页
    子连接中的参数传递
  • 原文地址:https://blog.csdn.net/MuRanstr/article/details/134476962
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号