• 机器学习(22)---信息熵、纯度、条件熵、信息增益



    1、信息熵

     1. 信息熵(information entropy)是度量样本集合纯度最常用的一种指标。信息的混乱程度越大,不确定性越大,信息熵越大;对于纯度,就是信息熵越大,纯度越低。

     2. 纯度的通俗理解:一个盒子里只有白球,说明这个盒子很纯,纯度很高。一个集合里只有一类样本,比如表示男女的样本集合 U = U= U={男,男,…},都是男的,那么就说这个集合纯度很高。

     3. 信息熵公式如下所示,其中 n n n表示随机变量的可能取值数, x x x表示随机变量, p ( x ) p(x) p(x)表示随机变量的概率函数。

    在这里插入图片描述

    2、信息增益

     1. 条件熵:在 X X X给定条件下, Y Y Y的条件概率分布的熵对 X X X的数学期望。

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
     同理可知:
    在这里插入图片描述

     2. 信息增益:以某特征划分数据集前后的熵的差值。熵 A A A-条件熵 B B B,是信息量的差值,表示此条件对于信息熵减少的程度。也就是说,一开始是 A A 状态,用了条件后变成了 B B B状态,则条件引起的变化是 A − B A-B AB,即信息增益。
     熵可以表示样本集合的不确定性,熵越大,样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合 D D D划分效果的好坏。
    结论:好的条件就是信息增益越大越好,即变化完后熵越小越好(熵代表混乱程度,最大程度地减小了混乱)。因此我们在树分叉的时候,应优先使用信息增益最大的属性,这样降低了复杂度,也简化了后边的逻辑。

     3. 信息增益的公式如下。其中 A A A就是一个特征, D D D是原始的数据集, D ∣ A D∣A DA是在 A A A分类下的数据集。

    在这里插入图片描述

    3、例题分析

    1. 例子分析信息熵

    在这里插入图片描述
    在这里插入图片描述
    2. 例子分析信息增益

    编号身高(特征1)颜值(特征2)喜欢喝酒程度(特征3)是否渣男(分类结果)
    113
    221
    333
    423
    512

     身高、颜值、喝酒都是特征,是否渣男是分类结果。我们来算已知 A A A事件为身高情况下的信息增益:

    在这里插入图片描述
    3. 例子分析信息增益
    在这里插入图片描述
    在这里插入图片描述

  • 相关阅读:
    python tempfile 模块使用
    [NOIP2012 普及组] 摆花
    天软特色因子看板 (2023.11 第10期)
    8.tomcat优化
    autohotkey 辅助工具
    新时代背景下智慧城市的建设与5G技术有何关联
    Faunadb
    java毕业设计血库系统Mybatis+系统+数据库+调试部署
    如何优雅的实现 iframe 多层级嵌套通讯
    从一条更新SQL的执行过程窥探InnoDB之REDOLOG
  • 原文地址:https://blog.csdn.net/m0_62881487/article/details/133797777