数据挖掘题目：根据规则模板和信息表找出R中的所有强关联规则，基于信息增益、利用判定树进行归纳分类，计算信息熵的代码

数据挖掘题目：根据规则模板和信息表找出R中的所有强关联规则，基于信息增益、利用判定树进行归纳分类，计算信息熵的代码
一、（30分）设最小支持度阈值为0.2500, 最小置信度为0.6500。对于下面的规则模板和信息表找出R中的所有强关联规则：

S∈R，P（S，x ）∧ Q（S，y ）==> Gpa（S，w ） [ s, c ]
其中，P，Q ∈{ Major, Status ，Age }.

Major Status Age Gpa Count
Arts Graduate Old Good 50
Arts Graduate Old Excellent 150
Arts Undergraduate Young Good 150
Appl_ science Undergraduate Young Excellent
Science Undergraduate Young Good 100

解答：
样本总数为500，最小支持数为500*0.25 = 125。
在Gpa取不同值的情形下，分别讨论。
（1）Gpa = Good，

Major Status Age Count
Arts Graduate Old 50
Arts Undergraduate Young 150
Science Undergraduate Young 100

频繁1项集L1 = {Major= Arts:200; Status=Undergraduate: 250; Age = Young:250} -----10分
频繁2项集的待选集C2={Major= Arts，Status= Undergraduate:150; Major= Arts，Age=Young:150；Status=Undergraduate, Age=Young:250 }
频繁2项集L2=C2

(2) Gpa = Excellent

Major Status Age Count
Arts Graduate Old 150
Appl_science Undergraduate Young 50

频繁1项集L1 = {Major= Arts:150; Status=Graduate: 150; Age = Old:250}
频繁2项集的待选集C2={Major= Arts，Status= Graduate:150; Major= Arts，Age=Old:150；Status=Graduate, Age=Old:150 }
频繁2项集L2=C2

考察置信度：
Major(S,Arts)^Status(S,Undergraduate)=>Gpa(S,Good) [s=150/500=0.3000, c=150/150=1.0000]
Major(S, Arts)^Age(S,Young)=>Gpa(S, Good)[s=150/500=0.3000, c=150/150=1.0000]
Status(S,Undergraduate)^Age(S,Young)=>Gpa(S,Good) [s=250/500=0.5000, c=250/300=0.8333]
Major(S, Arts)^Status(S,Graduate)=>Gpa(S, Excellent)[s=150/500=0.3000, c=150/200=0.7500]
Major(S, Arts)^Age(S,Old)=>Gpa(S, Excellent)[s=150/500=0.3000, c=150/200=0.7500]
Status(S,Graduate)^Age(S,Old)=>Gpa(S,Excellent) [s=150/500=0.3000, c=150/200=0.7500]

因此，所有强关联规则是：
Major(S,Arts)^Status(S,Undergraduate)=>Gpa(S,Good) [s=150/500=0.3000, c=150/150=1.0000]
Major(S, Arts)^Age(S,Young)=>Gpa(S, Good)[s=150/500=0.3000, c=150/150=1.0000]
Status(S,Undergraduate)^Age(S,Young)=>Gpa(S,Good) [s=250/500=0.5000, c=250/300=0.8333]
Major(S, Arts)^Status(S,Graduate)=>Gpa(S, Excellent)[s=150/500=0.3000, c=150/200=0.7500]
Major(S, Arts)^Age(S,Old)=>Gpa(S, Excellent)[s=150/500=0.3000, c=150/200=0.7500]
Status(S,Graduate)^Age(S,Old)=>Gpa(S,Excellent) [s=150/500=0.3000, c=150/200=0.7500]

二、（30分）设类标号属性 Gpa 有两个不同的值（即{ Good, Excellent } ）, 基于信息增益，利用判定树进行归纳分类。

解答：
定义P: Gpa = Good
N: Gpa = Excellent
任何分割进行前,样本集的熵为:

p n I(p,n)
300 200 0.97095

I(p,n)=-0.6log2(0.6) –0.4log2(0.4)
= 0.97095

考虑按属性Major分割后的样本的熵

Major pi ni I(pi,ni)
Arts 200 150 0.98523
Appl_science 0 50 0
Science 100 0 0

E(Major) = 350/500*0.98523 = 0.68966

I(p,n)=-(4/7)log2(4/7) –(3/7)log2(3/7) =0.98523

考虑按属性Status分割后的样本的熵

Status pi ni I(pi,ni)
Graduate 50 150 0.81128
Undergraduate 250 50 0.65002

E(Status) = 200/5000.81128+300/5000.65002 = 0.71452

考虑按属性Age分割后的样本的熵

Age pi ni I(pi,ni)
Old 50 150 0.81128
Young 250 50 0.65002

E(Age) = E(Status) = 0.71452

各属性的信息增益如下:
Gain(Major) =0.97095-0.68966 = 0.28129
Gain(Status) =Gain(Age) =0.97095-0.71452 = 0.25643

比较后,由于Gain(Major)的值最大,按照最大信息增益原则,按照属性Major的不同取值进行第一次分割.
分割后,按照Major的不同取值,得到下面的3个表:

(1)Major = Arts

Status Age Gpa Count
Graduate Old Good 50
Graduate Old Excellent 150
Undergraduate Young Good 150

考虑按属性Status分割后的样本的熵

Status pi ni I(pi,ni)
Graduate 50 150 0.81128
Undergraduate 150 0 0

E(Status) = 200/350*0.81128= 0.46359

考虑按属性Age分割后的样本的熵

Status pi ni I(pi,ni)
Old 50 150 0.81128
Young 150 0 0

E(Age) = E(Status)= 0.46359

由于E(Age) = E(Status)，可按照属性Status的不同取值进行第二次分割。分割后，按照Status的不同取值，得到下面的2个表：

(1.1) Status =Graduate

Age Gpa Count
Old Good 50
Old Excellent 150

由于表中属性Age的取值没有变化，停止分割。按照多数投票原则，该分支可被判定为Gpa=Excellent。
（1.2）Status = Undergraduate

Status Age Gpa Count
Undergraduate Young Good 150

在这种情形下,所有样本的Gpa属性值都相同.停止分割.
（2）Major= Appl_Science

Status Age Gpa Count
Undergraduate Young Excellent 50

在这种情形下,所有样本的Gpa属性值都相同.停止分割.
（3）Major=Science

Status Age Gpa Count
Undergraduate Young Good 100

在这种情形下,所有样本的Gpa属性值都相同.停止分割.
综合以上分析,有以下的判定树:
Major--------- Arts ----------Status-------Graduate ------Excellent
\ ______Undergraduate______Good
_______Appl_Science_______________________Excellent

__________Science______________________Good

小 tricks

计算信息熵的代码
```
import math

def entropy(probabilities):
    total = sum(probabilities)
    probabilities= [p / total for p in probabilities]
    entropy = 0
    for p in probabilities:
        if p > 0:
            entropy -= p * math.log2(p)
    return entropy

probabilities = [100,100,150]#计算100 100 150的信息熵

result = entropy(probabilities)
print("信息熵:", result)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
```
相关阅读:
DASCTF X CBCTF 2023
MySQL【第三章】——小白级（CRUD）
盘点8款流行的网红纱帘，以及它们的特点 - 江南爱窗帘十大品牌
 数据库实践 Hw08
一文掌握Python虚拟环境-提升你的开发效率
 windows 远程连接mstsc到远程主机报：内部错误10010
【C++】类和对象——下
 月子会所信息展示服务预约小程序的作用是什么
 Service详解
 计算机毕业设计Java健身房信息管理系统(源码+系统+mysql数据库+lw文档)
原文地址：https://blog.csdn.net/m0_51738372/article/details/134209637

Major	Status	Age	Gpa	Count
Arts	Graduate	Old	Good	50
Arts	Graduate	Old	Excellent	150
Arts	Undergraduate	Young	Good	150
Appl_	science	Undergraduate	Young	Excellent
Science	Undergraduate	Young	Good	100

Status	pi	ni	I(pi,ni)
Graduate	50	150	0.81128
Undergraduate	250	50	0.65002

Age	pi	ni	I(pi,ni)
Old	50	150	0.81128
Young	250	50	0.65002

一、（30分）设最小支持度阈值为0.2500, 最小置信度为0.6500。对于下面的规则模板和信息表找出R中的所有强关联规则：

二、（30分）设类标号属性 Gpa 有两个不同的值（ 即{ Good, Excellent } ）, 基于信息增益，利用判定树进行归纳分类。

小 tricks

计算信息熵的代码

二、（30分）设类标号属性 Gpa 有两个不同的值（即{ Good, Excellent } ）, 基于信息增益，利用判定树进行归纳分类。