I
G
(
A
)
=
H
(
L
)
−
H
(
L
∣
A
)
=
0.311
IG(A) = H(\text{L}) - H(\text{L}|A)=0.311
IG(A)=H(L)−H(L∣A)=0.311
H
(
L
∣
A
)
=
1
2
H
(
L
∣
A
=
1
)
+
1
2
H
(
L
∣
A
=
0
)
=
0.5
H(\text{L}|A) = \frac{1}{2}H(\text{L}|A=1) + \frac{1}{2}H(\text{L}|A=0) =0.5
H(L∣A)=21H(L∣A=1)+21H(L∣A=0)=0.5
为什么要这么做:
信息增益测量了在知道属性 A 的值之后,结果的不确定性减少了多少。如果信息增益高,意味着该属性在分类时非常有用,因为它能显著降低不确定性。
通过这种方式,我们计算得出属性 A 的信息增益为 0.311,显示它是一个对于降低结果预测不确定性有效的属性。下面开始技术总结
应用熵公式:
H
(
X
)
=
−
∑
i
=
1
n
p
i
log
2
(
p
i
)
H(X) = -\sum_{i=1}^{n} p_i \log_2(p_i)
H(X)=−i=1∑npilog2(pi) 其中
p
i
p_i
pi是第
i
i
i类结果的概率。
步骤 3: 计算条件熵
分组数据:根据要计算信息增益的属性,将数据分成几组。
计算每组的熵:对每个分组,再次计算结果的概率和熵。
计算加权平均的条件熵:
H
(
X
∣
A
)
=
∑
j
P
(
A
=
a
j
)
H
(
X
∣
A
=
a
j
)
H(X|A) = \sum_{j} P(A=a_j) H(X|A=a_j)
H(X∣A)=j∑P(A=aj)H(X∣A=aj) 其中
a
j
a_j
aj 是属性
A
A
A 的第
j
j
j个值,
P
(
A
=
a
j
)
P(A=a_j)
P(A=aj) 是该值在数据集中的概率。
步骤 4: 计算信息增益
应用信息增益公式:
I
G
(
A
)
=
H
(
X
)
−
H
(
X
∣
A
)
IG(A) = H(X) - H(X|A)
IG(A)=H(X)−H(X∣A) 这里,
I
G
(
A
)
IG(A)
IG(A) 是属性
A
A
A 的信息增益,
H
(
X
)
H(X)
H(X) 是数据集的熵,
H
(
X
∣
A
)
H(X|A)
H(X∣A) 是条件熵。