数据挖掘期末考试会给考纲,不同学校可能有所不同,大家看问题选取所需。另外有不正确的地方,或者遗漏的地方希望大家在评论区斧正和补充。
商业理解:业务理解。
数据理解:认识数据、数据探索。
数据准备:数据选择和数据预处理。
建立模型:选择算法构建模型。
模型评估:评估模型是否满足商业应用需求,达成业务目标。
方案实施:部署。
特征描述、鉴别、关联、分类、聚类、趋势和离群点分析。
内容:数据质量分析和数据特征分析。
数据质量分析就是检测原始数据是否有脏数据。(异常值、缺失值、不一致的值)
异常值分析就是检验数据是否含有不合理的数据(一般主要和实际业务考虑)
判断异常值方法主要有:
包括记录中某个字段的信息缺失和记录的缺失。对于缺失值分析,要知道造成缺失值的原因,只有知道其原因,才能对症下药
造成缺失值的原因主要有俩种:
主要揭示数据的分布特征和分布类型,可从定量数据和定性数据俩个角度考虑
对于定量数据,想要了解其分布类型是对称或者非对称的,可以通过绘制频率分布表,频率分布直方图进行直观分析
对于定性分类数据,可以用饼图和条形图直观显示分布情况
2.对比分析
3.统计量分析
4.周期性分析
5.贡献度分析(28法则)
个性相关系数:一般用于俩个连续性变量且服从正态分布
斯皮尔曼相关系数:一般用于不服从正态分布的变量,分类变量或等级变量之间的关联性
(3)系数检验
T检验
(4)判定系数
衡量回归方程对y的解释程度,R越大,说明拟合效果越好,说明X与之间的相关性越强
总结: 在得到原始数据后,一般要进行探索分析,数据质量分析要求我们要检测出数据是否存在异常值,和缺失值,数据特征分析要求我们通过频率分布分析,对比分析,帕累托图分析,周期性分析,相关性分析,对数据存在的某种规律和趋势预先了解。
作用:为了改善数据挖掘分析工作,减少时间,降低成本和提高质量。
主要任务
数据清洗: 填充缺失值,平滑噪声数据识别或删除异常值,纠正数据的不一致性。
数据集成: 针对多元异构数据,集成多个数据库、数据集、或文件。
数据规约:
维归约:数据压缩技术,特征选择和属性构造。
数值规约:抽样。
数据变换: 规范化、离散化、概念分层。
分箱
回归
通过将数据拟合到回归函数中使其平滑.
离群点分析
忽略元组
人工填写缺失值:费时费力,不可取。
缺失值填充
平滑:去除数据中的噪声。
属性构造:根据给定的属性构造新的属性。
聚合:汇总或聚集
规范化:按比例缩小到更小的范围内。最大-最小规范化,z-score规范化,小数定标。
离散化
分类
统计学方法
PPT的内容
目的:为了更好的理解数据,中心趋势,变化和扩散。
数据分散性:中位数,最大值,最小值,分位数,离群点,方差等。
数值维度:对于排序区间,数据分布:多粒度分析;排序区间的箱线图或分位数分析。
计算度量的离散分析:映射测量成数值尺寸;对转换后的立方体进行箱线图或分位数分析。
参考书的内容
中心趋势度量:均值、中位数、众数。
度量数据散布:极差、四分位数、方差、标准差、四分位数极差。
数据的基本统计描述的图形显示。
注意:这两个地方表达的内容都是大同小异,根据老师的考纲走,可以找老师去问问这里,反正我周一就要问哦。
五数概括:从上至下,最大观测值、Q3、Q2、Q1、最小观测值。

解释一下这图是怎么画的,四分位数:Q1,Q2,Q3。三条线把整个数据集分成四部分(中间砍四刀)。其次这里的最小观测值 和最大观测值分别为:Q1 - 1.5 IQR,Q3 + 1.5 IQR. 其中 IQR 是四分位数极差 = Q3 - Q1 .注意:最大观测值和最小观测值不是固定的,根据数据集来定,但是一定在这个区间里面,超出了按照离群点来处理。
下面开始上硬菜了,嘿嘿嘿,算法来喽。
项集:项的集合成为项集。
k 项集:包含 k 个项的集合称为 k 项集,如:X = {
x
1
,
x
2
,
.
.
.
.
,
x
k
x_1,x_2,....,x_k
x1,x2,....,xk}。
绝对支持度或支持度计数:指包含X项集的事务数。
相对支持度:项集 X 的绝对事务数与数据集事务总数的比值。
平繁项集:如果 X 的相对支持度大于预定义的最小支持度阈值,则项集 X 将频繁出现。
支持度s,反应规则的有用性。
(
X
→
Y
)
=
P
(
X
∪
Y
)
=
support
(
X
∪
Y
)
(X \rightarrow Y)=P(X \cup Y)=\operatorname{support}(X \cup Y)
(X→Y)=P(X∪Y)=support(X∪Y)
置信度c,反应规则的确定性。
(
X
→
Y
)
=
P
(
Y
∣
X
)
=
support
(
X
∪
Y
)
support
(
X
)
(X \rightarrow Y)=P(Y \mid X)=\frac{\operatorname{support}(X \cup Y)}{\operatorname{support}(X)}
(X→Y)=P(Y∣X)=support(X)support(X∪Y)
给出一个例题图:可能与你的概论学的有所差异,但是看着下面这张图,你就明白了。(60%,75%)代表的是(支持度,置信度)。

先验性质:频繁项集的所有非空子集也一定是频繁的。
反单调性:如果一个集合不能通过测试那么它的所有超集也不能通过相同的测试。
方法步骤;
还是一张图解决问题:

在这里我们第一要知道算法流程怎么用文字来描述,其次集合这张图懂得怎么使用这个算法。
Apriori 算法的瓶颈:广度优先,候选集生成和测试:通常会产生大量的候选集。
FP-growth:深度优先搜索,避免显示生成候选集。
主要理念:短模式到长模式,只是用局部频繁项。

对每个条件模式基:

我们从最大频率的 f 开始,然后就去往下组合,fc 在事务集有多少,fa 又有多少,就这样链接关联下去就可建立一棵树。

看这张图来挖掘FP-tree,am 条件模式基就是 am 上面的父亲和祖宗,cm,cam 同样如此一直往上追溯到根节点。他的数目怎么算?就是等于开头字母在此路径上的数目,比如am,看到FP-tree中,a=3,m=2,那么它的条件模式基计数为 3.值得注意的是我们画FP-tree的根结点是空值哦!
点击这里,当然可以去看看其他博主怎么说,欢迎battle!
ID3 算法主要选取信息增益来对数据集进行分割,下面来看一看具体怎么做的吧。
选择信息增益最高的属性。
设 P i P_i Pi 为 D 中任意一个元组属于类 C i C_i Ci 的非零概率估计。
期望信息熵是数据集 D 中每条数据完成分类所需要的信息:
Info
(
D
)
=
−
∑
i
=
1
m
p
i
log
2
(
p
i
)
\operatorname{Info}(D)=-\sum_{i=1}^{m} p_{i} \log _{2}\left(p_{i}\right)
Info(D)=−i=1∑mpilog2(pi)
使用属性 A 将数据集 D 分成 V 个部分后还需要多少信息完成数据集分类,值越小,分区纯度越高。
Info
A
(
D
)
=
∑
j
=
1
v
∣
D
j
∣
∣
D
∣
×
Info
(
D
j
)
\operatorname{Info}_{A}(D)=\sum_{j=1}^{v} \frac{\left|D_{j}\right|}{|D|} \times \operatorname{Info}\left(D_{j}\right)
InfoA(D)=j=1∑v∣D∣∣Dj∣×Info(Dj)
其中 V 是数据分区数, ∣ D j ∣ |D_j| ∣Dj∣ 表示第 j 个分区的长度, ∣ D j ∣ ∣ D ∣ \frac{|D_j|}{|D|} ∣D∣∣Dj∣ 表示第 j 个分区的权重。
信息增益:通过属性 A 上的分支获得的信息如下:
Gain
(
A
)
=
Info
(
D
)
−
Info
A
(
D
)
\operatorname{Gain}(A)=\operatorname{Info}(D)-\operatorname{Info}_{A}(D)
Gain(A)=Info(D)−InfoA(D)
下面我们通过一道例题来巩固一下:
下表是一些带有标记类的训练集 D, 训练集的列是一些特征,表中最后一列是类标号,就是需要我们分类的。

计算信息熵: Infor ( D ) = − 9 15 × log 2 9 15 − 6 15 × log 2 6 15 = 0.971 \operatorname{Infor}(D)=-\frac{9}{15} \times \log _{2} \frac{9}{15}-\frac{6}{15} \times \log _{2} \frac{6}{15}=0.971 Infor(D)=−159×log2159−156×log2156=0.971
计算按照每个特征进行划分的信息熵 Info
A
_A
A(D),假设我们用 A,B,C,E分别代表学历、婚否、是否有车、收入水平。分别计算出每个属性分类的信息熵。
I
n
f
o
A
(
D
)
=
5
15
×
(
−
2
5
log
2
2
5
−
3
5
log
2
3
5
)
+
5
15
×
(
−
3
5
log
2
3
5
−
2
5
log
2
2
5
)
+
5
15
×
(
−
4
5
log
2
4
5
−
1
5
log
2
1
5
)
=
0.888
同理:
I
n
f
o
B
(
D
)
=
10
15
×
(
−
6
10
log
2
6
10
−
4
10
log
2
4
10
)
+
5
15
×
(
−
5
5
log
2
5
5
)
=
0.647
I
n
f
o
C
(
D
)
=
9
15
×
(
−
6
9
log
2
6
9
−
3
9
log
2
3
9
)
+
6
15
×
(
−
6
6
log
2
6
6
)
=
0.951
Info
E
(
D
)
=
5
15
×
(
−
4
5
log
2
4
5
−
1
5
log
2
1
5
)
+
6
15
×
(
−
2
6
log
2
2
6
−
4
6
log
2
4
6
)
+
4
15
×
(
−
4
4
log
2
4
4
)
=
0.608
3.计算信息增益:
Gain
A
(
D
)
=
Info
(
D
)
−
Info
A
(
D
)
=
0.083
Gain
B
(
D
)
=
Info
(
D
)
−
Info
B
(
D
)
=
0.324
G
a
i
n
C
(
D
)
=
Info
(
D
)
−
Info
C
(
D
)
=
0.020
Gain
E
(
D
)
=
Info
(
D
)
−
Info
E
(
D
)
=
0.363
C4.5算法在构建决策树的时候,分类属性选择的是具有最大信息增益率 的特征,这样通过分裂属性的信息,一定程度上避免了由于特征太分散而造成的误差。流程与 ID3 相似。
C4.5 连续值处理:

利用上图计算信息增益率:Gain(income) = 0.029
SplitInfo
i
n
c
o
m
e
(
D
)
=
−
4
14
×
log
2
(
4
14
)
−
6
14
×
log
2
(
6
14
)
−
4
14
×
log
2
(
4
14
)
=
1.557
\text { SplitInfo }{ }_{income}(D)=-\frac{4}{14} \times \log _{2}\left(\frac{4}{14}\right)-\frac{6}{14} \times \log _{2}\left(\frac{6}{14}\right)-\frac{4}{14} \times \log _{2}\left(\frac{4}{14}\right)=1.557
SplitInfo income(D)=−144×log2(144)−146×log2(146)−144×log2(144)=1.557
GainRatio i n c o m e = 0.029 1.557 = 0.019 \operatorname{GainRatio}_ { income }=\frac{0.029}{1.557}=0.019 GainRatioincome=1.5570.029=0.019

设 A,B,C,E 分别表示:年龄,吸烟史,有无家族病史,体重范围。

我们可以在年龄为 44 处的地方断开。
计算各个特征分裂信息:
SplitInfo
A
(
Z
)
=
−
∑
j
=
1
n
∣
Z
j
∣
∣
Z
∣
×
log
2
(
∣
Z
j
∣
∣
Z
∣
)
=
−
7
15
×
log
2
7
15
−
8
15
×
log
2
8
15
=
0.997
SplitInfo
B
(
Z
)
=
−
9
15
×
log
2
9
15
−
3
15
×
log
2
3
15
−
3
15
×
log
2
3
15
=
1.371
SplitInfo
C
(
Z
)
=
−
6
15
×
log
2
6
15
−
9
15
×
log
2
9
15
=
0.971
SplitInfo
E
(
Z
)
=
−
2
15
×
log
2
2
15
−
2
15
×
log
2
2
15
−
3
15
×
log
2
3
15
−
6
15
×
log
2
6
15
−
2
15
×
log
2
2
15
=
2.156
计算各属性的信息增益率:
g
r
(
Z
,
A
)
=
g
(
Z
∣
A
)
SplitInfo
A
(
Z
)
=
Info
(
Z
)
−
Info
(
Z
∣
A
)
SplitInfo
A
(
Z
)
=
0.997
−
0.566
0.997
=
0.432
g
r
(
Z
,
B
)
=
g
(
Z
∣
B
)
SplitInfo
B
(
Z
)
=
Info
(
Z
)
−
Info
(
Z
∣
B
)
SplitInfo
B
(
Z
)
=
0.997
−
0.778
1.371
=
0.160
g
r
(
Z
,
C
)
=
g
(
Z
∣
C
)
SplitInfo
C
(
Z
)
=
Info
(
Z
)
−
Info
(
Z
∣
C
)
SplitInfo
C
(
Z
)
=
0.997
−
0.459
0.971
=
0.554
g
r
(
Z
,
E
)
=
g
(
Z
∣
E
)
SplitInfo
E
(
Z
)
=
Info
(
Z
)
−
Info
(
Z
∣
D
)
SplitInfo
D
(
Z
)
=
0.997
−
0.393
2.156
=
0.280
选择信息增益率最大的特征,“有无家族病史”作为根结点分类属性,将训练集划分两个子集 Z1, Z2,对应 有 和 无 这两种取值,Z1 中是纯的,不再继续划分,Z2 子集不纯,还需要继续划分。



ID3 和 C4.5 这种计算量特别大,我觉得考试这么靠不现实,但是我希望大家直到怎么算的,利用那种核心标准。正真要写,问一下你们的老师可不可以使用伪代码,毕竟这才是更明了的表达。例题需要动笔走一下流程,不是为了计算,而是为了熟悉公式。
装袋(bagging):将预测结果由一组分类器投票得到。
提升(Boosting):由一组分类器加权投票得到。
组合方法:组合异构分类器(随机森林)
数据矩阵与相异性矩阵
标称属性的邻近性度量
二元属性的邻近性度量
数值属性的相异性:欧氏距离,闵可夫斯基距离,曼哈顿距离,切比雪夫距离。
余弦相异性
混合属性相异性
用于评估分类器准确率的各种方法:
分类器性能评估:
书上定义:试图识别与分类和回归过程显著相关的属性。我们的热力图之类的图表法,设计回归和分类。
总结:本文只是做一个淡淡的提示,遇到不懂的请立马翻书查看!!!多问老师,多和同学交流,考试简简单单,希望大家熟练掌握,变成自己的饭碗最好。