基本步骤:
1 数据清理
2 数据集成
3 数据选择
4 数据变换
5 数据挖掘
6 模式评估
7 知识表示
数据的属性有哪些:
1 标称属性:可以说成是事物的名称 例如 头发的颜色:棕色,红色,褐色等
2 二元属性:用 0或1 表示,又称布尔属性
3 序数属性: 第一,第二,第三,A,B,C,D,等级之类的,序数之间没有明确的差值
4 数值属性:有两种 (1).区间标度属性,比如温度15°和30°,差了15°,但是你不能说30°是15°的2倍 (2)比例率属性,比如100美元是1美元的100倍
5 离散属性与连续属性
数据的表述:
1 中心趋势度量:可以用到 (1)均值 (2)中位数 (3) 众数
均值:所有数据加起来求平均
加权平均: 所有数据乘以他的权重,求和,在除以他的权重和
中位数:递增排序后,中间的那个数,如果是偶数个,则为中间两个的平均值
众数:数据中出现最多的数
中列数:数据中最大数和最小数的和值得平均
中列数可以看出数据是正倾斜还是负倾斜(在中位数的左边还是右边)左正右负
度量数据散布:
1 极差,四分位数,方差,标准差,和四分位极差
极差:最大和最小数的差
四分位数:数据中第25%(Q1) 50%(Q2) 75%(Q3),可以把数据分成四分,使得每部分是数据的四分之一。
四分位极差:IQR=Q3-Q1
方差:(数据的平均值减去数据中的每一个值)的平方,然后求和,再除以数据的个数
标准差:方差开平方