缺点:数据集中存在变量取值范围相差十分悬殊,会造成大数吃小数现象。
数值与指标量纲有关
度量值的标准化:
特例:比例数值变量
两种类型
二元变量计算:
差异矩阵法:
恒定的相似度
非恒定的相似度
最近距离
与最近距离为
是和,合并得到的
实际中不多见,避免极大值影响
例子
计算类间距离,然后将最小的两个进行合并
" role="presentation" style="position: relative;">
可能被极大值扭曲,删除后再聚类
例题:与上面的类似,每次选取距离最小的,合并的时候取的是max
平均距离
一个类空间的位置用重心表示,两个类重心之间距离为二者的距离
对异常值不敏感,结果能稳定
用类均值表示
不适合处理离散型属性,适合处理连续型属性
缺点:
局部最优,不是全局最优
结果与k的取值有关
不适合发现大小很不相同的簇、凹状的簇
*
只有在簇的平均值被定义的情况下才能使用,不适合有类属性的数据。
对噪声、异常点敏感。
示意图例子:
簇中心 | 评价准则 | |
---|---|---|
k-均值 | 簇中对象均值(可以是虚点) | 误差平方和 |
k-中心点 | 接近簇中心的一个对象表示(实际存在的点) | 绝对误差 |
4.算法步骤
- 将所有对象当做一个初始簇
- for(int i = 1; i <= k; i++){
- 在所以簇中挑选出最大直径的簇C
- 找出C中与其他点平近距离最大的一个点p放入splinter group,剩余点放入old party
- Repeat
- 在old party中找出到splinter group比到old party更近的点,加入splinter group
- Until 没有新的点被分到splinter group
- splinter group 与 old party 就被分解为两个新的簇
- }
例题