





缺点:数据集中存在变量取值范围相差十分悬殊,会造成大数吃小数现象。
数值与指标量纲有关
度量值的标准化:

特例:比例数值变量

两种类型
二元变量计算:
差异矩阵法:
恒定的相似度

非恒定的相似度







,间距离
满足:

,间距离
满足
(类内平均距离)
,存在
使得其满足
(不要求任意两个元素)

最近距离
与
最近距离为![D_{kl}=min[d_{ij}]](https://1000bd.com/contentImg/2024/03/10/211002260.png)
是
和
,合并得到的![D_{kl}=\min[D_{kp},D_{kq}]](https://1000bd.com/contentImg/2024/03/10/211000066.png)
实际中不多见,避免极大值影响
例子
计算类间距离,然后将最小的两个进行合并
" role="presentation" style="position: relative;">
与
最远距离为![D_{kl}=max[d_{ij}]](https://1000bd.com/contentImg/2024/03/10/211000204.png)
是
和
,合并得到的![D_{kl}=\max[D_{kp},D_{kq}]](https://1000bd.com/contentImg/2024/03/10/211001651.png)
可能被极大值扭曲,删除后再聚类
例题:与上面的类似,每次选取距离最小的,合并的时候取的是max
平均距离


一个类空间的位置用重心表示,两个类重心之间距离为二者的距离
对异常值不敏感,结果能稳定
用类均值表示
不适合处理离散型属性,适合处理连续型属性


缺点:
局部最优,不是全局最优
结果与k的取值有关
不适合发现大小很不相同的簇、凹状的簇
*![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AwfktfUP-1641719199744)(/uploads/upload_98816f0f833feeb2da5536e0c31765d5.png =400x)]](https://1000bd.com/contentImg/2024/03/10/210959829.png)
只有在簇的平均值被定义的情况下才能使用,不适合有类属性的数据。
对噪声、异常点敏感。
示意图例子:


| 簇中心 | 评价准则 | |
|---|---|---|
| k-均值 | 簇中对象均值(可以是虚点) | 误差平方和 |
| k-中心点 | 接近簇中心的一个对象表示(实际存在的点) | 绝对误差 |

是否能替代当前代表对象
,需要对每个非中心点P考虑




4.算法步骤
计算与中心对象
交换的成本S。



- 将所有对象当做一个初始簇
- for(int i = 1; i <= k; i++){
- 在所以簇中挑选出最大直径的簇C
- 找出C中与其他点平近距离最大的一个点p放入splinter group,剩余点放入old party
- Repeat
- 在old party中找出到splinter group比到old party更近的点,加入splinter group
- Until 没有新的点被分到splinter group
- splinter group 与 old party 就被分解为两个新的簇
- }
例题




