目录
之前几类数据挖掘的目的是挖掘出样本数据与标签之间的关系,因此这种学习模型被称为监督学习。
而聚类分析则是另一种学习模式,它处理的数据没有标签,因此也称之为无监督学习方法。
聚类分析是指根据数据内部的相互关系将数据样本划分为不同的集合。
聚类分析的结果是将相似的样本划分在同一个簇中,差别较大的样本划分到不同的簇。
对样本进行聚类的依据是样本之间的相似度,样本之间的相似度通常使用样本距离来衡量。
使用不同的距离定义对聚类结果有很大影响。常见的距离定义有:
1.闵可夫斯基距离
2.曼哈顿距离
3.欧几里得距离
4.加权闵可夫斯基距离
5.余弦距离
常见的聚类方法主要有三种:基于原型的聚类方法、基于密度的聚类方法和基于层次的聚类方法
基于原型的聚类方法:所谓原型一般是指簇的中心点,簇中所有的样本都与这个中心点具有相似的特征。
k-均值聚类:k-均值聚类是一种典型的基于原型的聚类方法,它假设所有的样本可以划分为k个簇,每个样本属于当中的某个簇。