我们可以怎样最有用地对其进行归纳和分组?我们可以怎样以一种压缩格式有效地表征数据?这都是无监督学习的目标,之所以称之为无监督,是因为这是从无标签的数据开始学习的。
我们先来看一下一个K-means的聚类效果图
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
# X为样本特征,Y为样本簇类别, 共1000个样本,每个样本2个特征,共3个簇
data, target = make_blobs(n_samples=1000, n_features=2, centers=3, random_state=2)
# 随机生成数据的聚类效果
plt.scatter(data[:, 0], data[:, 1], marker='o', c=target)
# 实际结果
plt.show()
km = KMeans(n_clusters=3, max_iter=1000)
km.fit(data)
pre = km.predict(data)
plt.scatter(data[:, 0], data[:, 1], marker='o', c=pre)
# 预测结果
plt.show()
随即生成的数据:
kmeans生成的数据:
问题:如何去评估聚类的效果呢?
注:对于每个点i 为已聚类数据中的样本 ,b_i 为i 到其它族群的所有样本的距离最小值,a_i 为i 到本身簇的距离平均值。最终计算出所有的样本点的轮廓系数平均值
分析过程(我们以一个蓝1点为例)
1、计算出蓝1离本身族群所有点的距离的平均值a_i
2、蓝1到其它两个族群的距离计算出平均值红平均,绿平均,取最小的那个距离作为b_i
根据公式:极端值考虑:如果b_i >>a_i: 那么公式结果趋近于1;如果a_i>>>b_i: 那么公式结果趋近于-1
from sklearn.metrics import silhouette_score
labels = km.labels_
print("轮廓系数:", silhouette_score(data, labels))