当样本的真实标签未知时,聚类有效性可以通过内部评价指标进行评估。
聚类内部评价指标通过计算聚类结果的类内样本紧密程度或类间样本疏远程度来评价聚类结果优劣。
戴维森堡丁指数(Davies-Bouldin index,DBI)综合考虑了类内样本相似度以及类间样本差异度 ,其值越小表征聚类有效性越高,具体定义如下:
式中:
λ
D
B
I
λ_{DBI}
λDBI表示 DBI 指标值;
d
e
,
i
d_{e,i}
de,i为第 i 类样本到其类中心的平均欧氏距离;
d
e
(
C
i
,
C
j
)
d_e(C_i,C_j)
de(Ci,Cj)为第 i 和第 j 类的类中心的欧氏距离。
经典 DBI 采用欧氏距离来度量不同样本的距离,但对于采取其他相似性度量的聚类方法,经典DBI 并不能准确地对聚类有效性作出评价。
为了更准确地对考虑双尺度相似性的负荷聚类算法的有效性进行评价,需要将综合距离应用到 DBI 的距离计算中,构造新的指标即修正后的 DBI(modified DBI,
MDBI)如下:
[1] 考虑双尺度相似性的负荷曲线集成谱聚类算法 2020.11
[2] Calinski-Harbasz Score 详解 2022.1
[3] 机器学习中评价指标的选择 2018.4