在本文中,我们将探讨应用聚类算法(例如k均值和期望最大化)来确定集群的最佳数量时所遇到的问题之一。
最近我们被客户要求撰写关于聚类的研究报告,包括一些图形和统计输出。从数据集本身来看,确定集群数量的最佳值的问题通常不是很清楚。在本文中,我们将介绍几种技术,可用于帮助确定给定数据集的最佳k值。
KMEANS均值聚类和层次聚类:R语言分析生活幸福质量系数可视化实例
,时长06:05
我们将在当前的R Studio环境中下载数据集:
StudentKnowledgeData <-read_csv(“ YourdownloadFolderPath / StudentKnowledgeData.csv”)
由于此数据集的特征向量较低,因此我们将不关注特征选择方面,而是将使用所有可用特征。
-
- summary(myDataClean)
- [1] 402 5
- STG SCG ST