聚类算法：kmeans和dbscan

一、kmeans简介

kmeans是一种无监督学习算法，该算法的目标是给定若干个无标签的样本，将这些样本根据样本间的距离聚成k个类别。
算法流程：

kmeans是基于划分的聚类方法，类别数k需要事先指定，距离的计算方式需要事先指定，以样本到其所属的类别中心的距离为优化目标，但是算法是启发式算法，不能保证得到全局最优，初始中心的选择会对结果产生比较大的影响；
k值的选择，当k值很小的时候，类别的平均直径较大，当k值增大时，类别的平均直径会降低，继续增大k值，类别的平均直径趋于稳定，关系如下图：
kmeans不适合non-convex的数据集。

density-based spatial clustering of application with noise，基于密度的聚类算法，该算法是不断的对cluster进行扩展，而且dbsacn适用于任何形状的数据。不需要事先指定类别的数量。

dbscan的算法流程如下：

指定两个参数，epsilon和minpoint，epsilon指半径，minpoint指最小的点数。随机选中一个点P，以P为中心，epsilon为半径画圆，如果圆中的点数超过minpoint，则将这个圆作为一个cluster；
遍历cluster中的点，以点为中心，epsilon为半径画圆，如果圆中的点超过minpoint，就将这个新的圆扩展到新的cluster中；
如此递归下去，直到所有的点都被遍历了一遍。

如下网址dbscan和kmeans可视化的对比了kmeans和dbscan。

kmeans	dbscan
数据在形状上或多或少需要是球形或凸形的，并且各个簇必须具有大致相同的特征尺寸。	簇在形状上是任意的，并且可以具有不同的特征大小。
kmeans 对指定的聚类数量很敏感。	不需要指定簇的数量。
kmeans对于大型数据集更有效。	dbscan不能有效地处理高维数据集。
kmeans 不适用于异常值和嘈杂数据多的数据集。	dbscan 能有效地处理异常值和嘈杂。
在异常检测领域，kmeans并不适用，因为异常点将被分配到与“正常”数据点相同的集群中。	dbscan寻找由低密度区分隔开的高密度区域。
kmeans需要一个参数：簇数k	dbscan需要两个参数：半径（epsilon）和最小点数（minpoint）
数据点的不同密度不会影响 kmeans。	dbscan 不适用于稀疏数据集或不同密度的数据点。

相关阅读:
php 命名空间
QPainter的使用入门：绘制象棋界面
RabbitMq 学习二
模拟费用流总结
MongoDB-索引Index
CentOS7---Nginx安装并配置虚拟主机
全彩夜视+智能告警，夜间户外安防有TA就够了！
【自动化测试入门】用Airtest - Selenium对Firefox进行自动化测试（0基础也能学会）
【项目实战课】基于Pytorch的PFLD人脸关键点检测实战
计算机毕业设计node.js+vue在线日程管理系统

原文地址：https://blog.csdn.net/weixin_39861267/article/details/127670884