DBSCAN算法

DBSCAN算法

1.算法的基本概念

全称：Density-Based Spatial Clustering of Applications with Noise

属性概念

属性	概念
核心对象	若某个点的密度达到算法设定的阈值则其为核心点。（即 r 邻域内点的数量不小于 number个数量）
边界点	属于某一个类的非核心点,不能在与下一个点密度相连【属于一类的最边界的点，离核心点最远】
ϵ-邻域的距离阈值	设定的半径r
密度相连	若从某核心点q出发，点q和点k都是密度可达的 ,则称点q和点k是密度相连的。
直接密度可达	若某点p在点q(q是核心点)的 r 邻域内，则p-q直接密度可达。
密度可达	若有一个点的序列 $q^0、q^1、…q^k$ ，对任意 $q^i-q^{i-1}$ 是直接密度可达，则称从 $q^0$ 到 $q^k$ 密度可达,称为直接密度可达的“传播”。
噪声点	不属于任何一个类簇的点，从任何一个核心点出发都是密度不可达【不能分类到任何一个簇】，即此算法可以对数据进行异常值检测

在这里插入图片描述

2. 算法操作步骤

输入相关参数
- 参数D：输入数据集
- 参数ϵ：指定半径
- MinPts：密度阈值
迭代步骤
- 将所有数据点标记为（未被访问）
- While:
  - 随机选择一个未被访问点p，并且标记为已访问，if p的ϵ-领域内点的数量>领域值MinPts
    - 创建一个新簇C，并且把p添加到簇C中
    - 令N为p的ϵ-领域内点对象集合
    - 遍历N中的每个点x，如果点x未被访问，将x访问
    - if x的ϵ-领域内点的数量>MinPts的值
      - 把x的所有ϵ-领域内点添加到N中
      - if x 不是任何簇的成员，将x添加到C中
    - 得到一个簇C
  - 再次循环的获得新簇

3.算法的参数选择

参数	含义
半径r	可以根据K距离来设定：找突变点
K距离	给定数据集`P={p(i); i=0,1,…n}`，计算点`P(i)`到集合D的子集S中所有点之间的距离，距离按照从小到大的顺序排序，d(k)就被称为k-距离。
`MinPts`	k-距离中k的值，一般取的小一些，多次尝试

4.算法的优点与缺点

优点：
- 不需要指定簇个数
- 可以发现任意形状的簇
- 擅长找到离群点（检测任务）
- 超参数较少，两个参数就够了
缺点：
- 高维数据有些困难（可以做降维）
- 参数难以选择（参数对结果的影响非常大）
- Sklearn中效率很慢（数据削减策略）
- DBSCAN算法可视化链接

相关阅读:
Linux kernel之中断
 离职前一定要做好这7件事情，少一件都很麻烦。
ESP01S通过心知天气获取天气和时间信息
 el-date-picker日期列表样式更换为完全不同的样式保证弹出日期弹窗的功能不变
 Springboot整合Zookeeper分布式组件实例
 最长连续不重复子序列 C++实现
 弹性盒子布局 Flexbox Layout
【动力节点】JavaWeb系列（老杜B站视频笔记整理）
钡铼技术BL100协议转换网关
 MATLAB图像处理入门
原文地址：https://blog.csdn.net/m0_46926492/article/details/127763198