• 层次聚类算法及通过python的scipy进行计算


    1.什么是层次聚类?

    常用于 1维数据 的自动分组,如下图所示,

    1. 把数据用【主成分分析】的方法把数据从多维压缩为1维,
    2. 然后使用层次聚类算法,把它们的树结构计算出来,
    3. 然后根据树的结构,把它们分解成为我们需要的组,例如我们需要分为3组,就使用图中的黄色直线,根据树结构分成3组即可。

    在这里插入图片描述

    层次聚类算法分为两类:自上而下和自下而上。
    凝聚层级聚类(HAC)是自下而上的一种聚类算法。HAC首先将每个数据点视为一>个单一的簇,然后计算所有簇之间的距离来合并簇,直到所有的簇聚合成为一个簇为止。

    具体步骤:

    首先我们将每个数据点视为一个单一的簇,然后选择一个测量两个簇之间距离的度量标准。例如我们使用average linkage作为标准,它将两个簇之间的距离定义为第一个簇中的数据点与第二个簇中的数据点之间的平均距离。
    在每次迭代中,我们将两个具有最小average linkage的簇合并成为一个簇。
    重复步骤2知道所有的数据点合并成一个簇,然后选择我们需要多少个簇。
    层次聚类
    优点:
    (1)不需要知道有多少个簇
    (2)对于距离度量标准的选择并不敏感
    缺点:效率低

    2. 如何用python实现

    1. 对数据进行聚类
    import scipy.cluster.hierarchy as hcluster
    linkage = hcluster.linkage(data, method='single')
    # data:训练样本
    # method:类距离的计算方式(single:两个类之间最短距离的点的距离、complete:两个类之间最长距离的点的距离、centroid:两个类之间所有点的中点的距离)
    
    • 1
    • 2
    • 3
    • 4
    1. 将聚类结果绘图
    import scipy.cluster.hierarchy as hcluster
    hcluster.dendrogram(linkage)
    #linkage:层次聚类的结果
    # dendrogram()方法为我们展示层次聚类得到的层次图
    
    • 1
    • 2
    • 3
    • 4
    1. 对层次聚类结果进行划分
    import scipy.cluster.hierarchy as hcluster
    scipy.cluster.hierarchy.fcluster(linkage, n, criterion='maxclust')
    # linkage:层次聚类的结果
    # n:要聚的类数量
    # criterion:划分方法,使用maxclust,最大划分法
    
    • 1
    • 2
    • 3
    • 4
    • 5

    参考链接:
    [1] 聚类算法——层次聚类算法 2018.2

  • 相关阅读:
    Feign
    linux定时任务(crontab)启动sh脚本
    llvm toy 语言 分析
    不知道视频怎样提取音频?这里有详细教程分享
    数值微分比较
    calibre和cpolar搭建一个私有的网络书库
    Spring的循环依赖问题
    k8s快速入门教程-----8 secret and configmap
    数据结构与算法
    申请并部署免费的 SSL/TLS 证书
  • 原文地址:https://blog.csdn.net/weixin_46713695/article/details/125905865