码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Python数据分析与机器学习32-聚类算法


    文章目录

    • 一. 聚类概念
    • 二. K-MEANS算法
      • 2.1 基本概念
      • 2.2 工作流程
      • 2.3 优势和劣势
    • 三. DBSCAN算法
      • 3.1 基本概念
      • 3.2 工作流程
      • 3.3 参数选择
      • 3.4 优势和劣势
        • 3.4.1 优势
        • 3.4.2 劣势
    • 四. 算法可视化
    • 参考:

    一. 聚类概念

    无监督问题:
    我们手里没有标签了

    聚类:
    相似的东西分到一组

    难点:
    如何评估,如何调参

    image.png

    二. K-MEANS算法

    2.1 基本概念

    K值:
    要得到簇的个数,需要指定K值
    (我们需要将数据分为几类,K值就指定为该数值)

    质心:
    均值,即向量各维取平均即可

    距离的度量:
    常用欧几里得距离和余弦相似度(先标准化)

    优化目标:
    image.png

    2.2 工作流程

    image.png

    图a:
    原始的数据集

    图b:
    随机指定了两个初始的点

    图c-e:
    改变x点的位置 或者调整参数来改变

    2.3 优势和劣势

    优势:
    简单,快速,适合常规数据集

    劣势:

    1. K值难确定
    2. 复杂度与样本呈线性关系
    3. 很难发现任意形状的簇

    image.png

    三. DBSCAN算法

    3.1 基本概念

    密度相连:
    若从某核心点p出发,点q和点k都是密度可达的,则称点q和点k是密度相连的。

    边界点:
    属于某一个类的非核心点,不能发展下线了

    直接密度可达:
    若某点p在点q的r 邻域内,且q是核心点则p-q直接密度可达。

    噪声点:
    不属于任何一个类簇的点,从任何一个核心点出发都是密度不可达的

    图解:
    A:核心对象
    B,C:边界点
    N:离群点

    image.png

    3.2 工作流程

    参数D:
    输入数据集

    参数ϵ:
    指定半径

    MinPts:
    密度阈值

    image.png

    3.3 参数选择

    半径ϵ:
    可以根据K距离来设定:找突变点K距离:给定数据集P={p(i); i=0,1,…n},计算点P(i)到集合D的子集S中所有点之间的距离,距离按照从小到大的顺序排序,d(k)就被称为k-距离。

    MinPts:
    k-距离中k的值,一般取的小一些,多次尝试。

    3.4 优势和劣势

    3.4.1 优势

    1. 不需要指定簇个数
    2. 可以发现任意形状的簇
    3. 擅长找到离群点(检测任务)
    4. 两个参数就够了

    这类通过K-means方法是没办法聚类的,但是通过DBSCAN算法是可以出色的完成
    image.png
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-44YqRof6-1658896626594)(https://upload-images.jianshu.io/upload_images/2638478-58ca185e6d18962b.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]
    image.png

    3.4.2 劣势

    1. 高维数据有些困难(可以做降维)
    2. 参数难以选择(参数对结果的影响非常大)
    3. Sklearn中效率很慢(数据削减策略)

    四. 算法可视化

    官方提供了一个可视化的算法动态演示,真的很给力。

    K-Means:
    https://www.naftaliharris.com/blog/visualizing-k-means-clustering/
    image.png

    DBSCAN:
    https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/
    image.png

    参考:

    1. https://study.163.com/course/introduction.htm?courseId=1003590004#/courseDetail?tab=1
  • 相关阅读:
    用 python popen 后台 启动 appium 之后,出现自动结束进程的情况
    Pytorch 实战 LESSON 8 单层回归神经网络 & Tensor新手避坑指南
    vue3中reactive对比ref watch watchEffect函数
    精品基于django的房源租房分析系统-Python-爬虫
    系统架构设计师(第二版)学习笔记----层次式架构设计理论与实践
    Document Solutions for Word(GcWord)6.2.5 Crack
    【论文阅读】《PRODIGY: Enabling In-context Learning Over Graphs》
    京东平台数据分析:2023年9月京东扫地机器人行业品牌销售排行榜
    C++新特性 Type Alias, noexcept, override, final
    第二部分:聚合根
  • 原文地址:https://blog.csdn.net/u010520724/article/details/126012210
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号