码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【西瓜书】9.聚类


    • 聚类任务是无监督学习的一种
    • 用于分类等其他任务的前驱过程,作为数据清洗,基于聚类结果训练分类模型
    1.聚类性能度量(有效性指标)
    • 分类任务的性能度量有错误率、精度、准确率P、召回率R、F1度量(P-R的调和平均)、TPR、FPR、AUC
    • 回归任务的性能度量有均方误差MSE、根均方误差RMSE、平均绝对误差MAE、R-Squared
    • 聚类任务的性能度量分为三个外部指标+两个内部指标

    外部指标:和一个参考模型比

            若对m个样本聚类,分成了k个簇,两两样本比较,可组为m(m-1)/2组,每组要么位于相同簇(1)要么位于不同簇(0),对参考模型做同样操作,我们希望两个模型对于m(m-1)/2组样本组合划分的结果都为1或都为0的尽可能多,则分为如下三个外部指标(都是越大越好):

    • Jaccard系数:JC=a/(a+b+c)(在两个模型中都为同一个簇的尽可能多)
    • FM指数:FMI=sqrt(a/(a+b)+a/(a+c))
    • Rand指数:RI=(a+d)/(a+b+c+d)(在两个模型中都为同一个簇或都不为同一个簇的尽可能多)

    内部指标:内部簇间距离大,簇内距离小

    • DB指数:越小越好
    • Dumn指数:越大越好
    2.距离计算

    2.1.连续属性:具有非负性、直递性、对称性、同一性

    计算闵可夫斯基距离:

    • 曼哈顿距离:绝对值相加
    • 欧氏距离:绝对值平方相加开根号

    2.2.离散属性: VDM法(没太理解不确定)

    3.原型聚类
    3.1.k-means


    3.2.DBSCAN密度聚类

            由核心对象出发,找到与该核心对象密度可达的所有样本形成一个聚类簇。

    (1)概念:邻域参数 eps (每个点的方圆eps内有几个样本)和 Minpts(eps的一个分界点)

    (2)样本点之间的三种关系:

    密度可达和密度相连区别在于方向不同:

    • x1—>x2—>x3的x1到x3是密度可达
    • x1<—x2—>x3的x1和x3是密度相连

    其中密度可达是不一定对称的,密度相连是对称的,如下题目:

    x1到x2直接密度可达;x1到x3密度可达;x3与x4密度相连(通过x1)


    3.3.AGNES层次聚类 

     自底向上聚合的层次聚类算法,它先会将数据集中的每个样本看作一个初始簇,然后在算法运行的每一步中找出距离最近的两个簇进行合并,直至达到预设的簇的数量。

  • 相关阅读:
    《深入理解RPC框架原理与实现 华钟明》使用Netty、Zookeeper等实现一个简单的RPC框架、自定义注解、SPI机制实践与原理分析
    Android Jetpack 全家桶系列(二): Lifecycle(使用篇)
    【每日一读】Graph Recurrent Networks With Attributed Random Walks
    (STM32H5系列)STM32H573RIT6、STM32H573RIV6、STM32H573ZIT6嵌入式微控制器基于Cortex®-M33内核
    股东入股可用的出资形式主要有哪些
    第7章 【MySQL】B+树索引的使用
    西电软件体系结构笔记ATMA
    夜天之书 #67 为什么开源协议不授予商标权利?
    删除有序数组的重复项-------题解报告
    JVM及GC
  • 原文地址:https://blog.csdn.net/weixin_64881847/article/details/139564114
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号