码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【机器学习】K-Means聚类的执行过程?优缺点?有哪些改进的模型?


    面试题:K-Means聚类的执行过程?优缺点?有哪些改进的模型?

    (1)简述K-means聚类的执行过程

    • 数据预处理,如归一化、离散点处理即可。

    • 随机选取K个簇中心

    • 定义代价函数(可以将簇内平方和函数作为代价函数)

    • 定义迭代次数t,重复下面过程直到代价函数收敛(或簇心不发生变化、或达到迭代次数)

      • 对于每一个样本x,将其分配到距离最近的簇

      • 对于每一个簇,计算簇内均值,作为该类簇新的中心。

    (3) K-means算法有哪些优缺点?

    优点

    • 对于大数据,计算复杂度是O(NKt),接近与线性,其中N是数据的样本数,K是簇 心数,t是迭代的轮次数。
    • 局部最优也能满足大部分的聚类需求

    缺点

    • 需要人工预先确定初始K值,且该值和真实的数据分布未必吻合

    • K-means只能收敛到局部最优,效果收到初始值的影响很大

    • 容易收到噪点的影响

    • 样本点只能被划分到单一的类中

    (4)有哪些改进的模型?

    针对K-means的缺点,目前也有很多改进模型,主要包括如下两种:

    • K-means ++

    k-means++主要是在初始选取K个簇心上做出了改进。假设已经选取了n个初始聚类中心,则在选择n+1个聚类中心时,距离当前n个聚类中心越远的点会有更好的概率被选择为第n+1类聚类的中心。聚类中心当然是互相隔离的越远越好,之后的算法步骤同于k-means。

    • ISODATA

    ISODATA算法也是在K值上面改进,它在k-means算法的基础上增加了两个操作,第一是分裂操作,增加聚类中心数,即当属于某个类别的样本数过多时、分散程度较大时,把该类别分为两个子类别。第二是合并操作,对应着减少聚类中心数,即当属于某个类别的样本数过少时,把该类别去除。

  • 相关阅读:
    fs.file-max与ulimit open files值的区别
    JAVA毕业设计HTML5“牧经校园疫情防控网站”设计与实现计算机源码+lw文档+系统+调试部署+数据库
    grafana v10.1版本设置告警
    JVM线程的几种状态
    [Tool] Git 使用 与 Git Flow
    综合实验—增强分析和配置中小型企业网络的综合能力
    【机器学习】深度神经网络(DNN):原理、应用与代码实践
    MySQL与openGauss 时间操作比较分析
    垃圾分类解决方案-最新全套文件
    小菜学前端笔记-06-03
  • 原文地址:https://blog.csdn.net/weixin_43935696/article/details/127042903
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号