• 【数据挖掘-思考】分类和聚类


    在这里插入图片描述

    将芝麻和花生分开,是一个分类问题还是聚类问题?

    显而易见的,在日常生活中,这是一个分类问题,在数据挖掘领域中,是否也是这样呢?


    通义千问的回答:

    在数据挖掘中,将芝麻和花生分开可以根据不同的场景被视为分类或聚类问题:

    • 分类 (Classification): 如果我们已经有了一套标注好的数据集,即一部分芝麻已经被标记为“芝麻”,一部分绿豆被标记为“绿豆”,并且我们的目标是基于这些已知的样本特征来训练一个模型,以便对新的未标记物品进行预测(判断它是芝麻还是绿豆),那么这个问题就是一个分类问题。
    • 聚类 (Clustering): 如果我们没有预先标记的数据,而是有一堆混在一起的种子,我们希望通过分析种子的大小、颜色、形状等属性,将它们自动分成几组,并且假设这些组能合理地对应到芝麻和绿豆这两类,那么这就是一个聚类问题。聚类旨在根据对象之间的相似性或距离,将它们分组成多个簇,每簇内部的对象相似度较高,而簇间相似度较低。
    • 因此,决定这是分类还是聚类问题的关键在于是否有预定义的类别标签。如果有标签,就是分类;如果没有,而是需要自动发现类别,那就是聚类。

    这样学术性的回答好复杂>﹏<

    我的老师教给我的:

    在这里插入图片描述

    也就是说,需要训练数据,构建模型的问题是分类问题,很显然这里没有用到,所以是聚类问题。聚类问题关键在于根据某种标准将相似度高的对象分到一起。

    你能理解吗?


    点赞关注收藏,获取更多干货知识~

  • 相关阅读:
    python LeetCode 刷题记录 26
    Java学习笔记(二十一)
    为Electron-log 设置日志颜色
    LCD屏硬件调光的几种方式
    【C++精简版回顾】16.虚函数,多态
    通用游戏服务器架构设计
    java基于mvc的高校教师科研信息管理系统
    第三章 内存管理 六、基本地址变换结构
    家装家居行业该如何进行网络推广?
    木板ISO 5660-1 热量释放速率摸底测试
  • 原文地址:https://blog.csdn.net/weixin_64259675/article/details/139680077