• 数据挖掘一些概念


    基本步骤:

    1 数据清理

    2 数据集成

    3 数据选择

    4 数据变换

    5 数据挖掘

    6 模式评估

    7 知识表示

    数据的属性有哪些:

    1 标称属性:可以说成是事物的名称 例如 头发的颜色:棕色,红色,褐色等

    2 二元属性:用 0或1 表示,又称布尔属性

    3 序数属性: 第一,第二,第三,A,B,C,D,等级之类的,序数之间没有明确的差值

    4 数值属性:有两种 (1).区间标度属性,比如温度15°和30°,差了15°,但是你不能说30°是15°的2倍 (2)比例率属性,比如100美元是1美元的100倍

    5 离散属性与连续属性

    数据的表述:

    1 中心趋势度量:可以用到 (1)均值 (2)中位数 (3) 众数

    均值:所有数据加起来求平均

    加权平均: 所有数据乘以他的权重,求和,在除以他的权重和

    中位数:递增排序后,中间的那个数,如果是偶数个,则为中间两个的平均值

    众数:数据中出现最多的数

    中列数:数据中最大数和最小数的和值得平均

    中列数可以看出数据是正倾斜还是负倾斜(在中位数的左边还是右边)左正右负

    度量数据散布:

    1 极差,四分位数,方差,标准差,和四分位极差

    极差:最大和最小数的差

    四分位数:数据中第25%(Q1) 50%(Q2)  75%(Q3),可以把数据分成四分,使得每部分是数据的四分之一。

    四分位极差:IQR=Q3-Q1

    方差:(数据的平均值减去数据中的每一个值)的平方,然后求和,再除以数据的个数

    标准差:方差开平方

                        

  • 相关阅读:
    浅谈 CDN 加速
    卢松松近期短视频转型分享
    《统计学习方法》 第十六章 主成分分析PCA
    华为OD:跳房子I
    【后端框架】MyBatis(1)
    使用HoloLens 2调用深度相机和前置摄像头
    常见的锁策略
    算法竞赛入门【码蹄集进阶塔335题】(MT2330-2335)
    闪光激光雷达实现无人驾驶导航
    windows安装nvm
  • 原文地址:https://blog.csdn.net/qq_27047075/article/details/105027564