• 数据挖掘与机器学习--Pandas数据分析



    统计学与数据挖掘
    统计学的方法可用于汇总或描述数据集,也可用于验证数据挖掘结果。
    应用
    格朗特与死亡公报
    文本统计与文学作品鉴真
    研究词语和词汇的发生频率  平均字词长  掌握作者的文体风格或文献的基本特征

    常用的统计学指标
    平均数
    平均数一般指算数平均数。算数平均数是指全部数据累加除以数据个数。
    几何平均数:适用于对比率数据的平均,并主要用于计算数据平均增长(变化)率。
    加权平均数:普通的算数平均数的权重相等,算数平均数是特殊的加权平均数(权重都是1)。

    绝对数和相对数
    绝对数是反映客体现象总体在一定时间、地点条件下的总规模和总水平的综合性指标,如GDP,也可以表现在一定条件下数量的增减变化。
    相对数是指两个有联系的指标对比计算得到的数值,它是用以反映事物性质发展变化趋势的指标。
    相对数=比较数值(比值)/基础数值(基数)。比数:与基数对比的指标数值。基数:对比标准的指标数值。

    百分比与百分点
    百分比表示一个数是另一个数的百分之几的数,也叫百分率。
    百分点是用以表达不同百分数之间的“算术差据”(即差)的单位。

    频数与频率
    频数是指一组数据中个别数据重复出现的次数。
    频数是绝对数,频率是相对数。

    比例与比率
    比例与比率都是相对数。比例是指总体中各部分的数值占全部数值的比重,通常反映总体的构成和结构;而比率是指不同类别数值的对比,它反映的不是部分与整体之间的关系,而是一个整体中各部分之间的关系。

    倍数与番数
    倍数是一个数除以另一个数所得的商。
    番数是指原来数量的2的N次方倍。

    同比与环比
    同比是指与历史时期进行比较得到的数据,该指标主要反映的是事物发展的相对情况。
    同比是与上年的同期水平对比,环比是同一年连环的两期对比。

    基线和峰值极值分析
    峰值是指增长曲线的最高点(顶点),在数学上,拐点改变曲线向上或向下方向的点,在统计学中指趋势开始改变的地方,出现拐点后的走势将保持基本稳定。

    增量与增速
    增量是指数值的变化方式和程度。增速是指数值增长程度的相对指标。

    Pandas的简单介绍
    Pandas一维数据结构: Series
    Pandas为数据结构:DataFrame

  • 相关阅读:
    【云原生】Docker数据卷学习
    通俗易懂的JAVA BIO NIO AIO 原理白话文解释,区别,优缺点及代码使用案例
    AIGC笔记--Maya提取和修改FBX动作文件
    Python测试-unittest,2022-11-27
    CVE-2017-15715 apache换行解析&文件上传漏洞
    JS预解析/编译(变量提升):var(仅声明,无赋值)、function变量 创建作用域
    springboot 集成 PageHelper 分页失效
    MybatisPlus--基础入门!真滴方便
    105K Star的GitHub项目再陷风波,其托管商惨遭三大唱片公司起诉
    JS DataTable中导出PDF右侧列被截断的问题解决
  • 原文地址:https://blog.csdn.net/m0_57431551/article/details/126809427