• 《对比Excel,轻松学习Python数据分析》读书笔记------数据分析简介


    1.1 数据分析的定义

    数据分析是指,利用合适的工具,在统计学理论的支撑下,对数据进行一定的预处理,结合业务需求分析解构数据,以期能够监控、定位、预防、分析、解决问题,提高经营效率,发现机遇机会的过程。

    1.2 数据分析的目的

    啤酒和尿布

    数据分析里有一个经典的案例,超市里经常会把婴儿尿不湿和啤酒放在一起售卖,原因是经过数据分析发现,出来买尿不湿的家长以父亲居多,如果他们在买尿不湿的同时看到了啤酒,将有很大的概率会买来犒赏自己。这样啤酒的销售量自然会有所提高。

    由啤酒和尿布的故事可以发现,适当的数据分析能够帮助我们进行更加正确有效的决策。

    数据分析的主要目的是,挖掘大量数据背后隐藏的信息,从而总结出数据变化的内在规律

    按照目的和阶段先后进行划分,数据分析一般分为:现状分析、原因分析、预测分析

    1.2.1 现状分析

    现状分析,是对当前所得的数据进行总结。

    • 总结当前运营的整体状态
    • 总结各项关键指标的变化量

    形式一般为日常报表,如:日报、周报、月报

    1.2.2 原因分析

    原因分析,是指进行现状分析后,找到某种现象发生的原因。

    比如,某种商品销售量突然暴增,就需要对它进行数据分析,来找到其中的原由,给以后的销售策略提供参考。

    形式一般为专题分析。

    1.2.3 预测分析

    预测分析,是指通过已有的现状分析和原因分析,对某一决定可能造成的影响进行预测。

    形式一般为专题分析。常在季度、年度计划时进行。

    1.3 数据分析的指标

    数据分析,分析的是从大量数据中得出来的各项指标。

    一般分为总体概览指标、对比性指标、集中趋势指标、离散程度指标、相关性指标等

    1.3.1 总体概览指标

    总体概览指标,又称统计绝对数,它反映了某一数据字段的整体规模大小总量

    “xx总量",如一定总体范围内粮食总产量、工农业总产值、企业单位数等。

    经常关注的总体概览指标,我们一般称为关键性指标

    1.3.2 对比性指标

    对比性指标,它反映了同一数据字段在不同时间下的数量对比关系。常见的有同比、环比、差等。

    • 同比:与过去相同时间段的相同时间点进行对比。比如今年7月份与去年7月份销售量之间的比较。
    • 环比:与当前相同时间段的不同时间点进行对比。比如今年7月份与今年6月份销售量之间的比较。
    • :两个不同时间段内的指标直接作差。

    1.3.4 集中趋势指标

    集中趋势指标,它反映了一个时间段内数据字段的平均水平

    又称平均指标。分为数值平均和位置平均。

    • 数值平均:算术平均数、加权平均数等

    算术平均数 : A n = a 1 + a 2 + ⋅ ⋅ ⋅ + a n n = 1 n ∑ i = 1 n a i 加权平均数 : G n = w 1 a 1 + w 2 a 2 + ⋅ ⋅ ⋅ + w n a n = ∑ i = 1 n w i a i        w 1 + w 2 ⋅ ⋅ ⋅ + w n = ∑ i = 1 n w i = 1 算术平均数:A_n=\frac{a_1+a_2+···+a_n}{n}=\frac{1}{n}\sum_{i=1}^{n}a_i \\ 加权平均数:G_n=w_1a_1+w_2a_2+···+w_na_n=\sum_{i=1}^{n}w_ia_i \ \ \ \ \ \ w_1+w_2···+w_n=\sum_{i=1}^{n}w_i=1 算术平均数:An=na1+a2+⋅⋅⋅+an=n1i=1nai加权平均数:Gn=w1a1+w2a2+⋅⋅⋅+wnan=i=1nwiai      w1+w2⋅⋅⋅+wn=i=1nwi=1

    • 位置平均:中位数、众数等
      • 中位数:将数据从小到大排列,位于正中间的一个数据或两个数据的平均值
      • 众数:一定区域的数据中出现次数最多的数据值

    1.3.5 离散程度指标

    离散程度指标,它反映了数据的离散(波动)情况

    常见的有全距、方差、标准差等

    • 全距:又称极差。反映数据字段整体波动范围

    全距 : R = max ⁡ D − min ⁡ D 全距:R=\max D-\min D 全距:R=maxDminD

    全距容易受异常值的影响,为了解决这个问题,引入了四分位数。

    • 四分位数:将数据从小到大排列,一分为四,得到三个临界数据,称最大的为上四分位数,最小的为下四分位数,剩下的那个为中位数。

    • 方差:反映数据相对于平均值的波动程度。越小波动程度越低。

    • 标准差:方差的开方。反映数据相对于平均值的波动程度。更为直接。越小波动程度越低。

    方差  s 2 = 1 n [ ( a 1 − A n ) 2 + ( a 2 − A n ) 2 + ⋅ ⋅ ⋅ + ( a n − A n ) 2 ] = 1 n ∑ i = 1 n ( a i − A n ) 2 标准差  s = s 2 = 1 n ∑ i = 1 n ( a i − A n ) 2 方差\ s^2=\frac{1}{n}[(a_1-A_n)^2+(a_2-A_n)^2+···+(a_n-A_n)^2]=\frac{1}{n}\sum_{i=1}^{n}(a_i-A_n)^2\\ 标准差\ s=\sqrt {s^2}=\sqrt {\frac{1}{n}\sum_{i=1}^{n}(a_i-A_n)^2} 方差 s2=n1[(a1An)2+(a2An)2+⋅⋅⋅+(anAn)2]=n1i=1n(aiAn)2标准差 s=s2 =n1i=1n(aiAn)2

    1.3.6 相关性指标

    相关性指标,它反映了两个数据字段间的相关性。

    常见的有协方差,相关系数等。

    协方差:表示两个数据字段之间的总体误差。为正,则两个数据字段正相关,为负,负相关。
    协方差  C o v [ X , Y ] = ∑ i = 1 n ( x i − X n ) ( y i − Y n ) n 协方差\ Cov[X,Y]=\frac{\sum_{i=1}^{n}(x_i-X_n)(y_i-Y_n)}{n} 协方差 Cov[X,Y]=ni=1n(xiXn)(yiYn)

    相关系数:范围为 [ − 1 , 1 ] [-1,1] [1,1],绝对值越大说明相关性越强。符号为正,代表正相关。为负,代表负相关。
    相关系数  r ( X , Y ) = C o v [ X , Y ] s 2 ( X ) ⋅ s 2 ( Y ) = ∑ i = 1 n ( x i − X n ) ( y i − Y n ) ∑ i = 1 n ( x i − X n ) 2 ⋅ ∑ i = 1 n ( y i − Y n ) 2 相关系数 \ r(X,Y)=\frac{Cov[X,Y]}{\sqrt {s^2(X)·s^2(Y)}}=\frac{\sum_{i=1}^{n}(x_i-X_n)(y_i-Y_n)}{\sqrt {\sum_{i=1}^n(x_i-X_n)^2·\sum_{i=1}^n(y_i-Y_n)^2}} 相关系数 r(X,Y)=s2(X)s2(Y) Cov[X,Y]=i=1n(xiXn)2i=1n(yiYn)2 i=1n(xiXn)(yiYn)

    1.4 数据分析的一般流程

    1.4.1 熟悉工具

    工欲善其事,必先利其器。

    常见的数据分析工具有Excel、Python、R、Sql等

    1.4.2 明确目的

    明确本次数据分析的目的,即希望通过数据分析解决什么问题,想得出什么方面的结论。

    1.4.3 获取数据

    从各种渠道获取数据源。

    • 明确所需要的数据字段
    • 明确所需数据的时间段
    • 明确数据所在的数据表
    • 明确如何提取数据

    1.4.4 熟悉数据

    从各方面总览获取到的数据。

    • 数据的大体规模
    • 某些数据字段是否缺少或多余
    • 数据字段的类型

    1.4.5 处理数据

    对特殊数据进行处理。

    如:

    • 异常数据:根据需求,删除或重点研究
    • 重复数据:一般删除即可
    • 缺失数据:缺失率高于 30 % 30\% 30% 一般直接删除;:缺失率低于 30 % 30\% 30% 一般使用0、均值、众数等进行填充。
    • 测试数据

    1.4.6 分析数据

    对数据字段的各项指标进行分析

    1.4.7 得出结论

    分析后得出结论

    1.4.8 验证结论

    用实践去检验结论的正确性。

    1.4.9 展示结论

    通过数据可视化的方式向他人展示本次数据分析的结论。

    1.5 数据分析工具

    重点学习Python和Excel

  • 相关阅读:
    Qt+ECharts开发笔记(三):ECharts的柱状图介绍、基础使用和Qt封装Demo
    159-170-Hadoop-调优-hdfs-yran-综合
    水质查询接口
    【Java】反射
    MyBatis-Plus中如何使用ResultMap
    计算机毕业设计Java健身房管理系统设计(源码+系统+mysql数据库+lw文档)
    openEuler 知:abi 检测
    SpringCloud:自定义skywalking链路追踪
    【Spring5】使用JdbcTemplate操作mysql数据库
    MMAP日志框架进化之路
  • 原文地址:https://blog.csdn.net/ncu5509121083/article/details/126061784