数据分析是指,利用合适的工具,在统计学理论的支撑下,对数据进行一定的预处理,结合业务需求分析解构数据,以期能够监控、定位、预防、分析、解决问题,提高经营效率,发现机遇机会的过程。
啤酒和尿布
数据分析里有一个经典的案例,超市里经常会把婴儿尿不湿和啤酒放在一起售卖,原因是经过数据分析发现,出来买尿不湿的家长以父亲居多,如果他们在买尿不湿的同时看到了啤酒,将有很大的概率会买来犒赏自己。这样啤酒的销售量自然会有所提高。
由啤酒和尿布的故事可以发现,适当的数据分析能够帮助我们进行更加正确有效的决策。
数据分析的主要目的是,挖掘大量数据背后隐藏的信息,从而总结出数据变化的内在规律。
按照目的和阶段先后进行划分,数据分析一般分为:现状分析、原因分析、预测分析
现状分析,是对当前所得的数据进行总结。
形式一般为日常报表,如:日报、周报、月报
原因分析,是指进行现状分析后,找到某种现象发生的原因。
比如,某种商品销售量突然暴增,就需要对它进行数据分析,来找到其中的原由,给以后的销售策略提供参考。
形式一般为专题分析。
预测分析,是指通过已有的现状分析和原因分析,对某一决定可能造成的影响进行预测。
形式一般为专题分析。常在季度、年度计划时进行。
数据分析,分析的是从大量数据中得出来的各项指标。
一般分为总体概览指标、对比性指标、集中趋势指标、离散程度指标、相关性指标等
总体概览指标,又称统计绝对数,它反映了某一数据字段的整体规模大小和总量。
“xx总量",如一定总体范围内粮食总产量、工农业总产值、企业单位数等。
经常关注的总体概览指标,我们一般称为关键性指标
对比性指标,它反映了同一数据字段在不同时间下的数量对比关系。常见的有同比、环比、差等。
集中趋势指标,它反映了一个时间段内数据字段的平均水平。
又称平均指标。分为数值平均和位置平均。
算术平均数 : A n = a 1 + a 2 + ⋅ ⋅ ⋅ + a n n = 1 n ∑ i = 1 n a i 加权平均数 : G n = w 1 a 1 + w 2 a 2 + ⋅ ⋅ ⋅ + w n a n = ∑ i = 1 n w i a i w 1 + w 2 ⋅ ⋅ ⋅ + w n = ∑ i = 1 n w i = 1 算术平均数:A_n=\frac{a_1+a_2+···+a_n}{n}=\frac{1}{n}\sum_{i=1}^{n}a_i \\ 加权平均数:G_n=w_1a_1+w_2a_2+···+w_na_n=\sum_{i=1}^{n}w_ia_i \ \ \ \ \ \ w_1+w_2···+w_n=\sum_{i=1}^{n}w_i=1 算术平均数:An=na1+a2+⋅⋅⋅+an=n1i=1∑nai加权平均数:Gn=w1a1+w2a2+⋅⋅⋅+wnan=i=1∑nwiai w1+w2⋅⋅⋅+wn=i=1∑nwi=1
离散程度指标,它反映了数据的离散(波动)情况。
常见的有全距、方差、标准差等
全距 : R = max D − min D 全距:R=\max D-\min D 全距:R=maxD−minD
全距容易受异常值的影响,为了解决这个问题,引入了四分位数。
四分位数:将数据从小到大排列,一分为四,得到三个临界数据,称最大的为上四分位数,最小的为下四分位数,剩下的那个为中位数。
方差:反映数据相对于平均值的波动程度。越小波动程度越低。
标准差:方差的开方。反映数据相对于平均值的波动程度。更为直接。越小波动程度越低。
方差 s 2 = 1 n [ ( a 1 − A n ) 2 + ( a 2 − A n ) 2 + ⋅ ⋅ ⋅ + ( a n − A n ) 2 ] = 1 n ∑ i = 1 n ( a i − A n ) 2 标准差 s = s 2 = 1 n ∑ i = 1 n ( a i − A n ) 2 方差\ s^2=\frac{1}{n}[(a_1-A_n)^2+(a_2-A_n)^2+···+(a_n-A_n)^2]=\frac{1}{n}\sum_{i=1}^{n}(a_i-A_n)^2\\ 标准差\ s=\sqrt {s^2}=\sqrt {\frac{1}{n}\sum_{i=1}^{n}(a_i-A_n)^2} 方差 s2=n1[(a1−An)2+(a2−An)2+⋅⋅⋅+(an−An)2]=n1i=1∑n(ai−An)2标准差 s=s2=n1i=1∑n(ai−An)2
相关性指标,它反映了两个数据字段间的相关性。
常见的有协方差,相关系数等。
协方差:表示两个数据字段之间的总体误差。为正,则两个数据字段正相关,为负,负相关。
协方差
C
o
v
[
X
,
Y
]
=
∑
i
=
1
n
(
x
i
−
X
n
)
(
y
i
−
Y
n
)
n
协方差\ Cov[X,Y]=\frac{\sum_{i=1}^{n}(x_i-X_n)(y_i-Y_n)}{n}
协方差 Cov[X,Y]=n∑i=1n(xi−Xn)(yi−Yn)
相关系数:范围为
[
−
1
,
1
]
[-1,1]
[−1,1],绝对值越大说明相关性越强。符号为正,代表正相关。为负,代表负相关。
相关系数
r
(
X
,
Y
)
=
C
o
v
[
X
,
Y
]
s
2
(
X
)
⋅
s
2
(
Y
)
=
∑
i
=
1
n
(
x
i
−
X
n
)
(
y
i
−
Y
n
)
∑
i
=
1
n
(
x
i
−
X
n
)
2
⋅
∑
i
=
1
n
(
y
i
−
Y
n
)
2
相关系数 \ r(X,Y)=\frac{Cov[X,Y]}{\sqrt {s^2(X)·s^2(Y)}}=\frac{\sum_{i=1}^{n}(x_i-X_n)(y_i-Y_n)}{\sqrt {\sum_{i=1}^n(x_i-X_n)^2·\sum_{i=1}^n(y_i-Y_n)^2}}
相关系数 r(X,Y)=s2(X)⋅s2(Y)Cov[X,Y]=∑i=1n(xi−Xn)2⋅∑i=1n(yi−Yn)2∑i=1n(xi−Xn)(yi−Yn)
工欲善其事,必先利其器。
常见的数据分析工具有Excel、Python、R、Sql等
明确本次数据分析的目的,即希望通过数据分析解决什么问题,想得出什么方面的结论。
从各种渠道获取数据源。
从各方面总览获取到的数据。
对特殊数据进行处理。
如:
对数据字段的各项指标进行分析
分析后得出结论
用实践去检验结论的正确性。
通过数据可视化的方式向他人展示本次数据分析的结论。
重点学习Python和Excel