前言
最近互联网行业进入了工作变动的高峰期,很多读者对于数据分析的面试题不知道如何进行解答,本文开始二师兄将连载《数据分析面试手册》来帮助大家!
Q1:描述假设检验?
考频:🔥🔥🔥 难度:🔥🔥🔥🔥
分析:
对于概念类叙述问题,掌握如下的几个问题:
为什么要进行假设检验? 如何证明假设检验? 假设检验的步骤 如何衡量假设检验的结果?
为什么要进行假设检验
想要了解假设检验,就要先知道为什么要进行假设检验,学术上讲假设检验的目的在于判断原假设的总体和现在实际的总体是否发生了显著差异;简单的说就是我们想要去判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的时候需要进行假设检验。 举例:根据之前的大量统计,公司的日销售额从正态分布,标准差为x。公司领导要求,日均销售额不得低于y,现在我们现在得到了A组最近一周每天的销售数据,是否要惩罚该部门呢?对于这类问题最好的方式就是进行假设检验来判断。
假设检验的思想
假设检验基于反证法 思想。首先,我们会假设原假设为真,如果在此基础上,得出了违反逻辑与常理的结论,则表明原假设是错误的,我们就接受备择假设。否则,我们就没有充分的理由推翻原假设,此时,我们选择去维持原假设。
假设检验的步骤
提出原假设H0和备择假设H1; 设置显著性检验水平
α
\alpha
α 根据不同的已知条件和需求选择检验方式:Z检验、T检验、卡方检验等; 根据检验结果得到统计量和P-value,根据二者判定检验结果。
如何衡量假设检验的结果
Q2:简述假设检验的两类错误?
考频:🔥🔥🔥🔥 难度:🔥🔥🔥🔥
简述:
解读:
根据上图所示,我们将H0看作是原假设,H1看作是备择假设,此时的
α
\alpha
α 就是第一类错误
β
\beta
β 就是第二类错误,蓝线就是阈值(落在蓝线左侧维持原假设,落在右侧拒绝原假设),随着蓝线的移动
α
\alpha
α 和
β
\beta
β 呈现此消彼长的关系。
在考虑阈值的时候我们不应该有原假设H0就是正确的这种思想从而想让
α
\alpha
α 越小越好,本质上讲一类错误变小另一类错误就会变大,解决降低两型错误发生率的最好办法是提高样本量,使得二者分母都变大从而使得蓝线的位置更加准确。
补充(如何更好的避免两类错误)
我们往往在做统计推断的时候只考虑一类错误发生情况,那是因为我们往往围绕H0构造统计量(比较好构造);而H1的统计量分布往往不太好求,并且二类错误发生情况必须知道H1的统计量分布才能求出,所以我们一般做简单的统计推断时不考虑二型错误。
Q3:如何进行相关性分析?
考频:🔥🔥🔥 难度:🔥🔥🔥🔥
分析
解答
图表分析
对于一般的属性关系,我们采用简单的绘图方式就能够看出二者的属性关系,常见的图形有散点图/折线图。 皮尔逊相关系数
P
(
X
,
Y
)
=
E
(
X
Y
)
−
E
(
X
)
E
(
Y
)
E
(
X
2
)
−
E
2
(
X
)
E
(
Y
2
)
−
E
2
(
Y
)
P(X,Y) = \frac{E(XY)-E(X)E(Y)}{\sqrt{E(X^2)-E^2(X)}\sqrt{E(Y^2)-E^2(Y)}}
P ( X , Y ) = E ( X 2 ) − E 2 ( X )
E ( Y 2 ) − E 2 ( Y )
E ( X Y ) − E ( X ) E ( Y ) 皮尔逊相关系数通常用于衡量两个连续变量之间的相关程度,其取值是有界的,范围为[-1, 1],我们可以根据相关系数的取值(绝对值)来衡量两个变量的相关性:
0.8-1.0:极强相关 0.6-0.8:强相关 0.4-0.6:中等程度相关 0.2-0.4:弱相关 0.0-0.2:极弱相关或无相关 协方差
c
o
v
(
X
,
Y
)
=
E
[
(
x
−
x
ˉ
)
(
y
−
y
ˉ
)
]
cov(X,Y)=E[(x-\bar{x})(y-\bar{y})]
co v ( X , Y ) = E [( x − x ˉ ) ( y − y ˉ )] 协方差和皮尔逊一样通常用于两个连续变量之间相关性的检验,使用协方差判断相关性的结果比较直接,只有正相关、负相关、不相关三种结果。
当cov(X,Y)>0时,表明X和Y正相关 当cov(X,Y)<0时,表明X和Y负相关 当cov(X,Y)=0时,表明X和Y不相关 卡方检验
Q4:如何理解置信区间和置信度?
考频:🔥🔥🔥 难度:🔥🔥
解答
置信度:样本落在置信区间内的概率。 置信区间:区间估计中,在给定置信度额情况下,样本统计量对总体参数进行估计得到的区间。
解析
我们估计成年男性的平均体重时,我们估计的区间为(50kg,100kg),同时我们认为成年男性的平均体重有85%的可能性会在这个区间之内。此时的(50kg,100kg)就是置信区间,85%就是置信度。
Q5:估算2030年高考生的数量?
考频:🔥🔥🔥🔥🔥 难度:🔥🔥🔥
分析
解答
高考生一般为18岁,2030年高考生为2012年出生,2012年我国出生人口为1600万,假设上学率为80%,都进行了九年义务教育,中考升学率60%,则最后高考人数 1600X0.8X0.6=768W
问题拓展
对费米问题感兴趣的小伙伴可以去了解一下问题:芝加哥有多少个钢琴调音师? (后续会出专门的文章讲解费米问题)