分类型数据也称为频数数据。在数据样本中,我们称落入某一个特定分组的样本数量为频数;当分组的维度只有1时,我们称这样的数据为单因素频数表;当分组的维度为2时,我们称这样的数据为列联表数据。
用于分类型数据的方法有很多:卡方检验、Fisher检验、McNermr检验、Cochran’s Q检验,本文将重点讲述卡方检验与Fisher检验两种方法。
卡方检验与Fisher检验都是分析频数表中绝对频数与期望频数的偏差程度,对于它们而言,检验的两个假设分别为
𝐻
0
:
绝对频数与期望频数没有差别
↔
𝐻
1
:
绝对频数与期望频数存在差别
𝐻0:绝对频数与期望频数没有差别↔𝐻1:绝对频数与期望频数存在差别
H0:绝对频数与期望频数没有差别↔H1:绝对频数与期望频数存在差别
那么,绝对频数和期望频数是什么呢?
对于一个给定的频数表而言,我们称其中的频数为绝对频数,记为 𝑜 𝑖 𝑜_𝑖 oi , 𝑖 为频数表中格子的序号(或者行列位置)。在上面的单因素频数表中,骰子点数1的绝对频数为 𝑜 1 = 18 𝑜_1=18 o1=18 ;在双因素列联表中,男性左利手的绝对频数为 𝑜 11 = 43 𝑜_{11}=43 o11=43。
而期望频数则根据我们进行卡方/Fisher检验的用途变化而变化,记为
𝑒
𝑖
𝑒_𝑖
ei 。例如,在列联表独立性检验中,每个格子的期望频数就是这个格子在表格中的“期望值”(我们后面会解释这个概念);在特定分布的拟合优度检验中,期望频数就是特定分布在每个取值区间下的频数。
如果绝对频数与期望频数的差值越小,则两者越接近,我们越不能拒绝原假设。基于此,卡方检验构造了下述检验统计量:
s
t
a
t
i
s
t
i
c
s
=
∑
i
(
o
i
−
e
i
)
2
e
i
statistics=\sum_i{\frac{\left( o_i-e_i \right) ^2}{e_i}}
statistics=i∑ei(oi−ei)2
而该统计量近似服从卡方分布(在大样本下):
s
t
a
t
i
s
t
i
c
s
∼
χ
f
2
statistics\sim \chi _{f}^{2}
statistics∼χf2
其中,
f
f
f为自由度。对于有n个格子的单因素频数表而言,
f
=
n
−
1
f=n-1
f=n−1;对于
r
×
c
r\times c
r×c的双因素列联表而言,$f=\left( r-1 \right) \left( c-1 \right) $
p值计算规则为:
p
v
a
l
u
e
=
P
(
χ
f
2
>
T
e
s
t
s
t
a
t
i
s
t
i
c
s
)
pvalue=P\left( \chi _{f}^{2}>Test\,\,statistics \right)
pvalue=P(χf2>Teststatistics)
我们注意到,卡方检验中的检验统计量是近似服从而非精确服从卡方分布,只有在大样本下(绝对频数与期望频数都很大)的情况下,卡方检验的精确度才高,而在小样本下,卡方检验的效用不及Fisher检验。相比于卡方检验这种“近似的”检验,Fisher检验是一种精确的检验,但是它的计算要比卡方检验复杂。不过幸运的是,在计算机面前这并不是问题。
两者的适用范围如下:
卡方检验适用于单因素频数表、双因素频数表中的 2 × 2 2\times 2 2×2与 r × c r\times c r×c列联表。
单因素频数表
2
×
2
2\times 2
2×2列联表
2. 样本总量
∑
o
i
>
40
\sum{o_i}>40
∑oi>40,且所有期望频数
e
i
>
5
e_i>5
ei>5,可使用Pearson卡方检验
3. 样本总量
∑
o
i
>
40
\sum{o_i}>40
∑oi>40,但存在期望频数
1
<
e
i
<
5
1
4. 若样本总量
∑
o
i
<
40
\sum{o_i}<40
∑oi<40,或存在期望频数
1
<
e
i
1
r
×
c
r\times c
r×c列联表
5. 表中期望频数
e
i
<
5
e_i<5
ei<5的格子不能超过1/5。
6. 不得出现期望频数
1
<
e
i
1
Fisher检验仅仅适用于双因素频数表中的 2 × 2 2\times 2 2×2列联表。
Fisher检验在
2
×
2
2\times 2
2×2列联表中适用范围内很广,弥补了卡方检验的缺点。
总结一下,卡方检验在多种频数表中都可以应用,但要注意绝对频数与理论频数是否过低;Fisher检验只适用于
2
×
2
2\times 2
2×2列联表,但是在该表中的精确度与适用性都优于卡方检验。因此在
2
×
2
2\times 2
2×2列联表中,我推荐大家使用Fisher检验;在其他表格中使用卡方检验。