量化金融-分类数据的检验

量化金融–假设检验3-分类数据的检验

分类型数据的常用检验方法

量化金融--假设检验3-分类数据的检验
分类型数据的介绍
常用的检验方法
卡方检验、Fisher检验方法的分析
- 原理介绍
卡方检验
Fisher检验

分类型数据的介绍

分类型数据也称为频数数据。在数据样本中，我们称落入某一个特定分组的样本数量为频数；当分组的维度只有1时，我们称这样的数据为单因素频数表；当分组的维度为2时，我们称这样的数据为列联表数据。

常用的检验方法

用于分类型数据的方法有很多：卡方检验、Fisher检验、McNermr检验、Cochran’s Q检验，本文将重点讲述卡方检验与Fisher检验两种方法。

卡方检验、Fisher检验方法的分析

原理介绍

卡方检验与Fisher检验都是分析频数表中绝对频数与期望频数的偏差程度，对于它们而言，检验的两个假设分别为
$H 0 : 绝对频数与期望频数没有差别 \leftrightarrow H 1 : 绝对频数与期望频数存在差别$
那么，绝对频数和期望频数是什么呢？

对于一个给定的频数表而言，我们称其中的频数为绝对频数，记为 $𝑜_𝑖$ ， 𝑖 为频数表中格子的序号（或者行列位置）。在上面的单因素频数表中，骰子点数1的绝对频数为 $𝑜_1=18$ ；在双因素列联表中，男性左利手的绝对频数为 $𝑜_{11}=43$ 。

而期望频数则根据我们进行卡方/Fisher检验的用途变化而变化，记为 $𝑒_𝑖$ 。例如，在列联表独立性检验中，每个格子的期望频数就是这个格子在表格中的“期望值”（我们后面会解释这个概念）；在特定分布的拟合优度检验中，期望频数就是特定分布在每个取值区间下的频数。
如果绝对频数与期望频数的差值越小，则两者越接近，我们越不能拒绝原假设。基于此，卡方检验构造了下述检验统计量：
$statistics=\sum_i{\frac{\left( o_i-e_i \right) ^2}{e_i}}$
而该统计量近似服从卡方分布（在大样本下）：
$statistics\sim \chi _{f}^{2}$
其中， $f$ 为自由度。对于有n个格子的单因素频数表而言， $f = n - 1$ ；对于 $r\times c$ 的双因素列联表而言，$f=\left( r-1 \right) \left( c-1 \right) $

p值计算规则为：
$pvalue=P\left( \chi _{f}^{2}>Test\,\,statistics \right)$
我们注意到，卡方检验中的检验统计量是近似服从而非精确服从卡方分布，只有在大样本下（绝对频数与期望频数都很大）的情况下，卡方检验的精确度才高，而在小样本下，卡方检验的效用不及Fisher检验。相比于卡方检验这种“近似的”检验，Fisher检验是一种精确的检验，但是它的计算要比卡方检验复杂。不过幸运的是，在计算机面前这并不是问题。
两者的适用范围如下:

卡方检验

卡方检验适用于单因素频数表、双因素频数表中的 $2\times 2$ 与 $r\times c$ 列联表。

单因素频数表

在单因素频数表中，每一类的绝对频数 $o_i$ 不能小于5。

$2\times 2$ 列联表
2. 样本总量 $\sum{o_i}>40$ ，且所有期望频数 $e_i>5$ ，可使用Pearson卡方检验
3. 样本总量 $\sum{o_i}>40$ ，但存在期望频数 $1 < e i < 5 1，可使用连续型校正的卡方检验 4. 若样本总量 ∑ o i < 40 \sum{o_i}<40 ，或存在期望频数 1 < e i 1，建议使用Fisher检验$

$r\times c$ 列联表
5. 表中期望频数 $e_i<5$ 的格子不能超过1/5。
6. 不得出现期望频数 $的情况。$

Fisher检验

Fisher检验仅仅适用于双因素频数表中的 $2\times 2$ 列联表。

Fisher检验在 $2\times 2$ 列联表中适用范围内很广，弥补了卡方检验的缺点。
总结一下，卡方检验在多种频数表中都可以应用，但要注意绝对频数与理论频数是否过低；Fisher检验只适用于 $2\times 2$ 列联表，但是在该表中的精确度与适用性都优于卡方检验。因此在 $2\times 2$ 列联表中，我推荐大家使用Fisher检验；在其他表格中使用卡方检验。

相关阅读:
牛客小白月赛56
代码随想录第44天 | ● 1143.最长公共子序列 ● 1035.不相交的线 ● 53. 最大子序和动态规划
Zookeeper学习笔记（2）—— Zookeeper API简单操作
Challenges and Applications of Large Language Models
react hooks antd 父组件取子组件form表单的值
让世界更精彩，拓世科技新品亮相世界舞台！虚实融合智兴百业，2023世界VR产业大会正式开幕！
大数据技术之-presto
Springboot毕业设计毕设作品,校园疫情防控小程序系统开题报告
基于Spring Boot的线程池监控方案
板刷codeforces 1000分

原文地址：https://blog.csdn.net/M1911616095/article/details/126450701