• 量化金融-分类数据的检验


    量化金融–假设检验3-分类数据的检验

    分类型数据的介绍

    分类型数据也称为频数数据。在数据样本中,我们称落入某一个特定分组的样本数量为频数;当分组的维度只有1时,我们称这样的数据为单因素频数表;当分组的维度为2时,我们称这样的数据为列联表数据。

    常用的检验方法

    用于分类型数据的方法有很多:卡方检验、Fisher检验、McNermr检验、Cochran’s Q检验,本文将重点讲述卡方检验与Fisher检验两种方法。

    卡方检验、Fisher检验方法的分析

    原理介绍

    卡方检验与Fisher检验都是分析频数表中绝对频数与期望频数的偏差程度,对于它们而言,检验的两个假设分别为
    𝐻 0 : 绝对频数与期望频数没有差别 ↔ 𝐻 1 : 绝对频数与期望频数存在差别 𝐻0:绝对频数与期望频数没有差别↔𝐻1:绝对频数与期望频数存在差别 H0:绝对频数与期望频数没有差别H1:绝对频数与期望频数存在差别
    那么,绝对频数和期望频数是什么呢?

    对于一个给定的频数表而言,我们称其中的频数为绝对频数,记为 𝑜 𝑖 𝑜_𝑖 oi , 𝑖 为频数表中格子的序号(或者行列位置)。在上面的单因素频数表中,骰子点数1的绝对频数为 𝑜 1 = 18 𝑜_1=18 o1=18 ;在双因素列联表中,男性左利手的绝对频数为 𝑜 11 = 43 𝑜_{11}=43 o11=43

    而期望频数则根据我们进行卡方/Fisher检验的用途变化而变化,记为 𝑒 𝑖 𝑒_𝑖 ei 。例如,在列联表独立性检验中,每个格子的期望频数就是这个格子在表格中的“期望值”(我们后面会解释这个概念);在特定分布的拟合优度检验中,期望频数就是特定分布在每个取值区间下的频数。
    如果绝对频数与期望频数的差值越小,则两者越接近,我们越不能拒绝原假设。基于此,卡方检验构造了下述检验统计量:
    s t a t i s t i c s = ∑ i ( o i − e i ) 2 e i statistics=\sum_i{\frac{\left( o_i-e_i \right) ^2}{e_i}} statistics=iei(oiei)2
    而该统计量近似服从卡方分布(在大样本下):
    s t a t i s t i c s ∼ χ f 2 statistics\sim \chi _{f}^{2} statisticsχf2
    其中, f f f为自由度。对于有n个格子的单因素频数表而言, f = n − 1 f=n-1 f=n1;对于 r × c r\times c r×c的双因素列联表而言,$f=\left( r-1 \right) \left( c-1 \right) $

    p值计算规则为:
    p v a l u e = P ( χ f 2 > T e s t    s t a t i s t i c s ) pvalue=P\left( \chi _{f}^{2}>Test\,\,statistics \right) pvalue=P(χf2>Teststatistics)
    我们注意到,卡方检验中的检验统计量是近似服从而非精确服从卡方分布,只有在大样本下(绝对频数与期望频数都很大)的情况下,卡方检验的精确度才高,而在小样本下,卡方检验的效用不及Fisher检验。相比于卡方检验这种“近似的”检验,Fisher检验是一种精确的检验,但是它的计算要比卡方检验复杂。不过幸运的是,在计算机面前这并不是问题。
    两者的适用范围如下:

    卡方检验

    卡方检验适用于单因素频数表双因素频数表中的 2 × 2 2\times 2 2×2 r × c r\times c r×c列联表

    单因素频数表

    1. 在单因素频数表中,每一类的绝对频数 o i o_i oi不能小于5。

    2 × 2 2\times 2 2×2列联表
    2. 样本总量 ∑ o i > 40 \sum{o_i}>40 oi>40,且所有期望频数 e i > 5 e_i>5 ei>5,可使用Pearson卡方检验
    3. 样本总量 ∑ o i > 40 \sum{o_i}>40 oi>40,但存在期望频数 1 < e i < 5 11<ei<5,可使用连续型校正的卡方检验
    4. 若样本总量 ∑ o i < 40 \sum{o_i}<40 oi<40,或存在期望频数 1 < e i 11<ei,建议使用Fisher检验

    r × c r\times c r×c列联表
    5. 表中期望频数 e i < 5 e_i<5 ei<5的格子不能超过1/5。
    6. 不得出现期望频数 1 < e i 11<ei的情况。

    Fisher检验

    Fisher检验仅仅适用于双因素频数表中的 2 × 2 2\times 2 2×2列联表

    Fisher检验在 2 × 2 2\times 2 2×2列联表中适用范围内很广,弥补了卡方检验的缺点。
    总结一下,卡方检验在多种频数表中都可以应用,但要注意绝对频数与理论频数是否过低;Fisher检验只适用于 2 × 2 2\times 2 2×2列联表,但是在该表中的精确度与适用性都优于卡方检验。因此在 2 × 2 2\times 2 2×2列联表中,我推荐大家使用Fisher检验;在其他表格中使用卡方检验。

  • 相关阅读:
    【网络协议】传输层协议
    飞驰的高铁-第15届蓝桥杯第一次STEMA测评Scratch真题精选
    JD商品详情API
    Zookeeper中的ZAB协议和Leader Election算法
    数藏专家高泽龙接受采访 谈幻核停售对行业后续的影响
    22年11月-自研-面试题
    学校介绍静态HTML网页设计作品 DIV布局学校官网模板代码 DW大学网站制作成品下载 HTML5期末大作业
    一、Audio-音频简介
    污水除磷的方式
    【算法入门&搜索法】走迷宫|单源最短路径1
  • 原文地址:https://blog.csdn.net/M1911616095/article/details/126450701