• SPSS统计教程:卡方检验


    本文简要的介绍了卡方分布、卡方概率密度函数和卡方检验,并通过SPSS实现了一个卡方检验例子,不仅对结果进行了解释,而且还给出了卡方、自由度和渐近显著性的计算过程。本文用到的数据"2.2.sav"链接为: https://url39.ctfile.com/f/2501739-875711187-f3dbb8?p=2096 (访问密码: 2096)

    一.卡方分布
    卡方分布是一种概率分布,若k个随机变量Z1......Zk是相互独立且符合标准正态分布的随机变量(数学期望为0、方差为1),那么随机变量Z的平方和X=ki=1Z2i被称为服从自由度为k的卡方分布,记作:Xχ2(k)

    二.卡方概率密度函数
    卡方分布的概率密度函数为:

    fx(x)=12k2Γ(k2)xk21ex2

    其中,x0,当x0fx(x)=0Γ表示Gamma函数。
    不同自由度情况下的卡方分布概率密度曲线图:

    随着自由度k的增加,曲线逐渐趋于对称。当自由度k趋近于无穷时,卡方分布趋近正态分布。

    三.卡方检验
    卡方检验是非参数检验,以卡方分布为理论依据的假设检验方法,基本原理是通过样本的频数分布来推断总体是否服从某种理论分布。卡方检验的原假设为:样本所属总体的分布与理论分布之间不存在显著差异。卡方检验的检验统计量方程为:

    χ2=ki=1(MoiMei)2Mei

    χ2统计量在大样本条件下逐渐服从自由度为k1的卡方分布,Moi表示观测频数,Mei表示理论频数。χ2统计量越小,表示观测频数与理论频数越接近。如果小于由显著性水平和自由度确定的临界值,那么认为样本所属的总体分布与理论分布无显著差异。

    四.卡方检验例子
    实验目的:想知道不同年龄组的样本个数是否存在显著差异。如果p>0.05,那么接受原假设,即不同年龄组的样本个数并不存在显著不同。
    变量视图如下所示:

    数据视图如下所示:

    分析->非参数检验->旧对话框->卡方:

    卡方检验结果如下所示:

    重点说明下卡方、自由度和渐近显著性是如何计算的:
    1.卡方计算

    (4550)250+(5150)250+(5250)250+(5250)250=25+1+4+450=3450=0.68

    2.自由度计算
    k1k表示分类变量数。
    3.渐近显著性计算
    渐近显著性就是p值,p=1F(,)。使用Python代码计算:

    from scipy.stats import chi2
    # 第1个参数表示卡方值,第2个参数表示自由度
    p = 1 - chi2.cdf(0.68, 3)
    print(p) # 0.8778977619609463
    

    在平时看的医学论文中,比较常见的场景是根据卡方检验来计算患者组和对照组的性别是否具有显著性差异:

    参考文献:
    [1]卡方分布:https://zh.wikipedia.org/zh-hans/卡方分布
    [2]《SPSS统计分析入门与应用精解》
    [3]卡方检验:https://www.ibm.com/docs/zh/spss-statistics/28.0.0?topic=tests-chi-square-test
    [4]数据2.2.sav: https://url39.ctfile.com/f/2501739-875711187-f3dbb8?p=2096 (访问密码: 2096)

  • 相关阅读:
    仅靠阿里 P9 分享的 Redis 工作手册,拿到 60W 年薪 Offer
    代码随想录刷题|LeetCode 583. 两个字符串的删除操作 72. 编辑距离 编辑距离总结篇
    小白学java
    【MMDetection 详解】
    工业场景全流程!机器学习开发并部署服务到云端 ⛵
    用HTML+CSS仿网易云音乐网站(6个页面)
    批处理小程序的制作
    STM32 中断详解
    Metabase学习教程:权限-2
    大型商场如何设置酷客导航模式?VR全景带你了解
  • 原文地址:https://www.cnblogs.com/shengshengwang/p/17498557.html