• 卡方检验--离散变量相关性分析--机器学习特征选择


    一、卡方检验理论

    这部分来自《概率论与数理统计》。先从理论角度介绍卡方检验是什么。
    卡方检验起始就是一种假设检验
    假定一个总体可以分成r类,从该总体获得了样本数据集。从该样本数据集出发,判断各类出现的概率是否与假设的概率相符。

    设总体X可以分成类,记为 A 1 , A 2 , . . . , A r A_1,A_2,...,A_r A1,A2,...,Ar,要检验的假设:
    H 0 : p ( A i ) = p i ,     i = 1 , 2 , . . . , r . H_0:p(A_i)=p_i, \ \ \ i=1,2,...,r. H0:p(Ai)=pi,   i=1,2,...,r.
    其中 p i p_i pi已知, p i ≥ 0 , Σ i = 1 r p i = 1 p_i \geq0,\Sigma_{i=1}^r p_i =1 pi0,Σi=1rpi=1.

    假设检验就是从样本检验H0是否为真。

    英国统计学家K-Pearson提出了一个检验统计量:
    X 2 = Σ i = 1 r ( n i − n p i ) 2 n p i \mathcal{X}^2=\Sigma_{i=1}^{r}\frac{(n_i-np_i)^2}{np_i} X2=Σi=1rnpi(ninpi)2
    当样本容量足够大且H0为真时, X 2 \mathcal{X}^2 X2近似服从自由度为r-1的 X 2 \mathcal{X}^2 X2分布。

    当H0为真时, X 2 \mathcal{X}^2 X2值分子应该很小,所以可以定拒绝域为 W = { X 2 ≥ c } W=\{\mathcal{X}^2 \geq c \} W={X2c}.
    给定显著性水平 α \alpha α【犯第一类错误/拒真 概率】,由 X ( r − 1 ) 2 \mathcal{X}(r-1)^2 X(r1)2分布可以定出 c = X 1 − α 2 ( r − 1 ) c=\mathcal{X}^2_{1-\alpha}(r-1) c=X1α2(r1).

    二、卡方检验用于相关性分析

    部分学习自:https://zhuanlan.zhihu.com/p/432912922
    (这里的符号都来自上面文章)

    只需要对于第一节的内容稍微变一下,原假设H0变为:特征 f i f_i fi与标签 y y y是相互独立的。
    上节的已知的 p i p_i pi,也就是假设的分布,在这里就是边际分布的乘积。【因为假设相互独立,联合分布等于边际分布的乘积】。

    上节的假设具体到这一节就是:真实的联合分布 等于 边际分布的乘积。

    给定具体的数据集,边际概率、联合概率通过频率估算。可以画出两个变量的列联表,边际概率通过求行和、列和等计算…具体见链接🔗。

  • 相关阅读:
    linux系统调用拦截Centos7.6(三)の下载Centos7.6内核源码
    Rust - 所有权
    C指针传参的一些思考
    关于vue中image控件,onload事件里,event.target 为null的奇怪问题探讨
    基于MATLAB的图像条形码识别系统(matlab毕毕业设计2)
    CinemachineVirtualCamera实现自由相机
    SpringBoot 拦截器的使用
    如何在公网环境下使用移动端通过群晖管家管理部署自己家里局域网内的黑群晖
    前端(四)
    【JVM】运行时数据区之方法区——自问自答
  • 原文地址:https://blog.csdn.net/weixin_44360866/article/details/127108754