• 机器学习基础:大数定律与中心极限定理



    机器学习必备基础知识,力求以最简洁的语言,描述最完整的内容。
    很多知识没有深入剖析,也没必要深入剖析。大致了解知识框架之后,即可开始学习机器学习,有不懂的再回过头再仔细研究,驱动式学习才是最高效的学习。
    在这里插入图片描述

    极限理论

    大数定律

    • 揭示了随即变量平均值的收敛规律

    • 依概率收敛

      { X n } \{X_n\} {Xn}是一个随机变量序列, X X X为随机变量,若对任意给定实数 ε > 0 \varepsilon>0 ε>0,都有
      lim ⁡ n → ∞ P { ∣ X n − X ∣ < ε } = 1 \lim_{n\to\infty}P\{|X_n-X|<\varepsilon \}=1 nlimP{XnX<ε}=1
      则称 { X n } \{X_n\} {Xn}依概率收敛于 X X X,记为
      X n − > [ P ] X {X_n->[P]X} Xn>[P]X

      • 比如 X n − > [ P ] a {X_n->[P]a} Xn>[P]a,就是说当 n → + ∞ n\rightarrow +\infin n+时, X n X_n Xn落在 ( a − ε , a + ε ) (a-\varepsilon,a+\varepsilon) (aε,a+ε)内的概率越来越大,与极限的定义区分开!(极限中 X n − > a {X_n->a} Xn>a是指对 ∀ ε > 0 , ∃ n 0 , 当 n > n 0 , ∣ X n − a ∣ < ε \forall\varepsilon>0,\exists n_0,当n>n_0, |X_n-a|<\varepsilon ε>0,n0,n>n0,Xna<ε
    • 常用大数定律

    切比雪夫大数定律

    { X k , k = 1 , 2 , . . . } \{X_k,k=1,2,...\} {Xk,k=1,2,...}为独立的随机变量序列,且有相同的数学期望 μ \mu μ,及方差 σ 2 > 0 \sigma^2>0 σ2>0,则
    Y n = 1 n ∑ k = 1 n X k − > [ P ] μ Y_n={\frac1n\sum_{k=1}^n{X_k->[P]\mu}} Yn=n1k=1nXk>[P]μ
    即对任给 ε > 0 \varepsilon>0 ε>0,都有
    lim ⁡ n → + ∞ P { ∣ Y n − μ ∣ < ε } = 1 \lim_{n\rightarrow+\infin}P\{|Y_n-\mu|<\varepsilon\}=1 n+limP{Ynμ<ε}=1

    • 证明:

      由切比雪夫不等式 P ( ∣ Y n − E ( Y n ) ∣ ⩾ ε ) ⩽ D ( Y n ) ε 2 P(|Y_n-E(Y_n)|\geqslant\varepsilon)\leqslant\frac{D(Y_n)}{\varepsilon^2} P(YnE(Yn)ε)ε2D(Yn)

      P ( ∣ Y n − E ( Y n ) ∣ < ε ) ⩾ 1 − D ( Y n ) ε 2 P(|Y_n-E(Y_n)|<\varepsilon)\geqslant1-\frac{D(Y_n)}{\varepsilon^2} P(YnE(Yn)<ε)1ε2D(Yn)

      这里 E ( Y n ) = 1 n ∑ k = 1 n E ( X k ) = μ D ( Y n ) = 1 n 2 ∑ k = 1 n D ( X k ) = σ 2 n E(Y_n)=\frac1n\sum_{k=1}^nE(X_k)=\mu\\D(Y_n)=\frac1{n^2}\sum_{k=1}^nD(X_k)=\frac{\sigma^2}{n} E(Yn)=n1k=1nE(Xk)=μD(Yn)=n21k=1nD(Xk)=nσ2

      代回上式:
      P ( ∣ Y n − μ ∣ < ε ) ⩾ 1 − σ 2 n ε 2 , 所以 lim ⁡ n → + ∞ P ( ∣ Y n − μ ∣ < ε ) = 1 P(|Y_n-\mu|<\varepsilon)\geqslant1-\frac{\sigma^2}{n\varepsilon^2},所以\\ \lim_{n\rightarrow+\infin}P(|Y_n-\mu|<\varepsilon)=1 P(Ynμ<ε)1nε2σ2,所以n+limP(Ynμ<ε)=1

    伯努利大数定律

    设进行 n n n次独立重复试验,每次试验中事件 A A A发生的概率为 p p p,记 f n f_n fn n n n次试验中事件 A A A发生的频率,则
    f n − > [ p ] p , 即 lim ⁡ n → + ∞ P ( ∣ n A n − p ∣ < ε ) = 1 {f_n->[p]p},即\\ \lim_{n\rightarrow+\infin}P(|\frac{n_A}{n}-p|<\varepsilon)=1 fn>[p]p,n+limP(nnAp<ε)=1

    • 证明


      X i = { 1 , 第 i 次试验中事件 A 发生 0 , 第 i 次试验中事件 A 不发生 X_i=

      {1,iA0,iA" role="presentation">{1,iA0,iA
      Xi={1,0,i次试验中事件A发生i次试验中事件A不发生
      E ( X i ) = p , D ( X i ) = p ( 1 − p ) E(X_i)=p,D(X_i)=p(1-p) E(Xi)=p,D(Xi)=p(1p),那么就转化成了切比雪夫大数定律,有

      f n = 1 n ∑ k = 1 n X k − > [ P ] p f_n={\frac1n\sum_{k=1}^n {X_k->[P]p}} fn=n1k=1nXk>[P]p

    辛钦大数定律

    { X k , k = 1 , 2 , . . . } \{X_k,k=1,2,...\} {Xk,k=1,2,...}独立同分布随机变量序列,且 E ( X k ) = μ < ∞ , k = 1 , 2 , . . . E(X_k)=\mu<\infin,k=1,2,... E(Xk)=μ<,k=1,2,...,则
    Y n = 1 n ∑ k = 1 n X k − > [ P ] μ Y_n={\frac1n\sum_{k=1}^n{X_k->[P]\mu}} Yn=n1k=1nXk>[P]μ
    看起来和切比雪夫大数定律差不多?那么再看一下该定律的推论:

    { X i , i = 1 , 2 , . . . } \{X_i,i=1,2,...\} {Xi,i=1,2,...}独立同分布随机变量序列,且 E ( X 1 k ) < ∞ E(X_1^k)<\infin E(X1k)<,则
    1 n ∑ i = 1 n X i k − > [ P ] E ( X 1 k ) {\frac1n\sum_{i=1}^n{X_i^k->[P]E(X_1^k)}} n1i=1nXik>[P]E(X1k)
    即在独立同分布条件下,可以推至 k k k次的情况也满足大数定律

    • 大数定律给出了频率稳定性的严格数学定义,即大量独立随即观测的平均值依概率收敛于分布的期望值

    中心极限定理

    • 依分布收敛

      设随机变量序列 X n ( n = 1 , 2 , . . . ) X_n(n=1,2,...) Xn(n=1,2,...)和随机变量 X X X的分布函数分别为 F n ( x ) ( n = 1 , 2 , . . . ) F_n(x)(n=1,2,...) Fn(x)(n=1,2,...) F ( x ) F(x) F(x),若在 F ( x ) F(x) F(x)的所有连续点 x x x上都有
      lim ⁡ n → ∞ F n ( x ) = F ( x ) \lim_{n\to \infty}F_n(x)=F(x) nlimFn(x)=F(x)
      则称随机变量序列 { X n } \{X_n\} {Xn}依分布收敛于随机变量 X X X,简记为
      X n − > [ w ] X {X_n->[w]X} Xn>[w]X
      依分布收敛的意思是,当 n n n很大的时候, X n X_n Xn的分布函数 F n ( x ) F_n(x) Fn(x)收敛于 F ( x ) F(x) F(x),也就是分布函数的收敛性,这是一种比较弱的收敛性,只能保证分布一致,无法保证概率密度对应一致。也就是二者之间可能不存在联系。(比如说抛硬币和袋子里一个白球一个黑球来摸,两者的分布相同,但是八竿子打不着的关系)

      • 现令 Y n = ∑ k = 1 n X k Y_n=\sum_{k=1}^nX_k Yn=k=1nXk,若 Y n Y_n Yn的标准化 Y n ∗ − > [ w ] ξ ∼ N ( 0 , 1 ) {Y_n^*->[w]\xi\sim N(0,1)} Yn>[w]ξN(0,1),则称 { X n } \{X_n\} {Xn}满足中心极限定理
    • 几个常用的中心极限定理

    独立同分布中心极限定理

    { X n } \{X_n\} {Xn}为独立同分布随机变量序列,若 E ( X k ) = μ < ∞ , D ( X k ) = σ 2 > 0 , k = 1 , 2 , . . . E(X_k)=\mu<\infin,D(X_k)=\sigma^2>0,k=1,2,... E(Xk)=μ<,D(Xk)=σ2>0,k=1,2,...,则 { X n } \{X_n\} {Xn}满足中心极限定理

    根据上述定理,当 n n n充分大时
    lim ⁡ n → ∞ P { ∑ i = 1 n X i − n μ n σ ≤ x } = Φ ( x ) 或者 P { ∑ i = 1 n X i ⩽ x } ≈ Φ ( x − n μ n σ ) 其中 Φ ( x ) 是标准正态分布的分布函数 Φ ( x ) = P ( X ⩽ x ) = 1 2 π ∫ − ∞ x e − t 2 2 d t \lim_{n\to\infty}P\{\frac{\sum_{i=1}^nX_i-n\mu}{\sqrt{n}\sigma}\leq x\}=\Phi(x)\\ 或者P\{\sum_{i=1}^nX_i\leqslant x\}\approx\Phi(\frac{x-n\mu}{\sqrt{n}\sigma})\\ 其中\Phi(x)是标准正态分布的分布函数\\ \Phi(x)=P(X\leqslant x)=\frac{1}{\sqrt {2\pi}}\int _{-\infin}^x e^{-\frac{t^2}{2}}dt\\ nlimP{n σi=1nXinμx}=Φ(x)或者P{i=1nXix}Φ(n σxnμ)其中Φ(x)是标准正态分布的分布函数Φ(x)=P(Xx)=2π 1xe2t2dt
    解读一下这个式子,实际上是把 Y n = ∑ i = 1 n X i Y_n=\sum_{i=1}^nX_i Yn=i=1nXi进行了标准化后,得到的 Y n ∗ Y_n^* Yn近似于标准正态分布,也就是说
    Y n ∗ = Y n − E ( Y n ) D ( Y n ) 其中 E ( Y n ) = E ( ∑ i = 1 n X i ) = ∑ i = 1 n E ( X i ) = n μ D ( Y n ) = D ( ∑ i = 1 n X i ) = ∑ i = 1 n D ( X i ) = n σ 2 故 Y n ∗ = ∑ i = 1 n X i − n μ n σ Y_n^*=\frac{Y_n-E(Y_n)}{\sqrt{D(Y_n)}}\\ 其中E(Y_n)=E(\sum_{i=1}^nX_i)=\sum_{i=1}^nE(X_i)=n\mu\\ D(Y_n)=D(\sum_{i=1}^nX_i)=\sum_{i=1}^nD(X_i)=n\sigma^2\\ 故Y_n^*=\frac{\sum_{i=1}^nX_i-n\mu}{\sqrt{n}\sigma} Yn=D(Yn) YnE(Yn)其中E(Yn)=E(i=1nXi)=i=1nE(Xi)=nμD(Yn)=D(i=1nXi)=i=1nD(Xi)=nσ2Yn=n σi=1nXinμ
    Y n ∗ Y_n^* Yn近似 ∼ N ( 0 , 1 ) \sim N(0,1) N(0,1),或者

    Y n Y_n Yn近似 ∼ N ( n μ , n σ 2 ) \sim N(n\mu,n\sigma^2) N(nμ,nσ2),再清晰点,
    ∑ i = 1 n X i 近似 ∼ N ( E ( ∑ i = 1 n X i ) , D ( ∑ i = 1 n X i ) ) ​ \sum_{i=1}^nX_i近似\sim N(E(\sum_{i=1}^nX_i),D(\sum_{i=1}^nX_i))​ i=1nXi近似N(E(i=1nXi),D(i=1nXi))
    也就是说, n n n个独立同分布随机变量的和,当 n n n足够大时,可以认为该和近似服从正态分布

    拉普拉斯中心极限定理

    设随机变量 η n , n = 1 , 2 , . . . \eta_n,n=1,2,... ηn,n=1,2,...服从参数为 n , p ( 0 < p < 1 ) n,p(0n,p(0<p<1)的二项分布,则

    η n − n p n p q − > ξ ∼ N ( 0 , 1 ) \frac{\eta_n-np}{\sqrt{npq}} {-> \xi\sim N(0,1)} npq ηnnp>ξN(0,1)

    证明:


    X i = { 1 , 第 i 次试验中事件 A 发生 0 , 第 i 次试验中事件 A 不发生 X_i=

    {1,iA0,iA" role="presentation">{1,iA0,iA
    Xi={1,0,i次试验中事件A发生i次试验中事件A不发生
    E ( X i ) = p , D ( X i ) = p ( 1 − p ) , η n = ∑ i = 1 n X i E(X_i)=p,D(X_i)=p(1-p),\eta_n=\sum_{i=1}^nX_i E(Xi)=p,D(Xi)=p(1p),ηn=i=1nXi

    转化成了独立同分布中心极限定理,得证

  • 相关阅读:
    python教程:把多张图片,合并成一张图
    一年前端面试打怪升级之路
    泡泡玛特城市乐园开园在即,知名潮玩IP落地北京朝阳
    CSS的break-inside 属性 的使用
    C语言_用于ADC数据的均值滤波算法
    邯郸学院软件学院软件工程专业教师参加“火焰杯”软件测试颁奖典礼
    Tomcat隔离web原理和热加载热部署
    Linux的进程管理
    Gateway服务网关
    深入浅出Java多线程(三):线程与线程组
  • 原文地址:https://blog.csdn.net/weixin_45755332/article/details/127089815