• 高维统计理论 Gauss与Rademacher复杂度


    高维统计理论 Gauss与Rademacher复杂度

    对于随机过程 { X θ , θ ∈ T } \{X_{\theta},\theta \in T\} {Xθ,θT},其中 T T T是随机过程的指标集,给定 θ ∈ T \theta \in T θT时, X θ X_{\theta} Xθ是一个随机变量。在本篇中,我们感兴趣的问题是如何利用已知的随机过程研究指标集 T T T的性质。


    定义 Gauss复杂度(Gaussian Complexity)
    对于给定的指标集 T T T,定义随机过程 { G θ , θ ∈ T } \{G_{\theta},\theta \in T\} {Gθ,θT},其中
    G θ = ∑ i = 1 d w i θ i , w i ∼ i . i . d . N ( 0 , 1 ) G_{\theta}=\sum_{i=1}^d w_i\theta_i,w_i \overset{i.i.d.}{\sim} N(0,1) Gθ=i=1dwiθi,wii.i.d.N(0,1)

    G ( T ) \mathcal G(T) G(T) { G θ , θ ∈ T } \{G_{\theta},\theta \in T\} {Gθ,θT}的Gauss复杂度,
    G ( T ) = E [ sup ⁡ θ ∈ T G θ ] \mathcal G(T)=E \left[ \sup_{\theta \in T} G_{\theta} \right] G(T)=E[θTsupGθ]

    即随机过程的期望上确界。它的作用是衡量指标集的“复杂程度”或者说“大小”。

    定义 Rademacher复杂度(Rademacher Complexity)
    对于给定的指标集 T T T,定义随机过程 { R θ , θ ∈ T } \{R_{\theta},\theta \in T\} {Rθ,θT},其中
    R θ = ∑ i = 1 d ϵ i θ i , ϵ i ∼ i . i . d . U { − 1 , + 1 } ( Rademacher随机变量 ) R_{\theta}=\sum_{i=1}^d \epsilon_i\theta_i,\epsilon_i \overset{i.i.d.}{\sim} U\{-1,+1\}(\text{Rademacher}随机变量) Rθ=i=1dϵiθi,ϵii.i.d.U{1,+1}(Rademacher随机变量)

    R ( T ) \mathcal R(T) R(T) { R θ , θ ∈ T } \{R_{\theta},\theta \in T\} {Rθ,θT}的Gauss复杂度,
    R ( T ) = E [ sup ⁡ θ ∈ T R θ ] \mathcal R(T)=E \left[ \sup_{\theta \in T} R_{\theta} \right] R(T)=E[θTsupRθ]

    定理 Gauss复杂度与Rademacher复杂度的关系
    如果 T T T R d \mathbb R^d Rd的子集,则
    R ( T ) ≤ π 2 G ( T ) G ( T ) ≤ 2 log ⁡ d R ( T ) \mathcal R(T) \le \sqrt{\frac{\pi}{2}}\mathcal G(T) \\ \mathcal G(T) \le 2 \sqrt{\log d}\mathcal R(T) R(T)2π G(T)G(T)2logd R(T)

    例 Gauss复杂度与Rademacher复杂度相等
    假设 T = B 2 d = { θ ∈ R d : ∥ θ ∥ 2 ≤ 1 } T=B_2^d=\{\theta \in \mathbb R^d:\left\| \theta\right\|_2 \le 1\} T=B2d={θRd:θ21},根据Cauchy不等式,
    R ( T ) = E sup ⁡ θ ∈ T ⟨ θ , ϵ ⟩ = sup ⁡ θ ∈ T ∥ θ ∥ 2 E ∥ ϵ ∥ 2 ≤ E ∥ ϵ ∥ 2 = d \mathcal R(T) =E \sup_{\theta \in T} \langle \theta,\epsilon \rangle = \sup_{\theta \in T}\left\| \theta \right\|_2 E \left\| \epsilon \right\|_2 \le E \left\| \epsilon \right\|_2=\sqrt d R(T)=EθTsupθ,ϵ=θTsupθ2Eϵ2Eϵ2=d

    Gauss复杂度计算思路类似,根据Cauchy不等式以及Jensen不等式,
    G ( T ) = E sup ⁡ θ ∈ T ⟨ θ , w ⟩ = sup ⁡ θ ∈ T ∥ θ ∥ 2 E ∥ w ∥ 2 = E ∥ w ∥ 2 ≤ E ∥ w ∥ 2 2 = d V a r ( w i ) = d \mathcal G(T) =E \sup_{\theta \in T} \langle \theta,w \rangle = \sup_{\theta \in T} \left\| \theta \right\|_2 E \left\| w \right\|_2 = E \left\| w \right\|_2 \\ \le \sqrt{E \left\| w \right\|_2^2} =\sqrt{d Var(w_i)}=\sqrt d G(T)=EθTsupθ,w=θTsupθ2Ew2=Ew2Ew22 =dVar(wi) =d

    另外,根据 χ 2 \chi^2 χ2分布的concentration,
    E ∥ w ∥ 2 = ∫ 0 + ∞ x d P χ d 2 ( x ) ≥ ∫ d − t d + t x d P χ d 2 ( x ) ≥ ( d − t ) ( 1 − 2 e − t 2 d 8 ) = d ( 1 − o ( 1 ) ) E \left\| w \right\|_2 = \int_0^{+\infty} \sqrt{x} dP_{\chi^2_d}(x) \ge \int_{ d - t}^{ d+t} \sqrt x dP_{\chi^2_d}(x) \\ \ge (\sqrt{d-t})(1-2e^{-\frac{t^2d}{8}}) =\sqrt{d}(1-o(1)) Ew2=0+x dPχd2(x)dtd+tx dPχd2(x)(dt )(12e8t2d)=d (1o(1))

    因此 G ( T ) = d \mathcal G(T)=\sqrt d G(T)=d

  • 相关阅读:
    Elsevier出版社 | 优质好刊合集
    《最新出炉》系列初窥篇-Python+Playwright自动化测试-24-处理单选和多选按钮-上篇
    【MicroPython RP2040】通过ADC调节PWM输出示例
    【ubuntu离线安装docker】
    力扣 886. 可能的二分法
    【计算机网络】广域网协议分析
    seatunnel 架构
    python独立脚本应用Django项目的环境
    设计模式 - 结构型模式考点篇:装饰者模式(概念 | 案例实现 | 优缺点 | 使用场景)
    SPSS教程:手把手教你绘制簇状条形图
  • 原文地址:https://blog.csdn.net/weixin_44207974/article/details/125904160