• 高维统计理论 非参数回归模型的误差分析基础


    之前两篇介绍了RKHS及其经典应用kernel ridge regression,这一篇讨论一般的非参数最小二乘模型的理论性质。


    非参数回归的数据模型可以写成 y i = f ∗ ( x i ) + σ w i y_i=f^*(x_i)+\sigma w_i yi=f(xi)+σwi,其中 f ∗ f^* f表示真实函数, w i w_i wi服从标准正态分布。假设内积函数空间 ( F , ∥ ⋅ ∥ ) (\mathcal F,\left\| \cdot \right\|) (F,)为备选的非参数模型, { ( x i , y i ) } i = 1 n \{(x_i,y_i)\}_{i=1}^n {(xi,yi)}i=1n为样本点,则非参数最小二乘估计为
    f ^ = arg min ⁡ f ∈ F 1 n ∑ i = 1 n [ y i − f ( x i ) ] 2 ⏟ 最小二乘损失 + λ n ∥ f ∥ ⏟ 正则项 \hat f = \argmin_{f \in \mathcal F} \frac{1}{n} \underbrace{\sum_{i=1}^n[y_i-f(x_i)]^2}_{最小二乘损失}+\underbrace{\lambda_n \left\| f\right\|}_{正则项} f^=fFargminn1最小二乘损失 i=1n[yif(xi)]2+正则项 λnf

    λ n > 0 \lambda_n>0 λn>0为正则参数。

    非参最小二乘及其误差

    我们主要分析不含正则项的NLS。用 X \mathcal X X表示 f ∗ f^* f F \mathcal F F中的函数的定义域,且 ( X , B ( X ) ) (\mathcal X,\mathcal B(\mathcal X)) (X,B(X))为可测空间。定义 P n = 1 n ∑ i = 1 n δ x i \mathbb P_n = \frac{1}{n} \sum_{i=1}^n \delta_{x_i} Pn=n1i=1nδxi

    这是样本点的经验分布导出的测度, ( X , B ( X ) , P n ) (\mathcal X,\mathcal B(\mathcal X),\mathbb P_n) (X,B(X),Pn)形成一个测度空间,基于这个测度空间定义 L 2 ( P n ) = { f : X → R ∣ ∫ f 2 d P n < ∞ } L^2(\mathbb P_n) = \{f:\mathcal X \to \mathbb R| \int f^2 d \mathbb P_n<\infty\} L2(Pn)={f:XRf2dPn<}

    这是一个Hilbert空间,假设 F ⊂ L 2 ( P n ) \mathcal F \subset L^2(\mathbb P_n) FL2(Pn),则非参最小二乘估计的in-sample fitting error为
    ∥ f ^ − f ∗ ∥ P n = 1 n ∑ i = 1 n [ f ^ ( x i ) − f ∗ ( x i ) ] 2 \left\| \hat f - f^* \right\|_{\mathbb P_n}=\frac{1}{n} \sum_{i=1}^n [\hat f(x_i)-f^*(x_i)]^2 f^f Pn=n1i=1n[f^(xi)f(xi)]2

    其中 ∥ ⋅ ∥ P n \left\| \cdot \right\|_{\mathbb P_n} Pn L 2 ( P n ) L^2(\mathbb P_n) L2(Pn)的内积。

    计算误差上界的思路

    仅作不严谨地推导以说明计算误差上界的思路,考虑到 f ^ \hat f f^是最小二乘估计,
    1 2 n ∑ i = 1 n ( y i − f ^ ( x i ) ) 2 ≤ 1 2 n ∑ i = 1 n ( y i − f ∗ ( x i ) ) 2 \frac{1}{2n}\sum_{i=1}^n (y_i-\hat f(x_i))^2 \le \frac{1}{2n} \sum_{i=1}^n (y_i-f^*(x_i))^2 2n1i=1n(yif^(xi))22n1i=1n(yif(xi))2

    代入 y i = f ∗ ( x i ) + σ w i y_i=f^*(x_i)+\sigma w_i yi=f(xi)+σwi
    1 2 n ∑ i = 1 n ( f ∗ ( x i ) + σ w i − f ^ ( x i ) ) 2 ≤ 1 2 n ∑ i = 1 n ( f ∗ ( x i ) + σ w i − f ∗ ( x i ) ) 2 1 2 n ∑ i = 1 n [ ( f ∗ ( x i ) − f ^ ( x i ) ) 2 + 2 σ w i ( f ∗ ( x i ) − f ^ ( x i ) ) ] ≤ 0 1 2 n ∑ i = 1 n ( f ^ ( x i ) − f ∗ ( x i ) ) 2 ≤ σ n ∑ i = 1 n w i ( f ^ ( x i ) − f ∗ ( x i ) ) \frac{1}{2n}\sum_{i=1}^n (f^*(x_i)+\sigma w_i-\hat f(x_i))^2 \le \frac{1}{2n} \sum_{i=1}^n (f^*(x_i)+\sigma w_i-f^*(x_i))^2 \\ \frac{1}{2n}\sum_{i=1}^n [(f^*(x_i)-\hat f(x_i))^2+2\sigma w_i(f^*(x_i)-\hat f(x_i)) ] \le 0 \\ \frac{1}{2n}\sum_{i=1}^n (\hat f(x_i)- f^*(x_i))^2 \le \frac{\sigma}{n} \sum_{i=1}^n w_i (\hat f(x_i)-f^*(x_i)) 2n1i=1n(f(xi)+σwif^(xi))22n1i=1n(f(xi)+σwif(xi))22n1i=1n[(f(xi)f^(xi))2+2σwi(f(xi)f^(xi))]02n1i=1n(f^(xi)f(xi))2nσi=1nwi(f^(xi)f(xi))

    不等式右边的结构是Gauss过程,指标为 { f ^ ( x i ) − f ∗ ( x i ) } \{\hat f(x_i)-f^*(x_i)\} {f^(xi)f(xi)},其中 f ^ ∈ F \hat f \in \mathcal F f^F,为了分析这个Gauss过程的性质,我们定义 F ∗ = { f − f ∗ : f ∈ F } \mathcal F^*=\{f-f^*:f \in \mathcal F\} F={ff:fF},这个集合是Gauss过程的指标集, f ^ − f ∗ ∈ F ∗ \hat f - f^* \in \mathcal F^* f^fF。定义local Gaussian complexity,
    G ( δ ; F ∗ ) = E [ sup ⁡ g ∈ F ∗ , ∥ g ∥ n ≤ δ ∣ 1 n ∑ i = 1 n w i g ( x i ) ∣ ] \mathcal G(\delta;\mathcal F^*)=E\left[ \sup_{g \in \mathcal F^* ,\left\| g\right\|_n \le \delta} \left| \frac{1}{n} \sum_{i=1}^n w_i g(x_i) \right|\right] G(δ;F)=E[gF,gnδsup n1i=1nwig(xi) ]

    将上述不等式取期望后可得,
    1 2 E ∥ f ^ − f ∗ ∥ n 2 ≤ σ G ( δ ; F ∗ ) \frac{1}{2} E \left\| \hat f - f^*\right\|_n^2 \le \sigma \mathcal G(\delta;\mathcal F^*) 21E f^f n2σG(δ;F)

    如果记 δ 2 = E ∥ f ^ − f ∗ ∥ n 2 \delta^2=E\left\| \hat f - f^*\right\|_n^2 δ2=E f^f n2,则
    δ 2 2 ≤ σ G ( δ ; F ∗ ) \frac{\delta^2}{2} \le \sigma \mathcal G(\delta;\mathcal F^*) 2δ2σG(δ;F)

    这个推导自然是不严谨的,但由此我们可以得出,要推导误差的上界,我们需要选择critical value δ n ≥ δ \delta_n \ge \delta δnδ,并用 G ( δ ; F ∗ ) \mathcal G(\delta;\mathcal F^*) G(δ;F)的上界作为对误差上界的估计。

    定理
    假设 F ∗ \mathcal F^* F为star-shaped function class,假设 δ n \delta_n δn满足 δ 2 2 ≤ σ G ( δ ; F ∗ ) \frac{\delta^2}{2} \le \sigma \mathcal G(\delta;\mathcal F^*) 2δ2σG(δ;F) ∀ t > δ n \forall t>\delta_n t>δn
    P ( ∥ f ^ − f ∗ ∥ n 2 ≥ 16 t δ n ) ≤ e − n t δ n 2 σ 2 P \left( \left\|\hat f - f^* \right\|_n^2 \ge 16 t \delta_n \right) \le e^{-\frac{n t \delta_n}{2\sigma^2}} P( f^f n216tδn)e2σ2ntδn

    评注 star-shaped function class指的是 ∀ α ∈ [ 0 , 1 ] , ∀ f ∈ F ∗ \forall \alpha \in [0,1],\forall f \in \mathcal F^* α[0,1],fF, α f ∈ F ∗ \alpha f \in \mathcal F^* αfF,如果这个条件不满足,那么我们可以构造 F ∗ \mathcal F^* F的star hull,
    s t a r ( F ∗ ; 0 ) = { α g : α ∈ [ 0 , 1 ] , g ∈ F ∗ } star(\mathcal F^*;0)=\{\alpha g:\alpha \in [0,1],g \in \mathcal F^*\} star(F;0)={αg:α[0,1],gF}

    然后将定理应用在这个star hull上。star-shaped条件的作用是保证满足 δ 2 2 ≤ σ G ( δ ; F ∗ ) \frac{\delta^2}{2} \le \sigma \mathcal G(\delta;\mathcal F^*) 2δ2σG(δ;F)的critical value δ n \delta_n δn存在。 F ∗ \mathcal F^* F为star-shaped function class,则函数 δ → G ( δ ; F ∗ ) δ \delta \to \frac{\mathcal G(\delta;\mathcal F^*)}{\delta} δδG(δ;F)关于 δ > 0 \delta>0 δ>0为非增函数,证明如下:考虑 0 < δ ≤ t 0<\delta \le t 0<δt ∀ h ∈ F ∗ \forall h \in \mathcal F^* hF, ∥ h ∥ n ≤ t \left\| h\right\|_n \le t hnt,定义 h ~ = δ h / t \tilde h=\delta h/t h~=δh/t,则 ∥ h ~ ∥ n ≤ δ \left\| \tilde h\right\|_n \le \delta h~ nδ h ~ ∈ F ∗ \tilde h \in \mathcal F^* h~F,计算
    1 n δ t ∑ i = 1 n w i h ( x i ) = 1 n ∑ i = 1 n w i h ~ ( x i ) ≤ sup ⁡ ∥ h ~ ∥ n ≤ δ , h ~ ∈ F ∗ 1 n ∑ i = 1 n w i h ~ ( x i ) \frac{1}{n} \frac{\delta}{t}\sum_{i=1}^n w_ih(x_i) = \frac{1}{n} \sum_{i=1}^n w_i \tilde h(x_i) \le \sup_{\left\| \tilde h\right\|_n \le \delta,\tilde h \in \mathcal F^*}\frac{1}{n} \sum_{i=1}^n w_i \tilde h(x_i) n1tδi=1nwih(xi)=n1i=1nwih~(xi)h~nδ,h~Fsupn1i=1nwih~(xi)

    左右两边取期望可得,
    E 1 n t ∑ i = 1 n w i h ( x i ) ≤ G ( δ ; F ∗ ) δ E \frac{1}{nt}\sum_{i=1}^n w_ih(x_i) \le \frac{\mathcal G(\delta;\mathcal F^*)}{\delta} Ent1i=1nwih(xi)δG(δ;F)

    取左边的上确界,
    1 t E sup ⁡ ∥ h ∥ n ≤ t , h ∈ F ∗ 1 n ∑ i = 1 n w i h ( x i ) = G ( t ; F ∗ ) t ≤ G ( δ ; F ∗ ) δ \frac{1}{t} E \sup_{\left\| h\right\|_n \le t, h \in \mathcal F^*}\frac{1}{n}\sum_{i=1}^n w_ih(x_i)=\frac{\mathcal G(t;\mathcal F^*)}{t} \le \frac{\mathcal G(\delta;\mathcal F^*)}{\delta} t1Ehnt,hFsupn1i=1nwih(xi)=tG(t;F)δG(δ;F)

    因此 ∀ c > 0 \forall c>0 c>0 ∃ δ > 0 \exists \delta>0 δ>0使得 c δ ≥ G ( δ ; F ∗ ) δ c\delta \ge \frac{\mathcal G(\delta;\mathcal F^*)}{\delta} δG(δ;F)(左边关于 δ \delta δ递增,右边关于 δ \delta δ非增,所以一定存在交点)。

    Critical Value的metric entropy条件

    定义 B n ( δ , F ∗ ) = { g ∈ s t a r ( F ∗ ; 0 ) : ∥ g ∥ n ≤ δ } B_n(\delta,\mathcal F^*)=\{g \in star(\mathcal F^*;0):\left\| g\right\|_n \le \delta \} Bn(δ,F)={gstar(F;0):gnδ},用 N n ( t ; B n ( δ , F ∗ ) ) N_n(t;B_n(\delta,\mathcal F^*)) Nn(t;Bn(δ,F))表示 B n ( δ , F ∗ ) B_n(\delta,\mathcal F^*) Bn(δ,F) ∥ ⋅ ∥ n \left\| \cdot \right\|_n n下的t-covering number,即
    N n ( t ; B n ( δ , F ∗ ) ) = min ⁡ N s . t .   ∃ { g 1 , ⋯   , g N } ⊂ B n ( δ , F ∗ ) , ∀ g ∈ B n ( δ , F ∗ ) ∃ i ∈ { 1 , ⋯   , N } , ∥ g − g i ∥ n ≤ δ N_n(t;B_n(\delta,\mathcal F^*))=\min N \\ s.t. \ \exists \{g_1,\cdots,g_N\}\subset B_n(\delta,\mathcal F^*),\forall g \in B_n(\delta,\mathcal F^*) \\ \exists i \in \{1,\cdots,N\}, \left\| g-g_i \right\|_n \le \delta Nn(t;Bn(δ,F))=minNs.t. {g1,,gN}Bn(δ,F),gBn(δ,F)i{1,,N},gginδ

    定理 ∀ δ ∈ ( 0 , σ ] \forall \delta \in (0,\sigma] δ(0,σ],如果
    16 n ∫ δ 2 4 σ δ log ⁡ N n ( t ; B n ( δ , F ∗ ) ) d t ≤ δ 2 4 σ \frac{16}{\sqrt n} \int _{\frac{\delta^2}{4 \sigma}}^{\delta} \sqrt{\log N_n(t;B_n(\delta,\mathcal F^*))}dt \le \frac{\delta^2}{4 \sigma} n 164σδ2δlogNn(t;Bn(δ,F)) dt4σδ2

    δ \delta δ满足 δ 2 2 ≤ σ G ( δ ; F ∗ ) \frac{\delta^2}{2} \le \sigma \mathcal G(\delta;\mathcal F^*) 2δ2σG(δ;F)

    Oracle Inequality

    在实际应用中,真实函数 f ∗ f^* f可能并不在 F \mathcal F F中,所以误差包括估计误差与近似误差(用 F \mathcal F F中的函数近似 f ∗ f^* f),估计误差在前文中讨论过了,而近似误差比较好的定义方法是计算 f ∗ f^* f F \mathcal F F的距离,即 inf ⁡ f ∈ F ∥ f − f ∗ ∥ n \inf_{f \in \mathcal F} \left\| f- f^* \right\|_n inffFffn,这个定义本身就意味着一种理想情况,就是我们知道 { f ∗ ( x i ) } \{f^*(x_i)\} {f(xi)}的取值,所以称计算 inf ⁡ f ∈ F ∥ f − f ∗ ∥ n \inf_{f \in \mathcal F} \left\| f- f^* \right\|_n inffFffn上界的不等式为Oracle inequality。

    以下定理可以视为对误差上界的推广:定义 ∂ F = { f 1 − f 2 : f 1 , f 2 ∈ F } \partial \mathcal F=\{f_1-f_2:f_1,f_2 \in \mathcal F\} F={f1f2:f1,f2F},假设 δ n \delta_n δn满足 G ( δ ; ∂ F ) δ ≤ δ 2 σ \frac{\mathcal G(\delta;\partial \mathcal F)}{\delta} \le \frac{\delta}{2\sigma} δG(δ;F)2σδ,存在常数 ( c 0 , c 1 , c 2 ) (c_0,c_1,c_2) (c0,c1,c2)使得 ∀ t ≥ δ n \forall t \ge \delta_n tδn
    ∥ f ^ − f ∗ ∥ n 2 ≤ inf ⁡ γ ∈ ( 0 , 1 ) [ 1 + γ 1 − γ ∥ f − f ∗ ∥ n 2 + c 0 γ ( 1 − γ ) t δ n ] , ∀ f ∈ F \left\| \hat f- f^* \right\|_n^2 \le \inf _{\gamma \in (0,1)} \left[ \frac{1+\gamma}{1-\gamma} \left\| f - f^*\right\|_n^2+\frac{c_0}{\gamma(1-\gamma)}t \delta_n \right],\forall f \in \mathcal F f^f n2γ(0,1)inf[1γ1+γffn2+γ(1γ)c0tδn],fF

    成立的概率大于 1 − c 1 e − c 2 n t δ n σ 2 1-c_1e^{-c_2\frac{n t \delta_n}{\sigma^2}} 1c1ec2σ2ntδn

  • 相关阅读:
    【笔试题】【day16】
    分布式ID选型对比(1)
    华为机试真题 Java 实现【最大括号深度】
    Hashtable为什么效率很低
    redis bitmap数据结构之java对等操作
    Angular组件间传值有哪几种方法?
    制作404页面的注意事项
    1018 Public Bike Management (动规暴力美学)
    从一篇AMA揭幕单慢雾安全技术
    Python NumPy 广播(Broadcast)
  • 原文地址:https://blog.csdn.net/weixin_44207974/article/details/125904168