之前两篇介绍了RKHS及其经典应用kernel ridge regression,这一篇讨论一般的非参数最小二乘模型的理论性质。
非参数回归的数据模型可以写成
y
i
=
f
∗
(
x
i
)
+
σ
w
i
y_i=f^*(x_i)+\sigma w_i
yi=f∗(xi)+σwi,其中
f
∗
f^*
f∗表示真实函数,
w
i
w_i
wi服从标准正态分布。假设内积函数空间
(
F
,
∥
⋅
∥
)
(\mathcal F,\left\| \cdot \right\|)
(F,∥⋅∥)为备选的非参数模型,
{
(
x
i
,
y
i
)
}
i
=
1
n
\{(x_i,y_i)\}_{i=1}^n
{(xi,yi)}i=1n为样本点,则非参数最小二乘估计为
f
^
=
arg min
f
∈
F
1
n
∑
i
=
1
n
[
y
i
−
f
(
x
i
)
]
2
⏟
最小二乘损失
+
λ
n
∥
f
∥
⏟
正则项
\hat f = \argmin_{f \in \mathcal F} \frac{1}{n} \underbrace{\sum_{i=1}^n[y_i-f(x_i)]^2}_{最小二乘损失}+\underbrace{\lambda_n \left\| f\right\|}_{正则项}
f^=f∈Fargminn1最小二乘损失
i=1∑n[yi−f(xi)]2+正则项
λn∥f∥
λ n > 0 \lambda_n>0 λn>0为正则参数。
我们主要分析不含正则项的NLS。用 X \mathcal X X表示 f ∗ f^* f∗与 F \mathcal F F中的函数的定义域,且 ( X , B ( X ) ) (\mathcal X,\mathcal B(\mathcal X)) (X,B(X))为可测空间。定义 P n = 1 n ∑ i = 1 n δ x i \mathbb P_n = \frac{1}{n} \sum_{i=1}^n \delta_{x_i} Pn=n1i=1∑nδxi
这是样本点的经验分布导出的测度, ( X , B ( X ) , P n ) (\mathcal X,\mathcal B(\mathcal X),\mathbb P_n) (X,B(X),Pn)形成一个测度空间,基于这个测度空间定义 L 2 ( P n ) = { f : X → R ∣ ∫ f 2 d P n < ∞ } L^2(\mathbb P_n) = \{f:\mathcal X \to \mathbb R| \int f^2 d \mathbb P_n<\infty\} L2(Pn)={f:X→R∣∫f2dPn<∞}
这是一个Hilbert空间,假设
F
⊂
L
2
(
P
n
)
\mathcal F \subset L^2(\mathbb P_n)
F⊂L2(Pn),则非参最小二乘估计的in-sample fitting error为
∥
f
^
−
f
∗
∥
P
n
=
1
n
∑
i
=
1
n
[
f
^
(
x
i
)
−
f
∗
(
x
i
)
]
2
\left\| \hat f - f^* \right\|_{\mathbb P_n}=\frac{1}{n} \sum_{i=1}^n [\hat f(x_i)-f^*(x_i)]^2
∥
∥f^−f∗∥
∥Pn=n1i=1∑n[f^(xi)−f∗(xi)]2
其中 ∥ ⋅ ∥ P n \left\| \cdot \right\|_{\mathbb P_n} ∥⋅∥Pn是 L 2 ( P n ) L^2(\mathbb P_n) L2(Pn)的内积。
仅作不严谨地推导以说明计算误差上界的思路,考虑到
f
^
\hat f
f^是最小二乘估计,
1
2
n
∑
i
=
1
n
(
y
i
−
f
^
(
x
i
)
)
2
≤
1
2
n
∑
i
=
1
n
(
y
i
−
f
∗
(
x
i
)
)
2
\frac{1}{2n}\sum_{i=1}^n (y_i-\hat f(x_i))^2 \le \frac{1}{2n} \sum_{i=1}^n (y_i-f^*(x_i))^2
2n1i=1∑n(yi−f^(xi))2≤2n1i=1∑n(yi−f∗(xi))2
代入
y
i
=
f
∗
(
x
i
)
+
σ
w
i
y_i=f^*(x_i)+\sigma w_i
yi=f∗(xi)+σwi,
1
2
n
∑
i
=
1
n
(
f
∗
(
x
i
)
+
σ
w
i
−
f
^
(
x
i
)
)
2
≤
1
2
n
∑
i
=
1
n
(
f
∗
(
x
i
)
+
σ
w
i
−
f
∗
(
x
i
)
)
2
1
2
n
∑
i
=
1
n
[
(
f
∗
(
x
i
)
−
f
^
(
x
i
)
)
2
+
2
σ
w
i
(
f
∗
(
x
i
)
−
f
^
(
x
i
)
)
]
≤
0
1
2
n
∑
i
=
1
n
(
f
^
(
x
i
)
−
f
∗
(
x
i
)
)
2
≤
σ
n
∑
i
=
1
n
w
i
(
f
^
(
x
i
)
−
f
∗
(
x
i
)
)
\frac{1}{2n}\sum_{i=1}^n (f^*(x_i)+\sigma w_i-\hat f(x_i))^2 \le \frac{1}{2n} \sum_{i=1}^n (f^*(x_i)+\sigma w_i-f^*(x_i))^2 \\ \frac{1}{2n}\sum_{i=1}^n [(f^*(x_i)-\hat f(x_i))^2+2\sigma w_i(f^*(x_i)-\hat f(x_i)) ] \le 0 \\ \frac{1}{2n}\sum_{i=1}^n (\hat f(x_i)- f^*(x_i))^2 \le \frac{\sigma}{n} \sum_{i=1}^n w_i (\hat f(x_i)-f^*(x_i))
2n1i=1∑n(f∗(xi)+σwi−f^(xi))2≤2n1i=1∑n(f∗(xi)+σwi−f∗(xi))22n1i=1∑n[(f∗(xi)−f^(xi))2+2σwi(f∗(xi)−f^(xi))]≤02n1i=1∑n(f^(xi)−f∗(xi))2≤nσi=1∑nwi(f^(xi)−f∗(xi))
不等式右边的结构是Gauss过程,指标为
{
f
^
(
x
i
)
−
f
∗
(
x
i
)
}
\{\hat f(x_i)-f^*(x_i)\}
{f^(xi)−f∗(xi)},其中
f
^
∈
F
\hat f \in \mathcal F
f^∈F,为了分析这个Gauss过程的性质,我们定义
F
∗
=
{
f
−
f
∗
:
f
∈
F
}
\mathcal F^*=\{f-f^*:f \in \mathcal F\}
F∗={f−f∗:f∈F},这个集合是Gauss过程的指标集,
f
^
−
f
∗
∈
F
∗
\hat f - f^* \in \mathcal F^*
f^−f∗∈F∗。定义local Gaussian complexity,
G
(
δ
;
F
∗
)
=
E
[
sup
g
∈
F
∗
,
∥
g
∥
n
≤
δ
∣
1
n
∑
i
=
1
n
w
i
g
(
x
i
)
∣
]
\mathcal G(\delta;\mathcal F^*)=E\left[ \sup_{g \in \mathcal F^* ,\left\| g\right\|_n \le \delta} \left| \frac{1}{n} \sum_{i=1}^n w_i g(x_i) \right|\right]
G(δ;F∗)=E[g∈F∗,∥g∥n≤δsup∣
∣n1i=1∑nwig(xi)∣
∣]
将上述不等式取期望后可得,
1
2
E
∥
f
^
−
f
∗
∥
n
2
≤
σ
G
(
δ
;
F
∗
)
\frac{1}{2} E \left\| \hat f - f^*\right\|_n^2 \le \sigma \mathcal G(\delta;\mathcal F^*)
21E∥
∥f^−f∗∥
∥n2≤σG(δ;F∗)
如果记
δ
2
=
E
∥
f
^
−
f
∗
∥
n
2
\delta^2=E\left\| \hat f - f^*\right\|_n^2
δ2=E∥
∥f^−f∗∥
∥n2,则
δ
2
2
≤
σ
G
(
δ
;
F
∗
)
\frac{\delta^2}{2} \le \sigma \mathcal G(\delta;\mathcal F^*)
2δ2≤σG(δ;F∗)
这个推导自然是不严谨的,但由此我们可以得出,要推导误差的上界,我们需要选择critical value δ n ≥ δ \delta_n \ge \delta δn≥δ,并用 G ( δ ; F ∗ ) \mathcal G(\delta;\mathcal F^*) G(δ;F∗)的上界作为对误差上界的估计。
定理
假设
F
∗
\mathcal F^*
F∗为star-shaped function class,假设
δ
n
\delta_n
δn满足
δ
2
2
≤
σ
G
(
δ
;
F
∗
)
\frac{\delta^2}{2} \le \sigma \mathcal G(\delta;\mathcal F^*)
2δ2≤σG(δ;F∗),
∀
t
>
δ
n
\forall t>\delta_n
∀t>δn,
P
(
∥
f
^
−
f
∗
∥
n
2
≥
16
t
δ
n
)
≤
e
−
n
t
δ
n
2
σ
2
P \left( \left\|\hat f - f^* \right\|_n^2 \ge 16 t \delta_n \right) \le e^{-\frac{n t \delta_n}{2\sigma^2}}
P(∥
∥f^−f∗∥
∥n2≥16tδn)≤e−2σ2ntδn
评注 star-shaped function class指的是
∀
α
∈
[
0
,
1
]
,
∀
f
∈
F
∗
\forall \alpha \in [0,1],\forall f \in \mathcal F^*
∀α∈[0,1],∀f∈F∗,
α
f
∈
F
∗
\alpha f \in \mathcal F^*
αf∈F∗,如果这个条件不满足,那么我们可以构造
F
∗
\mathcal F^*
F∗的star hull,
s
t
a
r
(
F
∗
;
0
)
=
{
α
g
:
α
∈
[
0
,
1
]
,
g
∈
F
∗
}
star(\mathcal F^*;0)=\{\alpha g:\alpha \in [0,1],g \in \mathcal F^*\}
star(F∗;0)={αg:α∈[0,1],g∈F∗}
然后将定理应用在这个star hull上。star-shaped条件的作用是保证满足
δ
2
2
≤
σ
G
(
δ
;
F
∗
)
\frac{\delta^2}{2} \le \sigma \mathcal G(\delta;\mathcal F^*)
2δ2≤σG(δ;F∗)的critical value
δ
n
\delta_n
δn存在。
F
∗
\mathcal F^*
F∗为star-shaped function class,则函数
δ
→
G
(
δ
;
F
∗
)
δ
\delta \to \frac{\mathcal G(\delta;\mathcal F^*)}{\delta}
δ→δG(δ;F∗)关于
δ
>
0
\delta>0
δ>0为非增函数,证明如下:考虑
0
<
δ
≤
t
0<\delta \le t
0<δ≤t,
∀
h
∈
F
∗
\forall h \in \mathcal F^*
∀h∈F∗,
∥
h
∥
n
≤
t
\left\| h\right\|_n \le t
∥h∥n≤t,定义
h
~
=
δ
h
/
t
\tilde h=\delta h/t
h~=δh/t,则
∥
h
~
∥
n
≤
δ
\left\| \tilde h\right\|_n \le \delta
∥
∥h~∥
∥n≤δ且
h
~
∈
F
∗
\tilde h \in \mathcal F^*
h~∈F∗,计算
1
n
δ
t
∑
i
=
1
n
w
i
h
(
x
i
)
=
1
n
∑
i
=
1
n
w
i
h
~
(
x
i
)
≤
sup
∥
h
~
∥
n
≤
δ
,
h
~
∈
F
∗
1
n
∑
i
=
1
n
w
i
h
~
(
x
i
)
\frac{1}{n} \frac{\delta}{t}\sum_{i=1}^n w_ih(x_i) = \frac{1}{n} \sum_{i=1}^n w_i \tilde h(x_i) \le \sup_{\left\| \tilde h\right\|_n \le \delta,\tilde h \in \mathcal F^*}\frac{1}{n} \sum_{i=1}^n w_i \tilde h(x_i)
n1tδi=1∑nwih(xi)=n1i=1∑nwih~(xi)≤∥h~∥n≤δ,h~∈F∗supn1i=1∑nwih~(xi)
左右两边取期望可得,
E
1
n
t
∑
i
=
1
n
w
i
h
(
x
i
)
≤
G
(
δ
;
F
∗
)
δ
E \frac{1}{nt}\sum_{i=1}^n w_ih(x_i) \le \frac{\mathcal G(\delta;\mathcal F^*)}{\delta}
Ent1i=1∑nwih(xi)≤δG(δ;F∗)
取左边的上确界,
1
t
E
sup
∥
h
∥
n
≤
t
,
h
∈
F
∗
1
n
∑
i
=
1
n
w
i
h
(
x
i
)
=
G
(
t
;
F
∗
)
t
≤
G
(
δ
;
F
∗
)
δ
\frac{1}{t} E \sup_{\left\| h\right\|_n \le t, h \in \mathcal F^*}\frac{1}{n}\sum_{i=1}^n w_ih(x_i)=\frac{\mathcal G(t;\mathcal F^*)}{t} \le \frac{\mathcal G(\delta;\mathcal F^*)}{\delta}
t1E∥h∥n≤t,h∈F∗supn1i=1∑nwih(xi)=tG(t;F∗)≤δG(δ;F∗)
因此 ∀ c > 0 \forall c>0 ∀c>0, ∃ δ > 0 \exists \delta>0 ∃δ>0使得 c δ ≥ G ( δ ; F ∗ ) δ c\delta \ge \frac{\mathcal G(\delta;\mathcal F^*)}{\delta} cδ≥δG(δ;F∗)(左边关于 δ \delta δ递增,右边关于 δ \delta δ非增,所以一定存在交点)。
定义
B
n
(
δ
,
F
∗
)
=
{
g
∈
s
t
a
r
(
F
∗
;
0
)
:
∥
g
∥
n
≤
δ
}
B_n(\delta,\mathcal F^*)=\{g \in star(\mathcal F^*;0):\left\| g\right\|_n \le \delta \}
Bn(δ,F∗)={g∈star(F∗;0):∥g∥n≤δ},用
N
n
(
t
;
B
n
(
δ
,
F
∗
)
)
N_n(t;B_n(\delta,\mathcal F^*))
Nn(t;Bn(δ,F∗))表示
B
n
(
δ
,
F
∗
)
B_n(\delta,\mathcal F^*)
Bn(δ,F∗)在
∥
⋅
∥
n
\left\| \cdot \right\|_n
∥⋅∥n下的t-covering number,即
N
n
(
t
;
B
n
(
δ
,
F
∗
)
)
=
min
N
s
.
t
.
∃
{
g
1
,
⋯
,
g
N
}
⊂
B
n
(
δ
,
F
∗
)
,
∀
g
∈
B
n
(
δ
,
F
∗
)
∃
i
∈
{
1
,
⋯
,
N
}
,
∥
g
−
g
i
∥
n
≤
δ
N_n(t;B_n(\delta,\mathcal F^*))=\min N \\ s.t. \ \exists \{g_1,\cdots,g_N\}\subset B_n(\delta,\mathcal F^*),\forall g \in B_n(\delta,\mathcal F^*) \\ \exists i \in \{1,\cdots,N\}, \left\| g-g_i \right\|_n \le \delta
Nn(t;Bn(δ,F∗))=minNs.t. ∃{g1,⋯,gN}⊂Bn(δ,F∗),∀g∈Bn(δ,F∗)∃i∈{1,⋯,N},∥g−gi∥n≤δ
定理
∀
δ
∈
(
0
,
σ
]
\forall \delta \in (0,\sigma]
∀δ∈(0,σ],如果
16
n
∫
δ
2
4
σ
δ
log
N
n
(
t
;
B
n
(
δ
,
F
∗
)
)
d
t
≤
δ
2
4
σ
\frac{16}{\sqrt n} \int _{\frac{\delta^2}{4 \sigma}}^{\delta} \sqrt{\log N_n(t;B_n(\delta,\mathcal F^*))}dt \le \frac{\delta^2}{4 \sigma}
n16∫4σδ2δlogNn(t;Bn(δ,F∗))dt≤4σδ2
则 δ \delta δ满足 δ 2 2 ≤ σ G ( δ ; F ∗ ) \frac{\delta^2}{2} \le \sigma \mathcal G(\delta;\mathcal F^*) 2δ2≤σG(δ;F∗)。
在实际应用中,真实函数 f ∗ f^* f∗可能并不在 F \mathcal F F中,所以误差包括估计误差与近似误差(用 F \mathcal F F中的函数近似 f ∗ f^* f∗),估计误差在前文中讨论过了,而近似误差比较好的定义方法是计算 f ∗ f^* f∗与 F \mathcal F F的距离,即 inf f ∈ F ∥ f − f ∗ ∥ n \inf_{f \in \mathcal F} \left\| f- f^* \right\|_n inff∈F∥f−f∗∥n,这个定义本身就意味着一种理想情况,就是我们知道 { f ∗ ( x i ) } \{f^*(x_i)\} {f∗(xi)}的取值,所以称计算 inf f ∈ F ∥ f − f ∗ ∥ n \inf_{f \in \mathcal F} \left\| f- f^* \right\|_n inff∈F∥f−f∗∥n上界的不等式为Oracle inequality。
以下定理可以视为对误差上界的推广:定义
∂
F
=
{
f
1
−
f
2
:
f
1
,
f
2
∈
F
}
\partial \mathcal F=\{f_1-f_2:f_1,f_2 \in \mathcal F\}
∂F={f1−f2:f1,f2∈F},假设
δ
n
\delta_n
δn满足
G
(
δ
;
∂
F
)
δ
≤
δ
2
σ
\frac{\mathcal G(\delta;\partial \mathcal F)}{\delta} \le \frac{\delta}{2\sigma}
δG(δ;∂F)≤2σδ,存在常数
(
c
0
,
c
1
,
c
2
)
(c_0,c_1,c_2)
(c0,c1,c2)使得
∀
t
≥
δ
n
\forall t \ge \delta_n
∀t≥δn,
∥
f
^
−
f
∗
∥
n
2
≤
inf
γ
∈
(
0
,
1
)
[
1
+
γ
1
−
γ
∥
f
−
f
∗
∥
n
2
+
c
0
γ
(
1
−
γ
)
t
δ
n
]
,
∀
f
∈
F
\left\| \hat f- f^* \right\|_n^2 \le \inf _{\gamma \in (0,1)} \left[ \frac{1+\gamma}{1-\gamma} \left\| f - f^*\right\|_n^2+\frac{c_0}{\gamma(1-\gamma)}t \delta_n \right],\forall f \in \mathcal F
∥
∥f^−f∗∥
∥n2≤γ∈(0,1)inf[1−γ1+γ∥f−f∗∥n2+γ(1−γ)c0tδn],∀f∈F
成立的概率大于 1 − c 1 e − c 2 n t δ n σ 2 1-c_1e^{-c_2\frac{n t \delta_n}{\sigma^2}} 1−c1e−c2σ2ntδn。