对于随机过程 { X θ , θ ∈ T } \{X_{\theta},\theta \in T\} {Xθ,θ∈T},其中 T T T是随机过程的指标集,给定 θ ∈ T \theta \in T θ∈T时, X θ X_{\theta} Xθ是一个随机变量。在本篇中,我们感兴趣的问题是如何利用已知的随机过程研究指标集 T T T的性质。
定义 Gauss复杂度(Gaussian Complexity)
对于给定的指标集
T
T
T,定义随机过程
{
G
θ
,
θ
∈
T
}
\{G_{\theta},\theta \in T\}
{Gθ,θ∈T},其中
G
θ
=
∑
i
=
1
d
w
i
θ
i
,
w
i
∼
i
.
i
.
d
.
N
(
0
,
1
)
G_{\theta}=\sum_{i=1}^d w_i\theta_i,w_i \overset{i.i.d.}{\sim} N(0,1)
Gθ=i=1∑dwiθi,wi∼i.i.d.N(0,1)
称
G
(
T
)
\mathcal G(T)
G(T)是
{
G
θ
,
θ
∈
T
}
\{G_{\theta},\theta \in T\}
{Gθ,θ∈T}的Gauss复杂度,
G
(
T
)
=
E
[
sup
θ
∈
T
G
θ
]
\mathcal G(T)=E \left[ \sup_{\theta \in T} G_{\theta} \right]
G(T)=E[θ∈TsupGθ]
即随机过程的期望上确界。它的作用是衡量指标集的“复杂程度”或者说“大小”。
定义 Rademacher复杂度(Rademacher Complexity)
对于给定的指标集
T
T
T,定义随机过程
{
R
θ
,
θ
∈
T
}
\{R_{\theta},\theta \in T\}
{Rθ,θ∈T},其中
R
θ
=
∑
i
=
1
d
ϵ
i
θ
i
,
ϵ
i
∼
i
.
i
.
d
.
U
{
−
1
,
+
1
}
(
Rademacher随机变量
)
R_{\theta}=\sum_{i=1}^d \epsilon_i\theta_i,\epsilon_i \overset{i.i.d.}{\sim} U\{-1,+1\}(\text{Rademacher}随机变量)
Rθ=i=1∑dϵiθi,ϵi∼i.i.d.U{−1,+1}(Rademacher随机变量)
称
R
(
T
)
\mathcal R(T)
R(T)是
{
R
θ
,
θ
∈
T
}
\{R_{\theta},\theta \in T\}
{Rθ,θ∈T}的Gauss复杂度,
R
(
T
)
=
E
[
sup
θ
∈
T
R
θ
]
\mathcal R(T)=E \left[ \sup_{\theta \in T} R_{\theta} \right]
R(T)=E[θ∈TsupRθ]
定理 Gauss复杂度与Rademacher复杂度的关系
如果
T
T
T是
R
d
\mathbb R^d
Rd的子集,则
R
(
T
)
≤
π
2
G
(
T
)
G
(
T
)
≤
2
log
d
R
(
T
)
\mathcal R(T) \le \sqrt{\frac{\pi}{2}}\mathcal G(T) \\ \mathcal G(T) \le 2 \sqrt{\log d}\mathcal R(T)
R(T)≤2πG(T)G(T)≤2logdR(T)
例 Gauss复杂度与Rademacher复杂度相等
假设
T
=
B
2
d
=
{
θ
∈
R
d
:
∥
θ
∥
2
≤
1
}
T=B_2^d=\{\theta \in \mathbb R^d:\left\| \theta\right\|_2 \le 1\}
T=B2d={θ∈Rd:∥θ∥2≤1},根据Cauchy不等式,
R
(
T
)
=
E
sup
θ
∈
T
⟨
θ
,
ϵ
⟩
=
sup
θ
∈
T
∥
θ
∥
2
E
∥
ϵ
∥
2
≤
E
∥
ϵ
∥
2
=
d
\mathcal R(T) =E \sup_{\theta \in T} \langle \theta,\epsilon \rangle = \sup_{\theta \in T}\left\| \theta \right\|_2 E \left\| \epsilon \right\|_2 \le E \left\| \epsilon \right\|_2=\sqrt d
R(T)=Eθ∈Tsup⟨θ,ϵ⟩=θ∈Tsup∥θ∥2E∥ϵ∥2≤E∥ϵ∥2=d
Gauss复杂度计算思路类似,根据Cauchy不等式以及Jensen不等式,
G
(
T
)
=
E
sup
θ
∈
T
⟨
θ
,
w
⟩
=
sup
θ
∈
T
∥
θ
∥
2
E
∥
w
∥
2
=
E
∥
w
∥
2
≤
E
∥
w
∥
2
2
=
d
V
a
r
(
w
i
)
=
d
\mathcal G(T) =E \sup_{\theta \in T} \langle \theta,w \rangle = \sup_{\theta \in T} \left\| \theta \right\|_2 E \left\| w \right\|_2 = E \left\| w \right\|_2 \\ \le \sqrt{E \left\| w \right\|_2^2} =\sqrt{d Var(w_i)}=\sqrt d
G(T)=Eθ∈Tsup⟨θ,w⟩=θ∈Tsup∥θ∥2E∥w∥2=E∥w∥2≤E∥w∥22=dVar(wi)=d
另外,根据
χ
2
\chi^2
χ2分布的concentration,
E
∥
w
∥
2
=
∫
0
+
∞
x
d
P
χ
d
2
(
x
)
≥
∫
d
−
t
d
+
t
x
d
P
χ
d
2
(
x
)
≥
(
d
−
t
)
(
1
−
2
e
−
t
2
d
8
)
=
d
(
1
−
o
(
1
)
)
E \left\| w \right\|_2 = \int_0^{+\infty} \sqrt{x} dP_{\chi^2_d}(x) \ge \int_{ d - t}^{ d+t} \sqrt x dP_{\chi^2_d}(x) \\ \ge (\sqrt{d-t})(1-2e^{-\frac{t^2d}{8}}) =\sqrt{d}(1-o(1))
E∥w∥2=∫0+∞xdPχd2(x)≥∫d−td+txdPχd2(x)≥(d−t)(1−2e−8t2d)=d(1−o(1))
因此 G ( T ) = d \mathcal G(T)=\sqrt d G(T)=d。