[1] 在其 appendix B 中证 Lemma 7 时说由于 ( 1 − η s Λ ) I ≺ Z s ≺ ( 1 − η s λ ) I \left(1-\eta_s \Lambda\right) I \prec Z_s \prec\left(1-\eta_s \lambda\right) I (1−ηsΛ)I≺Zs≺(1−ηsλ)I,直接可得 (7) 式,这里对 lemma 7 的证明做注。
[1] 中相关定义:
h
j
(
Λ
)
≤
∥
Δ
θ
−
j
∥
≤
h
j
(
λ
)
(
7
)
Δ
θ
−
j
:
=
η
π
(
j
)
∣
S
π
(
j
)
∣
Z
T
−
1
Z
T
−
2
⋯
Z
π
(
j
)
+
1
g
(
z
j
;
θ
[
π
(
j
)
]
)
(
a
)
h
j
(
a
)
:
=
η
π
(
j
)
∣
S
π
(
j
)
∣
∏
s
=
π
(
j
)
+
1
T
−
1
(
1
−
η
s
a
)
∥
g
(
z
j
;
θ
[
π
(
j
)
]
)
∥
(
b
)
Z
t
:
=
I
−
η
t
H
[
t
]
H
[
t
]
:
=
1
∣
S
t
∣
∑
i
∈
S
t
∇
θ
2
ℓ
(
z
i
;
θ
[
t
]
)
(
b
a
t
c
h
平均
H
e
s
s
i
a
n
)
g
(
z
;
θ
)
:
=
∇
θ
ℓ
(
z
;
θ
)
(
梯度
)
hj(Λ)≤‖Δθ−j‖≤hj(λ)(7)Δθ−j:=ηπ(j)|Sπ(j)|ZT−1ZT−2⋯Zπ(j)+1g(zj;θ[π(j)])(a)hj(a):=ηπ(j)|Sπ(j)|T−1∏s=π(j)+1(1−ηsa)‖g(zj;θ[π(j)])‖(b)Zt:=I−ηtH[t]H[t]:=1|St|∑i∈St∇2θℓ(zi;θ[t])(batch平均Hessian)g(z;θ):=∇θℓ(z;θ)(梯度)
[1] 中三个假设:
其中 ≺ \prec ≺ 的含义文章没解释。经查,它用在向量上表示 majorization[2],但第二条假设是用在矩阵上。经 [3] 评论提醒,可能指 Loewner 偏序[4]:
(半)正定阵的相关内容可参考 [5,6]。[4] 用 >、 ≥ \geq ≥ 表示正定、半正定,[6] 则用 ≻ , ⪰ \succ, \succeq ≻,⪰。正定阵是 Hermitian 阵[7]的特例,是对对称矩阵[8]来谈的,而 Hessian 矩阵[9](二阶导)是对称矩阵。
解释 lemma 7 的证明要用到正定阵的几点性质。若 A、B 都正定,则:
因为 (7) 是在讨论向量范数,就考察当 A ≻ B ≻ 0 A\succ B \succ 0 A≻B≻0,对 ∀ x ≠ 0 \forall x \neq 0 ∀x=0, ∥ A x ∥ \|Ax\| ∥Ax∥ 与 ∥ B x ∥ \|Bx\| ∥Bx∥ 的大小关系。为方便,转成平方(假设是向量二范数):
那么:
∥
A
x
∥
2
−
∥
B
x
∥
2
=
x
T
A
2
x
−
x
T
B
2
x
=
x
T
(
A
2
−
B
2
)
x
=
x
T
(
A
+
B
)
(
A
−
B
)
x
‖Ax‖2−‖Bx‖2=xTA2x−xTB2x=xT(A2−B2)x=xT(A+B)(A−B)x
所以 ∥ A x ∥ 2 − ∥ B x ∥ 2 = x T ( A + B ) ( A − B ) x > 0 \|Ax\|^2 - \|Bx\|^2 = x^T(A+B)(A-B)x > 0 ∥Ax∥2−∥Bx∥2=xT(A+B)(A−B)x>0。这说明 A ≻ B ≻ 0 A \succ B \succ 0 A≻B≻0 的直观意义是 A 对向量的拉伸效果比 B 好,拉伸同一个向量 x,A 拉完比 B 拉完的向量范数更大(模更大,向量更长)。
有这个直观解释后回看 (7) 式证明。对比前面
Δ
θ
−
j
\Delta\theta_{-j}
Δθ−j 和
h
j
(
⋅
)
h_j(\cdot)
hj(⋅) 的定义(前文 (a)、(b) 式)可知
h
j
(
⋅
)
h_j(\cdot)
hj(⋅) 是照着
Δ
θ
−
j
\Delta\theta_{-j}
Δθ−j 的形式构造的,
h
j
(
λ
)
h_j(\lambda)
hj(λ) 就相当于把
Δ
θ
−
j
\Delta\theta_{-j}
Δθ−j 中的各
Z
s
Z_s
Zs 换成相应的
(
1
−
η
s
λ
)
I
(1-\eta_s\lambda)I
(1−ηsλ)I 再取范数。
∵
∃
λ
,
Λ
>
0
,
∀
z
,
θ
,
λ
I
≺
∇
θ
2
ℓ
(
z
;
θ
)
≺
Λ
I
H
[
s
]
:
=
1
∣
S
s
∣
∑
i
∈
S
s
∇
θ
2
ℓ
(
z
i
;
θ
[
s
]
)
∴
λ
I
≺
H
[
s
]
≺
Λ
I
∴
(
1
−
η
s
Λ
)
I
≺
Z
s
=
I
−
η
s
H
[
s
]
≺
(
1
−
η
s
λ
)
I
(
c
)
∵\existλ,Λ>0,∀z,θ,λI≺∇2θℓ(z;θ)≺ΛIH[s]:=1|Ss|∑i∈Ss∇2θℓ(zi;θ[s])∴λI≺H[s]≺ΛI∴(1−ηsΛ)I≺Zs=I−ηsH[s]≺(1−ηsλ)I(c)
[10] 讲的文章也有用到 Loewner 偏序,且跟 [1] 是相关的文章。