本文为9月30日计算机视觉基础学习笔记——优化算法,分为四个章节:
都是凸函数的情况下,SGD 波动大,可能使梯度下降到更好的另一个局部最优解,但可能导致梯度一直在局部最优解附近波动。
θ = θ − η ⋅ ▽ θ J ( θ , x ( i : i + n ) , y ( i : i + n ) ) b a t c h s i z e = n \theta = \theta - \eta \cdot \bigtriangledown _{\theta }J(\theta, x^{(i:i+n)}, y^{(i:i+n)} ) \quad batch\ size = n θ=θ−η⋅▽θJ(θ,x(i:i+n),y(i:i+n))batch size=n
相对于 SGD 可减小参数更新的波动。
γ \gamma γ 通常为 0.9。
Adaptive grad:
h
→
h
+
∂
L
∂
W
⊙
∂
L
∂
W
W
→
W
−
η
⋅
1
h
⋅
∂
L
∂
W
θ
t
+
1
,
i
=
θ
t
,
i
−
η
G
t
,
i
i
+
ϵ
⋅
g
t
,
i
h → h + \frac{\partial L}{\partial \textbf{W} } \odot \frac{\partial L}{\partial \textbf{W} }\\ \textbf{W} → \textbf{W} - \eta \cdot \frac{1}{\sqrt{h} } \cdot \frac{\partial L}{\partial \textbf{W} }\\ \theta _{t+1, i} = \theta _{t, i} - \frac{\eta }{\sqrt{G_{t, ii}} + \epsilon} \cdot g_{t, i}
h→h+∂W∂L⊙∂W∂LW→W−η⋅h1⋅∂W∂Lθt+1,i=θt,i−Gt,ii+ϵη⋅gt,i
缺点:随着训练次数增加,h 越来越大,训练步长越来越小,模型还未收敛,参数就不更新了。
Root Mean Square Propagation:
E
[
g
2
]
t
=
γ
E
[
g
2
]
t
−
1
+
(
1
−
γ
)
g
t
2
△
θ
t
=
−
η
E
[
g
2
]
+
ϵ
g
t
E[g^2]_t = \gamma E[g^2]_{t-1} + (1-\gamma)g_t^2\\ \bigtriangleup \theta _t = - \frac{\eta }{E[g^2] + \epsilon } g_t
E[g2]t=γE[g2]t−1+(1−γ)gt2△θt=−E[g2]+ϵηgt
Ada-delta:
E
[
△
θ
2
]
t
=
η
E
[
△
θ
2
]
t
−
1
+
(
1
−
γ
)
△
θ
t
2
R
M
S
[
△
θ
]
t
=
E
[
△
θ
2
]
t
+
ϵ
△
θ
t
=
−
R
M
E
[
△
θ
]
t
R
M
E
[
g
]
t
g
t
E[\bigtriangleup \theta ^2]_t = \eta E[\bigtriangleup \theta ^2]_{t-1} + (1-\gamma )\bigtriangleup \theta _t^2\\ RMS[\bigtriangleup \theta ]_t = \sqrt{E[\bigtriangleup \theta^2 ]_t + \epsilon } \\ \bigtriangleup \theta _t = -\frac{RME[\bigtriangleup \theta ]_t}{RME[g]_t} g_t
E[△θ2]t=ηE[△θ2]t−1+(1−γ)△θt2RMS[△θ]t=E[△θ2]t+ϵ△θt=−RME[g]tRME[△θ]tgt