不断更新
w
0
w_{0}
w0使得其接近最优解,即
w
t
→
=
w
t
−
1
→
−
η
∂
ℓ
∂
w
t
−
1
→
\overrightarrow{w_{t}}= \overrightarrow{w_{t-1}}-\eta \frac{\partial \ell}{\partial \overrightarrow{w_{t-1}}}
wt=wt−1−η∂wt−1∂ℓ,其中,
w
t
−
1
→
\overrightarrow{w_{t-1}}
wt−1代表时刻
t
t
t上一时刻
t
−
1
t-1
t−1对应的
w
→
\overrightarrow{w}
w的值,
η
\eta
η是标量,为学习率,是人为设定的(超参数是需要人为指定的值),
∂
ℓ
∂
w
t
−
1
→
\frac{\partial \ell}{\partial \overrightarrow{w_{t-1}}}
∂wt−1∂ℓ代表的是
t
−
1
t-1
t−1时刻对应的梯度向量的方向;
下图为某多元函数的等高线图:
梯度向量的方向是使得函数值增加最快的方向,即与等高线正交的图中的红色向量,而梯度的反方向(即负梯度向量)是使得函数值减少的最快的方向即图中的黄色箭头所指向的方向(所以表达式中要对梯度取负号),也就是按照负梯度方向可以找到函数的极小值,而
η
\eta
η学习率代表的是沿着负梯度方向一次走多远,比如:随机初始到
w
0
→
\overrightarrow {w_{0}}
w0这个点(以向量形式表示),则按照学习率乘以负梯度迭代到
w
1
→
\overrightarrow {w_{1}}
w1