李宏毅机器学习总结笔记2中第三点有梯度下降的简介。

太小:实验所需的时间久
太大:如上图左边所示,一直在左右振荡,没法到达最低点
改进技巧
通常越接近最低点,学习率应该变小。因为在一开始的时候,离最低点很远,所以需要大步走,走越多步,学习率要降下来去接近最低点,防止过大在两边震荡。
普通的梯度下降中修改参数的方法:
最新参数 = 原来参数 — (学习率 x 损失对参数的求导即损失率),公式如下图所示:

其中:
是学习率,
是参数,
是微分,
是次数。

Adagrad公式如下:

其中
代表的是过去所有微分值的平方和平均数再开根号,如下公式:

另外,公式化简之后为:
