梯度下降法(Gradient Descent)
梯度下降法是最基本的一类优化器,目前主要分为三种梯度下降法:标准梯度下降法(GD, Gradient Descent),随机梯度下降法(SGD, Stochastic Gradient Descent)及批量梯度下降法(BGD, Batch Gradient Descent)。
1. 标准梯度下降法(GD)
假设要学习训练的模型参数为,代价函数为,则代价函数关于模型参数的偏导数即相关梯度为,学习率为,表示时刻的模型参数,则使用梯度下降法更新参数为,