参考了各路神仙的资料,包含自己的理解。
有任何的书写错误、排版错误、概念错误等,希望大家包含指正。
由于字数限制,分成三篇博客。
【机器学习】梯度下降法与牛顿法【Ⅰ】梯度下降法概述
【机器学习】梯度下降法与牛顿法【Ⅱ】牛顿法与修正牛顿法
【机器学习】梯度下降法与牛顿法【Ⅲ】拟牛顿法
梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。目标函数沿梯度的负方向下降最快。
梯度下降法(Gradient Descent,GD)又称最速下降法,其基本思想是选择目标函数当前迭代点处的负梯度方向作为迭代方向,即
d t