1. 梯度下降法

1. 简介

梯度下降法是一种函数极值的优化算法。在机器学习中，主要用于寻找最小化损失函数的的最优解。是算法更新模型参数的常用的方法之一。

2. 相关概念

1. 导数

定义

设一元函数f(x)在的临域内有定义，若极限

存在，则称为在处的导数。

意义
1. 导数的绝对值大小代表了当前函数的在该处的变化速度
2. 导数的正负代表了在一定临域内随着自变量的增加，函数值是增大还是减小

2. 偏导数

定义

对于多元函数，在对的偏导数定义为

意义

偏导数定义了多元函数在某个数轴方向上的变化情况。

3. 方向导数

定义

函数的偏导数定义了在各个数轴上的变化率，方向导数则为函数在任意方向上的变化率。以二元函数为例:

意义

多元函数在某点处的方向导数有无数个，每一个方向导数的值代表了在该方向上的变化程度，我们要寻找在某点处函数变化最快的方向就可以转化成寻找在该点处方向导数的绝对值最大时对应的那个方向

4. 梯度

定义

梯度是一个矢量，表示函数沿着该方向的变化率最大，记为

为什么该方向为变化最快的方向

根据方向导数定义，

当且仅当，即和通向时，方向导数取得最大值，因此梯度表示变化率最大的方向，此时方向导数为正。因此梯度指向函数增大的方向。

3 原理详解

假设在一个类是凹函数的山中放一个小球，让它自然的滚动到山谷（最小值点）处，那么小球滚动每个地点滚动的方向都是梯度的负方向。

现在有一个凹函数，要找到它的最小值，在不考虑解析解的情况下，也可以利用类似的方法去求解。先随机找一个初始点,然后求出该点的梯度，利用公式模拟小球的滚动，其中为滚动的步长，也称为学习率。

通过迭代公式一步步去逼近函数的极小值点。通常迭代的结束条件有：

指定迭代次数
计算迭代前后函数值的差距，若在一个非常小的阈值以为就可以认为已经找到最小值

4. 代码实现

案例：

import numpy as np
#定义函数
def func(x):
    return (x[0]-2)**2+(x[1]-3)**2+(x[2]-4)**2
#定义梯度
def gradFunc(x):
    return np.array([(x[0]-2)*2,(x[1]-3)*2,(x[2]-4)*2])
# 定义梯度下降法
def SGD(init_x,func,gradFunc,lr=0.01,maxIter=100000,error=1e-10):
    x=init_x
    for iter in range(0,maxIter):
        gd=gradFunc(x)
        x_new=x-lr*gd
        if(np.abs(func(x)-func(x_new))<error):
            return x_new
        x=x_new
    return x_new

SGD(np.array([1,1,1]),func,gradFunc)

array([1.99998703, 2.99997406, 3.99996109])

SGD(np.array([10,10,10]),func,gradFunc)

array([2.00003215, 3.00002813, 4.00002411])

相关阅读:
JAVA重写与多态
Casein-PEG-Rhodamine B 络蛋白-聚乙二醇-罗丹明B Casein-RB
Android 10 如何在SurfaceFlinger中解决开机动画显示不全问题
15-自动化测试——理论知识
[奇奇怪怪符号]输入法手动输入希腊字母
C#8.0本质论第十一章--异常处理
C#调用C++ dll 返回数组
ArcGIS_空间插值分析
Flink_CDC搭建及简单使用
【Unity Shader】屏幕后处理1.0：调整亮度/饱和度/对比度

原文地址：https://www.cnblogs.com/bestwangyulu/p/16389581.html