• 机器学习基本知识(2)


     0.前言

            前期博客介绍了机器学习基础概念和三要素,本期博客重点讲解三要素的算法部分,即学习模型的具体计算方法。

    1、常用计算方法

            梯度下降法、牛顿法、拟牛顿法、坐标下降法。

            梯度下降法的改进型:AdaDelta,AdaGrad,Adam,NAG等。

    1.1  梯度下降法

            梯度下降法沿着梯度的反方向进行搜索,利用了函数的一阶导数信息。梯度下降法的迭代公式为:

            根据函数的一阶泰勒展开,在负梯度方向,函数值是下降的。只要学习率设置的足够小,并且没有到达梯度为0的点处,每次迭代时函数值一定会下降。需要设置学习率为一个非常小的正数的原因是要保证迭代之后的xk+1位于迭代之前的值xk的邻域内,从而可以忽略泰勒展开中的高次项,保证迭代时函数值下降。

            梯度下降法只能保证找到梯度为0的点,不能保证找到极小值点。迭代终止的判定依据是梯度值充分接近于0,或者达到最大指定迭代次数。

            梯度下降法在机器学习中应用广泛,尤其是在深度学习中。AdaDelta,AdaGrad,Adam,NAG等改进的梯度下降法都是用梯度构造更新项,区别在于更新项的构造方式不同。

    1.2 牛顿法

            牛顿法利用了函数的一阶和二阶导数信息,直接寻找梯度为0的点。牛顿法的迭代公式为:

            其中H为Hessian矩阵,g为梯度向量。牛顿法不能保证每次迭代时函数值下降,也不能保证收敛到极小值点。在实现时,也需要设置学习率,原因和梯度下降法相同,是为了能够忽略泰勒展开中的高阶项。学习率的设置通常采用直线搜索(line search)技术。

            在实现时,一般不直接求Hessian矩阵的逆矩阵,而是求解下面的线性方程组:

            其解d称为牛顿方向。迭代终止的判定依据是梯度值充分接近于0,或者达到最大指定迭代次数。

            牛顿法比梯度下降法有更快的收敛速度,但每次迭代时需要计算Hessian矩阵,并求解一个线性方程组,运算量大。另外,如果Hessian矩阵不可逆,则这种方法失效。

    2、其他求解计算方法

    2.1 拉格朗日乘数法

            拉格朗日乘数法是一个理论结果,用于求解带有等式约束的函数极值。对于如下问题:

            构造拉格朗日乘子函数:

            在最优点处对x和乘子变量的导数都必须为0:

            解这个方程即可得到最优解。对拉格朗日乘数法更详细的讲解可以阅读任何一本高等数学教材。机器学习中用到拉格朗日乘数法的地方有:主成分分析、线性判别分析、流形学习中的拉普拉斯特征映射、隐马尔科夫模型等。

    2.2  凸优化

            数值优化算法面临两个方面的问题:局部极值,鞍点。前者是梯度为0的点,也是极值点,但不是全局极小值;后者连局部极值都不是,在鞍点处Hessian矩阵不定,即既非正定,也非负定。         凸优化通过对目标函数,优化变量的可行域进行限定,可以保证不会遇到上面两个问题。凸优化是一类特殊的优化问题,它要求:优化变量的可行域是一个凸集,目标函数是一个凸函数。凸优化最好的一个性质是:所有局部最优解一定是全局最优解。

            机器学习中典型的凸优化问题有:线性回归、岭回归、LASSO回归、Logistic回归、支持向量机、Softamx回归等

    2.3 拉格朗日对偶

            对偶是最优化方法里的一种方法,它将一个最优化问题转换成另外一个问题,二者是等价的。拉格朗日对偶是其中的典型例子。对于如下带等式约束和不等式约束的优化问题:

     与拉格朗日乘数法类似,构造广义拉格朗日函数:

    必须满足的约束:\lambda \geq 0

    原问题为:

     即先固定住x,调整拉格朗日乘子变量\lambda,让函数L取极大值;然后控制变量x,让目标函数取极小值。原问题与我们要优化的原始问题是等价的。

    对偶问题为:

             和原问题相反,这里是先控制变量x,让函数L取极小值;然后控制拉格朗日乘子变量,让函数取极大值。

            一般情况下,原问题的最优解大于等于对偶问题的最优解,这称为弱对偶。在某些情况下,原问题的最优解和对偶问题的最优解相等,这称为强对偶。强对偶成立的一种条件是Slater条件:一个凸优化问题如果存在一个候选x使得所有不等式约束都是严格满足的,即对于所有的i都有gi (x)<0,不等式不取等号,则强对偶成立,原问题与对偶问题等价。注意,Slater条件是强对偶成立的充分条件而非必要条件。

            拉格朗日对偶在机器学习中的典型应用是支持向量机SVM

    2.4   KKT条件

            KKT条件是拉格朗日乘数法的推广,用于求解既带有等式约束,又带有不等式约束的函数极值。对于如下优化问题:

     和拉格朗日对偶的做法类似,KKT条件构如下乘子函数:

    \lambda 和\mu称为KKT乘子。在最优解X^{*}处应该满足如下条件:

     等式约束:

     不等式约束:

     是本身应该满足的约束,和之前的拉格朗日乘数法一样。唯一多了关于g_{k}(x)的条件: 

    ​KKT条件只是取得极值的必要条件而不是充分条件。

  • 相关阅读:
    卸载本地开发环境,拥抱容器化开发
    Crypto(6)攻防世界-babyrsa
    20.网络爬虫—Scrapy-Redis分布式爬虫
    第6章 - 多无人车系统的协同控制 --> 多无人车系统建模
    实验:配置 RIPv1 和 RIPv2,配置ripv2下默认路由,配置ripv2路由自动汇总
    MyBatis 及 MyBatis Plus 纯注解方式配置(Spring Boot + Postgresql)
    使用C++代码保存深度相机D435i的RGB图片,包含C++代码以及CMakeLists.txt
    布隆过滤器
    基于jsp+mysql+Spring+mybatis+VUE的SpringBoot电影院会员积分管理系统
    开发板搭建NFS文件系统
  • 原文地址:https://blog.csdn.net/m0_61363749/article/details/126264182