• 【机器学习-周志华】学习笔记-第三章


    记录第一遍没看懂的
    记录觉得有用的
    其他章节:
            第一章
            第三章
            第五章
            第六章
            第七章
            第八章
            第九章
            第十章
            十一章
            十二章
            十三章
            十四章
            十五章
            十六章

    第二章主要是一些基础的介绍,实际做一次项目以后,都很好理解;并且,个人感觉,在实际应用中,很多东西是需要现查的(超小声)

    第三章

            三个不同思路使用线性模型:
            3.2是让线性模型尽可能误差小的通过所有数据点
            3.3用非线性变化后的线性模型代表标签的后验概率
            3.4通过数据点映射到线性模型代表的子空间,使得数据更容易被分类

    3.2 线性回归

    超重要的式子
            找一个合适的w和b,使得误差平方和极小->平方损失

            在计算误差的时候,(3.4)中的x,y其实是常数,而w和b反而成为了未知量。那么可以以先展开E(w,b)如下:

    E ( w , b ) = ∑ i = 1 m ( y i − w x i − b ) 2 = ∑ i = 1 m ( x i 2 w 2 + y i 2 + b 2 − 2 y i x i w − 2 y i b − 2 w b x i ) = ∑ ( x i 2 ) w 2 + m b 2 + ( − 2 ∑ ( x i y i ) ) w + ( − 2 ∑ y i ) b + ∑ y i 2 E(w,b)=mi=1(yiwxib)2=mi=1(x2iw2+y2i+b22yixiw2yib2wbxi)=(x2i)w2+mb2+(2(xiyi))w+(2yi)b+y2i E(w,b)=i=1m(yiwxib)2=i=1m(xi2w2+yi2+b22yixiw2yib2wbxi)=(xi2)w2+mb2+(2(xiyi))w+(2yi)b+yi2
    以w和b为未知项,可以看出,这是一个关于w和b的二次曲面。Ei为了求二次曲面的极小点,对w和b分别求导:
    在这里插入图片描述
    得到:
    在这里插入图片描述
            扩展到整个数据集
    在这里插入图片描述
            再求导得到:(完整的求梯度的过程在附录A中)
    在这里插入图片描述
            求解得到:(重要公式)
    在这里插入图片描述

    3.3 对数几率回归

    对数几率回归:
    在这里插入图片描述
    概率替换重写为:
    在这里插入图片描述
    由于连乘项不方便求导,一般方法就是对连乘项取对数变成累加。且取对数以后,并不影响w的大小判断。
    在这里插入图片描述
    (3.27-3.31)这几个式子,没咋看太懂,且没太想清楚,有啥用QWQ

    3.4 线性判别分析

    在这里插入图片描述
            样本协方差写全为(里面的协方差矩阵的展开可以参考公式(3.33))
    Σ 0 = ∑ ( x − μ 0 ) ( x − μ 0 ) T w T Σ 0 w = ∑ w T ( x − μ 0 ) ( x − μ 0 ) T w \Sigma_0=\sum(x-\mu_0)(x-\mu_0)^T \\ w^T\Sigma_0w=\sum w^T(x-\mu_0)(x-\mu_0)^Tw Σ0=(xμ0)(xμ0)TwTΣ0w=wT(xμ0)(xμ0)Tw
            那么最大化目标就是希望,分子(类中心之间的距离)尽可能大,其分母(同类投影点的协方差)尽可能小,也就是最大化目标整体尽可能大。

    在这里插入图片描述
            关于这里的拉格朗日乘子法的计算,(3.36)可以写成目标函数+限制的形式
    m i n ( − w T S b w + λ ( w T S w w − 1 ) ) min(-w^TS_bw+\lambda(w^TS_ww-1)) min(wTSbw+λ(wTSww1))
            可以看出,这是一个关于w的二次曲面。那么要求最优的w,可以求梯度(和3.2一样的原理,同样也需要附录公式)
    在这里插入图片描述
            也就是(两个分别代入,同时除以-2),得到(3.37)

    ∂ [ − w T S b w + λ ( w T S w w − 1 ) ] / ∂ w = S b − λ S w w = 0 \partial[-w^TS_bw+\lambda(w^TS_ww-1)]/\partial w=S_b-\lambda S_ww=0 [wTSbw+λ(wTSww1)]/w=SbλSww=0
            参考(3.32)式
    S b w = ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T w → ( μ 0 − μ 1 ) S_bw=(\mu_0-\mu1)(\mu_0-\mu1)^Tw \rightarrow(\mu_0-\mu1) Sbw=(μ0μ1)(μ0μ1)Tw(μ0μ1)
            而(μ01)T w是个标量,所以方向完全由(μ01)决定,大小乘以任意一个常数对方向没有影响。

  • 相关阅读:
    SQL explain解析器
    提升测试工具开发的思考
    C++前期概念(重)
    十四、InnoDB的ACID事务
    大胆解读!PMP认证免费重考都透露出了哪些消息?
    【leetcode】【剑指offer Ⅱ】028. 展平多级双向链表
    多个rabbitmq配置
    笔试强训Day(一)
    加拿大FBA海运详细说明
    算法分析至栈与队列
  • 原文地址:https://blog.csdn.net/weixin_43476037/article/details/126329960