• 【机器学习-周志华】学习笔记-第六章


    记录第一遍没看懂的
    记录觉得有用的
    其他章节:
            第一章
            第三章
            第五章
            第六章
            第七章
            第八章
            第九章
            第十章
            十一章
            十二章
            十三章
            十四章
            十五章
            十六章

    6.2 对偶问题

            支持向量机的基本型:
    在这里插入图片描述
            他转换成对偶问题算一个标准问题(数学细节解释在附录)。
    首先转换成数学的标准写法,即 1 − y i ( w T x i + b ) ≤ 0 1-y_i(w^Tx_i+b)\le0 1yi(wTxi+b)0;由于拉格朗日乘子法要求约束是等于0,而我们这里是小于等于0,因此只是利用类似的方式,给出一个拉格朗日函数。
    在这里插入图片描述
            同样求偏导,类似于之前的拉格朗日乘子法中的求偏导,并让偏导等于0(相当于一个中间结果)。
    在这里插入图片描述
            代入,注意 ∑ \sum 里面的下标,改成j是为了便于区分,其实只要注意是一个 ∑ \sum 的即可:
    L = 1 2 ∣ ∣ w ∣ ∣ 2 + ∑ i = 1 m a i ( 1 − y i ( w T x i + b ) ) = 1 2 ( ∑ a i y i x i ) T ( ∑ a i y i x i ) + ∑ a i ( 1 − y i ( ( ∑ a j y j x j ) T x i + b ) ) = 1 2 ( ∑ a i y i x i ) T ( ∑ a i y i x i ) + ∑ a i − ∑ a i y i ( ∑ a j y j x j ) T x i + ∑ a i y i b = 1 2 ( ∑ a i y i x i ) T ( ∑ a i y i x i ) + ∑ a i − ( ∑ a i y i x i ) T ( ∑ a j y j x j ) = − 1 2 ( ∑ a i y i x i ) T ( ∑ a i y i x i ) + ∑ a i = ∑ a i − 1 2 ∑ i ∑ j a i a j y i y j x i T x j

    L=12||w||2+i=1mai(1yi(wTxi+b))=12(aiyixi)T(aiyixi)+ai(1yi((ajyjxj)Txi+b))=12(aiyixi)T(aiyixi)+aiaiyi(ajyjxj)Txi+aiyib=12(aiyixi)T(aiyixi)+ai(aiyixi)T(ajyjxj)=12(aiyixi)T(aiyixi)+ai=ai12ijaiajyiyjxiTxj" role="presentation" style="position: relative;">L=12||w||2+i=1mai(1yi(wTxi+b))=12(aiyixi)T(aiyixi)+ai(1yi((ajyjxj)Txi+b))=12(aiyixi)T(aiyixi)+aiaiyi(ajyjxj)Txi+aiyib=12(aiyixi)T(aiyixi)+ai(aiyixi)T(ajyjxj)=12(aiyixi)T(aiyixi)+ai=ai12ijaiajyiyjxiTxj
    L=21∣∣w2+i=1mai(1yi(wTxi+b))=21(aiyixi)T(aiyixi)+ai(1yi((ajyjxj)Txi+b))=21(aiyixi)T(aiyixi)+aiaiyi(ajyjxj)Txi+aiyib=21(aiyixi)T(aiyixi)+ai(aiyixi)T(ajyjxj)=21(aiyixi)T(aiyixi)+ai=ai21ijaiajyiyjxiTxj
            根据附录B.1拉格朗日乘子法,可以解释KKT条件和为什么之前都是求极小,到公式(6.11)变成max了。
    在这里插入图片描述
    在这里插入图片描述
            核函数是用 ϕ ( x ) \phi(x) ϕ(x)这样类似一个非线性变化替换 x x x;软间隔是允许某些样本不满足约束,引入损失函数;6.5节化分类为回归。

    6.6 核方法

            关于(6.59)到(6.64):
    在这里插入图片描述
    在这里插入图片描述
            首先是核函数的参数 α \alpha α,我们可以写成列向量的形式, α = [ α 1 , α 2 , . . . , α m ] T \alpha=[\alpha_1,\alpha_2,...,\alpha_m]^T α=[α1,α2,...,αm]T;核函数在书中写了是 ϕ ( x i ) T ϕ ( x ) \phi(x_i)^T\phi(x) ϕ(xi)Tϕ(x)。把带有 x i x_i xi的两项合起来,也就是书中公式(6.65), w = ∑ i = 1 m α i ϕ ( x i ) w=\sum_{i=1}^m\alpha_i\phi(x_i) w=i=1mαiϕ(xi)。若 Φ = [ ϕ ( x 1 ) , ϕ ( x 2 ) , . . . , ϕ ( x m ) ] T \Phi=[\phi(x_1),\phi(x_2),...,\phi(x_m)]^T Φ=[ϕ(x1),ϕ(x2),...,ϕ(xm)]T,则 w = α Φ T w=\alpha\Phi^T w=αΦT
             α \alpha α组成的列向量每一个元素都是第 i i i个核函数的系数,因此是个 m m m行1列的列向量;而 Φ \Phi Φ里面的 ϕ ( x i ) \phi(x_i) ϕ(xi)对于每个样本点变换后特征不确定,可以先定为有 d d d个不同的特征。那么 w w w d ∗ 1 d*1 d1的特征。那么(6.60)可以写为:
    m a x α J ( w ) = w T S b ϕ w w T S w ϕ w = α T Φ S B ϕ Φ T α α T Φ S w ϕ Φ T α max_\alpha J(w)=\dfrac{w^TS_b^\phi w}{w^TS_w^\phi w}=\dfrac{\alpha^T\Phi S_B^\phi\Phi^T\alpha}{\alpha^T\Phi S_w^\phi\Phi^T\alpha} maxαJ(w)=wTSwϕwwTSbϕw=αTΦSwϕΦTααTΦSBϕΦTα
            我们希望公式最后写成跟 α \alpha α有关的形式,业技术公式(6.70)。推导详细过程如下:首先是分子 α T M α \alpha^TM\alpha αTMα的来源,根据(6.60),分子应该是 w T S b ϕ w w^TS_b^\phi w wTSbϕw,那么先代入展开:。
    w T S b ϕ w = α T Φ ( μ 1 ϕ − μ 0 ϕ ) ( μ 1 ϕ − μ 0 ϕ ) T Φ T α w^TS_b^\phi w=\alpha^T \Phi(\mu_1^\phi-\mu_0^\phi)(\mu_1^\phi-\mu_0^\phi)^T \Phi^T \alpha\\ wTSbϕw=αTΦ(μ1ϕμ0ϕ)(μ1ϕμ0ϕ)TΦTα
            把经过非线性变换后的中心点进行处理:
    μ 1 ϕ = 1 m 1 ∑ x ∈ X 1 ϕ ( x ) = 1 m 1 ( ∑ x ∈ X 1 ϕ ( x ) ∗ 1 + ∑ x ∈ X 0 ϕ ( x ) ∗ 0 ) = 1 m 1 ∑ x ∈ A l l ϕ ( x i ) ∗ l l i = 1 m 1 Φ T l 1

    μ1ϕ=1m1xX1ϕ(x)=1m1(xX1ϕ(x)1+xX0ϕ(x)0)=1m1xAllϕ(xi)lli=1m1ΦTl1" role="presentation" style="position: relative;">μ1ϕ=1m1xX1ϕ(x)=1m1(xX1ϕ(x)1+xX0ϕ(x)0)=1m1xAllϕ(xi)lli=1m1ΦTl1
    μ1ϕ=m11xX1ϕ(x)=m11(xX1ϕ(x)1+xX0ϕ(x)0)=m11xAllϕ(xi)lli=m11ΦTl1
            因此,结合公式(6.66)和公式(6.68),可得:
    w T S b ϕ w = α T Φ ( μ 1 ϕ − μ 0 ϕ ) ( μ 1 ϕ − μ 0 ϕ ) T Φ T α = α T Φ Φ T ( l 1 m 1 − l 0 m 0 ) ( l 1 m 1 − l 0 m 0 ) T ( Φ Φ T ) T α = α T K ( l 1 m 1 − l 0 m 0 ) ( l 1 m 1 − l 0 m 0 ) T K T α = α T ( μ 0 ˉ − μ 1 ˉ ) ( μ 0 ˉ − μ 1 ˉ ) T α = α T M α
    wTSbϕw=αTΦ(μ1ϕμ0ϕ)(μ1ϕμ0ϕ)TΦTα=αTΦΦT(l1m1l0m0)(l1m1l0m0)T(ΦΦT)Tα=αTK(l1m1l0m0)(l1m1l0m0)TKTα=αT(μ0¯μ1¯)(μ0¯μ1¯)Tα=αTMα" role="presentation" style="position: relative;">wTSbϕw=αTΦ(μ1ϕμ0ϕ)(μ1ϕμ0ϕ)TΦTα=αTΦΦT(l1m1l0m0)(l1m1l0m0)T(ΦΦT)Tα=αTK(l1m1l0m0)(l1m1l0m0)TKTα=αT(μ0¯μ1¯)(μ0¯μ1¯)Tα=αTMα
    wTSbϕw=αTΦ(μ1ϕμ0ϕ)(μ1ϕμ0ϕ)TΦTα=αTΦΦT(m1l1m0l0)(m1l1m0l0)T(ΦΦT)Tα=αTK(m1l1m0l0)(m1l1m0l0)TKTα=αT(μ0ˉμ1ˉ)(μ0ˉμ1ˉ)Tα=αTMα

  • 相关阅读:
    Apache Flink窗口机制解析:滚动窗口与滑动窗口的比较与应用
    PMP每日一练 | 考试不迷路-11.04(包含敏捷+多选)
    docker命令
    【java8】Optional的使用
    leetcode算法题--把数组排成最小的数
    数据结构基础内容-----第三章 线性表
    Windows 输入法在注册表中的管理
    【KVM虚拟化】· 虚拟机的冷迁移和热迁移
    Flutter 挖孔屏的状态栏占用问题怎么解决,横屏后去掉了状态栏,还是会有一块黑色的竖条
    Android 11 inputflinger分析(触摸优先级)
  • 原文地址:https://blog.csdn.net/weixin_43476037/article/details/126534737