• 【白板推导系列笔记】线性分类-高斯判别分析(Gaussian Discriminant Analysis)-模型定义


    { ( x i , y i ) } i = 1 N , x i ∈ R p , y i ∈ { 0 , 1 }

    {(xi,yi)}i=1N,xiRp,yi{0,1}" role="presentation">{(xi,yi)}i=1N,xiRp,yi{0,1}
    {(xi,yi)}i=1N,xiRp,yi{0,1}
    逻辑回归是直接对 p ( y ∣ x ) p(y|x) p(yx)建模,而高斯判别分析作为概率生成模型,是通过引入类型的先验,通过贝叶斯公式,得到联合分布 p ( x , y ) = p ( x ∣ y ) p ( y ) p(x,y)=p(x|y)p(y) p(x,y)=p(xy)p(y),再对联合分布的对数似然得到参数

    贝叶斯公式为
    p ( y ∣ x ) = p ( x ∣ y ) p ( y ) p ( x ) p(y|x)=\frac{p(x|y)p(y)}{p(x)} p(yx)=p(x)p(xy)p(y)

    但是由于我们只关心 p ( y = 1 ∣ x ) = p ( x ∣ y = 1 ) p ( y = 1 ) p ( x )

    p(y=1|x)=p(x|y=1)p(y=1)p(x)" role="presentation">p(y=1|x)=p(x|y=1)p(y=1)p(x)
    p(y=1∣x)=p(x)p(xy=1)p(y=1) p ( y = 0 ∣ x ) = p ( x ∣ y = 0 ) p ( y = 0 ) p ( x )
    p(y=0|x)=p(x|y=0)p(y=0)p(x)" role="presentation">p(y=0|x)=p(x|y=0)p(y=0)p(x)
    p(y=0∣x)=p(x)p(xy=0)p(y=0)
    的大小关系,因此不需要关注分母,因为二者是一样的,即
    y ^ = a r g m a x   y ∈ { 0 , 1 } p ( y ∣ x ) 由于 p ( y ∣ x ) ∝ p ( x ∣ y ) p ( y ) = a r g m a x   y p ( y ) ⋅ p ( x ∣ y )
    y^=argmax y{0,1}p(y|x)p(y|x)p(x|y)p(y)=argmax yp(y)p(x|y)" role="presentation">y^=argmax y{0,1}p(y|x)p(y|x)p(x|y)p(y)=argmax yp(y)p(x|y)
    y^=y{0,1}argmax p(yx)由于p(yx)p(xy)p(y)=yargmax p(y)p(xy)

    高斯判别分析我们对数据集作出的假设有,类的先验是二项分布,每一类的似然是高斯分布,即
    y ∼ B ( 1 , ϕ ) ⇒ p ( y ) = { ϕ y y = 1 ( 1 − ϕ ) 1 − y y = 0 ⇒ p ( y ) = ϕ y ( 1 − ϕ ) 1 − y x ∣ y = 1 ∼ N ( μ 1 , Σ ) x ∣ y = 0 ∼ N ( μ 2 , Σ ) ⇒ p ( x ∣ y ) = N ( μ 1 , Σ ) y ⋅ N ( μ 2 , Σ ) 1 − y
    \begin{aligned} y & \sim B(1,\phi)\Rightarrow p(y)=\left\{\begin{aligned}&\phi^{y}&y=1\\&(1-\phi)^{1-y}&y=0\end{aligned}" role="presentation">\begin{aligned} y & \sim B(1,\phi)\Rightarrow p(y)=\left\{\begin{aligned}&\phi^{y}&y=1\\&(1-\phi)^{1-y}&y=0\end{aligned}
    \right.\\ &\Rightarrow p(y)=\phi^{y}(1-\phi)^{1-y}\\ x|y=1 &\sim N(\mu_{1},\Sigma)\\ x|y=0 & \sim N(\mu_{2},\Sigma) \\ &\Rightarrow p(x|y)=N(\mu_{1},\Sigma)^{y}\cdot N(\mu_{2},\Sigma)^{1-y} \end{aligned}
    yxy=1xy=0B(1,ϕ)p(y)={ϕy(1ϕ)1yy=1y=0p(y)=ϕy(1ϕ)1yN(μ1,Σ)N(μ2,Σ)p(xy)=N(μ1,Σ)yN(μ2,Σ)1y

    因此,最大后验
    L ( μ 1 , μ 2 , Σ , ϕ ) = log ⁡ ∏ i = 1 N [ p ( x i ∣ y i ) p ( y i ) ] = ∑ i = 1 N [ log ⁡ p ( x i ∣ y i ) + log ⁡ p ( y i ) ] = ∑ i = 1 N [ log ⁡ N ( μ 1 , Σ ) y i + log ⁡ N ( μ 2 , Σ ) 1 − y i + log ⁡ ϕ y i ( 1 − ϕ ) 1 − y i ]
    L(μ1,μ2,Σ,ϕ)=logi=1N[p(xi|yi)p(yi)]=i=1N[logp(xi|yi)+logp(yi)]=i=1N[logN(μ1,Σ)yi+logN(μ2,Σ)1yi+logϕyi(1ϕ)1yi]" role="presentation">L(μ1,μ2,Σ,ϕ)=logi=1N[p(xi|yi)p(yi)]=i=1N[logp(xi|yi)+logp(yi)]=i=1N[logN(μ1,Σ)yi+logN(μ2,Σ)1yi+logϕyi(1ϕ)1yi]
    L(μ1,μ2,Σ,ϕ)=logi=1N[p(xiyi)p(yi)]=i=1N[logp(xiyi)+logp(yi)]=i=1N[logN(μ1,Σ)yi+logN(μ2,Σ)1yi+logϕyi(1ϕ)1yi]

    CSDN话题挑战赛第2期
    参赛话题:学习笔记

  • 相关阅读:
    使用.Net对图片进行裁剪、缩放、与加水印
    Java web中,服务器运行不过来
    Java8Stream快速使用
    【Java接口性能优化】skywalking使用
    一审要求公开数据和代码问题请教
    2023-简单点-树莓派picamera2介绍和要点
    SQL语句大全--SQL
    LeetCode【4. 寻找两个正序数组的中位数】
    【ARMv9 DSU-120 系列 6.1 -- PPU power and reset control】
    隐马尔可夫模型(HMM)
  • 原文地址:https://blog.csdn.net/liu20020918zz/article/details/127134813