• 机器学习笔记之贝叶斯线性回归(三)预测任务推导过程


    引言

    上一节介绍了贝叶斯线性回归推断任务的推导过程,本节将介绍预测任务(Prediction)的推导过程

    回顾:贝叶斯线性回归——推断任务

    通过贝叶斯定理,关于后验分布 P ( W ∣ D a t a ) \mathcal P(\mathcal W \mid Data) P(WData)推断结果表示如下:
    P ( W ∣ X ) \mathcal P(\mathcal W \mid \mathcal X) P(WX)表示关于模型参数 W \mathcal W W的先验概率,与 X \mathcal X X无关,因而省略。
    P ( W ∣ D a t a ) = P ( Y ∣ W , X ) ⋅ P ( W ∣ X ) P ( Y ∣ X ) ∝ P ( Y ∣ W , X ) ⋅ P ( W ) P(WData)=P(YW,X)P(WX)P(YX)P(YW,X)P(W)

    P(WData)=P(YX)P(YW,X)P(WX)P(YW,X)P(W)
    其中,根据线性回归模型,得知似然 P ( Y ∣ W , X ) \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) P(YW,X)服从均值为 0 0 0,方差为 σ 2 \sigma^2 σ2的一维高斯分布
    该高斯分布维度和标签 y ( i ) ( i = 1 , 2 , ⋯   , N ) \mathcal y^{(i)}(i=1,2,\cdots,N) y(i)(i=1,2,,N)的维度相同
    需要注意的点:这个高斯分布是关于 Y \mathcal Y Y的条概率分布。
    P ( Y ∣ W , X ) ∼ N ( Y ∣ W T X + μ , σ 2 ) μ = 0 \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \sim \mathcal N(\mathcal Y \mid \mathcal W^T\mathcal X + \mu,\sigma^2) \quad \mu = 0 P(YW,X)N(YWTX+μ,σ2)μ=0
    P ( W ) \mathcal P(\mathcal W) P(W)模型参数 W \mathcal W W先验概率分布,这里假设 P ( W ) \mathcal P(\mathcal W) P(W)服从均值为0,协方差为 Σ p r i o r \Sigma_{prior} Σprior的高斯分布:
    同上,这里的高斯分布是 p p p维高斯分布,和 W \mathcal W W的维度相同。
    P ( W ) ∼ N ( 0 , Σ p r i o r ) \mathcal P(\mathcal W) \sim \mathcal N(0,\Sigma_{prior}) P(W)N(0,Σprior)
    因而基于高斯分布的自共轭性质,后验分布 P ( W ∣ D a t a ) \mathcal P(\mathcal W \mid Data) P(WData)同样服从高斯分布。这里定义 P ( W ∣ D a t a ) ∼ N ( μ W , Σ W ) \mathcal P(\mathcal W \mid Data) \sim \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) P(WData)N(μW,ΣW)并表示如下:
    详见指数族分布介绍中的指数族分布共轭性质。
    P ( W ∣ D a t a ) \mathcal P(\mathcal W \mid Data) P(WData)也可以写成 P ( W ∣ X , Y ) \mathcal P(\mathcal W \mid \mathcal X,\mathcal Y) P(WX,Y).
    N ( μ W , Σ W ) ∝ N ( W T X , σ 2 ) ⋅ N ( 0 , Σ p r i o r ) \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) \propto \mathcal N(\mathcal W^T\mathcal X,\sigma^2) \cdot \mathcal N(0,\Sigma_{prior}) N(μW,ΣW)N(WTX,σ2)N(0,Σprior)
    通过推断,得到 μ W , Σ W \mu_{\mathcal W},\Sigma_{\mathcal W} μW,ΣW表示如下:
    { μ W = 1 σ 2 ( A − 1 X T Y ) Σ W = A − 1 A = [ 1 σ 2 X T X + Σ p r i o r − 1 ] p × p {μW=1σ2(A1XTY)ΣW=A1A=[1σ2XTX+Σ1prior]p×p
    μW=σ21(A1XTY)ΣW=A1A=[σ21XTX+Σprior1]p×p

    预测任务

    贝叶斯方法中,求解模型参数的概率分布只是一个中间步骤,最终目标是基于 W \mathcal W W概率分布 P ( W ∣ X , Y ) \mathcal P(\mathcal W \mid \mathcal X,\mathcal Y) P(WX,Y),给定 未知样本 x ^ \hat x x^,对它的 标签 y ^ \hat y y^ 进行预测
    观察一下, P ( W ∣ X , Y ) \mathcal P(\mathcal W \mid \mathcal X,\mathcal Y) P(WX,Y)已求解的条件下,未知样本 x ^ \hat x x^标签的预测过程:

    • 基于线性回归模型
      这里 x x x是’单个样本‘的宏观表示, y y y是单个标签的宏观表示。
      { f ( x ) = W T x = x T W = ∑ i = 1 p w i ⋅ x i y = f ( x ) + ϵ ϵ ∼ N ( 0 , σ 2 ) {f(x)=WTx=xTW=pi=1wixiy=f(x)+ϵϵN(0,σ2)
      {f(x)=WTx=xTW=i=1pwixiy=f(x)+ϵϵN(0,σ2)

      其中这里的 W \mathcal W W表示 W \mathcal W W的后验概率分布 P ( W ∣ X , Y ) \mathcal P(\mathcal W \mid \mathcal X,\mathcal Y) P(WX,Y),是已经通过数据结合 D a t a Data Data学习好了的参数。
    • 未知样本 x ^ \hat x x^看做一个不含概率分布的向量,因而 x ^ T W {\hat x}^T \mathcal W x^TW概率分布表示如下:
      x ^ T W {\hat x}^T \mathcal W x^TW这种表示相当于给 W \mathcal W W乘了一个系数,相当于 x ^ T W {\hat x}^T \mathcal W x^TW W \mathcal W W之间存在线性关系。根据高斯分布的相关定理介绍,有:(常数 B \mathcal B B的方差是0)
      Y = A X + B → { μ Y = E P ( Y ) [ Y ] = A E P ( X ) [ X ] + B = A μ + B Σ Y = Var ( Y ) = Var ( A X ) = A Σ A T \mathcal Y = \mathcal A \mathcal X + \mathcal B \to {μY=EP(Y)[Y]=AEP(X)[X]+B=Aμ+BΣY=Var(Y)=Var(AX)=AΣAT
      Y=AX+B{μY=EP(Y)[Y]=AEP(X)[X]+B=Aμ+BΣY=Var(Y)=Var(AX)=AΣAT

      这里将 x ^ T {\hat x}^T x^T看作 A ; B = 0 \mathcal A;\mathcal B = 0 A;B=0:
      由于 [ x ^ T ] 1 × p [ W ] p × 1 [{\hat x}^T]_{1 \times p}[\mathcal W]_{p \times 1} [x^T]1×p[W]p×1本身是一个实数(一维向量),因而对应分布同样是一维高斯分布。该分布仅仅是’无高斯分布噪声‘(noise-free)的分布结果。
      x ^ T W ∼ N ( x ^ T μ W , x ^ T ⋅ Σ W ⋅ x ^ ) ˆxTWN(ˆxTμW,ˆxTΣWˆx)
      x^TWN(x^TμW,x^TΣWx^)
    • x ^ \hat x x^对应标签 y ^ \hat y y^的概率分布表示如下:
      y ^ = x ^ T W + ϵ ϵ ∼ N ( 0 , σ 2 ) P ( y ^ ∣ D a t a , x ^ ) ∼ N ( x ^ T μ W , x ^ T ⋅ Σ W ⋅ x ^ ) + N ( 0 , σ 2 ) = N ( x ^ T μ W , x ^ T ⋅ Σ W ⋅ x ^ + σ 2 ) \begin{aligned} & \hat y = {\hat x}^T\mathcal W + \epsilon \quad \epsilon \sim \mathcal N(0,\sigma^2) \\ & \begin{aligned} \mathcal P(\hat y \mid Data,\hat x) & \sim \mathcal N({\hat x}^T\mu_{\mathcal W},{\hat x}^T \cdot \Sigma_{\mathcal W}\cdot {\hat x}) + \mathcal N(0,\sigma^2) \\ & = \mathcal N({\hat x}^T\mu_{\mathcal W},{\hat x}^T \cdot \Sigma_{\mathcal W}\cdot {\hat x} + \sigma^2) \end{aligned}
      \end{aligned}
      y^=x^TW+ϵϵN(0,σ2)P(y^Data,x^)N(x^TμW,x^TΣWx^)+N(0,σ2)=N(x^TμW,x^TΣWx^+σ2)

      至此,关于样本 x ^ \hat x x^预测标签 y ^ \hat y y^的概率分布求解完毕。

    贝叶斯线性回归小结

    使用贝叶斯方法求解线性回归,它主要分为两大步骤:

    • 模型参数 W \mathcal W W的推断过程。即基于数据集合 D a t a Data Data,求解 W \mathcal W W后验概率分布(Psoterior):
      这里先验概率分布 P ( W ) \mathcal P(\mathcal W) P(W)给定一个均值为0的高斯分布。
      P ( W ∣ D a t a ) ∝ P ( Y ∣ W , X ) ⋅ P ( W ) ∼ N ( μ W , Σ W ) P(WData)P(YW,X)P(W)N(μW,ΣW)
      P(WData)P(YW,X)P(W)N(μW,ΣW)
    • 基于已求解的关于 W \mathcal W W的后验分布,给定未知样本 x ^ \hat x x^,对标签 y ^ \hat y y^的概率分布进行预测:
      将训练好的(已求解的) W \mathcal W W带入 x ^ \hat x x^进行预测。
      P ( y ^ ∣ D a t a , x ^ ) = ∫ W ∣ D a t a P ( W ∣ D a t a ) ⋅ P ( y ^ ∣ W , D a t a , x ^ ) d W = E W ∣ D a t a [ P ( y ^ ∣ W , D a t a , x ^ ) ] P(ˆyData,ˆx)=WDataP(WData)P(ˆyW,Data,ˆx)dW=EWData[P(ˆyW,Data,ˆx)]
      P(y^Data,x^)=WDataP(WData)P(y^W,Data,x^)dW=EWData[P(y^W,Data,x^)]

    至此,贝叶斯线性回归介绍结束。

    相关参考:
    机器学习-贝叶斯线性回归(4)-推导Prediction
    机器学习-贝叶斯线性回归(4)-小结

  • 相关阅读:
    【Java数据类型】
    数据结构之队列
    在Visual Studio 2019中使用freopen_s来进行算法的输入
    【GPTs分享】每日GPTs分享之Image Generator Tool
    设计模式-建造者模式
    【栈】726. 原子的数量
    Spring Bean的生命周期
    eclipse-向Console控制台输出信息
    最大公约数循环与递归版本
    罗克韦尔AB PLC Logix5000中如何创建标签并使用标签进行编程?
  • 原文地址:https://blog.csdn.net/qq_34758157/article/details/128060701