• 3.2 机器学习 --- 朴素贝叶斯作业


    3.2 机器学习 — 朴素贝叶斯

    1. 口述朴素贝叶斯的条件概率公式和全概率公式

      image-20221108181248743
      • 条件概率分布:相当于事件B发生的情况下事件A发生的概率等于事件A发生的情况下事件B发生的概率乘以事件A发生的概率除以事件B发生的概率。

      • 全概率公式

        image-20221108181458591

        相当于是对样本空间Ω进行划分,划分成B1,B2,B3,…Bn, 也说B1,B2,B3,…Bn, 是一个完备的事件组, 对任意一个事件C,事件C发生的概率就是在各个划分空间下C 发生的概率与各个BI发生的概率的乘积的和

      • 朴素贝叶斯的条件概率分布

        • 与全概率解决的问题相反,贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因(即大事件A已经发生的条件下,分割中的小事件Bi的概率,设B1,B2… 是样本空间Ω的划分,那么对任意UI个事件A,有

          image-20221108190509804

      上式子是为贝叶斯公式,贝叶斯公式就是条件概率,乘法公式、全概率公式的组合。

      Bi常被视为导致试验A发生的原因,P(Bi)表示各种原因发生的可能性大小,故称为先验概率。

      P(Bi|A)(i=1,2,…)则反应当试验产生了结果A之后,再对各种原因概率的新认识,故称为后验概率。

    2. 正则化项L1,L2的朴素贝叶斯角度理解

      正则化(regularization)是防止模型过拟合(overfitting)的 有效方式之一。常用的正则化包括L1正则和L2正则,我们知道使用L1正则化的回归对应LASSO(最小绝对收缩选择因子)回归,使得参数稀疏化,倾向于产生稀疏模型,是一种嵌入式特征选择方法,其特征选择过程和学习器训练过程融为一体,同时完成。而L2正则化对应岭回归,倾向于选择使各个参数尽可能小的模型,L2正则化更平滑,在可解释性方面差于L1正则化,但是L2能更好的防止过拟合。下面主要从贝叶斯理论的角度理解正则化。在假设了数据集的误差服从Gaussian分布的条件下,通过最大似然估计(MLE)最大化似然函数(3)等价于最小化平方损失(1),进一步地我们可以得到一个普遍的结论:最小化经验损失(empirical loss)对应于贝叶斯框架下最大化似然函数。上述分析是在没有假设参数先验的情况下进行的,很容易产生过拟合,下面我们对参数w引入先验分布,以此来降低模型的复杂度。

      通过计算发现,L2正则化等价于对参数引入Gaussian先验分布。ridge regression 并不具有产生稀疏解的能力,也就是说参数并不会真出现很多零。假设我们的预测结果与两个特征相关,L2正则倾向于综合两者的影响,给影响大的特征赋予高的权重;而L1正则倾向于选择影响较大的参数,而舍弃掉影响较小的那个。实际应用中 L2 正则表现往往会优于 L1正则,但 L1 正则便于产生稀疏模型,便于进行特征选择。正则化参数等价于对参数引入 先验分布,使得 模型复杂度 变小(缩小解空间),对于噪声以及outliers的鲁棒性增强(泛化能力)。整个最优化问题从贝叶斯观点来看是一种贝叶斯最大后验估计,其中 正则化项 对应后验估计中的 先验信息 ,损失函数对应后验估计中的似然函数,两者的乘积即对应贝叶斯最大后验估计的形式。

      L2正则化相当于为参数w加入了高斯分布的先验

  • 相关阅读:
    【网页前端】CSS样式表进阶之图像的灵活使用与拓展知识
    Java面向对象学习笔记-3
    密钥密码学(三)
    promise加强
    中小企业签署ERP合同时,需要注意这几点
    组件协作模式
    【ArcGIS Pro二次开发】(73):使用NPOI库操作Excel
    河北安新复合型水稻 国稻种芯·中国水稻节:雄安生态示范区
    【Python】Locust持续优化:InfluxDB与Grafana实现数据持久化与可视化分析
    C#(Csharp)笔记十一——C#循环
  • 原文地址:https://blog.csdn.net/woaixuexi6666/article/details/127757067