码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 机器学习基础:概率论基础


    机器学习基础:概率论基础
    机器学习基础:随机变量及其概率分布
    机器学习基础:大数定律与中心极限定理

    机器学习必备基础知识,力求以最简洁的语言,描述最完整的内容。
    很多知识没有深入剖析,也没必要深入剖析。大致了解知识框架之后,即可开始学习机器学习,有不懂的再回过头再仔细研究,驱动式学习才是最高效的学习。
    在这里插入图片描述

    概率和统计的概念

    概率论与数理统计 绝大部分理工科学生都学过的一门课。
    概率和统计研究的都是概率相关问题,只是角度刚好相反。

    • 概率:已知一个模型和参数,去预测这个模型产生的结果的特性。 比如已知西瓜的甜度成正态分布,预测某写瓜甜度大于某个值的个数。

    • 统计:有一堆数据,要利用这堆数据去预测模型和参数。 比如有很多瓜,通过统计大致知道他们的甜度成正态分布,哪个 μ μ μ和 σ σ σ能最准确的描述这些瓜甜度的分布情况呢?

    通俗讲就是:概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。

    概率

    反映随机事件出现的可能性大小。抛硬币正面朝上的概率就是1/2


    条件概率

    A A A发生条件下 B B B发生的概率
    P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB)​
    写成乘法
    P ( A B ) = P ( A ) P ( B ∣ A ) P(AB)=P(A)P(B|A) P(AB)=P(A)P(B∣A)
    A B AB AB事件同时发生的概率,等于事件 A A A发生的概率乘以已知事件 A A A发生时 B B B发生的概率。


    乘法公式

    P ( A 1 A 2 ) = P ( A 1 ) P ( A 2 ∣ A 1 ) = P ( A 2 ) P ( A 1 ∣ A 2 )

    P(A1A2)=P(A1)P(A2|A1)=P(A2)P(A1|A2)" role="presentation">P(A1A2)=P(A1)P(A2|A1)=P(A2)P(A1|A2)P(A1A2)=P(A1)P(A2|A1)=P(A2)P(A1|A2)
    P(A1​A2​)=P(A1​)P(A2​∣A1​)=P(A2​)P(A1​∣A2​)​​

    P ( A 1 A 2 ⋯ A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 A 2 ) ⋯ P ( A n ∣ A 1 A 2 ⋯ A n − 1 ) P({{A}_{1}}{{A}_{2}}\cdots {{A}_{n}})=P({{A}_{1}})P({{A}_{2}}|{{A}_{1}})P({{A}_{3}}|{{A}_{1}}{{A}_{2}})\cdots P({{A}_{n}}|{{A}_{1}}{{A}_{2}}\cdots {{A}_{n-1}}) P(A1​A2​⋯An​)=P(A1​)P(A2​∣A1​)P(A3​∣A1​A2​)⋯P(An​∣A1​A2​⋯An−1​)


    全概率公式

    事件组 A 1 , A 2 , . . . , A n ( n 可为 ∞ ) 满足: A_1,A_2,...,A_n(n可为\infin)满足: A1​,A2​,...,An​(n可为∞)满足:

    • ⋃ i = 1 n A i = Ω \bigcup_{i=1}^nA_i=\Omega ⋃i=1n​Ai​=Ω
    • A 1 , A 2 , . . . , A n A_1,A_2,...,A_n A1​,A2​,...,An​两两互不相容,则 A 1 , A 2 , . . . , A n A_1,A_2,...,A_n A1​,A2​,...,An​为样本空间 Ω \Omega Ω的一个划分或完备事件组

    全概率公式要求将样本空间分解成互不相容的简单事件,再研究这些事件发生时复杂事件 B B B的发生概率,合并后的到事件 B B B在样本空间中发生的概率。

    P ( B ) = ∑ i = 1 n P ( A i B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B)=\sum_{i=1}^{n}{P(A_iB)}=\sum_{i=1}^{n}P(A_i)P(B|A_i) P(B)=i=1∑n​P(Ai​B)=i=1∑n​P(Ai​)P(B∣Ai​)

    先验概率和后验概率

    在全概率公式中, A 1 , A 2 , . . . , A n A_1,A_2,...,A_n A1​,A2​,...,An​可以看作 B B B发生的原因, B B B是结果。 P ( A i ) P(A_i) P(Ai​)称为先验概率。在机器学习中通常指的是某个分类出现的概率

    若在 B B B发生后考察 A i A_i Ai​发生的概率(事件 A i A_i Ai​对于事件 B B B的影响程度),就是 P ( A i ∣ B ) P(A_i|B) P(Ai​∣B),称为后验概率。


    Bayes公式

    条件概率中的乘法公式: P ( A B ) = P ( A ) P ( B ∣ A ) = P ( B ) P ( A ∣ B ) P(AB) = P(A)P(B|A) = P(B)P(A|B) P(AB)=P(A)P(B∣A)=P(B)P(A∣B)

    即有
    P ( A ∣ B ) = P ( A ) P ( B ) ⋅ P ( B ∣ A ) (1) P(A|B)=\frac{P(A)}{P(B)}·P(B|A)\tag{1} P(A∣B)=P(B)P(A)​⋅P(B∣A)(1)
    进一步加强条件:现在事件B在样本空间中被分割成了两两互不相容事件 A 1 , A 2 , . . . , A n A_1,A_2,...,A_n A1​,A2​,...,An​ ( 1 ) (1) (1)式变成了这样
    P ( A i ∣ B ) = P ( A i ) P ( B ) P ( B ∣ A i ) (2) P(A_i|B)=\frac{P(A_i)}{P(B)}P(B|A_i)\tag{2} P(Ai​∣B)=P(B)P(Ai​)​P(B∣Ai​)(2)
    将上面的全概率公式代入:
    P ( A i ∣ B ) = P ( A i ) ∑ k = 1 n P ( A k ) P ( B ∣ A k ) ⋅ P ( B ∣ A i ) (3) P(A_i|B)=\frac{P(A_i)}{\sum_{k=1}^{n}P(A_k)P(B|A_k)}·P(B|A_i)\tag{3} P(Ai​∣B)=∑k=1n​P(Ak​)P(B∣Ak​)P(Ai​)​⋅P(B∣Ai​)(3)
    这就是 B a y e s Bayes Bayes公式

    独立性

    如果 A , B A,B A,B满足 P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B),称事件 A B AB AB相互独立

    • 则有 P ( B ∣ A ) = P ( B ) = P ( A ) P(B|A) = P(B)=P(A) P(B∣A)=P(B)=P(A)

    随机变量及其概率分布

    离散型随机变量

    随机变量 X X X的可能取值是离散的,有限个值 x 1 , . . . , x n x_1,...,x_n x1​,...,xn​或可列无限个值 x 1 , . . . , x n , . . . x_1,...,x_n,... x1​,...,xn​,...

    每个取值对应的概率为 p k p_k pk​,记成 P ( X = x i ) = p k ,   k = 1 , 2 , . . . P(X=x_i)=p_k,\ k=1,2,... P(X=xi​)=pk​, k=1,2,...,这称为离散型随机变量 X X X的分布律

    两点分布

    ( 0 − 1 ) (0-1) (0−1)分布 又称两点分布 随机变量只可能取0或1
    P { X = k } = p k ( 1 − p ) 1 − k ( k = 0 , 1 ) P\{X=k\}=p^k(1-p)^{1-k}\quad\quad\quad\quad(k=0,1) P{X=k}=pk(1−p)1−k(k=0,1)

    二项分布

    每次试验只有两个结果, A A A与 A ‾ \overline A A,且 P ( A ) = p ,   P ( A ‾ ) = 1 − p = q P(A)=p,\ P(\overline A)=1-p=q P(A)=p, P(A)=1−p=q

    • 重复进行 n n n次试验,每次试验的结果相互独立,分布律为:

    p k = P ( X = k ) = C n k p k q n − k 0 < p < 1 ,   q = 1 − p ,   k = 0 , 1 , . . . , n p_k=P(X=k)=C_n^kp^kq^{n-k}\\0pk​=P(X=k)=Cnk​pkqn−k0<p<1, q=1−p, k=0,1,...,n

    当 n = 1 n=1 n=1时, p k = P ( X = k ) = p k q n − k p_k=P(X=k)=p^kq^{n-k} pk​=P(X=k)=pkqn−k 退化为两点分布

    泊松分布

    X X X分布律为
    p k = P ( X = k ) = λ k k ! e − λ ( k = 0 , 1 , 2... , n ) ,   λ > 0 p_k=P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}\\(k=0,1,2...,n),\ \lambda>0 pk​=P(X=k)=k!λk​e−λ(k=0,1,2...,n), λ>0
    称 X X X服从以参数为 λ \lambda λ的泊松分布,记为 X ∼ P ( λ ) X\thicksim P(\lambda) X∼P(λ)

    • 泊松分布是二项分布的极限分布,当 n n n很大, p p p很小时,二项分布可以近似地看成是参数 λ = n p \lambda=np λ=np的泊松分布
    • 常用于描述大量实验中稀有事件出现频数的概率模型。因为根据分布律,当 k k k越大时 P ( X = k ) P(X=k) P(X=k)越来越小(阶乘比指数高阶),也就是说, X X X取大值的概率很小

    几何分布

    n n n重伯努利试验中,记 X X X为事件 A A A首次发生所需的试验次数,即 P ( X = k ) P(X=k) P(X=k)为 A A A前 k − 1 k-1 k−1次不发生,第 k k k次发生的概率
    p k = P ( X = k ) = q k − 1 p k = 1 , 2 , . . . ;   q = 1 − p p_k=P(X=k)=q^{k-1}p \quad \quad k=1,2,...;\ q=1-p pk​=P(X=k)=qk−1pk=1,2,...; q=1−p

    称 X X X服从参数为 p p p的几何分布,记为 X ∼ g ( p ) X\thicksim g(p) X∼g(p)

    • 验证分布律性质:
      ∑ k = 1 ∞ p k = ∑ k = 1 ∞ q k − 1 p = p ∑ k = 1 ∞ q k − 1 = p 1 1 − q = 1 \sum_{k=1}^{\infin}p_k=\sum_{k=1}^{\infin}q^{k-1}p=p\sum_{k=1}^{\infin}q^{k-1}=p\frac1{1-q}=1 k=1∑∞​pk​=k=1∑∞​qk−1p=pk=1∑∞​qk−1=p1−q1​=1

    连续型随机变量

    概率密度

    • 对于随机变量 X X X,若存在非负函数 f ( x ) , ( − ∞ < x < + ∞ ) f(x),(-\infinf(x),(−∞<x<+∞),使对任意实数 x x x,都有
      F ( x ) = P ( X ⩽ x ) = ∫ − ∞ x f ( u ) d u F(x)=P(X\leqslant x)=\int_{-\infin}^xf(u)du F(x)=P(X⩽x)=∫−∞x​f(u)du
      则称 X X X为连续型随机变量, f ( x ) f(x) f(x)为 X X X的概率密度函数,简称概率密度或密度函数

      常记为 X ∼ f ( x ) , ( − ∞ < x < + ∞ ) X\sim f(x),(-\infinX∼f(x),(−∞<x<+∞)

      性质

      • f ( x ) ⩾ 0 f(x)\geqslant 0 f(x)⩾0
      • ∫ − ∞ + ∞ f ( u ) d u = 1 \int_{-\infin}^{+\infin}f(u)du=1 ∫−∞+∞​f(u)du=1
      • 任意实数 a < b aa<b, P ( a < X ⩽ b ) = F ( b ) − F ( a ) = ∫ a b f ( u ) d u P(aP(a<X⩽b)=F(b)−F(a)=∫ab​f(u)du
      • 其实上式 P ( a < X ⩽ b ) P(aP(a<X⩽b)中小于号取不取整并不影响结果(与离散型随机变量严格要求左开右闭不同!)因为 f ( x ) f(x) f(x)可积 → \rightarrow → F ( x ) F(x) F(x)连续(左右都连续),有 P ( X = a ) = F ( a ) − F ( a − 0 ) = 0 P(X=a)=F(a)-F(a-0)=0 P(X=a)=F(a)−F(a−0)=0
      • 若 x x x是 f ( x ) f(x) f(x)的连续点,则 f ( x ) = F ′ ( x ) f(x)=F'(x) f(x)=F′(x)

    均匀分布

    • X X X概率密度为
      f ( x ) = { 1 b − a , a

      {1b−a,a<x<b0,其他" role="presentation">{1b−a,0,a其他{1b−a,a0,其他 f(x)={b−a1​,0,​a其他​
      则称 X X X在**区间[a,b]**上服从均匀分布,记为 X ∼ U [ a , b ] X\sim U[a,b] X∼U[a,b]

      分布函数为
      F ( x ) = { 0 , x

      {0,x<ax−ab−a,a⩽x<b1,x⩾b" role="presentation">⎧⎩⎨⎪⎪0,x−ab−a,1,xa⩽x<bx⩾b{0,xx−ab−a,a⩽x<b1,x⩾b F(x)=⎩ ⎨ ⎧​0,b−ax−a​,1,​xa⩽x<bx⩾b​

    • P ( c < X < d ) = ∫ c d f ( x ) d x = ∫ c d 1 b − a d x = d − c b − a P(cP(c<X<d)=∫cd​f(x)dx=∫cd​b−a1​dx=b−ad−c​

      概率意义: X X X落在 ( a , b ) (a,b) (a,b)中任一区间的概率只与该区间的长度成正比,而与该区间的位置无关

      指数分布

      X X X概率密度为
      f ( x ) = { λ e − λ x , x ⩾ 0 0 , x < 0 f(x)=

      {λe−λx,x⩾00,x<0" role="presentation">{λe−λx,0,x⩾0x<0{λe−λx,x⩾00,x<0
      f(x)={λe−λx,0,​x⩾0x<0​
      其中 λ > 0 \lambda>0 λ>0为常数,则称 X X X服从参数为 λ \lambda λ的指数分布,记为 X ∼ E ( λ ) X\sim E(\lambda) X∼E(λ)

      X X X分布函数为
      F ( x ) = { 1 − e − λ x , x ⩾ 0 0 , 其他 F(x)=

      {1−e−λx,x⩾00,其他" role="presentation">{1−e−λx,0,x⩾0其他{1−e−λx,x⩾00,其他
      F(x)={1−e−λx,0,​x⩾0其他​

      3 正态分布

      X X X密度函数为
      f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 x ∈ R f(x)=\frac{1}{\sqrt {2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\\ x\in \R f(x)=2π ​σ1​e−2σ2(x−μ)2​x∈R
      其中 μ \mu μ为实数, σ > 0 \sigma>0 σ>0,类比测量时的真实值为 μ \mu μ, n n n次测量均方误差 1 n ∑ ( x i − μ ) 2 → σ 2 \frac1n\sum(x_i-\mu)^2\rightarrow \sigma^2 n1​∑(xi​−μ)2→σ2,则称 X X X服从参数为 μ , σ 2 \mu,\sigma^2 μ,σ2的正态分布,也称高斯分布,记为 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X∼N(μ,σ2)

      密度函数图像性质:

      • 单峰对称:关于直线 x = μ x=\mu x=μ对称, x = μ x=\mu x=μ时 f ( x ) m a x = 1 2 π σ f(x)_{max}=\frac1{\sqrt{2\pi} \sigma} f(x)max​=2π ​σ1​

      • 由于图像覆盖面积是 1 1 1,固定 μ \mu μ时, σ \sigma σ越小,最高点越高,即图形越高越陡;反之图形越低越平(换个角度,误差越小越靠近真实值 μ \mu μ)

      • μ = 0 ,   σ = 1 \mu=0,\ \sigma=1 μ=0, σ=1时的正态分布称为标准正态分布,记作 X ∼ N ( 0 , 1 ) X\sim N(0,1) X∼N(0,1)

        • f ( x ) = 1 2 π e − x 2 2 x ∈ R f(x)=\frac{1}{\sqrt {2\pi}}e^{-\frac{x^2}{2}}\quad\quad\quad x\in \R f(x)=2π ​1​e−2x2​x∈R

          分布函数
          Φ ( x ) = P ( X ⩽ x ) = 1 2 π ∫ − ∞ x e − t 2 2 d t x ∈ R Φ ( 0 ) = 1 2 Φ ( + ∞ ) ( 对称性 ) \Phi(x)=P(X\leqslant x)=\frac{1}{\sqrt {2\pi}}\int _{-\infin}^x e^{-\frac{t^2}{2}}dt\\ x\in \R\\ \Phi(0)=\frac12\Phi(+\infin)(对称性) Φ(x)=P(X⩽x)=2π ​1​∫−∞x​e−2t2​dtx∈RΦ(0)=21​Φ(+∞)(对称性)

          对标准正态分布的分布函数 Φ ( x ) \Phi(x) Φ(x),有 Φ ( − x ) = 1 − Φ ( x ) \Phi(-x)=1-\Phi(x) Φ(−x)=1−Φ(x)

    • 相关阅读:
      为什么你的自媒体账号涨粉很慢?
      SpringCloud 多模块部署瘦身包整理流程
      互帮互助,小bug记录:libcurl timeout不起作用,程序无法结束
      Serverless Devs 重大更新,基于 Serverless 架构的 CI/CD 框架:Serverless-cd
      计算机毕业设计(附源码)python智慧校园防疫管理平台
      Windows运维相关经验技巧
      周末学习总结(LIO标定+kitti数据集的使用+evo工具的使用+开源数据集+ssh的使用)
      F3L600R10W4S7FC22BPSA1 EasyPACK IGBT模块 950V(F3L600R10W4S7FC22)
      DispatcherServlet是如何进行初始化的呢?
      连Producer端的主线程模块运行原理都不清楚,就敢说自己精通Kafka?
    • 原文地址:https://blog.csdn.net/weixin_45755332/article/details/127089102
      • 最新文章
      • 攻防演习之三天拿下官网站群
        数据安全治理学习——前期安全规划和安全管理体系建设
        企业安全 | 企业内一次钓鱼演练准备过程
        内网渗透测试 | Kerberos协议及其部分攻击手法
        0day的产生 | 不懂代码的"代码审计"
        安装scrcpy-client模块av模块异常,环境问题解决方案
        leetcode hot100【LeetCode 279. 完全平方数】java实现
        OpenWrt下安装Mosquitto
        AnatoMask论文汇总
        【AI日记】24.11.01 LangChain、openai api和github copilot
      • 热门文章
      • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
        奉劝各位学弟学妹们,该打造你的技术影响力了!
        五年了,我在 CSDN 的两个一百万。
        Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
        面试官都震惊,你这网络基础可以啊!
        你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
        心情不好的时候,用 Python 画棵樱花树送给自己吧
        通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
        13 万字 C 语言从入门到精通保姆级教程2021 年版
        10行代码集2000张美女图,Python爬虫120例,再上征途
      Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
      正则表达式工具 cron表达式工具 密码生成工具

      京公网安备 11010502049817号