机器学习基础：概率论基础

机器学习基础：概率论基础
机器学习基础：概率论基础
 机器学习基础：随机变量及其概率分布
 机器学习基础：大数定律与中心极限定理

机器学习必备基础知识，力求以最简洁的语言，描述最完整的内容。
很多知识没有深入剖析，也没必要深入剖析。大致了解知识框架之后，即可开始学习机器学习，有不懂的再回过头再仔细研究，驱动式学习才是最高效的学习。

概率和统计的概念

概率论与数理统计绝大部分理工科学生都学过的一门课。
概率和统计研究的都是概率相关问题，只是角度刚好相反。
- 概率：已知一个模型和参数，去预测这个模型产生的结果的特性。 比如已知西瓜的甜度成正态分布，预测某写瓜甜度大于某个值的个数。
- 统计：有一堆数据，要利用这堆数据去预测模型和参数。 比如有很多瓜，通过统计大致知道他们的甜度成正态分布，哪个 $μ$ 和 $σ$ 能最准确的描述这些瓜甜度的分布情况呢？
通俗讲就是：概率是已知模型和参数，推数据。统计是已知数据，推模型和参数。

概率

反映随机事件出现的可能性大小。抛硬币正面朝上的概率就是1/2

条件概率

$A$ 发生条件下 $B$ 发生的概率
$P(B|A)=\frac{P(AB)}{P(A)}$
写成乘法
$P (A B) = P (A) P (B ∣ A)$
$A B$ 事件同时发生的概率，等于事件 $A$ 发生的概率乘以已知事件 $A$ 发生时 $B$ 发生的概率。

乘法公式

$\begin{aligned} P (A_{1} A_{2}) = P (A_{1}) P (A_{2} | A_{1}) \\ = P (A_{2}) P (A_{1} | A_{2}) \end{aligned}$
P(A1A2)=P(A1)P(A2∣A1)=P(A2)P(A1∣A2)

$P({{A}_{1}}{{A}_{2}}\cdots {{A}_{n}})=P({{A}_{1}})P({{A}_{2}}|{{A}_{1}})P({{A}_{3}}|{{A}_{1}}{{A}_{2}})\cdots P({{A}_{n}}|{{A}_{1}}{{A}_{2}}\cdots {{A}_{n-1}})$

全概率公式

事件组 $A_1,A_2,...,A_n(n可为\infin)满足：$
- $\bigcup_{i=1}^nA_i=\Omega$
- $A_1,A_2,...,A_n$ 两两互不相容，则 $A_1,A_2,...,A_n$ 为样本空间 $\Omega$ 的一个划分或完备事件组
全概率公式要求将样本空间分解成互不相容的简单事件，再研究这些事件发生时复杂事件 $B$ 的发生概率，合并后的到事件 $B$ 在样本空间中发生的概率。

$P(B)=\sum_{i=1}^{n}{P(A_iB)}=\sum_{i=1}^{n}P(A_i)P(B|A_i)$

先验概率和后验概率

在全概率公式中， $A_1,A_2,...,A_n$ 可以看作 $B$ 发生的原因， $B$ 是结果。 $P(A_i)$ 称为先验概率。在机器学习中通常指的是某个分类出现的概率

若在 $B$ 发生后考察 $A_i$ 发生的概率（事件 $A_i$ 对于事件 $B$ 的影响程度），就是 $P(A_i|B)$ ，称为后验概率。

Bayes公式

条件概率中的乘法公式： $P (A B) = P (A) P (B ∣ A) = P (B) P (A ∣ B)$

即有
$P(A|B)=\frac{P(A)}{P(B)}·P(B|A)\tag{1}$
进一步加强条件：现在事件B在样本空间中被分割成了两两互不相容事件 $A_1,A_2,...,A_n$ $(1)$ 式变成了这样
$P(A_i|B)=\frac{P(A_i)}{P(B)}P(B|A_i)\tag{2}$
将上面的全概率公式代入：
$P(A_i|B)=\frac{P(A_i)}{\sum_{k=1}^{n}P(A_k)P(B|A_k)}·P(B|A_i)\tag{3}$
这就是 $B a yes$ 公式

 独立性

如果 $A, B$ 满足 $P (A B) = P (A) P (B)$ ，称事件 $A B$ 相互独立
- 则有 $P (B ∣ A) = P (B) = P (A)$
随机变量及其概率分布

 离散型随机变量

随机变量 $X$ 的可能取值是离散的，有限个值 $x_1,...,x_n$ 或可列无限个值 $x_1,...,x_n,...$

每个取值对应的概率为 $p_k$ ，记成 $P(X=x_i)=p_k,\ k=1,2,...$ ，这称为离散型随机变量 $X$ 的分布律

两点分布

$(0 - 1)$ 分布 又称两点分布 随机变量只可能取0或1
$P\{X=k\}=p^k(1-p)^{1-k}\quad\quad\quad\quad(k=0,1)$

二项分布

每次试验只有两个结果， $A$ 与 $\overline A$ ，且 $P(A)=p,\ P(\overline A)=1-p=q$
- 重复进行 $n$ 次试验，每次试验的结果相互独立，分布律为：
$p_k=P(X=k)=C_n^kp^kq^{n-k}\\0pk=P(X=k)=Cnkpkqn−k0<p<1, q=1−p, k=0,1,...,n$

当 $n = 1$ 时， $p_k=P(X=k)=p^kq^{n-k}$ 退化为两点分布

 泊松分布

$X$ 分布律为
$p_k=P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}\\(k=0,1,2...,n),\ \lambda>0$
称 $X$ 服从以参数为 $\lambda$ 的泊松分布，记为 $X\thicksim P(\lambda)$
- 泊松分布是二项分布的极限分布，当 $n$ 很大， $p$ 很小时，二项分布可以近似地看成是参数 $\lambda=np$ 的泊松分布
- 常用于描述大量实验中稀有事件出现频数的概率模型。因为根据分布律，当 $k$ 越大时 $P (X = k)$ 越来越小（阶乘比指数高阶），也就是说， $X$ 取大值的概率很小
几何分布

$n$ 重伯努利试验中，记 $X$ 为事件 $A$ 首次发生所需的试验次数，即 $P (X = k)$ 为 $A$ 前 $k - 1$ 次不发生，第 $k$ 次发生的概率
$p_k=P(X=k)=q^{k-1}p \quad \quad k=1,2,...;\ q=1-p$

称 $X$ 服从参数为 $p$ 的几何分布，记为 $X\thicksim g(p)$
- 验证分布律性质：
  $\sum_{k=1}^{\infin}p_k=\sum_{k=1}^{\infin}q^{k-1}p=p\sum_{k=1}^{\infin}q^{k-1}=p\frac1{1-q}=1$
连续型随机变量

 概率密度
- 对于随机变量 $X$ ，若存在非负函数 $f(x),(-\infinf(x),(−∞<x<+∞)$
  
  常记为 $X\sim f(x),(-\infinX∼f(x),(−∞<x<+∞)$
  
  性质
  - $f(x)\geqslant 0$
  - $\int_{-\infin}^{+\infin}f(u)du=1$
  - 任意实数 $，$
  - 其实上式 $P ( a < X ⩽ b ) P(a中小于号取不取整并不影响结果（与离散型随机变量严格要求左开右闭不同！）因为 f ( x ) f(x) 可积 → \rightarrow F ( x ) F(x) 连续（左右都连续），有 P ( X = a ) = F ( a ) − F ( a − 0 ) = 0 P(X=a)=F(a)-F(a-0)=0$
  - 若 $x$ 是 $f (x)$ 的连续点，则 $f (x) = F^{'} (x)$
均匀分布

$X$ 概率密度为

${\begin{cases} \frac{1}{b - a}, & a0, & 其他 \end{cases}$ $f (x) = {\frac{1}{b - a}, 0, a 其他$
则称 $X$ 在**区间[a,b]**上服从均匀分布，记为 $X\sim U[a,b]$

分布函数为

${\begin{cases} 0, & x\frac{x - a}{b - a}, & a ⩽ x < b 1, & x ⩾ b \end{cases}$
指数分布

$X$ 概率密度为

${\begin{cases} λ e^{- λ x}, & x ⩾ 0 \\ 0, & x < 0 \end{cases}$ $f (x) = {λ e^{- λ x}, 0, x ⩾ 0 x < 0$
其中 $\lambda>0$ 为常数，则称 $X$ 服从参数为 $\lambda$ 的指数分布，记为 $X\sim E(\lambda)$

$X$ 分布函数为

${\begin{cases} 1 - e^{- λ x}, & x ⩾ 0 \\ 0, & 其他 \end{cases}$ $F (x) = {1 - e^{- λ x}, 0, x ⩾ 0 其他$

3 正态分布

$X$ 密度函数为
$f(x)=\frac{1}{\sqrt {2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\\ x\in \R$
其中 $\mu$ 为实数， $\sigma>0$ ，类比测量时的真实值为 $\mu$ ， $n$ 次测量均方误差 $\frac1n\sum(x_i-\mu)^2\rightarrow \sigma^2$ ，则称 $X$ 服从参数为 $\mu,\sigma^2$ 的正态分布，也称高斯分布，记为 $X\sim N(\mu,\sigma^2)$

密度函数图像性质：

单峰对称：关于直线 $x=\mu$ 对称， $x=\mu$ 时 $f(x)_{max}=\frac1{\sqrt{2\pi} \sigma}$

由于图像覆盖面积是 $1$ ，固定 $\mu$ 时， $\sigma$ 越小，最高点越高，即图形越高越陡；反之图形越低越平（换个角度，误差越小越靠近真实值 $\mu$ ）

$\mu=0,\ \sigma=1$ 时的正态分布称为标准正态分布，记作 $X\sim N(0,1)$

$f(x)=\frac{1}{\sqrt {2\pi}}e^{-\frac{x^2}{2}}\quad\quad\quad x\in \R$

分布函数
$\Phi(x)=P(X\leqslant x)=\frac{1}{\sqrt {2\pi}}\int _{-\infin}^x e^{-\frac{t^2}{2}}dt\\ x\in \R\\ \Phi(0)=\frac12\Phi(+\infin)(对称性)$

对标准正态分布的分布函数 $\Phi(x)$ ，有 $\Phi(-x)=1-\Phi(x)$

相关阅读:
【云原生 • Kubernetes】kubernetes 核心技术 - 集群安全机制
 “极致成本向左，本质安全向右”-谈谈锂电池储能系统的发展趋势
 Kafka读取数据到Hbase数据库2种方式使用桥梁模式
 java-net-php-python-jspm陕菜食谱网站录像(上)计算机毕业设计程序
 sync.pool 源码学习
 人工智能数学基础之线性代数(三)
ES6 新特性：Class 的继承
 别人做跨境电商都月入过万了，真这么好做吗？
轻松入门自然语言处理系列专题8 源码解读──基于HMM的结巴分词
 Stability AI推出Stable Audio；ChatGPT：推荐系统的颠覆者

原文地址：https://blog.csdn.net/weixin_45755332/article/details/127089102

最新文章

攻防演习之三天拿下官网站群
 数据安全治理学习——前期安全规划和安全管理体系建设
 企业安全 | 企业内一次钓鱼演练准备过程
 内网渗透测试 | Kerberos协议及其部分攻击手法
 0day的产生 | 不懂代码的"代码审计"
安装scrcpy-client模块av模块异常，环境问题解决方案
 leetcode hot100【LeetCode 279. 完全平方数】java实现
 OpenWrt下安装Mosquitto
AnatoMask论文汇总
 【AI日记】24.11.01 LangChain、openai api和github copilot

热门文章

十款代码表白小特效一个比一个浪漫赶紧收藏起来吧！！！
奉劝各位学弟学妹们，该打造你的技术影响力了！
五年了，我在 CSDN 的两个一百万。
Java俄罗斯方块，老程序员花了一个周末，连接中学年代！
面试官都震惊，你这网络基础可以啊！
你真的会用百度吗？我不信 — 那些不为人知的搜索引擎语法
 心情不好的时候，用 Python 画棵樱花树送给自己吧
 通宵一晚做出来的一款类似CS的第一人称射击游戏Demo！原来做游戏也不是很难，连憨憨学妹都学会了！
13 万字 C 语言从入门到精通保姆级教程2021 年版
 10行代码集2000张美女图，Python爬虫120例，再上征途

概率和统计的概念

概率

条件概率

乘法公式

全概率公式

先验概率和后验概率

Bayes公式

独立性

随机变量及其概率分布

离散型随机变量

两点分布

二项分布

泊松分布

几何分布

连续型随机变量

概率密度

均匀分布

指数分布

3 正态分布