概率分布是统计学中用于描述随机变量的概率特征的函数。以下是几种常用的概率分布:
这些分布在各种统计分析和机器学习算法中都有着非常重要的作用。了解和使用这些分布,可以帮助我们在处理数据和进行推断时做出更准确的决策。
均匀分布(Uniform Distribution)是一个非常简单且重要的概率分布,它可以是离散的也可以是连续的。
离散均匀分布:
离散均匀分布是指在有限个数的结果中,每个结果出现的概率相等。如果一个随机变量
X
X
X服从参数为n的离散均匀分布,记作
X
∼
U
{
1
,
2
,
.
.
.
,
n
}
X \sim U\{1, 2, ..., n\}
X∼U{1,2,...,n},那么它取每个值的概率为
1
/
n
1/n
1/n。
例如,掷一个公正的六面骰子,每个面朝上的概率都是
1
/
6
1/6
1/6,这就是一个离散均匀分布的例子。
连续均匀分布:
连续均匀分布是指在实数的某一区间内任意两点被取到的概率相等。其概率密度函数(probability density function,PDF)在区间
[
a
,
b
]
[a, b]
[a,b]内为常数,区间外为0。
数学上,连续均匀分布的概率密度函数可以表示为:
f
(
x
)
=
{
1
b
−
a
for
a
≤
x
≤
b
0
otherwise
f(x) =
其中,
a
a
a 是分布的下界,
b
b
b 是上界,且
b
>
a
b > a
b>a。在区间
[
a
,
b
]
[a, b]
[a,b] 内任意一点 x 的出现概率都相同。
相对应的,连续均匀分布的累积分布函数(cumulative distribution function,CDF)表达为:
F
(
x
)
=
{
0
for
x
<
a
x
−
a
b
−
a
for
a
≤
x
≤
b
1
for
x
>
b
F(x) =
这个函数在区间外是平的,在区间
[
a
,
b
]
[a, b]
[a,b]内是线性增长的。
连续均匀分布的期望值(mean)和方差(variance)分别为:
Mean
=
a
+
b
2
\text{Mean} = \frac{a + b}{2}
Mean=2a+b
Variance
=
(
b
−
a
)
2
12
\text{Variance} = \frac{(b - a)^2}{12}
Variance=12(b−a)2
这意味着分布的中心是区间的中点,且数据的离散程度随区间长度的增加而增加。
连续均匀分布常用于模拟等概率的随机事件,比如随机选择某个时间点或者在某段长度上随机取点。在实际应用中,当缺乏关于某个随机变量的信息时,也常常假设它服从均匀分布。
二项分布(Binomial Distribution)是一种离散概率分布,它描述了在一系列相同的独立试验中,每次试验成功的概率相同,而成功次数的概率分布。这里的“成功”可以是任何感兴趣的结果,比如抛硬币时正面朝上,或者测试产品时发现是次品。
以下是二项分布的一些关键特征:
二项分布的概率质量函数(Probability Mass Function,PMF)表示在n次独立试验中恰好有k次成功的概率:
P
(
X
=
k
)
=
(
n
k
)
p
k
(
1
−
p
)
n
−
k
P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}
P(X=k)=(kn)pk(1−p)n−k
其中,
(
n
k
)
\binom{n}{k}
(kn) 是组合数,表示从n个不同元素中不重复地选取k个元素的方法数,计算公式为:
(
n
k
)
=
n
!
k
!
(
n
−
k
)
!
\binom{n}{k} = \frac{n!}{k!(n-k)!}
(kn)=k!(n−k)!n!
这里的
n
!
n!
n! 表示n的阶乘,即
n
×
(
n
−
1
)
×
(
n
−
2
)
×
.
.
.
×
1
n \times (n-1) \times (n-2) \times ... \times 1
n×(n−1)×(n−2)×...×1。
二项分布的性质:
二项分布的例子很常见,例如:
还有一点值得注意:当试验次数n为1时,二项分布简化为伯努利分布(Bernoulli Distribution)。
二项分布是统计学和概率论中非常关键的一个分布,因为它提供了只有两种结果的试验或事件(如是/非,成功/失败)的一个明确的概率框架。在实践中,二项分布广泛应用于质量控制、医学试验、投票行为分析等领域。
泊松分布(Poisson Distribution)是一种离散概率分布,它用于描述在固定时间间隔或空间范围内发生某随机事件的次数的概率。这个分布非常适合于那些事件独立发生,且平均发生率(即强度或者频率)是已知的情况。
泊松分布的典型特点和应用场合包括:
泊松分布的概率质量函数(Probability Mass Function, PMF)给出了在给定的时间段内,事件发生k次的概率:
P
(
X
=
k
)
=
λ
k
e
−
λ
k
!
P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}
P(X=k)=k!λke−λ
其中:
泊松分布的性质:
泊松分布的应用:
泊松分布在许多领域都有应用,特别是那些事件随机且独立发生的情况。一些例子包括:
泊松分布是研究稀有事件的强大工具,在数据分析、预测模型、保险数学、排队理论等领域都非常重要。
正态分布(Normal Distribution),也被称为高斯分布(Gaussian Distribution),是最重要的概率分布之一。在自然界和人类行为的很多现象可以用正态分布来模拟,特别是当某个变量受到许多小效应的影响时,这些效应相互独立且分布均匀(根据中心极限定理)。
正态分布的概率密度函数(Probability Density Function,PDF)是一个关于变量x的函数,其数学形式为:
f
(
x
∣
μ
,
σ
2
)
=
1
2
π
σ
2
e
−
(
x
−
μ
)
2
2
σ
2
f(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{ -\frac{(x-\mu)2}{2\sigma2} }
f(x∣μ,σ2)=2πσ21e−2σ2(x−μ)2
其中:
正态分布的图形是一个对称的钟形曲线,其中:
正态分布的性质:
正态分布广泛应用于自然科学和社会科学领域,例如:
任何实际数据集合如果足够大,且不受极端值的影响,通常都会呈现出接近正态分布的模式。
指数分布(Exponential Distribution)是一种连续概率分布,它经常用来表示独立随机事件发生的时间间隔。比如,某个服务设施中顾客的到达时间间隔、机器部件的寿命直至故障、或者放射性粒子的衰变时间等。指数分布是一种无记忆分布,意味着未来的概率分布不受过去结果的影响。
指数分布的概率密度函数(Probability Density Function,PDF)定义为:
f
(
x
∣
λ
)
=
{
λ
e
−
λ
x
if
x
≥
0
0
if
x
<
0
f(x|\lambda) =
其中:
指数分布的累积分布函数(Cumulative Distribution Function,CDF),即概率为:
F
(
x
∣
λ
)
=
1
−
e
−
λ
x
F(x|\lambda) = 1 - e^{-\lambda x}
F(x∣λ)=1−e−λx
它表示在时间x之前或者恰在时间x发生第一个事件的概率。
指数分布的几个重要性质包括:
指数分布与泊松过程有着紧密的联系,实际上,如果事件以恒定平均率随机且独立地发生,则事件发生的时间间隔将遵循指数分布。对于泊松过程中的事件,如果其在单位时间内的平均事件数为
λ
\lambda
λ,那么时间间隔的分布就是参数为
λ
\lambda
λ 的指数分布。
指数分布在现实世界的应用包括:
伽马分布(Gamma Distribution)是一种连续概率分布,它涵盖了几种分布类型,包括指数分布和卡方分布。伽马分布是用来描述多个独立事件发生所需时间的总和,其中每个事件的发生时间都是指数分布的。这种分布常用于保险学、水文学、信号处理、生物学等领域,以及其他需要对等待时间进行建模的领域。
伽马分布有两个参数:
伽马分布的概率密度函数(PDF)定义为:
f
(
x
∣
α
,
β
)
=
x
α
−
1
e
−
x
β
β
α
Γ
(
α
)
for
x
>
0
,
α
>
0
,
β
>
0
f(x|\alpha,\beta) = \frac{x^{\alpha-1}e^{-\frac{x}{\beta}}}{\beta^\alpha\Gamma(\alpha)} \quad \text{for } x > 0, \alpha > 0, \beta > 0
f(x∣α,β)=βαΓ(α)xα−1e−βxfor x>0,α>0,β>0
其中
Γ
(
α
)
\Gamma(\alpha)
Γ(α) 是伽马函数,定义为:
Γ
(
α
)
=
∫
0
∞
t
α
−
1
e
−
t
d
t
\Gamma(\alpha) = \int_{0}^{\infty} t^{\alpha-1}e^{-t} dt
Γ(α)=∫0∞tα−1e−tdt
伽马函数在整数参数上等价于阶乘,即如果
α
\alpha
α是一个正整数,那么
Γ
(
α
)
=
(
α
−
1
)
!
\Gamma(\alpha) = (\alpha-1)!
Γ(α)=(α−1)!。
伽马分布的累积分布函数(CDF)没有简单的封闭形式,但可以通过下列不完全伽马函数计算:
F
(
x
∣
α
,
β
)
=
γ
(
α
,
x
/
β
)
Γ
(
α
)
F(x|\alpha,\beta) = \frac{\gamma(\alpha, x/\beta)}{\Gamma(\alpha)}
F(x∣α,β)=Γ(α)γ(α,x/β)
其中
γ
(
α
,
x
)
\gamma(\alpha, x)
γ(α,x) 是下不完全伽马函数。
伽马分布的性质:
伽马分布广泛应用于需要建模操作时间或等待时间的场景,例如:
伽马分布是一个灵活的分布族,可以通过调整形状和尺度参数来适应不同类型的数据。
贝塔分布(Beta Distribution)是定义在区间 ( [0, 1] ) 上的一种连续概率分布,它由两个正实数参数
α
\alpha
α和
β
\beta
β 控制,通常用来作为随机变量的先验分布,特别适用于表示有界区间的概率值、比率或者比例。
贝塔分布的概率密度函数(PDF)定义如下:
f
(
x
∣
α
,
β
)
=
x
α
−
1
(
1
−
x
)
β
−
1
B
(
α
,
β
)
for
0
≤
x
≤
1
f(x|\alpha, \beta) = \frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha, \beta)} \quad \text{for } 0 \le x \le 1
f(x∣α,β)=B(α,β)xα−1(1−x)β−1for 0≤x≤1
其中:
B
(
α
,
β
)
=
∫
0
1
t
α
−
1
(
1
−
t
)
β
−
1
d
t
=
Γ
(
α
)
Γ
(
β
)
Γ
(
α
+
β
)
B(\alpha, \beta) = \int_{0}^{1} t^{\alpha-1}(1-t)^{\beta-1} dt = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}
B(α,β)=∫01tα−1(1−t)β−1dt=Γ(α+β)Γ(α)Γ(β)
这里的
Γ
(
α
)
\Gamma(\alpha)
Γ(α) 表示伽马函数,它可以看作是阶乘在实数域的推广。
贝塔分布的属性包括:
由于贝塔分布定义在 [ 0 , 1 ] [0, 1] [0,1] 区间上,它可以用来模拟任何事物的不确定性,从而非常适合作为概率的先验分布。例如:
总之,贝塔分布提供了一种灵活的方法来表示一个区间上的随机变量,它的形状可以根据参数的不同,呈现出非常丰富的多样性。
卡方分布(Chi-squared Distribution)是一种特殊的伽马分布,广泛用于统计学中用于假设检验和置信区间估计。它是一个连续概率分布,通常用来评估一个统计模型的好坏,尤其是在方差分析和卡方检验中。
卡方分布仅有一个参数:
卡方分布的概率密度函数(PDF)定义为:
f
(
x
∣
ν
)
=
1
2
ν
/
2
Γ
(
ν
/
2
)
x
ν
2
−
1
e
−
x
2
for
x
>
0
f(x|\nu) = \frac{1}{2{\nu/2}\Gamma(\nu/2)}x{\frac{\nu}{2}-1}e^{-\frac{x}{2}} \quad \text{for } x > 0
f(x∣ν)=2ν/2Γ(ν/2)1x2ν−1e−2xfor x>0
其中:
卡方分布的几个重要性质包括:
卡方分布经常用在以下统计学场景中:
在实际应用中,卡方分布常与其他统计量联合使用,例如在线性回归中的F检验,实际上是将两个卡方分布的比率进行比较,以判断模型中的解释变量是否对响应变量有显著的解释能力。
t分布(又称学生t分布)是一种概率分布,由威廉·戈塞特在1908年发表,因其匿名笔名“Student”而得名。这种分布在样本量较小(例如小于30)或总体标准差未知时,用于估计正态分布总体的均值非常有用。t分布是对正态分布的一种调整,用于考虑小样本量带来的不确定性。
t分布具有以下特性:
t分布的概率密度函数(PDF)定义如下:
f
(
t
∣
ν
)
=
Γ
(
(
ν
+
1
)
/
2
)
ν
π
Γ
(
ν
/
2
)
(
1
+
t
2
ν
)
−
(
ν
+
1
)
/
2
f(t|\nu) = \frac{\Gamma((\nu+1)/2)}{\sqrt{\nu\pi}\Gamma(\nu/2)} \left(1+\frac{t^2}{\nu}\right){-(\nu+1)/2}
f(t∣ν)=νπΓ(ν/2)Γ((ν+1)/2)(1+νt2)−(ν+1)/2
其中:
t分布的性质:
在统计分析中,t分布的应用包括:
t分布是统计学中处理小样本数据分析的关键工具,特别是在总体标准差未知的情况下。随着样本量的增加,t分布越来越接近正态分布。在实际应用中,当样本量大于30时,t分布和正态分布之间的差异变得非常小,因此可以使用正态分布进行近似。
F分布(也称为斯涅德科尔(Snedecor)的F分布或方差比率分布)是一种连续概率分布,它经常用于方差分析(ANOVA),尤其是在处理两个独立估计的方差的比率时。F分布由两个不同自由度的卡方分布的比率得到。
F分布的概率密度函数(PDF)定义如下:
f
(
x
∣
d
1
,
d
2
)
=
(
d
1
x
)
d
1
d
2
d
2
(
d
1
x
+
d
2
)
d
1
+
d
2
x
B
(
d
1
2
,
d
2
2
)
f(x|d_1, d_2) = \frac{\sqrt{\frac{(d_1 x)^{d_1} d_2^{d_2}}{(d_1 x + d_2)^{d_1 + d_2}}}}{x B\left(\frac{d_1}{2}, \frac{d_2}{2}\right)}
f(x∣d1,d2)=xB(2d1,2d2)(d1x+d2)d1+d2(d1x)d1d2d2
这里:
F分布的一些性质包括:
在实际应用中,F分布主要用于以下几种统计检验和分析方法:
由于F分布处理的是方差的比率,它在假设两个总体具有正态分布且方差相等的前提下尤其有用。当通过F检验确定两个总体的方差不等时,对应的假设被拒绝,这在设计实验和分析实验数据时非常重要。此外,在执行多重比较时,控制整体错误率也经常用到F分布。