正态分布的推导笔记

本篇文章来源于知乎上一篇关于正态分布推导的文章，醍醐灌顶，因此记录下笔记

在这里插入图片描述

from Introduction To The Normal Distribution (Bell Curve), BySaul Mcleod, PhD, https://www.simplypsychology.org/normal-distribution.html

假设有误差概率密度函数 $f (t)$ ，现在有 $n$ 个独立观测的值 $x_1$ ， $x_2$ ， $\cdots$ ， $x_n$ ，假设真值为 $\mu$ ，那么误差为：

ε 1 ε 2 ε n = x 1 - μ = x 2 - μ ⋮ = x n - μ

ε_{1} ε_{2} ε_{n} = x_{1} - μ = x_{2} - μ ⋮ = x_{n} - μ

根据生活经验，这个误差 $\varepsilon$ ，在做大量的观测下，其大部分的数值应在 $0$ 附近范围波动，且出现的频数较多。而误差大的观测值，相应的 $|\varepsilon|$ 也应很大，出现的频数也应该较小。做极大似然函数：

L (μ) = \prod i = 1 n f (ε i) = f (x 1 - μ) f (x 2 - μ) \dots f (x n - μ)

L (μ) = i = 1 \prod n f (ε_{i}) = f (x_{1} - μ) f (x_{2} - μ) \dots f (x_{n} - μ)

对 $L(\mu)$ 取自然对数：

ln [L (μ)] = ln [\prod i = 1 n f (ε i)] = ln [f (x 1 - μ) f (x 2 - μ) \dots f (x n - μ)] = ln [f (x 1 - μ)] + ln [f (x 2 - μ)] + \dots + ln [f (x n - μ)] = \sum i = 1 n ln [f (x i - μ)]

ln [L (μ)] = ln [i = 1 \prod n f (ε_{i})] = ln [f (x_{1} - μ) f (x_{2} - μ) \dots f (x_{n} - μ)] = ln [f (x_{1} - μ)] + ln [f (x_{2} - μ)] + \dots + ln [f (x_{n} - μ)] = i = 1 \sum n ln [f (x_{i} - μ)]

为了得到 $\ln [L(\mu)]$ 的最大值，对其 $\ln [L(\mu)]$ 求偏导并令其等于 $0$

\frac{\partial ln [ L ( μ )]}{\partial μ} = \frac{\partial \sum _{i = 1}^{n} ln [ f ( x _{i} - μ ) ]}{\partial μ} = - i = 1 \sum n \frac{f ^{'} ( x _{i} - μ )}{f ( x _{i} - μ )} = 0

令 $g(t)=\frac{f^{\prime}(t)}{f(t)}$ ，则上述式子变成：

$\sum_{i=1}^{n} g\left(x_{i}-\mu\right)=0$

到了这一步后，精彩的部分就开始来了，这也是高斯的高明之处，他认为 $\mu$ 的无偏估计应为 $\bar{x}$ ，则原式子变为

$\sum_{i=1}^{n} g\left(x_{i}-\bar{x}\right)=0$

其中，

$\bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}$

解上述方程，对每个 $x_i$ 求偏导，比如对 $x_1$ 求偏导，可得如下方程：

\frac{\partial \sum _{i = 1}^{n} g ( x _{i} - x ˉ )}{\partial x _{1}} = \frac{\partial \sum _{i = 1}^{n} g ( x _{i} - \frac{1}{n} \sum _{i = 1}^{n} x _{i} )}{\partial x _{1}} = g^{'} (x_{1} - \overset{x}{ˉ}) (1 - \frac{1}{n}) + g^{'} (x_{2} - \overset{x}{ˉ}) (- \frac{1}{n}) + \dots + g^{'} (x_{n} - \overset{x}{ˉ}) (- \frac{1}{n}) = 0

将 $g^{\prime}\left(x_{i}-\bar{x}\right)$ 看做未知数，把上述个齐次线性方程组写成矩阵方程 $\boldsymbol{A x}=\mathbf{0}$ 的形式：

$\left(1−1n−1n⋯−1n−1n1−1n⋯−1n⋮⋮⋮⋮−1n−1n−1n1−1n$

\right)\left(

\right)=\left(

\right)

1 - \frac{1}{n} - \frac{1}{n} ⋮ - \frac{1}{n} - \frac{1}{n} 1 - \frac{1}{n} ⋮ - \frac{1}{n} \dots \dots ⋮ - \frac{1}{n} - \frac{1}{n} - \frac{1}{n} ⋮ 1 - \frac{1}{n} g^{'} (x_{1} - \overset{x}{ˉ}) g^{'} (x_{2} - \overset{x}{ˉ}) ⋮ g^{'} (x_{n} - \overset{x}{ˉ}) = 00 ⋮ 0

对于上述方程组的系数矩阵 $\mathbf{M}$ ，将第 $\cdots,n$ 行依次加到第 $1$ 行，可得如下矩阵：

$\boldsymbol{M}=\left(1−1n−1n⋯−1n−1n1−1n⋯−1n⋮⋮⋮⋮−1n−1n−1n1−1n$

\right) \rightarrow\left(

\right)

M = 1 - \frac{1}{n} - \frac{1}{n} ⋮ - \frac{1}{n} - \frac{1}{n} 1 - \frac{1}{n} ⋮ - \frac{1}{n} \dots \dots ⋮ - \frac{1}{n} - \frac{1}{n} - \frac{1}{n} ⋮ 1 - \frac{1}{n} \to 0 - \frac{1}{n} ⋮ - \frac{1}{n} 0 1 - \frac{1}{n} ⋮ - \frac{1}{n} \dots \dots ⋮ - \frac{1}{n} 0 - \frac{1}{n} ⋮ 1 - \frac{1}{n}

第一行全为0，那么 $det{M}=0$ ，这只能说明方程组有无穷多解，具体还要算出 $\operatorname{rank}(\boldsymbol{M})$ 。最终，上述方程组的解可以写为

$\boldsymbol{X}=k\left(g′(x1−ˉx)g′(x2−ˉx)⋮g′(xn−ˉx)$

\right)=k\left(

\right)

X = k g^{'} (x_{1} - \overset{x}{ˉ}) g^{'} (x_{2} - \overset{x}{ˉ}) ⋮ g^{'} (x_{n} - \overset{x}{ˉ}) = k 11 ⋮ 1

即 $g^{\prime}\left(x_{1}-\bar{x}\right)=g^{\prime}\left(x_{2}-\bar{x}\right)=\cdots=g^{\prime}\left(x_{n}-\bar{x}\right)=k$ ，解微分方程，可得：

$g (t) = k t + b$

求解该微分方程：

\int \frac{f ^{'} ( t )}{f ( t )} d t = \int k t d t \Leftrightarrow \int \frac{d [ f ( t )]}{f ( t )} = \frac{1}{2} k t^{2} + c \Leftrightarrow ln [f (t)] = \frac{1}{2} k t^{2} + c \Leftrightarrow f (t) = K e^{\frac{1}{2} k t^{2}}

同时， $f (t)$ 为概率密度函数，那么其从 $-\infty$ 到 $\infty$ 的积分为 $1$ （概率密度的正则性）

\int_{- \infty}^{+ \infty} f (t) d t = \int_{- \infty}^{+ \infty} K e^{\frac{1}{2} k t^{2}} d t = K \int_{- \infty}^{+ \infty} e^{- \frac{t ^{2}}{2 σ ^{2}}} d t = K 2 σ [\int_{- \infty}^{+ \infty} e^{- (\frac{t}{2 σ})^{2}} d (\frac{1}{2 σ} t)] [2 σ \int_{- \infty}^{+ \infty} e^{- (\frac{s}{2 σ})^{2}} d (\frac{1}{2 σ} s)] = K 2 σ \int_{- \infty}^{+ \infty} \int_{- \infty}^{+ \infty} e^{- (u^{2} + v^{2})} d u d v = K 2 σ \int_{0}^{2 π} d θ \int_{0}^{+ \infty} e^{- r^{2}} r d r = K 2 σ π = 1

最终求得概率密度函数：

$f(t)=\frac{1}{\sqrt{2 \pi} \sigma} \mathrm{e}^{-\frac{1}{2}\left(\frac{t}{\sigma}\right)^{2}}$

相关阅读:
MySQL灵魂十连问
02.爱芳地产项目小程序全栈项目经验(已上线)
【Adobe Illustrator 教程】1. 认识AI并创建第一张画布
【数据湖架构】在 Azure Data Lake Storage (ADLS)二代上构建数据湖
Vue双向数据绑定原理(面试必问)
C++/QT + Mysql + Tcp 企业协作管理系统
程序员都看不懂的代码
Memory Management in Rust
GD32（5）文件系统
化学制品制造业数智化供应链管理系统：构建智能供应链体系，实现供应链协同响应

原文地址：https://blog.csdn.net/m0_51143578/article/details/132915387