MSE=MLE, 似然函数和极大似然估计的关系

MSE=MLE

MSE=MLE
似然函数
似然函数和极大似然估计的关系

MSE=MLE

在线性回归中，当误差（或残差）被假设为正态分布时，最小均方误差（MSE）的最小化与最大似然估计（MLE）是等价的。
为了理解这一点，让我们从最大似然估计开始：[下面的 $\beta$ 其实就是我们平时常用的符号 $\theta$ ,即要学习的参数]

考虑一个简单的线性回归模型：
$\beta_0 + \beta_1 x + \epsilon$
其中， $\epsilon$ 是误差项，并假设它遵循正态分布，即： $\epsilon\sim\mathcal{N}(0,\sigma^2)$
这意味着给定输入 $x$ 和参数 $\beta_0, \beta_1$ ，输出 $y$ 的条件概率分布是:
$\mid x \sim N\left(\beta_0+\beta_1 x, \sigma^2\right)$

因此，对于给定的数据点 $\left(x_i, y_i\right)$ ，似然函数为:
$L\left(\beta_0, \beta_1, \sigma^2 \mid x_i, y_i\right)=\frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\frac{\left(y_i-\beta_0-\beta_1 x_i\right)^2}{2 \sigma^2}}$

总体似然函数为所有数据点的乘积:
$L\left(\beta_0, \beta_1, \sigma^2\right)=\prod_{i=1}^n L\left(\beta_0, \beta_1, \sigma^2 \mid x_i, y_i\right)$

通常，为了方便计算，我们考虑对数似然函数 (log-likelihood) :
$\log L\left(\beta_0, \beta_1, \sigma^2\right)=-\frac{n}{2} \log \left(2 \pi \sigma^2\right)-\frac{1}{2 \sigma^2} \sum_{i=1}^n\left(y_i-\beta_0-\beta_1 x_i\right)^2$

为了最大化对数似然函数，我们需要最小化 $\sum_{i=1}^n\left(y_i-\beta_0-\beta_1 x_i\right)^2$ ，这正是最小均方误差。

似然函数

似然函数是一个统计概念，用于描述在给定某些参数下观察到数据的可能性 (或"似然")。它是一种衡量模型与观测数据匹配程度的方法。

具体来说，假设我们有一个概率模型，它由一组参数 $\boldsymbol{\theta}$ 定义，并且我们有一些观察到的数据 $\boldsymbol{X}$ 。似然函数 $L(\boldsymbol{\theta} \mid \boldsymbol{X})$ 表示在给定参数 $\boldsymbol{\theta}$ 的情况下，观察到数据 $\boldsymbol{X}$ 的可能性。

数学上，如果 $p(\boldsymbol{X} \mid \boldsymbol{\theta})$ 是在给定参数 $\boldsymbol{\theta}$ 下数据 $\boldsymbol{X}$ 的概率分布，则似然函数可以表示为: $L(\boldsymbol{\theta} \mid \boldsymbol{X})=p(\boldsymbol{X} \mid \boldsymbol{\theta})$

值得注意的是，虽然似然函数和概率函数在形式上看起来相似，但它们的解释和用途是不同的。概率函数描述了在给定参数下观察到某一特定数据的概率; 而似然函数描述的是在观察到某一特定数据时，不同参数的可能性或相对合理性。

在统计学中，最大似然估计 (MLE) 是一种常用的方法，它的目标是找到一组参数 $\boldsymbol{\theta}$ ，使得似然函数达到最大值，即这组参数最能解释观察到的数据。

似然函数 $L(\theta|X)$ 是参数 $\theta$ 的函数。给定观察到的数据 $X$ ，似然函数描述的是在不同的参数 $\theta$ 值下产生这些观测数据的“可能性”或“似然度”。简单来说，似然函数就是表示当参数为 $\theta$ 时，观测数据 $X$ 出现的概率。

似然函数和极大似然估计的关系

当然可以，让我们通过一个简单的例子来解释似然函数和极大似然估计 (MLE) 之间的关系。

例子：抛硬币
假设我们有一个可能是不均匀的硬币，并且我们想要估计这个硬币正面朝上的概率 $p$ 。我们抛这个硬币10次，并观察到了7次正面和3次反面。

似然函数:

似然函数描述了给定一个特定的 $p$ (硬币正面朝上的概率)，观察到当前数据（7次正面和3 次反面) 的“可能性”或“似然”。

假设每次抛硬币都是独立的，那么观察到7次正面和3次反面的概率是:
$L(p)=p^7(1-p)^3$

这就是似然函数。注意，这个函数是关于 $p$ 的，表示在不同的 $p$ 值下，观察到这个特定结果的可能性。
2. 极大似然估计 (MLE)：

MLE 的目的是找到一个 $p$ 的值，使得上面的似然函数 $L (p)$ 最大。换句话说，我们想找到一个 $p$ 的值，使得在这个 $p$ 下，观察到7次正面和3次反面的可能性最大。

为了找到这个值，我们可以对似然函数求导，并找到导数为 0 的点。具体来说，我们通常对对数似然函数求导，因为对数函数可以将乘法转化为加法，使得计算更简单。

当我们求解这个问题时，会发现最大似然估计的结果为:
$\hat{p}_{M L E}=\frac{7}{10}=0.7$

这意味着，根据我们的观测数据，最有可能的硬币正面朝上的概率是0.7。
总结一下，似然函数描述了在给定模型参数时，观察到某一特定数据的可能性，而极大似然估计是一种方法，用于找到使似然函数最大的模型参数值。在这个例子中，模型参数就是硬币正面朝上的概率 $p$ 。

相关阅读:
python笔记--列表、字典、元组和集合
Linux命令(104)之date
视频编解码 — SVC可伸缩性
tomcat服务搭建（多实例部署和Nginx+Tomcat负载均衡、动静分离）
自媒体播放量越来越低，还有必要做吗？
基于C语言设计的学生成绩排名系统
k8s部署redis哨兵
Android后退堆栈
KBPC1010-ASEMI液压升降装置方案整流桥10A 1000V
2022年10月21日数据库实验内容

原文地址：https://blog.csdn.net/weixin_43845922/article/details/133921538