• 无偏估计和最小方差无偏估计简介


    无偏估计和最小方差无偏估计

    无偏估计:Unbiased Estimation
    最小方差无偏估计: Minimum Variance Unbiased Estimation (MVU)

    前言

    在正式开始介绍之前,我们需要熟悉一些基本概念。

    (1) 什么是参数估计
    站在数学角度,我们有一个数据集合 { x [ 0 ] , x [ 1 ] , ⋯ x [ N − 1 ] } \{x[0],x[1],\cdots x[N-1]\} {x[0],x[1],x[N1]},包含 N N N点数据,这 N N N个点的数据依赖于参数 θ \theta θ。我们希望能够通过这 N N N点数据来估计出 θ \theta θ,或者用数学语言描述为:定义一个估计器(estimator)
    θ ^ = g ( x [ 0 ] , x [ 1 ] , ⋯ x [ N − 1 ] ) (1) \hat{ \theta} = g \left( x[0] ,x[1],\cdots x[N-1] \right) \tag{1} θ^=g(x[0],x[1],x[N1])(1)

    其中 g g g是一个函数,因此估计器其实就是一个函数。这便是参数估计(parameter estimation)问题的本质。

    强调:估计器(estimator) θ ^ \hat{\theta} θ^ 是一个随机变量。这相对比较容易理解,首先数据本身是随机的(data are inherently random),从式(1)可以看出, θ ^ \hat{\theta} θ^是多个随机变量经过一个固定映射关系得到的,因此 θ ^ \hat{\theta} θ^本身也是一个随机变量。( ⇐ \Leftarrow The estimate of θ \theta θ is the value of θ \theta θ obtained for a given realization of x \boldsymbol{x} x)。另外,要区分 θ ^ \hat{\theta} θ^ θ \theta θ θ ^ \hat{\theta} θ^一定是随机变量,但是是否把 θ \theta θ看作随机变量则将估计问题划分为两种类型:

    (2) 数学意义上,我们如何整体性地看待参数估计问题
    整体意义上去理解,我们可以参数估计问题,分解为以下两个大步骤:
    Step-1: 首先要做的就是对数据进行建模(model the data),因为数据固有的随机性,我们使用概率密度函数(PDF)来描述数据这种的随机性质,写为 p ( x [ 0 ] , x [ 1 ] , ⋯ x [ N − 1 ] ; θ ) p\left( x[0] ,x[1],\cdots x[N-1]; \theta \right) p(x[0],x[1],x[N1];θ)。我们将这个概率密度函数解释为:The PDF is parameterized by the unknown parameter θ \theta θ, i.e., we have a class(family) of PDFs where each one is different due to a different value of θ \theta θ.

    例: 如果 N = 1 ,   θ N=1, \ \theta N=1, θ表示均值,那么描述数据的PDF可能是
    p ( x [ 0 ] ; θ ) = 1 2 π σ 2 exp ⁡ ( − 1 2 σ 2 ( x [ 0 ] − θ ) 2 ) (2) p(x[0]; \theta) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left ( - \frac{1}{2 \sigma^2} (x[0] - \theta)^2 \right) \tag{2} p(x[0];θ)=2πσ2 1exp(2σ21(x[0]θ)2)(2)

    在实际问题当中,我们可能不会给一个确定的PDF,这时我们必须要选择一个不仅与问题约束契合,而且数学上方便展开计算的PDF进行建模。因为任何估计器的性能都强烈依赖于PDF的假设。

    一般地,我们将估计器分为两类
    { classical estimation: the parameters of interest are assumed to be deterministic but unknown Baysian estimation: the parameter we are attempting to estimate is viewed as a *realization* of the random variable  θ

    {classical estimation: the parameters of interest are assumed to be deterministic but unknownBaysian estimation: the parameter we are attempting to estimate is viewed as a *realization* of the random variable θ" role="presentation" style="position: relative;">{classical estimation: the parameters of interest are assumed to be deterministic but unknownBaysian estimation: the parameter we are attempting to estimate is viewed as a *realization* of the random variable θ
    {classical estimation: the parameters of interest are assumed to be deterministic but unknownBaysian estimation: the parameter we are attempting to estimate is viewed as a *realization* of the random variable θ

    为了与式(2)区分,在贝叶斯估计中,我们用联合PDF(joint PDF)来描述数据
    p ( x , θ ) = p ( x ∣ θ ) p ( θ ) (3) p(\boldsymbol{x}, \theta) = p(\boldsymbol{x}| \theta) p(\theta) \tag{3} p(x,θ)=p(xθ)p(θ)(3)

    其中 p ( θ ) p(\theta) p(θ)是先验概率。从先验概率可以看出,两种估计方式的区别就在于是否把参数 θ \theta θ看作是随机变量,如果是随机变量,那么就有先验概率。

    另外,我们还要能够区分两种PDF: p ( x ; θ ) p(\boldsymbol{x}; \theta) p(x;θ) p ( x ∣ θ ) p(\boldsymbol{x}|\theta) p(xθ)
    { p ( x ; θ ) : a family of PDFs p ( x ∣ θ ) : a conditional PDF

    {p(x;θ):a family of PDFsp(x|θ):a conditional PDF" role="presentation" style="position: relative;">{p(x;θ):a family of PDFsp(x|θ):a conditional PDF
    {p(x;θ):a family of PDFsp(xθ):a conditional PDF

    Step-2: 一旦确定好PDF,问题就转变成,我们基于该PDF来确定一个如式(1)所示的估计器。补充:估计器也能将参数作为自变量,但要求该参数是已知的。

    (3) Important Points
    An estimator is a random variable. As such, its performance can only be completely described statistically or by its PDF.

    无偏估计

    我们主要关注对未知确定(unknown but deterministic)参数的估计。

    无偏估计的定义
    对于任意未知但确定的参数 θ \theta θ,如果估计器 θ ^ \hat{\theta} θ^ 满足:
    E p ( x ; θ ) ( θ ^ ) = θ      ∀ θ (4) \mathbb{E}_{p(\boldsymbol{x}; \theta)} (\hat{\theta}) = \theta \ \ \ \ \forall \theta \tag{4} Ep(x;θ)(θ^)=θ    θ(4)

    其中估计器 θ ^ = g ( x [ 0 ] , x [ 1 ] , ⋯ x [ N − 1 ] ) \hat{\theta}=g \left( x[0] ,x[1],\cdots x[N-1] \right) θ^=g(x[0],x[1],x[N1])

    更具体地写为:
    E p ( x ; θ ) ( θ ^ ) = ∫ θ ^ p ( x ; θ ) d x = ∫ g ( x ) p ( x ; θ ) d x = θ ^ ,    ∀ θ (5)

    Ep(x;θ)(θ^)=θ^p(x;θ)dx=g(x)p(x;θ)dx=θ^,  θ" role="presentation" style="position: relative;">Ep(x;θ)(θ^)=θ^p(x;θ)dx=g(x)p(x;θ)dx=θ^,  θ
    \tag{5} Ep(x;θ)(θ^)=θ^p(x;θ)dx=g(x)p(x;θ)dx=θ^,  θ(5)

    如果一个估计器是有偏估计,我们用下式对其进行描述
    E ( θ ^ ) = θ + b ( θ ) (6) \mathbb{E}(\hat{\theta}) = \theta + b (\theta) \tag{6} E(θ^)=θ+b(θ)(6)

    其中 b ( θ ) = E ( θ ^ ) − θ b (\theta) = \mathbb{E}(\hat{\theta}) - \theta b(θ)=E(θ^)θ被称为估计器的偏置(bias of the estimator)

    最小方差准则

    在寻找最优估计器的时候,我们经常会采用一些最优性准则,其中一种很自然的准则就是最小均方误差(MSE: Mean Square Error),定义为:
    mse ( θ ^ ) = E [ ( θ ^ − θ ) 2 ] (7) \text{mse} (\hat{\theta}) = \mathbb{E} \left [ (\hat{ \theta} - \theta)^2 \right ] \tag{7} mse(θ^)=E[(θ^θ)2](7)

    但不幸的是,采用这种自然的MSE准则会导致估计器无法实现,因为估计器不能仅仅使用数据来表征。为了理解这个问题,我们将MSE写为
    mse ( θ ^ ) = E { [ ( θ ^ − E [ θ ^ ] ) + ( E [ θ ^ − θ ) ] ] 2 } = var [ θ ^ ] + [ E [ θ ^ ] − θ ] 2 = var [ θ ^ ] + b 2 ( θ ) (8)

    mse(θ^)=E{[(θ^E[θ^])+(E[θ^θ)]]2}=var[θ^]+[E[θ^]θ]2=var[θ^]+b2(θ)" role="presentation" style="position: relative;">mse(θ^)=E{[(θ^E[θ^])+(E[θ^θ)]]2}=var[θ^]+[E[θ^]θ]2=var[θ^]+b2(θ)
    \tag{8} mse(θ^)=E{[(θ^E[θ^])+(E[θ^θ)]]2}=var[θ^]+[E[θ^]θ]2=var[θ^]+b2(θ)(8)

    式(8)说明了MSE包含了估计器产生的方差,以及偏执(bias)。因此如果我们依据最小MSE准则来设计估计器,那么等价于最小化 var [ θ ^ ] + b 2 ( θ ) \text{var} [\hat{\theta}] + b^2 (\theta) var[θ^]+b2(θ),这牵涉到了所要估计的参数 θ \theta θ,所以是不可实现的。

    换一个角度来考虑,如果我们要求估计器是无偏的,那么这时最小化MSE就等价于最小化方差。这样的估计器,我们称之为:最小方差无偏估计器( MVU )。

    寻找最小方差无偏估计器

    事实上,即使MVU估计器存在,我们也不一定能找到它。我们可能可以通过以下三种方式来寻找MVU估计器

    • 1.Determine the Cramer-Rao lower bound (CRLB) and check to see if some estimator satisfies it.
    • 2.Apply the Rap_Blackwell-Lehmann-Scheffe (RBLS) theorem.
    • 3.Further restrict the class of estimators to be not only unbiased but also linear. Then, find the minimum variance estimator within this restricted calss.

    Approach 1 and 2 may produce the MVU estimator, while 3 will yield it only if the MVU estimator is linear in the data.

    参考

    [1] Steven, Kay. (2001). Fundamentals Of Statistical Signal Processing.

  • 相关阅读:
    出现 CUDA out of memory 的解决方法
    软件测试
    数据结构-链表(3)
    13个小众有趣的网站,只有程序员才看得懂
    C# 在流行度指数上将超过Java
    limit坑位
    简单实现Springcloud跨项目相互调用
    Matlab论文插图绘制模板第125期—特征渲染的三维气泡图
    安装elasticsearch、kibana
    腾讯云服务器4核8G性能,和阿里云比怎么样?
  • 原文地址:https://blog.csdn.net/weixin_43413559/article/details/126042228