• 贝叶斯风险


    贝叶斯风险

    今天介绍贝叶斯风险。最近读Lehmann的Theory of Point Estimation,读的举步维艰,很多地方还要查资料予以补充才能看懂。

    Definition 1. 估计 θ ^ \hat{\theta} θ^风险(risk)定义为:
    R ( θ , θ ^ ) = E θ [ L ( θ , θ ^ ) ] = ∫ x L ( θ , θ ^ ) f ( x ; θ ) d x R(\theta, \hat{\theta})=\mathbb{E}_\theta[L(\theta, \hat{\theta})]=\int_xL(\theta, \hat{\theta})f(x;\theta)dx R(θ,θ^)=Eθ[L(θ,θ^)]=xL(θ,θ^)f(x;θ)dx
    L ( θ , θ ^ ) L(\theta, \hat{\theta}) L(θ,θ^)为代价函数,一般选用凸的损失函数,例如平方损失。其中 θ ^ \hat{\theta} θ^是估计器, f ( x ; θ ) f(x;\theta) f(x;θ)是概率密度函数。

    当选用平方损失的时候,风险就是均方误差 M S E MSE MSE
    R ( θ , θ ^ ) = E θ [ ( θ − θ ^ ) 2 ] R(\theta, \hat{\theta})=\mathbb{E}_\theta[(\theta-\hat{\theta})^2] R(θ,θ^)=Eθ[(θθ^)2]
    此时, R ( θ , θ ^ ) R(\theta,\hat{\theta}) R(θ,θ^)是参数 θ \theta θ的函数。如果要以 M S E MSE MSE比为目标寻找一个估计,最直观的想法在 θ \theta θ的每一个点上都达到最小值,称为一致风险最优性准则,这必须在某些限制下进行,例如无偏性。

    bayes risks是指如下风险:
    ∫ Θ R ( θ , θ ^ ) d Λ ( θ ) \int_\Theta R(\theta, \hat{\theta})d\Lambda(\theta) ΘR(θ,θ^)dΛ(θ)
    其中, Λ \Lambda Λ是参数的先验分布函数,满足 ∫ d Λ ( θ ) = 1 \int d\Lambda(\theta)=1 dΛ(θ)=1

    我理解的贝叶斯风险,是在参数先验分布的平均意义上估计的均方误差。

    Theorem 1. θ \theta θ的先验分布为 f ( θ ) f(\theta) f(θ);给定 Θ = θ \Theta = \theta Θ=θ X X X的分布是 P θ ( X ) P_\theta(X) Pθ(X),密度表示为 f ( x ∣ θ ) f(x|\theta) f(xθ)。若(1)存在一个风险有限的估计 δ 0 ( x ) \delta_0(x) δ0(x);(2)对(几乎)所有的 x x x,都存在 δ Λ ( x ) \delta_{\Lambda}(x) δΛ(x),使得
    ∫ θ L ( θ , θ ^ ) f ( θ ∣ x ) d θ \int_\theta L(\theta, \hat{\theta})f(\theta|x)d\theta θL(θ,θ^)f(θx)dθ
    达到极小值,则 δ Λ ( x ) \delta_{\Lambda}(x) δΛ(x)是一个贝叶斯估计(使贝叶斯风险最小的估计)。

    证明:
    ∫ Θ R ( θ , θ ^ ) d Λ ( θ ) = ∫ θ ∫ x L ( θ , δ ( x ) ) f ( x ∣ θ ) d x f ( θ ) d θ = ∫ x ∫ θ L ( θ , δ ( x ) ) f ( θ ∣ x ) d θ f ( x ) d x

    ΘR(θ,θ^)dΛ(θ)=θxL(θ,δ(x))f(x|θ)dxf(θ)dθ=xθL(θ,δ(x))f(θ|x)dθf(x)dx" role="presentation" style="position: relative;">ΘR(θ,θ^)dΛ(θ)=θxL(θ,δ(x))f(x|θ)dxf(θ)dθ=xθL(θ,δ(x))f(θ|x)dθf(x)dx
    ΘR(θ,θ^)dΛ(θ)=θxL(θ,δ(x))f(xθ)dxf(θ)dθ=xθL(θ,δ(x))f(θx)dθf(x)dx
    如果能够使得对 ∀ x \forall x x ∫ θ L ( θ , θ ^ ) f ( θ ∣ x ) d θ \int_\theta L(\theta, \hat{\theta})f(\theta|x)d\theta θL(θ,θ^)f(θx)dθ都最小,则 E x [ ∫ θ L ( θ , θ ^ ) f ( θ ∣ x ) d θ ] \mathbb{E}_x[\int_\theta L(\theta, \hat{\theta})f(\theta|x)d\theta] Ex[θL(θ,θ^)f(θx)dθ]也最小,从而贝叶斯风险最小。

    这个定理导出了对任意给定 x x x,应该选择怎样的估计器。

    Example 1. 当 L ( θ , δ ( x ) ) = ( θ − δ ( x ) ) 2 L(\theta,\delta(x))=(\theta-\delta(x))^2 L(θ,δ(x))=(θδ(x))2时, ∀ x \forall x x,最小化贝叶斯风险的贝叶斯估计器是
    δ ( x ) = E [ θ ∣ x ] \delta(x)=E[\theta|x] δ(x)=E[θx]
    这是后验分布均值。其实当我们用MAP(最大后验估计)时,用的是后验众数,而不是后验均值,因此MAP并不是贝叶斯估计,也就没有最优化贝叶斯风险。

  • 相关阅读:
    DEFORMABLE DETR学习笔记
    Centos7下zabbix安装与部署,设置中文(保姆级图文)【网络工程】
    1103springcloud复习,eureka注册中心的使用
    Spring Boot 的核心注解是哪个?它主要由哪几个注解组成的?
    【三维点云】CC教程1(Context Capture)
    注解与反射机制
    Ubuntu更新镜像源切换
    《好代码 坏代码》阅读
    go语言之MongoDB的插入查找更新和删除
    [html] 动态炫彩渐变背景
  • 原文地址:https://blog.csdn.net/RSstudent/article/details/126944091