• 概率论和数理统计(三)数理统计基本概念


    前言

    “概率论”是给定一个随机变量X的分布F(x),然后求某事件A概率 P ( x ∈ A ) P(x \in A) P(xA)或者随机变量X的数字特征.“统计”是已知一组样本数据 { x 1 , x 2 , . . . x n } \{x_1,x_2,...x_n\} {x1,x2,...xn},去求分布F(x)

    统计的基本概念

    在统计中,总体X的分布要么未知,要么分布形式已知但参数未知,需要抽取部分个体来推断。

    总体与样本

    在这里插入图片描述

    代表性的进一步解释: X i X_i Xi与总体 X X X 同分布。保证总体中每个值都有同样的机会被抽到

    关于样本是谁随机变量,还是值?

    • 当代入总体分布函数时是值
    • 当样本分布函数(抽样分布)分析的时候是随机变量

    简单随机样本的性质

    在这里插入图片描述
    在这里插入图片描述

    统计量

    统计量来自总体一个样本,不含任何未知参数,完全由样本来确定,也就是说,根据样本可以求出我们需要的任何一个统计量的值。
    在这里插入图片描述

    常用统计量

    在这里插入图片描述

    为什么样本方差的分母是 n-1?
    只要采样数小于个体数,采样本身就会引入分布的误差,因此需要进行较正。
    采样带来的误差就是原来分布的强化,是可以计算的n/(n-1)的修正并非随便给的
    在这里插入图片描述
    如图 E [ S 2 ] ∗ n / ( n − 1 ) E[S^2]*n/(n-1) E[S2]n/(n1)是正常的方差,所以修正过的样本方差 = 末修正过的样本方差*n/(n-1),

    抽样分布

    样本统计量的分布称为抽样分布.他通常也是随机变量X的分布函数.抽样分布中,最常用的分布其实是4种:z 分布(即正态分布)、卡方分布、t分布、F分布。

    卡方分布

    在这里插入图片描述

    在这里插入图片描述

    • 关于标准正态N(0,1):EX=0,DX=1
    • 根据总体标准正态,求得样本卡方分布: EX=n,DX=2n
    • ∑ i = 1 n E ( X i 2 ) = ∑ i = 1 n E ( ( X i − X ˉ + X ˉ ) 2 ) \sum_{i=1}^nE(X_i^2) = \sum_{i=1}^nE((X_i-\bar{X}+\bar{X})^2) i=1nE(Xi2)=i=1nE((XiXˉ+Xˉ)2)
    • = ∑ i = 1 n E ( ( X i − X ˉ ) 2 + 2 X i X ˉ − X ˉ 2 ) ) = \sum_{i=1}^nE((X_i-\bar{X})^2+2X_i\bar{X}-\bar{X}^2)) =i=1nE((XiXˉ)2+2XiXˉXˉ2))
    • = ∑ i = 1 n [ D ( X i ) + E 2 ( X i ) ] = \sum_{i=1}^n[D(X_i)+E^2(X_i)] =i=1n[D(Xi)+E2(Xi)]

    参数估计

    主要解决总体分布形式已知但参数未知,即总体 X X X分布函数 F ( x , θ ) F(x, \theta) F(x,θ) 形式已知,估计未知参数 θ \theta θ

    点估计

    在这里插入图片描述

    矩估计法

    在这里插入图片描述
    在这里插入图片描述

    极大似然估计

    在这里插入图片描述

    极大似然估计以“我抽样出来的情况就是最大概率”的情况为前提,求参数 θ \theta θ的最大值.

    在这里插入图片描述

    估计量的优良性评判

    既然是估计量,那与真实值之间就存在误差,因此需要判断估计量是否满足我们的要求,可以通过下面的几个准则来进行评判。
    在这里插入图片描述
    在这里插入图片描述

    区间估计

    在这里插入图片描述

    矩估计法的前提是基于“抽样分布”和“主分布”是一致的情况下. 区间估计法则是表示定置水平一致的情况下,你去构建枢轴变量(带未知数统计量)和抽样分布,最终确定未知量

    定置水平的理解: 你要估计全班的身高, 抽样了10得出了身高区间(a,b),然后给出了全部97%的人,身高在(a,b).97%就属于定置水平

    在这里插入图片描述

    x ˉ − u σ / n {{\bar{x}-u} \over {\sigma}/\sqrt{n}} σ/n xˉu正态分布 N ( u , σ 2 ) N(u,\sigma^2) N(u,σ2)转为标准正态 N ( 0 , 1 ) N(0,1) N(0,1)的随机变量X的转换关系

    统计量参考

    在这里插入图片描述

    假设检验

    假设检验的基本原理:给定一个假设 H 0 H_0 H0,为了检验 H 0 H_0 H0是否正确,首先假定 H 0 H_0 H0是正确的,然后根据抽取到的样本来判断是接收还是拒绝该假设。如果样本中出现了不合理的观测值,应该拒绝 H 0 H_0 H0,否则应该接受假设

    1. 观测值:即样本的统计量
    2. “不合理”指的是小概率事件发生,常用 α \alpha α来表示这个小概率,也被称为检验的显著性水平 (与点估计中区间估计中的信置水平,差不多的功能).

    定义

    拒绝域与临界值

    在这里插入图片描述

    从某种意义上说,设计一个检验,本质上就是找到一个恰当的拒绝域W,使得当 H 0 H_0 H0成立时
    P ( x ∈ W ∣ H 0 成立 ) = α P(x \in W|H_0成立)=\alpha P(xWH0成立)=α
    即把“小概率事件”视为与拒绝域 W W W是等价的

    假设检验存在两类错误

    在这里插入图片描述

    • 通常只规定 α \alpha α的取值,即控制犯第I类错误的概率
    • 使犯第二类错误的概率尽可能小,要使两者犯错的概率都小,就必须增大样本容量

    参数假设检验

    在这里插入图片描述

    在这里插入图片描述

    统计量参考

    在这里插入图片描述

    关于为什么总分布都是以正态分布?

    因为中心极限定理。自然界的很多现象都是由无数微小因素的叠加而产生的,而无论这种因素服从何种分布,在大尺度上来观察,其结果都应大致符合正态分布。
    网上有一篇文章叫《正态分布的前世今生》,非常推荐学习概率统计的人读一读。

    卡方拟合优度检验

    前面的假设检验,都是通过抽样来对总体参数进行的假设检验,且集中在正态总体下的参数假设检验。但在实际问题中,可能存在我们对要研究的总体,并不知晓是什么分布。卡方拟合优度检验就是对未知总体的分布提出一个假设,例如:假设该总体服从正态分布、泊松分布、指数分布、二项分布等,根据样本获得的信息,检验假设是否成立。

    拟合优度是指:抽样获得的观测频次与原假设分布中理论频次(也叫期望频次)的差异,若观测频次和理论频次越接近,意味着符合程度越好,即拟合优度更好。

    在这里插入图片描述
    分布拟合优度检验所采用的检验统计量渐近 χ 2 \chi^2 χ2分布

    • 使用了大样本的性质,所以要求样本容量n足够大
    • 各区间的理论频数 n p i np_i npi不能太小
    简单的例子

    在这里插入图片描述
    在这里插入图片描述

    主要参考

    为什么样本方差(sample variance)的分母是 n-1
    数理统计学习笔记01:数理统计的基本概念
    数理统计学习笔记03:参数的点估计
    第六章 数理统计的基本概念
    第七章 参数估计
    期末复习——概率论与数理统计基本概念总结
    第八章 假设检验
    数理统计8.5-卡方拟合优度检验

  • 相关阅读:
    小红书达人怎么对接,博主沟通流程汇总!
    C#/.NET/.NET Core优秀项目和框架精选(坑已挖,欢迎大家踊跃提交PR或者Issues中留言)
    【Android】关于touch设备TOOL_TYPE_STYLUS
    IntelliJ IDEA 2022.2 正式发布:已完全支持 Spring 6 和 Spring Boot 3了吗?
    GPT-4 来了!这些开源的 GPT 应用又要变强了
    剑指 Offer II 092. 翻转字符 / 剑指 Offer II 093. 最长斐波那契数列
    深入理解Angular模块化概念
    浅谈Java语法中的字符串:String
    HashMap关键就这几个点,你Get到了?
    NX二次开发-挂菜单栏.men和工具条.rtb及菜单中文汉字乱码问题
  • 原文地址:https://blog.csdn.net/y3over/article/details/134293692