PT_数理统计基本概念_抽样/常用统计量

PT_数理统计基本概念_抽样/常用统计量
文章目录
- 数理统计
  基本概念
  抽取假设
  简单随机抽样
  简单随机样本
  
  统计量
  常见的统计量
  样本数字特征
  
  性质
  样本平均值和样本方差于总体X的均值和方差的关系
  样本k阶矩与总体X的k阶矩的关系
  
  顺序统计量
  第k位顺序统计量
  最小顺序统计量
  最大顺序统计量
  分布函数
数理统计
- 概率论中,随机现象的统计规律是通过随机变量的概率分布(分布律/分布函数)来全面描述
  - 其中,概率分布通常是已知的
    或者是假设已知
  - 相关的推理是基于已知进行的
- 但是情况不总是已知的
  - 许多实际问题中,某个随机变量的服从的概率分布可能是未知的
  - 又或者,我们可以根据某些事实推断出分布的所属类型
    但是却不知道具体的分布函数(比如分布类型的参数)
    比如,我们知道元件的寿命是服从指数分布的,但是不知道指数分布的参数 $\lambda$ 的取值
- 确定某个分布类型下的分布的参数的问题,就是数理统计要研究的
  - 数理统计中,总是研究对象的全体中抽取一部分做观测/试验
    通过这些操作可获得一些信息
    再对这些信息进行加工,对总体做出判断
  - 在抽样的过程中,是具有随机性的,因此总含有一定程度的不确定性
  - 因此,需要对试验得出的信息进行加工处理,以便使得做出错误推断的概率尽可能小
  - 数理统计中,利用概率来衡量我们所做出的推断的可靠/可信程度
  - 伴随着一定概率的推断,称为**统计推断**
- 数理统计使用概率论和数学的方法,研究**收集(观察/试验)**带有随机误差的数据的方法
  - 获取总体的部分个体的信息
- 在设定的统计模型之下,对收集到的数据进行统计分析,对所研究的问题做出统计推断
- 统计推断主要包括:
  - 参数估计
  - 假设检验
基本概念
- 总体:
  - 研究对象的全体称为总体
- 个体:
  - 组成总体的元素称为个体
- 指标:
  - 个体具有若干指标,通常仅对问题相关的指标进行分析研究
- 指标与随机变量:
  - 有些指标是客观存在的,但是由于事先无法知道这些指标的值,所以将无法事先知道的指标视为随机变量
  - 总体和随机变量联系起来,就可以通过研究这个随机变量来研究总体
  - 随机变量的分布函数能够全面的描述随机变量的统计规律
    因此,对总体的研究的一个重要目的就是确定相应随机变量的分布
- 从数学的方式描述总体和个体
  - 总体:具有确定分布的随机变量X
    所有研究对象的某项数量指标X的全体称为总体
    可以用与总体相应的随机变量X或分布函数F(x)来表征总体
    比如:
    总体X
    总体F(x)
    X的概率分布F(x)称为总体分布
    X的数字特征为总体数字特征
  - 个体:随机变量的一个可能取值
抽取假设
- 假设从总体中抽取n个个体
  - 以 $X_1,X_2,\cdots,X_n$ 依次表示这n次试验的结果
    $X_i(i=1,2,\cdots,n)$ 的取值具有随机性,因此它们 $X_i$ 随机变量
    为了使得抽取的部分个体可以客观反映总体的特性,可采用简单随机抽样.
简单随机抽样
- 每个个体被抽中的机会是均等的
  - 保证了每次抽样的结果具有和总体X相同的分布
- 抽取一个个体后不影响总体
  - 保证各个各次抽样结果之间的独立性
简单随机样本
- 定义 $\mathscr{S}=\set{X_i}=(X_1,X_2,\cdots,X_n)$ ,是个n维随机变量; $\mathscr{S}中的元素$ 相互独立且都与总体X同分布,则称\mathscr{S}为总体X的简单随机样本,简称样本
  - 样本容量:样本中的随机变量 $X_i$ 数目n为样本容量
  - 样本值:样本的具体观测值 $s=(x_1,x_2,\cdots,x_n)$ 称为样本值
    独立观测值:这n个值也称为总体X的n个独立观测值
- 如果总体X的有分布F(x),样本\mathscr{S}的分布
  - $F_n(s)=\prod\limits_{i=1}^{n}F(x_i)$
- 如果总体X有概率密度f(x),则样本\mathscr{S}的概率密度为:
  - $f_n(s)=\prod\limits_{i=1}^{n}f(x_i)$
- 如果总体X有分布律 $P(X=a_i)=p_i,i=1,2,\cdots$ ,则样本\mathscr{S}的分布律
  - $P(X_i=x_i,X_2=x_2,\cdots,X_n=x_n)=\prod\limits_{i=1}^{n}P(X_i=x_i)$
统计量
- 样本 $\mathbb{\mathscr{S}}$ 的不含未知参数的函数 $T=T(\mathscr{S})$ 称为统计量(是定义在样本上的函数)
  - 因为统计量的作用在于推断未知参数,所以统计量函数不可以包括未知参数
  - 作为随机变量的函数,统计量本身也是一个随机变量
  - $如果s是\mathscr{S}的样本值,则:T(s)为T(\mathscr{S})的观测值$
常见的统计量
- 需要和随机变量的均值和方差有区别开来
  - 随后的性质中会提及它们的关系
样本数字特征
- 样本均值:
  - $\overline{X} =\sum\limits_{i=1}^{n}(\frac{1}{n}X_i) =\frac{1}{n}\sum\limits_{i=1}^{n}X_i$
    
    基于等概率抽取个体,所有个体被抽中的概率为 $\frac{1}{n}$
- 样本方差: $S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2$
  - $样本标准差为S=\sqrt{S^2}$
  - 这里和概率论中的方差在形式上有所不同,这是有意为之,在性质的推导处会体现出来
- 样本k阶原点矩
  - $A_k=\frac{1}{n}\sum\limits_{i=1}^{n}X_i^k;k=1,2,\cdots$
- 样本k阶中心矩
  - $A_k=\frac{1}{n}\sum\limits_{i=1}^{n}(X_i-\overline{X})^{k};k=1,2,\cdots$
性质
- $设总体X的数学期望和方差存在,E(X)=\mu,D(X)=\sigma^2$
  - $如果\mathscr{S}=(X_1,\cdots,X_n)是总体X的样本$
样本平均值和样本方差于总体X的均值和方差的关系
- 则:
  - $E(\overline{X})=\mu \\D(\overline{X})=\frac{1}{n}\sigma^2 \\E(S^2)=\sigma^2$
- 推导:
  - $X_i与总体X独立同分布,则有: \\E(X_i)=E(X)=\mu \\D(X_i)=D(X)=\sigma^2 \\D(\sum\limits_{i=1}^{n}X_i)=\sum\limits_{i=1}^{n}D(X_i) \\记T=\sum\limits_{i=1}^{n}X_i;则\overline{X}=\frac{1}{n}T \\ \sum\limits_{i=1}^{n}X_i=n\overline{X} \\\\ E(\overline{X}) =E(\sum\limits_{i=1}^{n}(\frac{1}{n}X_i)) =\frac{1}{n}\sum\limits_{i=1}^{n}E(X_i) =\frac{1}{n}n\mu=\mu \\ D(\overline{X}) =D(\sum\limits_{i=1}^{n}(\frac{1}{n}X_i)) =\frac{1}{n^2}\sum\limits_{i=1}^{n}D(X_i) =\frac{1}{n^2}n\sigma^2=\frac{1}{n}\sigma^2$
  - $\\E(X_i)=E(X)=E(\overline{X})=\mu \\D(X_i)=D(X)=nD(\overline{X})=\sigma^2; \\D(\overline{X})=\frac{1}{n}D(X)=\frac{1}{n}\sigma^2 \\\\由于X_i,X同分布 \\E(X_i^2)=E(X^2) \\D(X_i^2)=D(X^2) \\D(X)=E(X^2)-E^2(X)=\sigma^2 \\D(\overline{X})=E(\overline{X}^2)-E^2(\overline{X})=\frac{1}{n}\sigma^2 \\E(\overline{X}^2)=\frac{1}{n}\sigma^2+\mu^2 \\E(X_i^2)=E(X^2)=D(X)+E^2(X)=\sigma^2+\mu^2$
  - $S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2 \\ E(S^2)=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2 \\=\frac{1}{n-1} E(\sum\limits_{i=1}^{n}(X_i^2-2X_i\overline{X}+\overline{X}^2)) \\=\frac{1}{n-1} E((\sum\limits_{i=1}^{n}X_i^2) -(2\overline{X}\sum\limits_{i=1}^{n}X_i) +(\sum\limits_{i=1}^{n}\overline{X}^2)) \\=\frac{1}{n-1} E((\sum\limits_{i=1}^{n}X_i^2) -(2n\overline{X}^2) +(n\overline{X}^2)) \\=\frac{1}{n-1} E((\sum\limits_{i=1}^{n}X_i^2) -(n\overline{X}^2)) \\=\frac{1}{n-1} ((\sum\limits_{i=1}^{n}E(X_i^2)) -(nE(\overline{X}^2))) \\=\frac{1}{n-1} (n(\mu^2+\sigma^2) -(n(\frac{1}{n}\sigma^2+\mu^2)) \\=\frac{1}{n-1} (n(\sigma^2)-( \sigma^2)) =\frac{n-1}{n-1}\sigma^2 =\sigma^2$
样本k阶矩与总体X的k阶矩的关系
- 由独立同分布和Khinchin LLN可以得到:
  - $设总体X的k阶原点矩E(X^k)=\mu_k; \\当n\to\infin \\ 记:\overline{X^k}=\frac{1}{n}\sum\limits_{i=1}^{n}X_i^k \\ \frac{1}{n}\sum\limits_{i=1}^{n}X_i^k\xrightarrow{P}\mu_k \\或:\overline{X}\xrightarrow{P}\mu_k\quad(n\to{\infin}) \\矩的阶数k=1,2,\cdots$
    
    $\text{khinchin LLN}: \\\overline{X}\xrightarrow{P}{\mu};\quad{(n\to{\infin})} \\其中:E(X_n)=E(X)=E(\overline{X})=\overline{E(X)}=\mu \\\\ 得到:\overline{X^k}\xrightarrow{P}\mu_k;\quad{(n\to{\infin})} \\其中:E(X_n^k)=E(X^k)=E(\overline{X^k})=\overline{E(X^k)}=\mu_k$
顺序统计量

第k位顺序统计量
- $设\mathscr{S}=X_1,X_2,\cdots,X_2是来自总体X的样本,如果: \\X_{(k)},k=1,\cdots,n \\对于任意一组样本观察值s=(x_1,\cdots,x_n), \\对序列s的各个值进行升序排列,得到s_{sorted}=(x_{i_1},\cdots,x_{i_n}) \\简写为:s_{sorted}=(x_{(1)},\cdots,x_{(n)}); \\注意X_{(p)}与X_{p}是截然不同的含义 \\尽管它们在取值上可能相等,但是前者是有上下文顺序和x_k是区别的 \\x_{(1)}是最小的值,x_{(n)}就是最大值,对于x_1,或者x_n, \\我们只知道他们分别是X_1,X_n的观测值 \\x_k是X_k的观测值,x_{(k)}是对排序后的第k个位置的值的称呼 \\其中,第k个值x_{i_k}称为X_{k}$
- $X_{(1)}\leqslant{X_{(2)}}\leqslant{\cdots}\leqslant{X_{(1)}}$
  - 在有的地方,有序序列(已排好序序列)中的元素所处的位置被称为该元素的秩(rank)
    例如最小的元素秩为1,次小的元素秩为2
最小顺序统计量
- $X_{(1)}=min(X_1,\cdots,X_n)$
最大顺序统计量
- $X_{(n)}=max(X_1,\cdots,X_n)$
分布函数
- 设总体X的分布函数为F(x)
- 根据最大最小分布的性质(结论)
- 得最大/小顺序统计量的分布函数
  - $F_{X_{(1)}}=F_{(1)}(x)=1- (1-F(x))^n \\F_{X_{(n)}}=F_{(n)}=F^n(x)$
相关阅读:
重金属行业经销商渠道管理系统：完善客户管理体系，规范渠道销售管理
 不要错过这款好用的照片高清修复软件
 一起Talk Android吧（第四百二十五回：字节数组与String相互转换）
RCNA 锐捷培训
 常用的openssl命令
 四川大学计算机考研资料汇总
 Oracle自动备份，比较全
 Dev C++开发环境的配置及使用
 ESP32设备驱动-VCNL4010光传感器驱动
 react源码分析：babel如何解析jsx
原文地址：https://blog.csdn.net/xuchaoxin1375/article/details/127628811

文章目录

数理统计

基本概念

抽取假设

简单随机抽样

简单随机样本

统计量

常见的统计量

样本数字特征

性质

样本平均值和样本方差于总体X的均值和方差的关系

样本k阶矩与总体X的k阶矩的关系

顺序统计量

第k位顺序统计量

最小顺序统计量

最大顺序统计量

分布函数