【概率论与数理统计(研究生课程)】知识点总结9(回归分析)

一元线性回归模型

y = β_{0} + β_{1} x + ϵ, ϵ \sim N (μ, σ^{2}) E (ϵ) = 0, D (ϵ) = σ^{2} > 0 ⟹ E (y) = β_{0} + β_{1} x

回归方程： $\hat{y}=\hat{\beta_0}+\hat{\beta_1}x$

推导过程：

y_{i} - E (y_{i}) Q (β_{1}, β_{2}) make \frac{\partial Q ( β _{0} , β _{1} )}{\partial β _{0}} make \frac{\partial Q ( β _{0} , β _{1} )}{\partial β _{1}} = y_{i} - (β_{0} + β_{1} x_{i}) = i = 1 \sum n (y_{i} - E (y_{i}))^{2} = i = 1 \sum n (y_{i} - β_{0} - β_{1} x_{i})^{2} = - 2 i = 1 \sum n (y_{i} - β_{0} - β_{1} x_{i}) = 0 = - 2 i = 1 \sum n x_{i} (y_{i} - β_{0} - β_{1} x_{i}) = 0

整理得到正规方程组：

n^β0+nˉx^β1=nˉy(1)nˉx^β0+(n∑i=1x2i)^β1=n∑i=1xiyi(2)

解上述方程组得到：

^β1=LxyLxx^β0=ˉy−^β1ˉxLxx=n∑i=1(xi−ˉx)2=n∑i=1x2i−nˉx2=n∑i=1x2i−1n(n∑i=1xi)2Lyy=n∑i=1(yi−ˉy)2=n∑i=1y2i−nˉy2=n∑i=1y2i−1n(n∑i=1yi)2Lxy=n∑i=1(xi−ˉx)(yi−ˉy)=n∑i=1xiyi−nˉxˉy=n∑i=1xiyi−1nn∑i=1xin∑i=1yi

如果题目中给了 $\sum$ 形式的数据， $L_{xx},L_{yy},L_{xy}$ 一般用上述公式最右边的方式来求。

残差/剩余平方和

$Q_e=\sum\limits_{i=1}^{n}e_i^2=\sum\limits_{i=1}^{n}(y_i-\hat{y_i})^2=\sum\limits_{i=1}^{n}(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)^2=L_{yy}-\hat{\beta_1}L_{xy}=L_{yy}-\frac{L_{xy}^2}{L_{xx}}$

定理： $\frac{Q_e}{\sigma^2}\sim\chi^2(n-2)$
$E(Qeσ2)=n−2⟹E(Qen−2)=σ2⟹^σ2=Qen−2$

⟹ ⟹ E (\frac{Q _{e}}{σ ^{2}}) = n - 2 E (\frac{Q _{e}}{n - 2}) = σ^{2} \hat{σ^{2}} = \frac{Q _{e}}{n - 2}

\hat{\sigma}^2

的无偏估计为

\frac{Q_e}{n-2}

最小二乘估计量的性质

$\beta_0,\beta_1$ 的最小二乘估计量都是无偏的： $E(\hat{\beta_0})=\beta_0,\quad E(\hat{\beta_1})=\beta_1$

$\hat{\beta_0}\sim N(\beta_0, (\frac{1}{n}+\frac{\bar{x}^2}{L_{xx}})\sigma^2)$

$\hat{\beta_1}\sim N(\beta_1,\frac{\sigma^2}{L_{xx}})$

$Cov(\hat{\beta_0},\hat{\beta_1})=-\frac{\bar{x}}{L_{xx}}\sigma^2$

$\hat{y_0}\sim N(\beta_0+\beta_1x_0, (\frac{1}{n}+\frac{(x_0-\bar{x})^2}{L_{xx}})\sigma^2)$

回归方程显著性检验（t、F、r）

提出原假设和备择假设（回归方程是否显著，反映在斜率是否为0）：

$H_0: \beta_1=0; \quad H_1:\beta_1\neq0$

选取统计量：
$^β1∼N(β1,σ2Lxx)⟹^β1−β1√σ2Lxx∼N(0,1)H0→^β1√Lxxσ∼N(0,1)$
$⟹ H_{0} \hat{β_{1}} \sim N (β_{1}, \frac{σ ^{2}}{L _{x x}}) \frac{β _{1} ^ - β _{1}}{\frac{σ ^{2}}{L _{x x}}} \sim N (0, 1) \frac{β _{1} ^ L _{x x}}{σ} \sim N (0, 1)$
若需构造 $t$ 检验，还需要一个 $\chi^2$ 分布，而 $\frac{Q_e}{\sigma^2}\sim\chi^2(n-2)$ ，从而：
$T=\frac{\frac{\hat{\beta_1}\sqrt{L_{xx}}}{\sigma}}{\sqrt{\frac{Q_e}{\sigma^2}/(n-2)}}\xrightarrow{\hat{\sigma^2}=\frac{Q_e}{n-2}}\frac{\hat{\beta_1}\sqrt{L_{xx}}}{\hat\sigma} \sim t(n-2)$
若使用 $F$ 检验，需要计算回归平方和以及残差平方和：
$S2R=n∑i=1(^yi−¯yi)2=^β1LxyS2e=n∑i=1(yi−^yi)2=S2T−S2R=Lyy−^β1LxyS2Rσ2∼χ2(1),S2eσ2∼χ2(n−2)F=S2Rσ2/1S2eσ2/(n−2)=(n−2)S2RS2e∼F(1,n−2)$
拒绝域

$t$ 检验拒绝域： $|T|=|\frac{\hat{\beta_1}\sqrt{L_{xx}}}{\hat{\sigma}}|\ge t_{\frac{\alpha}{2}}(n-2)$

$F$ 检验拒绝域： $F\ge F_\alpha(1,n-2)$
确定 $t_{\frac{\alpha}{2}(n-2)}\quad or \quad F_{\alpha}(1,n-2)$
计算 $|T|\quad or\quad F$
判断结果

回归系数的区间估计

$^β1∼N(β1,σ2Lxx)⟹^β1−β1√σ2Lxx∼N(0,1)⟹(^β1−β1)√Lxxσ∼N(0,1)T=(^β1−β1)√Lxxσ√Qeσ2/(n−2)^σ2=Qen−2→(^β1−β1)√Lxxˆσ∼t(n−2)$

⟹ ⟹ T = \frac{\frac{( β _{1} ^ - β _{1} ) L _{x x}}{σ}}{\frac{Q _{e}}{σ ^{2}} / ( n - 2 )} \hat{β_{1}} \sim N (β_{1}, \frac{σ ^{2}}{L _{x x}}) \frac{β _{1} ^ - β _{1}}{\frac{σ ^{2}}{L _{x x}}} \sim N (0, 1) \frac{( β _{1} ^ - β _{1} ) L _{x x}}{σ} \sim N (0, 1) \hat{σ^{2}} = \frac{Q _{e}}{n - 2} \frac{( β _{1} ^ - β _{1} ) L _{x x}}{σ ^} \sim t (n - 2)

则 $\beta_1$ 置信水平为 $1-\alpha$ 的置信区间为： $(\hat{\beta_1}\pm \frac{\hat{\sigma}}{\sqrt{L_{xx}}}t_{\frac{\alpha}{2}}(n-2))$

估计

设回归方程为 $\hat{y}=\hat{\beta_0}+\hat{\beta_1}x$ ，对任意给定的 $x=x_0$ ， $y_0$ 的均值 $E(y_0)=\beta_0+\beta_1 x_0$ ， $E(y_0)$ 的无偏估计为 $\hat{y_0}=\hat{\beta_0}+\hat{\beta_1}x_0$

$\hat{\beta_0}\sim N(\beta_0, (\frac{1}{n}+\frac{\bar{x}^2}{L_{xx}})\sigma^2)$

$\hat{\beta_1}\sim N(\beta_1,\frac{\sigma^2}{L_{xx}})$

$Cov(\hat{\beta_0},\hat{\beta_1})=-\frac{\bar{x}}{L_{xx}}\sigma^2$

$D(\hat{y_0})=D(\hat{\beta_0})+D(\hat{\beta_1}x_0)+2Cov(\hat{\beta_0},\hat{\beta_1}x_0)=(\frac{1}{n}+\frac{(\bar{x}-x_0)^2}{L_{xx}})\sigma^2$

$\hat{y_0}\sim N(\beta_0+\beta_1x_0, (\frac{1}{n}+\frac{(x_0-\bar{x})^2}{L_{xx}})\sigma^2)$
于是 $E(y_0)$ 的置信度为 $1-\alpha$ 的置信区间为：
$(\hat{y_0}-\delta_0,\hat{y_0}+\delta_0),\delta=t_{\frac{\alpha}{2}}(n-2)\hat{\sigma}\sqrt{\frac{1}{n}+\frac{(x_0-\bar{x})^2}{L_{xx}}}$

区间预测

$y0−^y0∼N(0,[1+1n+(x0−ˉx)2Lxx]σ2)U=y0−^y0σ√1+1n+(x0−ˉx)2Lxx∼N(0,1)T=y0−^y0ˆσ√1+1n+(x0−ˉx)2Lxx∼t(n−2)$

y_{0} - \overset{y_{0}}{^} \sim N (0, [1 + \frac{1}{n} + \frac{( x _{0} - x ˉ ) ^{2}}{L _{x x}}] σ^{2}) U = \frac{y _{0} - y _{0} ^}{σ 1 + \frac{1}{n} + \frac{( x _{0} - x ˉ ) ^{2}}{L _{x x}}} \sim N (0, 1) T = \frac{y _{0} - y _{0} ^}{σ ^ 1 + \frac{1}{n} + \frac{( x _{0} - x ˉ ) ^{2}}{L _{x x}}} \sim t (n - 2)

因此， $y_0$ 的置信度为 $1-\alpha$ 的区间为
$(\hat{y_0}-\delta,\hat{y_0}+\delta),\delta=t_{\frac{\alpha}{2}}(n-2)\hat{\sigma}\sqrt{1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{L_{xx}}}$

可线性化的一元非线性回归

相关阅读:
基于GPIO子系统编写LED驱动
npm与Maven：前端与后端构建工具深度对比学习
倾向得分匹配PSM案例分析
rainbond 如何切换源码构建所需的builder镜像以及runner镜像拉取地址
如何在2023年学习React
Centos7安装自动化运维Ansible
＜哈希及模拟实现＞——《C++高阶》
一道桥牌明手题的思路与分析
为什么要构建垂直切片
兼容国产化神通数据库遇到的问题适配

原文地址：https://blog.csdn.net/weixin_46334596/article/details/127464134