• Python统计学08——一元线性回归


    参考书目:贾俊平. 统计学——Python实现. 北京: 高等教育出版社,2021.


    回归分析是最最最经典的统计学模型,简单直观,也是机器学习里面常用的基础模型。

    前面的方差分析实分类型自变量和数值型因变量之前的影响,而回归分析是数值型因变量和数值型自变量的关系。

    高中数学其实也都学过,目的就是找一条线,使得平面上所有点到这条线的距离最短。找这条线的过程称为直线拟合,也是回归。

    虽然sklearn库也能实现线性回归,但是传统统计学注意的还是参数估计和假设检验,使用本次使用statsmodels去实现线性回归。其展示的结果就会类似Eviews的输出。


    导入包,读取案例数据

    1. #销售收入和广告支出的散点图
    2. import pandas as pd
    3. import seaborn as sns
    4. import matplotlib.pyplot as plt
    5. plt.rcParams ['font.sans-serif'] =['SimHei'] #显示中文
    6. example9_1=pd.read_csv("example9_1.csv",encoding="gbk")
    7. example9_1.head()

     先画图观察

    fig=sns.jointplot(x="广告支出",y="销售收入",data=example9_1,kind='reg',truncate=False,color='steelblue',height=6,ratio=3,marginal_ticks=True)


     相关系数及其检验

    1. #相关系数及其检验
    2. from scipy.stats import pearsonr
    3. corr,p_value=pearsonr(example9_1['销售收入'],example9_1['广告支出'])
    4. print(f'二者的相关系数为{corr:.4g}, 检验的p值为{p_value:.4g}')

     这里的相关系数的皮尔逊相关性系数,适合数值型变量之间的相关性度量,后面的p值是对这个相关性的显著性进行检验。p小于0.05,说明他的相关性是显著的。


    最小二乘  回归模型的拟合

    最小二乘是求解的方法,一般的线性模型是使用最小二乘进行求解的。我们对上面的数据进行拟合

    1. from statsmodels.formula.api import ols
    2. model =ols('销售收入~广告支出',data=example9_1).fit()
    3. print(model.summary())

     

     从上面结课可以看到拟合优度R2是87.8%,说明y的变动有87.8%可以用x来解释,拟合效果还不错。x的p值为0,说明很显著。


     方差分析表
    和方差分析一样,误差SST是可以分解的,就能输出方差分析表

    1. from statsmodels.stats.anova import anova_lm
    2. anova_lm(model,typ=1)


     绘制拟合图

    1. import statsmodels.api as sm
    2. fig,ax=plt.subplots(figsize=(9,6))
    3. sm.graphics.plot_fit(model,exog_idx='广告支出',ax=ax)
    4. plt.plot(example9_1['广告支出'],model.fittedvalues,'r')
    5. plt.annotate(text=r'$\hat{y}=2343.89+5.67*$'+'广告支出',xy=(550,5000),xytext=(600,4000),arrowprops={'headwidth':10,'headlength':5,'width':4,'facecolor':'r','shrink':0.1},fontsize=14,color='red',ha='left')
    6. plt.show()

     


     残差检验

    回归完之后要对残差进行检验,看是不是存在异方差自相关等问题

     计算残差,并且和X,Y放入一个数据框

    1. #残差和标准化残差
    2. import numpy as np
    3. model=ols('销售收入~广告支出',data=example9_1).fit()
    4. df=pd.DataFrame({'企业编号':example9_1['企业编号'],
    5. '销售收入':example9_1['销售收入'],
    6. '点预测值':model.fittedvalues,
    7. '残差':model.resid,
    8. '标准化残差':np.array(model.resid_pearson)})
    9. round(df,4)

     画出残差图,和残差的QQ图,检验是否为正态

    1. from statsmodels.formula.api import ols
    2. medel=ols('销售收入~广告支出',data=example9_1).fit()
    3. plt.subplots(1,2,figsize=(10,4))
    4. plt.subplot(121)
    5. plt.scatter(model.fittedvalues,model.resid)
    6. plt.xlabel('拟合值')
    7. plt.ylabel('残差')
    8. plt.title('(a) 残差值与拟合值图',fontsize=15)
    9. plt.axhline(0,ls='--')
    10. ax2=plt.subplot(122)
    11. pplot=sm.ProbPlot(model.resid,fit=True)
    12. pplot.qqplot(line='r',ax=ax2,xlabel='期望正态值',ylabel='标准化的观测值')
    13. ax2.set_title('(b) 残差正态图Q-Q图',fontsize=15)
    14. plt.show()

     可以看出残差是均匀分布在0轴上下 ,QQ图也还好,比较正态。说明模型没有异方差等问题

  • 相关阅读:
    NetworkManager 图形化配置 bond
    C++ 智能指针
    矩阵系统能做什么
    python多线程编程:线程安全读写冲突解决办法&锁
    基于Neo4j的网络安全知识图谱构建分析
    目标检测YOLO系列从入门到精通技术详解100篇-【目标检测】SLAM(补充篇)
    详细计算机专业毕业设计开题报告书写方法
    数据结构与算法-腾讯面试题单向链表的翻转
    若依框架下首次写接口
    合并回文子串(区间dp)
  • 原文地址:https://blog.csdn.net/weixin_46277779/article/details/126717123