• Python实现Prophet时间序列数据建模与异常值检测(Prophet算法)项目实战


    说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

    1.项目背景

    Prophet由facebook开源的基于python和R语言的数据预测工具,基于时间和变量值结合时间序列分解和机器学习的拟合来做的;其强大的对于当变量的预测能力,可以解决大部分的实际场景中的对单项值的预测。在时间序列分析领域,一般会把时间序列拆分成几个部分,分别是S(t)季节项,趋势项T(t),剩余项T(t),一般我们算法模型有两种,加法模型和乘法模型;同时乘法模型我们发现取对后也可以分解成加法模型。

    Prophet适用于具有明显的内在规律的商业行为数据,例如:有如下特征的业务问题:

    1.有至少几个月(最好是一年)的每小时、每天或每周观察的历史数据;

    2.有多种人类规模级别的较强的季节性趋势:每周的一些天和每年的一些时间;

    3.有事先知道的以不定期的间隔发生的重要节假日(比如国庆节);

    4.缺失的历史数据或较大的异常数据的数量在合理范围内;

    5.有历史趋势的变化(比如因为产品发布);

    6.对于数据中蕴含的非线性增长的趋势都有一个自然极限或饱和状态。

    2.数据获取

    本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下:

    数据详情如下(部分展示):

    3.数据预处理

    3.1 用Pandas工具查看数据

    使用Pandas工具的head()方法查看前五行数据:

    从上图可以看到,总共有9个字段。

    关键代码:

    3.2缺失值统计

    使用Pandas工具的info()方法统计每个特征缺失情况:

    从上图可以看到,数据不存在缺失值,总数据量为355条。

    关键代码:

    3.3描述性统计分析

    通过Pandas工具的describe()方法来来统计变量的平均值、标准差、最大值、最小值、分位数等信息:

     

     关键代码如下:

    4.探索性数据分析

    4.1 PM2变量时间序列图

    用Pandas工具的plot()方法进行统计绘图,如下:

    从图中可以看到,变量PM2在2020年12月20日到2021年2月8日波动性最大;其它时间数值相对稳定。

    4.2 PM2变量分布直方图

     

    从图中可以看到,PM2变量成一定的偏态分布。

    4.3 相关性分析

    通过Pandas工具的corr()方法和seaborn工具的heatmap()方法绘制相关性热力图:

    从图中可以看到,正数为正相关,负数为负相关,绝对值越大相关性越强。

    5.特征工程

    5.1 构建时间序列数据框

    构建只包含PM2和DATE的数据框。关键代码如下:

    6.构建Prophet时间序列模型

    主要使用Prophet算法,用于时间序列预测与异常值检测。

    6.1模型参数

     

    7.模型预测

    输出预测结果前5行:

     其中yhat列为预测值,yhat_lower和yhat_upper为95%置信区间的下边界和上边界预测值。

    8.异常值检测

    输出异常值的前5行:

     

    从上图可以看出,异常值的数量总共13个。

    从上图可以看到,阴影部分为95%置信区间的上下边界区域,异常值主要分布在95%置信区间上边界上面。

    9.结论与展望

    综上所述,本文采用了Prophet时间序列模型,最终证明了我们提出的模型效果良好。

    1. # 本次机器学习项目实战所需的资料,项目资源如下:
    2. # 项目说明:
    3. # 链接:https://pan.baidu.com/s/1sdM58c_SAfoSbWD29tilxA
    4. # 提取码:ttve
    5. # 用Pandas工具查看数据
    6. print(data.head())
    7. # 数据缺失值统计
    8. print('****************************************')
    9. print(data.info())
    10. print('****************************************')
    11. print(data.describe().round(4)) # 保留4位小数点
    12. # 构建时间序列数据框
    13. df_data = pd.DataFrame({"y": data['PM2']})
    14. df_data["ds"] = data['DATE']
    15. # PM2变量时间序列图
    16. plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
    17. plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题
    18. df_data.plot(x="ds", y="y", style="b-o", figsize=(14, 7))
    19. plt.xlabel('时间')
    20. plt.ylabel('样\n本\n值\n', rotation=0, verticalalignment='bottom',
    21. horizontalalignment='left', labelpad=19, y=0.36)
    22. plt.grid()
    23. plt.title('PM2变量时间序列图')
    24. plt.show()
  • 相关阅读:
    JDBC-08:数据库事务介绍以及事务的ACID属性和其隔离性
    C++继承相关应用练习
    100天精通Golang(基础入门篇)——第23天:错误处理的艺术: Go语言实战指南
    [Druid-1.2.11源码系列]-9-Druid销毁线程
    ChatGPT是否可以协助人们提高逻辑思维和问题解决能力?
    Node.js 入门教程 32 JavaScript 异步编程与回调
    倍福TwinCAT3 Ads相关错误详细列表
    LeetCode-784. 字母大小写全排列【字符串】
    dns隧道的通信原理及特征
    Surpass Day27——Java 反射机制、注解
  • 原文地址:https://blog.csdn.net/weixin_42163563/article/details/126909892