Prophet模型的简介以及案例分析

前言

prophet是facebook开源的一个时间序列预测算法。

一、Prophet安装以及简介

1、简介：时间序列预测算法Prophet是Facebook团队开源的一个时间序列预测算法，该算法结合了时间序列分解以及机器学习算法，并且可以对存在缺失值和异常值的时间序列进行预测。
2、原理：由于现实中，时间序列常常是由趋势项，季节项，节假日效应和突发事件以及残差项组成，所以Prophet算法采用了时间序列分解的方法，它把时间序列分为了这几个部分：
$y (t) = g (t) + s (t) + h (t) + α$
其中的 $g (t)$ 表示趋势项，它体现了时间序列的非周期变化趋势； $s (t)$ 表示季节项，它体现了时间序列的周期性变化，如每周，每年的这种季节性变化； $h (t)$ 表示节假日项，它体现了节假日等持续一天到几天的无规律变化；最后的 $α$ 表示残差项，通常是正态分布的。然后各项分别被拟合，最后的累加结果即是Prophet算法的预测结果。
3、优点：
1、测量数据不需要有规律的间隔。
2、我们不需要插入缺失的值或者是删除离群值。
3、预测模型的参数很容易解释。
4、安装：
使用conda命令：（如果没有安装anaconda请查看我的另一篇文章：Anaconda以及一些常用操作.）

conda install -c conda-forge prophet
1

二、适用场景

适用于有明显内在规律的、周期性的数据，比如说季节性变化，节假日趋势。

三、算法的输入输出

在这里插入图片描述

黑色的点：表示原始的时间序列离散点
深蓝色的线：表示使用时间序列来拟合所得到的取值
浅蓝色的线：表示时间序列的一个置信区间，也就是所谓的合理的上界和下界
Prophet模型的输入输出：输入已知的时间序列的时间戳和相应的值；输入需要预测的时间序列的长度；输出未来的时间序列走势。输出结果可以提供必要的统计指标，包括拟合曲线，上界和下界等。
传入prophet的数据：分为两列，ds和y，ds表示时间序列的时间戳（是pandas的日期格式），y表示时间序列的取值（数值型数据）。
prophet输出的预测值：yhat,表示时间序列的预测值；yhat_lower，代表的是预测值的下界；yhat_upper，代表的是预测值的上界。

四、算法原理

五、使用时可以设置的参数

1、growth：增长趋势模型，分为“linear”与“logistic”，分别代表线性与非线性的增长，默认值为linear。
2、Capacity：在增量函数是逻辑回归函数的时候，需要设置的容量值,表示非线性增长趋势中限定的最大值，预测值将在该点达到饱和.
3、Change Points：可以通过 n_changepoints 和 changepoint_range 来进行等距的变点设置，也可以通过人工设置的方式来指定时间序列的变点，默认值：“None”.
4、n_changepoints：用户指定潜在的”changepoint”的个数，默认值：25。
5、changepoint_prior_scale：增长趋势模型的灵活度。调节”changepoint”选择的灵活度，值越大，选择的”changepoint”越多，从而使模型对历史数据的拟合程度变强，然而也增加了过拟合的风险。默认值：0.05。
6、seasonality_prior_scale（seasonality模型中的）：调节季节性组件的强度。值越大，模型将适应更强的季节性波动，值越小，越抑制季节性波动，默认值：10.0.
7、holidays_prior_scale（holidays模型中的）：调节节假日模型组件的强度。值越大，该节假日对模型的影响越大，值越小，节假日的影响越小，默认值：10.0。
8、freq：数据中时间的统计单位（频率），默认为”D”，按天统计.
9、periods：需要预测的未来时间的个数。例如按天统计的数据，想要预测未来一年时间内的情况，则需填写365。
10、mcmc_samples：mcmc采样，用于获得预测未来的不确定性。若大于0，将做mcmc样本的全贝叶斯推理，如果为0，将做最大后验估计，默认值：0。
11、interval_width：衡量未来时间内趋势改变的程度。表示预测未来时使用的趋势间隔出现的频率和幅度与历史数据的相似度，值越大越相似，默认值：0.80。当mcmc_samples = 0时，该参数仅用于增长趋势模型的改变程度，当mcmc_samples > 0时，该参数也包括了季节性趋势改变的程度。
12、uncertainty_samples：用于估计未来时间的增长趋势间隔的仿真绘制数，默认值：1000。

六、学习资料参考

七、模型应用

7-1、股票价格预测

7-1-1、导入相关库

from prophet import Prophet
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
1
2
3
4

7-1-2、读取数据

# 读取数据
df = pd.read_csv('./018/000001_Daily_2006_2017.csv')
# 选择日期和收盘价
df = df[['date','Close']]
1
2
3
4

数据: 我们只需要其中的日期和收盘价，即date和Close这两列。
在这里插入图片描述

7-1-3、数据预处理以及进行训练集和测试集的划分。

# 注意：Prophet模型对于数据格式有要求，日期字段必须是datetime格式，这里通过pd.to_datetime来进行转换。
df['date'] = pd.to_datetime(df['date'])
# 这里需要将收盘价进行log处理，可以理解为归一化，注意最终绘图的时候需要将收盘价复原。
df['Close'] = np.log(df['Close'])
# 更改列名，更改为Prophet指定的列名ds和y
df = df.rename(columns={'date': 'ds', 'Close': 'y'})
# 划分数据，划分为训练集和验证集，将前十年的数据作为训练集，后一年的数据作为测试集。
df_train = df[:2699]
df_test = df[2699:]
1
2
3
4
5
6
7
8
9

现在的df如图所示：
在这里插入图片描述

7-1-4、实例化Prophet对象，并且通过fit来训练模型

model = Prophet()
model.fit(df_train)
# make_future_dataframe: 作用是告诉模型我们要预测多长时间，以及时间的周期是什么。这里设置为365，即预测一年时间的数据。
# 
future = model.make_future_dataframe(periods=365, freq='D')
# 进行预测，返回预测的结果forecast
forecast = model.predict(future)
forecast
1
2
3
4
5
6
7
8

forecast表示：Dataframe中包含了很多预测结果的信息，其中yhat表示预测的结果。
在这里插入图片描述

7-1-5、数据可视化

# 对数据机型可视化操作，黑点表示真实数据，蓝线表示预测结果。蓝色区域表示一定置信程度下的预测上限和下限。
model.plot(forecast)
plt.show()
# 通过plot_componets()可以实现对数据的年、月、周不同时间周期下趋势性的可视化。
model.plot_components(forecast)
1
2
3
4
5

数据可视化：
在这里插入图片描述

7-1-6、将预测值和真实值做对比

# 测试，把ds列，即data_series列设置为索引列
df_test = df_test.set_index('ds')
# 把预测到的数据取出ds列，预测值列yhat，同样把ds列设置为索引列。
forecast = forecast[['ds','yhat']].set_index('ds')
# 把数据转换回去，因为之前经过了log函数
df_test['y'] = np.exp(df_test['y'])
forecast['yhat'] = np.exp(forecast['yhat'])

# join:按照索引进行连接，
# dropna：能够找到DataFrame类型数据的空值（缺失值），将空值所在的行/列删除后，将新的DataFrame作为返回值返回。
df_all = forecast.join(df_test).dropna()
df_all.plot()
# 设置左上角小标
plt.legend(['true', 'yhat'])
plt.show()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

对比图：
在这里插入图片描述

参考文章：
初识Prophet模型（一）-- 理论篇.
解读：一种来自Facebook团队的大规模时间序列预测算法（附github链接）.
【python量化】将Facebook的Prophet算法用于股票价格预测.

总结

相关阅读:
【算法】算法题-20231118
LeetCode-653. Two Sum IV - Input is a BST [C++][Java]
Qt中定时器的所有使用方式
ABAP接口部分-Web Service提供者与消费者
一个翻翻的小游戏。HTML式。
【计算机网络笔记】ICMP（互联网控制报文协议）
C++学习第二十八天----引用变量的特别之处
【luogu CF618G】Combining Slimes（矩阵乘法）（DP）
CUDA编程入门系列（十）并行规约
c++拷贝构造【显式调用】和运算符=重载构造【隐式调用】解析

原文地址：https://blog.csdn.net/weixin_42475060/article/details/125523593