时间序列预测：预测间隔

在现实世界中进行预测是一项重要的任务。考虑预测能源需求、温度、食物供应和健康指标，仅举几个例子。在这些情况下获得不准确的预测会对人们的生活产生重大影响。

这就是预测间隔可以帮助的地方。预测区间用于提供预测可能具有特定置信度的范围。例如，如果你以95%的置信度进行了100个预测，那么100个预测中有95个在预测区间内。通过使用预测区间，你可以解释预测中的不确定性以及数据的随机变化。

加载温度数据

在本文中，我们将预测巴西圣保罗的月平均气温。数据集由NCEI收集和管理. 感谢所有参与的人与世界分享这个数据集！

不幸的是，在现实世界中，数据从来都不是你想要的格式。

在下面的单元格中，我们使用Pandas将其转换为两列。日期和温度。结果数据使用Matplotlib可视化。

# ---- Packages ----
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.patches import Patch
from statsmodels.tsa.arima.model import ARIMA
from statsmodels.stats.diagnostic import normal_ad
from scipy import stats
from sklearn import metrics

!pip install pmdarima --quiet
import pmdarima as pm
pd.plotting.register_matplotlib_converters()

# ---- Data Transformations ----
months_dict = {'JAN':1,'FEB':2,'MAR':3,'APR':4,'MAY':5,'JUN':6,
               'JUL':7,'AUG':8,'SEP':9,'OCT':10,'NOV':11,'DEC':12}

df = pd.read_csv('../input/temperature-timeseries-for-some-brazilian-cities/station_sao_paulo.csv')
df = df[['YEAR'] + list(months_dict.keys())]

df_sp = pd.melt(df, 
        id_vars='YEAR',
        value_vars=months_dict.keys(),
        var_name='MONTH', 
        value_name='Sum of Value').replace({"MONTH": months_dict})

df_sp['DAY'] = 1 #need a day for the pd.to_datetime() function
df_sp['DATE'] = pd.to_datetime(df_sp[['YEAR','MONTH','DAY']])
df_sp = df_sp[['DATE','Sum of Value']].rename(columns={'DATE':'date','Sum of Value':'temp'})
df_sp = df_sp.sort_values('date').reset_index(drop=True)

# ---- Visualize Data ----
plt.figure(figsize=(15,7))
plt.title("Sao Paulo AVG Monthly Temperature - w/ Err")
plt.plot(df_sp["date"], df_sp['temp'], color='#379BDB', label='Original')
plt.show(block=False)

在上面的图中，我们可以看到数据集缺少值和错误。

我们可以简单地对~1980到~2015之间的372个数据点进行采样，这些数据点没有误差。我们将在本文的其余部分使用此数据示例。

df_sp = df_sp[(df_sp['date'] > '1982-03-01') & (df_sp['date'] < '2013-04-01')]
df_sp = df_sp.set_index(df_sp['date'], drop=True).drop(columns=["date"])

train, valid = df_sp[:int(len(df_sp)*0.8)], df_sp[int(len(df_sp)*0.8):]

plt.figure(figsize=(15,7))
plt.title("Sao Paulo AVG Monthly Temperature - 1982-03-01 to 2013-04-01")
plt.plot(train.index, train['temp'], color='#379BDB', label='Train')
plt.plot(valid.index, valid['temp'], color='#fc7d0b', label='Valid')
plt.xlabel('Date')
plt.ylabel('Temp - Celsius')
plt.legend()
plt.show(block=False)

创建模型

我使用过许多时间序列模型，但我总是回到ARIMA模型。这些模型是可靠的，并且经常优于竞争模型类型（NeuralProphet、ExponentialSmoothing、Last Value）。

我们将使用ARIMA的修改版本，称为SARIMA。SARIMA在ARIMA中添加了一个滞后项，用于跟踪数据的季节性。

使用名为pmdarima的包⁹ 我们可以自动调整模型参数。有关ARIMA模型的更详细解释，请查看本文。

https://towardsdatascience.com/time-series-forecasting-with-arima-sarima-and-sarimax-ee61099e78f6

SARIMA_model = pm.auto_arima(train['temp'], start_p=1, start_q=1,
                         test='adf',
                         max_p=3, max_q=3, 
                         m=12, #annual frequency(12 for month, 7 for week etc) 
                         start_P=0, 
                         seasonal=True, #set to seasonal
                         d=None, 
                         D=1, #order of the seasonal differencing
                         trace=False,
                         error_action='ignore',  
                         suppress_warnings=True, 
                         stepwise=True)

上面的单元格为我们提供了适合ARIMA模型的最佳顺序和季节顺序。

在下面的单元中，我们只做了这一点，并对验证数据集迭代地进行预测。

sarima_preds = []
df_sp.index = df_sp.index.to_period('M') 

for i in range(len(valid)):
    m_sarima = ARIMA(df_sp[:len(train)+i]['temp'], order=(1,0,0), seasonal_order=(0, 1, 2, 12)).fit()
    sarima_preds.append(m_sarima.forecast(1).values[0])

residuals = sorted([x - y for x, y in zip(sarima_preds, valid['temp'].values)])

预测间隔

方法1:RMSFE

我们可以使用的第一种方法叫做RMSFE（均方根预测误差）。RMSFE与RMSE非常相似。唯一的区别是，RMSFE必须根据对未知数据（即验证或测试集）的预测的残差项进行计算。

需要注意的是，只有假设验证预测的残差是正态分布的，我们才能使用这种方法。为了确定情况是否如此，我们将使用PP图，并用K方检验检验其正态性。

PP图根据正态分布图绘制数据样本，如果正态分布，数据点将形成一条直线。

三个正态性检验使用p值确定数据样本来自正态分布总体的可能性。每个测试的无效假设是“样本来自正态分布”。这意味着，如果得到的p值低于选定的α值，则否定空假设。因此，有证据表明数据来自非正态分布。对于本文，我们将使用0.01的Alpha值。

sw_result = stats.shapiro(residuals)
ad_result = normal_ad(np.array(residuals), axis=0)
dag_result = stats.normaltest(residuals, axis=0, nan_policy='propagate')

plt.figure(figsize=(15,7))
res = stats.probplot(residuals, plot=plt)
ax = plt.gca()
ax.annotate("SW p-val: {:.4f}".format(sw_result[1]), xy=(0.05,0.9), xycoords='axes fraction', fontsize=15,
            bbox=dict(boxstyle="round", fc="none", ec="gray", pad=0.6))
ax.annotate("AD p-val: {:.4f}".format(ad_result[1]), xy=(0.05,0.8), xycoords='axes fraction', fontsize=15,
            bbox=dict(boxstyle="round", fc="none", ec="gray", pad=0.6))
ax.annotate("DAG p-val: {:.4f}".format(dag_result[1]), xy=(0.05,0.7), xycoords='axes fraction', fontsize=15,
            bbox=dict(boxstyle="round", fc="none", ec="gray", pad=0.6))

plt.show()

太棒了所有三个测试都返回了大于0.01的α值的p值。这意味着不能拒绝零假设，数据点很可能来自正态分布。我们现在可以使用RMSFE生成预测区间。

这里的第一步是选择我们想要提供的信心程度。我们希望我们的预测在75%、95%或99%的预测区间内吗？我们将使用95%的预测区间。

在正态分布中，95%的数据点落在平均值的1.96个标准差内，因此我们将1.96乘以RMSFE以获得预测区间大小。如下图所示。

RMSFE = np.sqrt(sum([x**2 for x in residuals]) / len(residuals))
band_size = 1.96*RMSFE

fig, ax = plt.subplots(figsize=(15,7))
ax.plot(valid.index, valid['temp'], color='#fc7d0b', label='Valid')
ax.scatter(valid.index, sarima_preds)
ax.fill_between(valid.index, (valid['temp']-band_size), (valid['temp']+band_size), color='b', alpha=.1)
ax.set_title("Predictions w/ 95% Confidence")
ax.set_xlabel('Date')
ax.set_ylabel('Temp - Celsius')
plt.show()

该方法的缺点是预测区间高度依赖于验证预测的残差。

方法2:BCVR

注：BCVR是我提出的一种理论方法！

让我们将此方法称为BCVR（Bootstrapping Cross Validation Residuals）。BCVR试图从交叉验证和Bootstrap中获益。Bootstrapping残差是生成预测区间的常用方法，通常产生与具有正态分布残差的RMSFE方法相似的结果，但在非正态残差上的表现略优于RMSFE。此外，通过使用交叉验证，BCVR应生成更能代表整个数据集的残差分布。

我们可以通过执行交叉验证来生成残差。我们随机选择一个长度在250到372点之间的训练样本，并进行一步预测。然后，我们计算该预测的残差，并重复该过程1000次。

crossval_count = 1000
min_size = 250
max_random = len(df_sp) - (min_size)

crossval_resids = []

for b in range(crossval_count):
    start, end = [min_size*i+x for i, x in enumerate(sorted([np.random.randint(max_random) for y in range(2)]))]

    m_sarima = ARIMA(df_sp[start:end]['temp'], order=(1,0,0), seasonal_order=(0, 1, 2, 12), enforce_invertibility=False).fit()
    pred = m_sarima.forecast(1).values[0]
    crossval_resids.append(pred - df_sp[end:end+1]['temp'].values[0])

bsed_residuals = sorted(crossval_resids)

然后，我们可以测试残差分布的正态性。

sw_result = stats.shapiro(bsed_residuals)
ad_result = normal_ad(np.array(bsed_residuals), axis=0)
dag_result = stats.normaltest(bsed_residuals, axis=0, nan_policy='propagate')

plt.figure(figsize=(15,7))
res = stats.probplot(bsed_residuals, plot=plt)
ax = plt.gca()
ax.annotate("SW p-val: {:.4f}".format(sw_result[1]), xy=(0.05,0.9), xycoords='axes fraction', fontsize=15,
            bbox=dict(boxstyle="round", fc="none", ec="gray", pad=0.6))
ax.annotate("AD p-val: {:.4f}".format(ad_result[1]), xy=(0.05,0.8), xycoords='axes fraction', fontsize=15,
            bbox=dict(boxstyle="round", fc="none", ec="gray", pad=0.6))
ax.annotate("DAG p-val: {:.4f}".format(dag_result[1]), xy=(0.05,0.7), xycoords='axes fraction', fontsize=15,
            bbox=dict(boxstyle="round", fc="none", ec="gray", pad=0.6))

plt.show()

哦，不！我们的p值远远低于Alpha阈值，所以应该拒绝零假设吗？不用担心，我们可以使用一种称为bootstrap的技术来测量剩余方差。为此，我们采用交叉验证的残差，并使用替换进行随机抽样。然后，我们计算重采样集的标准差，并将其存储在数组中。我们重复这个过程几次，然后取存储的bootstrap标准差的平均值/中值。

我在这个实现中使用提前停止来减少计算需求。在下面的单元中，我们每200次迭代检查一次引导样本的平均标准差。如果平均标准偏差与先前测量值的偏差不超过0.001%，则我们终止循环。

在我们的例子中，停止发生在第7500次迭代上。

bs_stds=[]
last_std = None

for i in range(10000):
    samples = [bsed_residuals[np.random.randint(len(bsed_residuals))] for x in range(len(bsed_residuals))]
    bs_stds.append(np.std(samples))
    if i%500 == 0 and i!=0:
        if i == 500:
            last_std = np.median(bs_stds)
        else:
            current_std = np.median(bs_stds)
            if abs(current_std - last_std) < last_std*0.00001:
                print("Early Stopping Iteration: {}".format(i))
                break
            else:
                last_std = np.median(bs_stds)        

bs_std = np.median(bs_stds)
print("Median of Bootstrapped STD's: {:.4f}".format(bs_std))

bs_band_size = 1.96*bs_std 

fig, ax = plt.subplots(figsize=(15,7))
ax.plot(valid.index, valid['temp'], color='#fc7d0b', label='Valid')
ax.scatter(valid.index, sarima_preds)
ax.fill_between(valid.index, (valid['temp']-bs_band_size), (valid['temp']+bs_band_size), color='b', alpha=.1)
ax.set_title("Predictions w/ 95% Confidence")
ax.set_xlabel('Date')
ax.set_ylabel('Temp - Celsius')
plt.show()

BCVR方法的缺点是一台机器的计算成本很高。谢天谢地，这种方法非常适合集群计算。这意味着可以在多台机器之间分配工作负载。

例如，如果我们有一个有10个节点的集群，并且想要执行1000个引导样本，我们可以让每个节点同时执行100个样本。这将大大减少计算时间，并允许我们增加bootstrap样本的数量。

RMSFE与BCVR

这两种方法比较如何？

bs_band_size = 1.96*bs_std 

fig, ax = plt.subplots(figsize=(15,7))
ax.fill_between(valid.index, (valid['temp']-band_size), (valid['temp']+band_size), color='blue', alpha=0.1)
ax.fill_between(valid.index, (valid['temp']-bs_band_size), (valid['temp']+bs_band_size), color='yellow', alpha=0.3)

ax.plot(valid.index, valid['temp'], color='#fc7d0b', label='Valid')
ax.scatter(valid.index, sarima_preds)

ax.set_title("Predictions w/ 95% Confidence")
ax.set_xlabel('Date')
ax.set_ylabel('Temp - Celsius')

patches = [Patch(color='blue', alpha=0.1), Patch(color='#ececb2')]
labels = ['RMSFE','Bootstrapping Cross-Validation Residuals']
ax.legend(patches, labels)

plt.show()

在这两种情况下，所有75个点都在预测区间内。虽然不太可能（每种可能性为2%），但仍有一些点非常接近边界。这两种方法的间隔范围略有不同。

BCVR方法产生的预测区间范围比RMSFE方法略窄（参见上面围绕BCVR预测区间的淡蓝色线）。

最后

该示例表明，所提出的BCVR实现可能有助于生成更能代表整个样本空间的预测区间。看到它在不同场景中的应用会很有趣。

本文的代码可以在这里找到。

https://github.com/brendanartley/Medium-Article-Code/blob/main/code/time-series-forecasting-prediction-intervals.ipynb

参考引用

Forecasting: Principles and Practice — Rob J Hyndman and George Athanasopoulos
Confidence and Prediction intervals for forecasted values — Charles Zaiontz
Add Prediction Intervals to your Forecasting Model — Marco Cerliani
Bootstrapping Prediction Intervals — Dan Saattrup Nielson
A Gentle Intro to Normality Tests — Jason Brownlee
NCEI (National Centers for Environmental Information)
NASA GISS (Goddard Institute for Space Studies)
Shapiro-Wilk Test — Wikipedia
Pmdarina

感谢阅读！