NeurIPS 2023 | 动态组合模型来应对数据分布的变化

近年来，我们目睹到深度学习在时间序列预测方面的研究努力显著增加。深度模型不仅在预测任务中表现出色，还在表示学习方面表现出色，能够提取抽象表示，这些表示可以有效地用于下游任务，如分类和异常检测。然而，现有研究主要集中在批处理学习设置中，假设整个训练数据集在先前就已经可用，并且在学习过程中输入和输出变量之间的关系保持不变。这些方法在现实世界的应用中存在问题，因为概念往往不稳定而随时间变化，这被称为概念漂移(concept drift)，未来的数据展现出不同于过去的模式。

比如在上图中海平面的平均值从1881年到2013年不断上升，基线模型即不在新的数据上重新adapt model的方法未能识别新数据中平均值持续漂移的情况。在这些情况下，从头重新训练模型可能会非常耗时。因此，在线训练深度预测模型，通过增量更新预测模型来捕捉环境中不断变化的动态是非常必要的。

在本文中，我们将介绍我们发表于 NeurIPS 2023的文章，《OneNet: Enhancing Time Series Forecasting Models under Concept Drift by Online Ensembling》，OneNet的思想十分简单，它采用了两个不同的模型，一个模型专注于建模时间维度上的相关性，另一个模型专注于建模跨变量之间的依赖关系。

这两个模型都在训练过程中使用相同的训练数据进行独立训练。在测试时，OneNet将强化学习方法引入传统的在线凸规划框架中，允许动态调整权重以线性组合两个模型。这样，OneNet可以同时利用这两种模型的优势，既能处理概念漂移，又能提高预测精度。下文中我们会详细介绍为什么需要两个不同的模型，如何更好的combine两个模型的预测结果。

实验结果表明，OneNet在挑战性数据集上表现尤为出色，误差降低超过50％。以及我们还进行了全面的实验，以研究不同的模型设计选择对模型鲁棒性的影响，包括但不限于instance normalization, variable independence, seasonal-trend decomposition, 以及 frequency domain augmentation。最后，我们系统地比较了现有的基于transformer的模型、基于tcn的模型和基于mlp的模型在面对概念漂移时的鲁棒性。希望我们的实验结果能为之后online time series forecasting的模型设计带来一些启发。

论文链接：https://arxiv.org/abs/2309.12659

代码链接：https://github.com/yfzhang114/OneNet

一、Motivation

如何动态，快速的调整模型让他迅速适应时序数据的变化，这个研究方向被称为Online Time Series Forecasting。实际世界中的在线预测环境存在很大的挑战，如与离线小批量训练相比，存在高噪声梯度问题（只有少量数据点），以及连续的分布偏移问题，这可能导致从历史数据中学习的模型对当前的预测效果不佳。

在本文中，我们首先发现变量的独立性（模型专注于建模跨时间依赖性并独立地预测每个变量）对于模型鲁棒性至关重要。为了验证变量独立性假设的有效性，我们设计了Time-TCN，它仅在时间维度上进行卷积。Time-TCN这个简单的baseline在在线预测方面优于FSNet（目前的SOTA），并在与通常在变量维度上进行卷积的TCN结构相比取得了显著的收益。

尽管变量独立性增强了模型的鲁棒性，但跨变量依赖性对于预测同样至关重要，即对于特定变量，来自其他变量中关联系列的信息可能会改善预测结果。正如在表1中所示，对于具有少量变量的数据集ETTm1和ETTh2，只关注跨时间依赖性的预测器往往会产生较低的性能。然而目前那些旨在同时利用跨变量和跨时间依赖性的模型，如CrossFormer和TS-Mixer，往往表现不如简单的TCN。

为了调查这一现象，我们在图1中可视化了在线自适应过程中不同时间步长的均方误差（MSE），其中分别使用了跨时间模型（Time-TCN）和跨变量模型（TCN）。我们观察到在线自适应过程中MSE波动很大，表明随时间发生了显著的概念漂移。我们还观察到，这两种方法都没有始终表现比另一种更好，表明这两种数据假设都不适用于整个时间序列。这就是为什么依赖像CrossFormer这样的单一模型不能解决这个问题的原因。

现有工作依赖于一个简单的模型，但对于在线时间序列预测来说，随着在线概念漂移的持续变化，数据对模型偏见的偏好也将不断变化。因此，我们需要一种数据依赖策略，以持续更改模型选择策略。

这就是本文的motivation，简单来说，一个模型所带有的model bias不足以面对复杂的concept drift，我们需要两个正交的模型相互补充相互促进。

二、OneNet: Ensemble Learning for Online Time Series Forecasting

2.1 Two-stream forecasters

OneNet通过跨时间和跨变量分支处理多变量数据，每个分支负责捕捉不同的方面。这两个分支的权重是由OCP块生成的，只有黑色箭头部分需要进行训练

2.2 Learning the best expert by Online Convex Programming (OCP)

首先我们需要了解，对于 online learning 来说，在线的组合两个模型的预测结果不是一个 novel 的事情，指数梯度下降（EGD）就是一种常用的方法。如果不喜欢下面的数学公式，那么简单描述就是我们给表现好的 forecaster 越来越大的权重，表现差的越来越小的权重，下面框中是对 EGD 的一个大概介绍。

然而，众所周知，指数加权平均预测器在分布发生急剧变化时响应非常迟缓，这是可以理解的因为如果我们一直给变现好的 forecaster 更大的权重，那么在一些它不 work 的 time pieces，我们很难把这个权重扭转过来。也就是说，EGD 算法生成的组合权重w 基于长时间内的历史性能，因此不能快速适应瞬态环境变化。

EGD 做的事情就是我们刚才提到的给表现好的 forecaster 越来越大的权重，表现差的越来越小的权重，而 offline RL 可以理解为一个 linear head，我们将上一个时间步模型的预测以及 ground truth 作为输入，它来预测下一个时间步两个 branch 各自的权重，可以看到，它只依赖于非常短期的信息，因此能够很快的 adapt 到新的 pattern。

OCP块通过利用指数梯度下降（EGD）保存的的长期依赖和离线强化学习（RL）的短期依赖生成组合权重

三、 Experiments

在本节中，我们将展示以下内容：

（1）所提出的 OneNet 仅使用简单的重新训练策略就实现了卓越的预测性能（与先前的 SOTA 模型相比，均方误差减少了超过 50%）；

（2）OneNet 达到了比其他方法更快、更好的收敛性能；

（3）我们进行了彻底的消融研究和分析，以揭示当前先进预测模型的每个设计选择的重要性。

最后，我们介绍了 OneNet 的一个变体，称为 OneNet-，其参数显著更少，但仍然远远超过了先前的 SOTA 模型。

3.1 Online forecasting results

累积性能：表3展示了不同基线模型在均方误差（MSE）方面的累积性能。特别是，Time-TCN 和 PatchTST 表现出强大的性能，并超过了先前的最先进模型 FSNet。所提出的 OneNet-TCN（TCN 和 Time-TCN 的在线集成）在各种预测时段中超过了大多数竞争基线。

有趣的是，如果组合的分支更强大，例如，OneNet 结合了 FSNet 和 Time-FSNet，实现了比 OneNet-TCN 更好的性能。也就是说，OneNet 可以集成任何先进的在线预测方法或表示学习结构，以增强模型的稳健性。与仅使用一个分支（FSNet 或 Time-TCN）相比，OneNet 的平均 MSE 显著更好，突显了在线集成的重要性。

EGD 相对于平均法提供了显著的好处，突显了每个专家的累积历史性能的重要性。此外，我们观察到 RL-W（只使用RL学习短期权重）在某些数据集上的性能与甚至更好。因此，我们提出了使用 EGD 更新长期权重和使用离线 RL 学习短期权重的 OCP 块。这一设计在性能上优于所有其他基线。除此之外，我们观察到 OneNet 对模型超参数不敏感。

预测结果可视化在上图中呈现。与难以适应新概念并产生糟糕预测结果的基线相比，OneNet 能够成功捕捉时间序列的模式

3.2 Ablation studies and analysis

实例标准化和季节性趋势分解的影响如表5所示。结果表明，从 PatchTST 中去除季节性趋势分解组件对其影响有限，无论模型是否进行在线适应。实例标准化（instances normalization）通常用于缓解训练和测试数据之间的分布差异，这对于在线适应不可能时的模型稳健性至关重要。

然而，当进行在线适应时，实例标准化的影响会减小。有趣的是，我们的实验发现，在预测时段较长（24 或 48）时，实例标准化阻碍了 ETTH2、ETTm1 和 WTH 数据集中模型的适应过程。因此，在概念漂移下，仅对时间序列进行零均值和单位标准差的标准化可能不是最佳方法。

变量独立性和频域增强的消融研究：如表11所示，我们观察到使用小波变换的频域增强块比傅立叶变换更具鲁棒性。FEDformer 在泛化方面优于 TCN，但在线适应对性能的影响有限，类似于其他基于 transformer 的模型。值得注意的是，我们发现变量独立性对模型的稳健性至关重要。通过仅在时间维度上卷积，与特征通道无关的TCN，与在特征通道上卷积相比，可以显著降低均方误差，无论此时是否应用在线适应。

现有先进预测模型的比较：结果如表12所示。考虑到所有四个数据集的平均均方误差，所有基于 transformer 的模型和 Dlinear 都优于 TCN 和 Time-TCN。然而，通过在线适应，TCN 结构的预测误差大幅减小，优于 DLinear 和 FEDformer。具体来说，我们展示了当前的基于 transformer 的模型（PatchTST）即使在没有任何在线适应的情况下，也表现出比 TCN 模型更好的泛化性能，特别是在具有挑战性的 ECL 任务中。

然而，我们也注意到 PatchTST 在在线重新训练后基本没有改变。相比之下，TCN 结构可以快速适应移动的分布，而在线更新的 TCN 模型更倾向于在前三个数据集上具有更好的预测误差，而不是适应后的 PatchTST。因此，将这两种结构的优点结合起来，创建一个更加稳健和适应能力更强的模型，可以更好地处理不断变化的数据分布，是有前途的。

四、Conclusion and Future Work

通过我们对具有概念漂移的先进预测模型行为的调查，我们发现在变量数量较多时，跨时间模型表现出更强的稳健性，但在变量数量较少时不如能够建模变量依赖性的模型。此外，由于概念漂移的发生，这个问题变得更加具有挑战性，因为模型偏差的数据偏好在整个在线预测过程中都在动态变化，使得单一模型难以克服。

为此，我们提出了OneNet模型，通过OCP充分利用了两种模型的优势。此外，我们提出通过离线强化学习学习额外的短期权重，以减轻传统策略学习算法中常见的“慢切换现象”。我们的大量实验证明，OneNet能够有效处理各种类型的概念漂移，并在预测性能方面优于先前的方法。

我们还发现，instances normalization在概念漂移下增强了模型的稳健性，但在某些情况下可能会妨碍模型迅速适应新分布的能力。这促使我们进一步探讨是否存在一种规范化技术，既可以减轻分布变化，又可以实现对不断变化的概念的快速适应。此外，尽管我们设计了OneNet的轻量级版本来解决引入额外参数和推断时间的问题，但存在更高效的适应方法的潜力，例如利用NLP/CV社区的提示和高效调整方法，以避免对整个模型进行重新训练。

最后，online ensembling的潜力不仅仅适用于time series data，对于动态变化的环境，包括但不限于online learning，test-time adaptation以及continual test-time adaptation的场景，他都有着相当不错的潜力。

作者：张一帆

来源：公众号【PaperWeekly】

Illustration by IconScout Store from IconScout