Informer--用于长序列时序预测【2021AAAI Best Paper】

开篇

这篇文章来解读Informer，文章的出发点是利用Transformer来解决长序列时序预测问题【Long sequence time-series forecasting ，LSTF】，数据集为电力行业的变压器负荷、用电量等数据，获得2021年 AAAI Best Paper。恰好，作者之前【2017年】也有过国家电网售电量预测项目实操经验，对电力行业的预测痛点和难题颇为熟悉，因此就细致研究下该论文提出的方法。

Paper 传送门：Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

摘要

许多真实世界的应用需要对长序列时间序列进行预测，如用电计划。长序列时间序列预测( Long sequence time-series forecasting LSTF)对模型的预测能力提出了很高的要求，即能够有效地捕捉输出和输入之间精确的长期依赖耦合（ long-range dependency coupling）。最近的研究表明，Transformer 具有提高预测能力的潜力。然而，Transformer 存在一些严重的问题，使它不能直接应用于 LSTF，包括平方时间复杂度（ quadratic time complexity）、高内存使用以及编码器-解码器架构固有的局限性。为了解决这些问题，我们设计了一个有效的基于Transformer 的 LSTF 模型，称为 Informer，它具有三个明显的特征: (i) ProbSparse self-attention 机制，在时间复杂度和内存使用上达到 $*\log L)$ ，并且在序列的依赖对齐上具有可比的性能。(ii) self-attention 蒸馏机制通过减半（halving）的级联层输入突出了注意力，有效地处理极长输入序列。(iii)生成式风格的解码器虽然概念上简单，但只需一次forward 运算就可以预测出长时间序列，而不需要一步步地进行，大大提高了长时间序列预测的推理速度。在四个大规模数据集上的大量实验表明， Informer 的性能明显优于现有算法，为 LSTF 问题提供了一种新的解决方案。

代码已开源：Informer

Introduction

长序列时序预测问题对模型能力提出了更高的要求，如下图：
在这里插入图片描述
传统的预测方法如LSTM，在预测超过一定长度时，性能迅速下降。因此，作者团队提出，能否利用Transformer方法来预测长序列？
原始的Transformer在LSTF问题上有三个明显的缺陷：

self-attention上的平方复杂度；
长序列堆叠层上的内存瓶颈；
预测长序列时的效率骤降；

作者团队专研以上几个问题，提出Informer预测网络，主要贡献有：

提出ProbSparse self-attention机制来替换inner product self-attention，使得时间和空间复杂度降为 $*\log L)$ ；
提出self-attention distilling来突出dominating score，缩短每一层输入的长度，降低空间复杂度到 $O((2-\epsilon)*L *\log L)$ ；
提出generative decoder来output predicting，此过程仅需要one forward step，时间复杂夫降为 $O (1)$ 。