• Informer--用于长序列时序预测【2021AAAI Best Paper】


    开篇

    这篇文章来解读Informer,文章的出发点是利用Transformer来解决长序列时序预测问题【Long sequence time-series forecasting ,LSTF】,数据集为电力行业的变压器负荷、用电量等数据,获得2021年 AAAI Best Paper。恰好,作者之前【2017年】也有过国家电网售电量预测项目实操经验,对电力行业的预测痛点和难题颇为熟悉,因此就细致研究下该论文提出的方法。

    Paper 传送门:Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

    摘要

    许多真实世界的应用需要对长序列时间序列进行预测,如用电计划。长序列时间序列预测( Long sequence time-series forecasting LSTF)对模型的预测能力提出了很高的要求,即能够有效地捕捉输出和输入之间精确的长期依赖耦合( long-range dependency coupling)。最近的研究表明,Transformer 具有提高预测能力的潜力。然而,Transformer 存在一些严重的问题,使它不能直接应用于 LSTF,包括平方时间复杂度( quadratic time complexity)、高内存使用以及编码器-解码器架构固有的局限性。为了解决这些问题,我们设计了一个有效的基于Transformer 的 LSTF 模型,称为 Informer,它具有三个明显的特征: (i) ProbSparse self-attention 机制,在时间复杂度和内存使用上达到 O ( L ∗ log ⁡ L ) O(L *\log L) O(LlogL),并且在序列的依赖对齐上具有可比的性能。(ii) self-attention 蒸馏机制通过减半 (halving)的级联层输入突出了注意力,有效地处理极长输入序列。(iii)生成式风格的解码器虽然概念上简单,但只需一次forward 运算就可以预测出长时间序列,而不需要一步步地进行,大大提高了长时间序列预测的推理速度。在四个大规模数据集上的大量实验表明, Informer 的性能明显优于现有算法,为 LSTF 问题提供了一种新的解决方案。

    代码已开源:Informer

    Introduction

    长序列时序预测问题对模型能力提出了更高的要求,如下图:
    在这里插入图片描述
    传统的预测方法如LSTM,在预测超过一定长度时,性能迅速下降。因此,作者团队提出,能否利用Transformer方法来预测长序列?
    原始的Transformer在LSTF问题上有三个明显的缺陷:

    1. self-attention上的平方复杂度;
    2. 长序列堆叠层上的内存瓶颈;
    3. 预测长序列时的效率骤降;

    作者团队专研以上几个问题,提出Informer预测网络,主要贡献有:

    • 提出ProbSparse self-attention机制来替换inner product self-attention,使得时间和空间复杂度降为 O ( L ∗ log ⁡ L ) O(L *\log L) O(LlogL)
    • 提出self-attention distilling来突出dominating score,缩短每一层输入的长度,降低空间复杂度到 O ( ( 2 − ϵ ) ∗ L ∗ log ⁡ L ) O((2-\epsilon)*L *\log L) O((2ϵ)LlogL)
    • 提出generative decoder来output predicting,此过程仅需要one forward step,时间复杂夫降为 O ( 1 ) O(1) O(1)

    Informer结构图:
    在这里插入图片描述

    Methodology

    Efficient Self-attention Mechanism

    Query Sparsity Measurement

    在这里插入图片描述
    在这里插入图片描述

    Encoder: Allowing for Processing Longer Sequential Inputs under the Memory Usage Limitation

    在这里插入图片描述

    Self-attention Distilling
    在这里插入图片描述

    Decoder: Generating Long Sequential Outputs Through One Forward Procedure

    在这里插入图片描述

    Experiment

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • 相关阅读:
    Java 中的深拷贝和浅拷贝你了解吗?
    ChatGPT API 学习
    大数据学习之一——Hadoop单机部署
    51单片机学习:步进电机实验
    大模型从入门到应用——LangChain:代理(Agents)-[代理执行器(Agent Executor):处理解析错误、访问中间步骤和限制最大迭代次数]
    【面向小白】深究模型大小和推理速度的关系!
    常见的spark mllib分类算法详解
    【华为机试真题 JAVA】乱序整数序列两数之和绝对值最小-100
    .net餐厅管理系统用户,餐厅、结果Model部分
    Axure 9 使用 font awesome 字体发布原型
  • 原文地址:https://blog.csdn.net/qq_32275289/article/details/127036211