随着信息产业技术的升级,产生了大规模的时间序列数据,长期并广泛存在于工业制造、航空航天、公共卫生、环境保护等关键基础领域。时间序列信息能够被充分理解、计算和利用,实现精准预测并辅助决策,是关系到国家竞争力的重要问题。
该类分析的朴素描述是回归问题,在上个世纪60年代,序列数据规模较小、任务相对简单,以线性回归为代表的统计学方法是主流的解决手段,通常要求被分析的序列具有一定统计假设。进入互联网时代后,数据的规模发生了显著的变化,以循环神经网络、时间卷积网络等为代表的深度学习模型被引入,其独特的端到端 (End-to-End) 网络架构可以避免专家知识依赖的领域特征工程,直接建模大规模的序列关联。
针对海量的数据处理需求和多变的业务需求,序列预测技术持续演进,赋予了这个领域独特的研究热度和生命力。领衔人在该领域提出了Informer等代表性模型,并推动序列预测往长时序发展。
在此背景下,昇思MindSpore时序AI专项兴趣小组(简称:时序AI SIG)正式成立,并面向开源社区招募志同道合的伙伴。
产业大数据中产生越来越多的长序列预测与决策需求,带来全新的挑战和困难。首先长序列预测的输出显著变长,导致传统模型长期预测性能严重失效、预测效能受制于模型推断复杂度。并且长序列预测中元素关联跨度大,导致输入数据中预测机理不明确、关键元素缺失导致的协同建模困难被明显放大。因此针对产业大数据中,因序列数据的长度和规模持续递增所带来的,长序列预测失效、远期关联语义失真、结构嵌入模型失序等难题,重点解决长序列预测关键科学问题。
小组主要开展了如下几个方向的工作:
长序列高效建模和精准预测
研究长序列场景下序列数据的稀疏建模与单步推断预测,利用序列数据的长尾冗余性假设,建模序列稀疏机制以提升长序列模型的计算效率和准确性,并通过避免迭代递推计算减小预测误差的累积,保证模型计算复杂度与预测精度的有效平衡,解决长序列数据的高效精准预测问题。
长序列协同预测和持续决策
研究多序列场景下内嵌数理规则的长序列数据预测方法,突破传统预测模型可解释能力不足、预测机理不明确、关键元素缺失的局限性,通过融合物理过程提升模型稳定可解释预测的能力,还原非稳态环境下的环境与策略的复杂依赖关系,解决长序列数据的规则协同预测与持续决策问题。
长序列结构嵌入和组合预测
研究多任务场景下长序列数据结构关联的嵌入模型框架搭建,针对不同的任务主导因素分布,提出了具有时空分辨颗粒度的多种序列数据建模方式,通过使用网络架构自动搜索方法进行多任务的数据分布长期变迁追踪和组合预测。
联合共建MindSpore“长序列智能计算通用套件”
基于全场景AI框架昇思MindSpore,实现一系列序列模型的落地和推广,目标典型产业领域需求,推动构建大规模时序模型预训练任务。研究更为规范和自动化的模型迁移技术以提升AI模型从其他框架迁移到MindSpore的自动化程度,以降低其他框架模型迁移到MindSpore的成本,形成融合生态。
以成员学术交流活动为主,每月组织线上交流活动,围绕时序预测AI中涉及的高效建模、精准预测、协同决策、持续决策、组合预测等问题,介绍研究工作进展,讨论研究工作中的难点。
通过合作开发等模式,在国内高校及企业间开展时序预测AI问题的合作研究。
通过任务揭榜或比赛PK等模式,在全球范围内开展时序预测AI问题的合作研究。
前期基础
需要成员对机器学习的基本理论有所掌握,了解经典时序模型的原理并且能够动手复现,熟悉Informer开源项目。另外需要具备一定的文献阅读能力和代码开发能力。
进阶路线
1、了解时序常见问题(预测、分类、异常检测等)和对应的常用处理方式。
2、按照“统计类模型—树模型—深度学习模型”的顺序逐步学习时序领域经典模型。
3、动手实践一些开源项目,同时参加一些时序领域比赛。