NLC: Search Correlated Window Pairs on Long Time Series(VLDB2022)

目前，许多应用，如物联网和工业互联网，从传感器连续收集数据点，形成长时间序列。发现时间序列之间的相关性是许多时间序列挖掘问题的基本任务。然而，现有的工作要么局限于检测关系的类型，如仅检测线性相关关系，要么未处理复杂的时间关系，如未考虑非对齐窗口或可变窗口长度。本文提出了一种有效的方法——非线性相关搜索(NLC)，用于搜索两个长时间序列上的相关窗口对。首先，提出窗口收缩和窗口扩展两种策略，快速找到高质量的相关窗口对候选;然后，通过嵌套一维搜索方法对候选集进行优化;进行了系统的实证研究，验证了所提出方法在合成和真实数据集上的效率和有效性。

阅读者总结：这篇论文在检索长时间序列最大信息熵窗口对问题上，主要创新：1）提出了这个问题，应该说，整篇论文的最大亮点在于问题本身。文中设计的算法不算很新颖，简单说就是find-refine两个过程。2）文中另一方面是在分析这个问题上，采用数据驱动的方式，很有说服力，使阅读者相信这个问题值得采用新办法解决，同时在写作和文章布局上值得学习。

3）这篇论文和ICDE 2022上对齐窗口索引压缩问题，有类似的背景。但是ICDE上考虑的时间窗口对齐，没有考虑窗口时间延迟。因此这篇论文其实可以借鉴ICDE上的方式，以查询索引的方法寻找相关延迟窗口对，自觉上来说，查询时间和效率肯定比当前采用放缩窗口的方法要高很多。

问题：

1）所有这些工作都旨在从长时间序列对中挖掘局部线性相关性。然而，在许多应用中，由于复杂的物理或化学机理，时间序列具有很强的非线性关系

2）TYCOS有两个缺点。首先，在候选集生成阶段，只搜索对齐的相关窗口对;因此，对于时延较大的窗口对，算法的性能较差。其次，爬山法容易找到局部最优结果，而不是真正的最优结果。

方法：

本文提出了一种两阶段的方法，非线性相关搜索(NLC)。在第一阶段，我们生成一组相关的候选窗口对。提出了窗口收缩和窗口扩展两种策略。窗口收缩策略适用于相关性的稀疏分布，具有较高的效率。它可以快速地修剪非限定区间。相比之下，窗口扩展策略速度稍慢，但当相关窗口分布更密集时，它可以发现更多的对。第二阶段将候选求精问题转化为一个优化问题，并采用一维嵌套搜索策略进行求解。