Data Augmentation techniques in time series domain: A survey and taxonomy

本文是对《Data Augmentation techniques in time series domain: A survey and taxonomy》的翻译。

时间序列域的数据增强技术：综述与分类

摘要
1. 引言
2. 相关工作
3. 背景
4. 评价指标
5. 数据增强算法综述
6. 开放问题与挑战
7. 讨论
- 7.1 优势
- 7.2 不足
8. 结论

摘要

随着深度学习生成模型的最新进展，利用它们在时间序列领域的出色表现并不需要很长时间。用于处理时间序列的深度神经网络在很大程度上依赖于用于训练的数据集的广度和一致性。这些类型的特征在现实世界中通常并不丰富，它们通常是有限的，并且通常具有必须保证的隐私约束。因此，一种有效的方法是使用数据增强（DA）技术，通过添加噪声或置换以及生成新的合成数据来增加数据的数量。它系统地回顾了该领域的最新技术，概述了所有可用的算法，并提出了最相关研究的分类。将评估不同变体的效率；作为过程的一个重要部分，将分析评估性能的不同指标以及与每个模型相关的主要问题。这项研究的最终目标是提供一个关于产生更好结果的领域的发展和表现的总结，以指导该领域的未来研究人员。

1. 引言

自深度学习（DL）出现以来，研究和工业界的一项重要工作就是解决和改进监督训练任务。监督学习需要具有各种特征的数据集，其中每个样本都必须标记。使用监督学习技术解决的最具代表性的问题是分类、回归和结构化模式输出问题。
传统上，用于监督任务的机器学习（ML）模型属于区分模型类别。区分建模与监督学习同义，或使用标记数据集学习将输入映射到输出的函数。从形式的角度来看，区分建模估计 $p (y ∣ x)$ , 即根据观察 $x$ 标签的概率 $y$ .
然而，当试图在不完整、不平衡或隐私受到挑战的数据集上训练其中一个模型时，存在一个主要问题。通常，这些问题通过预处理数据集技术（如子采样）解决，或者在数据集不够大的情况下，通过DA技术解决。
然而，随着问题的出现，技术不断发展以解决这些边界。近年来，人工神经网络（ANN）及其在DL领域的应用经历了一个巨大的发展时期。虽然有多种模型促成了这一扩展，但Ian Goodfellow提出的最具革命性的模型之一出现在2014年，他提出了生成对抗网络（GANs）。
GANs肯定不是有史以来引入的最早的生成式体系结构；早在1987年，Yann Lecun就在他的论文中提出了自编码器（AE）架构，该架构能够生成作为输入接收的数据修改。但是，直到将定向概率模型并入AE架构（也称为变分自动编码器（VAE）[58]），模型才开始显示为能够生成合成数据。
尽管这些网络显示了令人印象深刻的结果，但GANs的能力已被证明遥遥领先，并在图像领域取得了令人印象的结果。然而，这不是唯一的应用领域；合成数据生成是合成敏感数据（如电信领域的敏感数据）的强大推动力。
因此，本文旨在回顾DA和数据生成的所有现有技术，并回顾每种技术的积极和消极方面。

2. 相关工作

最近，发表了许多高质量的数据增强综述文章。然而，它们大多集中在更流行的领域，如图像、视频或自然语言处理（NLP）。尽管这些技术侧重于纠正数据集的不平衡或不完整性，但在其他应用领域，这些问题更为常见。在深度学习应用的所有领域，有效数据集的稀缺性并不像时间序列中那样明显。
在文献综述的第一种方法中，在[49]中，对DA算法进行了近似，用于时间序列分类的神经网络算法。在综述中，他们评估了12种方法，用6种不同类型的神经网络增强128个时间序列分类数据集中的时间序列数据。最近的其他研究更具体地关注GAN用于数据增强，如[12]，其中他们关注离散变量GAN和连续变量GAN的分类，其中GAN处理离散时间序列和连续时间序列数据。
然而，改进数据源去喂给人工智能（AI）算法并不仅限于DA。因此，一些研究决定采用构建合成流量生成器的方法，几乎从零开始生成数据集；一些例子集中在这方面。通过这种方式，他们能够从数据集本身进行抽象，这仅是理解数据分布所必需的。此外，在[82]中，他们进一步研究了这些技术的影响，强调了生成合成数据的主要优势之一，隐私问题的抽象，以及获取数据集的方便性。
尽管这一领域的新技术有可能提高时间序列数据集的质量，但综合所有技术的研究并不多。因此，我们希望通过将当前存在的所有时间序列DA和数据生成器算法结合起来，对比它们可能的优点、方法和差异，帮助未来的研究人员在该领域定位，从而有助于缩小该领域的现有差距。

3. 背景

3.1 传统算法

当可用数据不平衡或不足时，DA一直是一项关键任务。传统上，在图像识别等领域，对数据应用了不同的变换，如裁剪、缩放、镜像、颜色增强或平移。
由于数据本身的特殊性，这些算法无法直接进行时间序列中的DA。由于时间序列数据的多样性，并非所有技术都可以应用于每个数据集。计算机视觉中使用的一些以前的算法可以适用于时间序列域，但在其他情况下，必须设计新的特定算法来处理时间序列数据。
将DA应用于时间序列域（特别是在信号处理中）时的另一个重要因素是，对数据的处理可能会使信号失真太多，导致负训练。
我们将定义所有技术的传统算法，其基础是获取数据输入样本，并通过修改这些数据和应用不同的转换来合成新样本。该技术与我们在第3.2节和第3.3节中回顾的技术之间的主要区别在于，在前两种算法中，变换直接应用于数据，而在后一种算法中目标是学习数据的概率分布，以便生成试图模拟数据分布的全新样本。

3.2 变分自编码器（VAE）

VAE是由Diederik P.Kingma和Max Welling首次引入的神经生成模型。该算法基于1987年提出的AE架构。AEs允许将典型的人工智能问题（如线性回归或分类）更改为域转移问题。为了执行此操作，AEs获取一个输入，通常是一个图像，并推断，作为同一输入的输出修改，最广泛的领域是图像去噪。
AE网络由编码器和解码器两部分组成。编码器负责将数据的输入维数减少到潜在空间，而解码器从该潜在表示重构输入信息。该潜在空间是输入数据的低维流形。然后，生成合成数据，对潜在空间的值进行插值并解码。然而，潜在空间的这种插值不会产生完全新的值；它只是混合了学习的概率分布的特征。
为了避免AE中产生的过拟合，VAE将其训练正则化，生成更多样值。两种架构之间的主要区别是VAE以概率分布而不是以点编码输入信息。然后，根据该分布，它对一个点进行采样，然后对该点进行解码以合成新的样本。
该中间步骤允许网络将输入分布映射到低维分布，从该低维分布可以生成新的潜在点。为此，潜在分布通常由具有均值 $\vec\mu=(\mu_1,\cdots,\mu_n)$ 和标准差 $\vec\sigma=(\sigma_1,\cdots,\sigma_n)$ 的正态分布定义。这些均值和标准差向量定义了模型的潜在分布。
让网络学习分布，而不是在AE中学习的一组点，解码器网络将输入数据的特征与概率区域及其各自的均值和偏差相关联。通过这种表示，分布的均值定义了生成合成样本的中心点，标准差定义了输出的可变性，即生成样本的多样性。
图1显示了VAE网络的架构。
在这里插入图片描述

3.3 生成对抗网络（GAN）

GANs是一种基于两个神经网络（NN）之间竞争的生成神经模型，由Ian Goodfello于2014年首次引入。该体系结构的目标是复制给定的数据分布，以合成分布的新样本。为了实现这一目标，GAN架构由生成器（G）模型和鉴别器（D）模型组成。前者负责生成数据分布的合成样本，而后者试图区分真实样本和合成样本。
为了实现生成与输入数据分布不可区分的全新数据的目标，两个模型相互作用。G生成试图复制分布的样本，而不复制分布，而D区分真实样本和假样本。这样，当D对两个分布进行微分时，它会负反馈G；另一方面，当D不能区分每个分布时，其正反馈G。在这样做的过程中，G演变为欺骗D。同时，当正确进行区分时，D得到正奖励。
这种竞争鼓励两个网络一起进化。如果D在其任务中失败，G将不会进化，因为不管合成样本的质量如何，它总是会成功。尽管如果D总是完美区分两种分布，G将无法欺骗D，使其不可能进化。
标准GAN架构如图2所示。
从数学角度来看，这种竞争行为是基于博弈论的，两个参与者在零和博弈中竞争。D估计 $p (y ∣ x)$ , 其中𝑦是给定样本x的标签（真或假）。G从潜在向量z生成合成样本, 其可以表示为：𝐺(𝑧).
从形式的角度来看，这种竞争被定义为一个极大极小博弈，其中D试图在区分两种分布时最大化其精度，G试图最小化该精度。该方法的公式表示如下：
$\min_G\max_DL(D,G)=E_{x\sim p_r}\log[D(x)]+E_{z\sim p_z}\log[1-D(G(x))]\tag{1}$
其中 $z$ 是由均匀分布或高斯分布随机生成的潜在向量，并且 $x\sim p_r$ 是真实分布。
在GANs发表的出版物中，证明了该体系结构可以收敛到唯一解。这一点被称为纳什均衡，由于GANs的不稳定行为，在实践中很难实现。纳什均衡的特点是没有一个网络能够减少各自的损失。
在这里插入图片描述

4. 评价指标

由于时间序列领域的特殊性，没有唯一的度量来评估算法在所有应用中的可靠性。寻找能够评估合成数据的质量和多样性的测量仍然是一个开放的问题。
例如，在GAN网络中，不同研究之间的评估指标没有共识。此外，大多数设计的评估指标都以计算机视觉为中心，因为它是此类网络最流行的领域。
因此，我们将描述用于评估本文中讨论的算法的最常用度量。然而，应注意的是，为了选择适当的评估度量，应使该度量适应特定的数据增强算法和应用领域。

4.1 外部性能评价

将DA应用于数据集时，最常见的目标是生成新的数据样本，以提高某些模型的性能，减少数据的不平衡或数据的缺乏。衡量添加新数据如何改变模型行为的最常用方法之一是简单地比较DA前后的这些模型。然后可以比较将DA应用于输入数据后，每个模型是否改善了其性能。
这种近似纯粹是实用的，依赖于定义模型的性能与合成样本本身的质量之间的相关性。大多数传统算法的性能都基于这种方法，因为它是一种评估算法的简单方法。
在[9]中，他们提出的DA算法的性能是使用对称平均绝对百分比误差和平均绝对标度误差来实现的，这是预测中使用的两个最常用的评估指标。研究比较了将DA应用于数据集之前和之后这些度量的值，然后评估了由于向训练集添加更多数据，模型如何提高其性能。
在[49]中，他们使用了六种不同的神经网络来评估每个DA算法对数据分类的影响。特别是，他们评估了VGG、残差网络、多层感知器、长短时记忆、双向长短时记忆和长短时记忆完全卷积网络。然后，比较模型精度的变化，观察某些DA算法如何提高模型的性能，而在其他情况下，它变得更差。本文中所述的主要缺点是，由于每个算法的结果不同，每个架构都有其特殊性，因此很难区分最佳算法。此外，由于它们都是神经模型，因此很难解释某些结果。
[62]中采用的近似方法是通过在每种研究案例中产生的精度提高来比较不同的DA技术。值得一提的是，该近似值如何适应每个应用程序，而无需更改任何内容。本文的作者能够在相同的标准下比较非常不同的技术，如噪声添加、GAN、滑动窗口、傅立叶变换和分割重组，以用于特定的领域目的。该示例显示了该近似如何容易地适应不同的DA技术，从而可以比较特定任务的结果。
测量新生成数据质量的类似近似方法是使用定义的损失函数比较不同模型。在GANs架构中遵循了这种近似，其中可以使用相同的损失函数来评估网络之间的训练。然后，他们将合成数据的质量与该值相关联。这种近似可以自然地应用于时间序列域，允许不同网络之间的比较。然而，该方法的主要缺点是它比较了不同神经模型的性能，不能应用于其他模型。应该注意的是，与前面的度量一样，它将生成数据的质量与数据本身相关联，而与模型的性能相关联。
在[102]中，他们将不同DA技术的性能与每类平均误差（MPCE）进行了比较。[101]中提出的这一度量，考虑到每个数据集中的类数，测量J个数据集中每个类的误差。MPCE的主要特点是，它允许我们量化不同数据集的算法性能。MPCE计算如下：
$MPCE=\sum_{j\in[J]}PCE_j=\frac{e_j}{c_j}\tag{2}$
其中 $e_j$ 是错误率， $c_j$ 是每一个数据集中类别的数量。该度量能够考虑每个数据集的类数，以便使不同数据源之间的比较标准化。

4.2 GAN相关度量

自从引入GAN以来，测量该体系结构产生的合成样品的质量一直是一个开放的问题。为GANs设计度量时最重要的困难之一是捕获生成数据的质量和多样性的能力。
除了仍然是一个悬而未决的问题外，在一些指标上存在共识，许多文章使用相同的指标来衡量结果。时间序列域中的主要问题是，由于大多数度量被设计用于与计算机视觉相关的任务，因此不可能总是使度量适应该领域的特殊性。
在过去几年中，一些文章建议将DA应用于时间序列数据，并将其视为图像。这些文章使用GAN网络合成新的时间序列数据，但将信号数据转换为图像。在这些情况下，使用传统的GAN度量，如初始得分、模式得分或Fréchet初始距离来评估结果。这些度量基于Inception v3神经分类器如何区分不同样本。其思想是使用外部分类器测量合成数据集的熵。
除了计算机视觉领域外，还开展了将GAN直接应用于时间序列的研究。也就是说，在时间序列GAN（TimeGAN）中，提出了两个新的度量来评估生成样本的质量。鉴别得分基于外部预训练模型的使用，如初始得分，由两层长-短期记忆（LSTM）组成。判别得分衡量该模型如何区分真实样本和假样本，分类误差对应于判别得分。此外，预测得分也使用2层LSTM，但在这种情况下，该模型是用合成样本训练的。然后使用原始数据集对模型进行评估。预测得分对应于用真实样本评估的合成样本训练的模型的平均绝对误差（MAE）。

4.3 相似性度量

这组度量集中于两种概率分布的比较。其目的是测量使用DA生成的合成样本与原始分布的距离。这些度量的主要优势在于，它们专注于直接研究数据的质量，而不是以前综述过的间接度量质量的方法。这些类型的度量的另一个优点是，它们可以应用于合成数据，尽管使用了生成它们的算法。
度量两种分布之间差异的经验和定性方法是减少数据的维数并进行视觉比较。目标是降低数据的维数，以在二维空间中绘制样本；然后通过可视化数据进行实证比较。[104]中采用了这种方法，他们应用了T分布随机邻域嵌入（T-SNE）和主成分分析（PCA）。然后，他们比较了时间GAN、循环条件GAN（RCGAN）、连续循环GAN（C-RNN-GAN）、T-Forcing、WaveNet和WaveGAN在二维空间中的数据分布。[50]中也采用了这种方法，他们使用主成分分析（PCA）来比较2018年UCR时间序列档案中枪口数据集的不同传统算法。
Kullback-Leibler散度（KL散度）已在[19，30]等工作中用于度量合成数据集和真实数据集之间的相似性。KL散度定义如下：
$D_{KL}(P||Q)=\sum^{|v|}_{i=1}P_v(i)\frac{P_v(i)}{Q_v(i)}\tag{3}$
其中𝑃 和𝑄是计算其距离的概率分布，以及𝑖是分布的每个样本。
[14]中提出了一种新的度量方法，用于量化时间序列分布之间的距离。它基于计算时间序列数据之间的Wasserstein距离。该度量通过测量频率之间能量的Wasserstein距离来定义。概率分布之间的Wasserstein-Fourier距离计算如下：
$WF([x],[y])=W_2(s_x,s_y)\tag{4}$
其中 $s_x$ 和 $s_y$ 是分布的归一化功率谱密度。

5. 数据增强算法综述

本节将回顾不同的最新算法。本节将解释每种算法的特殊性、优点和缺点。此外，应用DA的不同近似值将被分组并在它们之间关联。将提出不同趋势和研究路线的分类法，显示过去几年的工作之间存在的不同联系。
应当注意，并非所有算法都可以应用于所有类型的时间序列数据；在某些情况下，所提出的算法将主要集中在某个应用上，而在其他情况下，将研究更一般的技术。

5.1 基本的DA方法

本节将回顾的基本DA算法都是使用数据操作来使用现有样本并转换原始样本生成新的合成数据样本的技术。所有这些技术都以数据集数据样本的变形、缩短、放大或修改为基础。这组技术传统上用于计算机视觉等领域，在某些情况下，相同的算法可以适用于处理时间序列数据，但在其他情况下，必须专门设计新的算法以使用时间序列数据作为输入。
因此，我们将回顾和讨论应用于时间序列数据的最重要的传统算法，概述其特殊性、优缺点。图3显示了为所综述的不同算法提出的分类法。
在这里插入图片描述

5.1.1 时间切片窗口。

在时间序列中，切片包括切割每个数据样本的一部分，以生成不同的新样本。通常，切片应用于采样的最后步骤，但原始样本的片段可以从任何步骤获得。裁剪原始数据时，会生成不同的样本，但与图像处理不同，很难保持原始数据的所有特征。对时间序列数据进行切片的过程可以表示为：
$x^\prime(W)=\{x_\varphi,\cdots,x_t,\cdots,x_{\varphi+W}\}\tag{5}$
其中W是定义了裁剪大小的滑动窗口， $\varphi$ 是执行切片的起始点，比如 $1\leq\varphi\leq T-W.$ 对信号进行切片的最重要的缺点之一是，它可能导致无效的合成样本，因为它会切断数据的重要特征。
[13]中提出了切片方法的一种变体，其中提出了级联和重采样方法。该算法首先检测数据中的特征，称为特征点，用𝑞表示, 这是通过使用Pan-Tompkins QRS检测器实现的。该算法检测心跳信号中的特征点，因此为了应用级联和重采样算法，必须定义检测这些点的算法。然后，在检测到特征点之后，将其定义为子序列𝑆𝑆 其开始和结束于特征点。该序列被复制k次和用W窗口大小进行切片以执行DA。
级联和重采样算法试图确保数据的有效性，同时考虑到信号保持其特征。但该方法的主要缺点是，它需要一个特征点检测器来确保数据的有效性。

5.1.2 抖动。

抖动包括向时间序列添加噪声以执行DA。该技术除了是DA的最简单形式之一外，也是时间序列中最流行的一种。抖动假设数据是有噪声的，这在许多情况下，即在处理传感器数据时是真实的。
抖动试图利用数据的噪声并模拟它以生成新样本。通常，高斯噪声被添加到每个时间步长；该噪声的均值和标准差定义了变形的大小和形状，因此在每个应用中都是不同的。抖动过程可以定义如下：
$x^\prime(\epsilon)=\{x_1+\epsilon_1,\cdots,x_t+\epsilon_t,\cdots,x_T+\epsilon_T\}\tag{6}$
其中 $\epsilon$ 指的是信号每一步增加的噪声。
如上所述，抖动过程必须适用于每种情况，因为在[95]等情况下，抖动的影响会导致负面学习。

5.1.3 缩放。

缩放包括在时间序列域中改变某一步长的大小。其思想是保持信号的整体形状，同时改变其值。通过缩放，新生成的数据会更改值的范围，但保持更改的形状。均匀缩放可以表示为：
$x^\prime(\alpha)=\{\alpha x_1,\cdots,\alpha x_t,\cdots,\alpha x_T\}\tag{7}$
其中 $\alpha$ 定义变化的规模，该值可由均值为1的高斯分布和 $\sigma$ 作为超参数，或者可以从值列表中预先定义。
在缩放技术中，对于特定的时间序列域有几种不同的近似。它们利用信号数据的特定特性，并适应于执行DA。
幅度扭曲是[95]中使用的一种技术，包括对数据曲线的不同点应用可变缩放。要定义应用变换的位置，一组节点 $u=u_1,\cdots,u_i$ 被定义；这些表示执行缩放的步骤。然后，通过节点的三次样条插值来定义缩放的大小，例如 $S (x)$ 。则幅度扭曲可以定义如下：
$x^\prime(\alpha)=\{\alpha_1x_1,\cdots,\alpha_tx_t,\cdots,\alpha_Tx_T\}\tag{8}$
其中 $\alpha=\alpha_1,\cdots,\alpha_i=S(x).$ 对于幅度扭曲，主要的特殊性是它将平滑缩放应用于曲线的每个点，从而在保持数据整体形状的同时增加变换的可能性。然而，它仍然假设合成数据在转换后保持有效性。
频率扭曲是幅度扭曲的一种变体，主要应用于语音处理。语音识别中最流行的版本是声道长度扰动，它可以以确定性方式或在范围内随机应用。
另一种缩放技术是时间扭曲，其思想非常类似于幅度扭曲，但两种算法之间的主要区别是时间扭曲在时间维度上修改曲线。也就是说，它不是在每个步骤中波动信号的幅度，而是拉伸和缩短信号的时间片。为了定义如何扭曲信号，通过对一组节点使用三次样条曲线来定义平滑曲线，就像在幅值扭曲中所做的那样。时间扭曲算法可以表示为：
$x^\prime(\tau)=\{\tau_1x_1,\cdots,\tau_tx_t,\cdots,\tau_Tx_T\}\tag{9}$
其中 $\tau$ 是曲线的函数，比如 $\tau=S(x)$ 。该算法已用于多项工作，如[52，79]。该算法还有另一种变体，称为窗口扭曲，在[63]中定义了时间序列数据中的切片，并将数据加速或减速1/2或2倍。在这种情况下，扭曲应用于整个序列的定义切片；信号的其余部分不变。

5.1.4 旋转。

旋转可以通过应用具有定义角度的旋转矩阵应用于多变量时间序列数据。在单变量时间序列中，可以通过翻转数据来应用旋转。旋转定义如下：
$x^\prime(R)=\{Rx_1,\cdots,Rx_t,\cdots,Rx_T\}\tag{10}$
其中R定义每个步骤的旋转度。该算法在时间序列中并不常见，因为旋转时间序列样本可能会丢失类信息。另一方面，已有文章证明了应用旋转的好处，特别是与其他数据转换相结合。

5.1.5 置换。

为了执行DA，对数据的不同时间片进行混洗是一种生成新数据模式的方法。[95]中提出了该方法，其中定义了一个固定的切片窗口，从中重新排列数据，但它也适用于可变窗口。应用置换的主要问题是它不能保持时间依赖性；因此，它可能导致无效样本。置换算法可以表示如下：
$x^\prime(w)=\{x_i,\cdots,x_{i+w},\cdots,x_j,\cdots,x_{j+w},\cdots,x_k,\cdots,x_{k+w}\}\tag{11}$
其中𝑖, 𝑗, 𝑘 表示每个窗口的第一个索引切片，因此每个窗口都被选中一次，并且𝑤 表示窗口大小如果切片均匀𝑤 = 𝑇 /𝑛 其中𝑛 是总切片数。

5.1.6 信道置换。

改变多维数据中不同通道的位置是常见的做法。在计算机视觉中，交换RGB通道以执行DA非常流行。关于时间序列，只要数据的每个信道仍然有效，就可以应用信道置换。多维数据的信道置换算法比如 $x=\{\{x_{11},\cdots,x_{1T}\},\cdots,\{x_{c1},\cdots,x_{cT}\}\}$ 其中c是信道的数量，能够被表示为：
$x=\{\{x_{i1},\cdots,x_{iT}\},\cdots,\{x_{j1},\cdots,x_{jT}\}\}\tag{12}$
其中i和j代表着信道的数量，因此，每个索引只会被选择一次。
在时间序列域，该算法不适用于数据的应用，因为置换假设信道信息独立于信道本身。换句话说，关于信道的信息不连接到特定信道。
也就是说，在[30]中，他们通过翻转记录数据信号的传感器的位置来应用该算法。在这篇文章中，研究人员使用了一个带有八个接近传感器的运动垫，通过翻转这些传感器来生成新数据。即，在实践中，改变信号信道的位置。

5.1.7 传统算法概述。

图4显示了回顾的每个算法的示例。
在这里插入图片描述

5.2 通过VAE的数据增强

AE体系结构的使用只不过是数据生成算法的演变，以产生更多更好的数据，这意味着，更好的是，它们是变化的，因此相对于原始数据的标准差是完美的。为了精确控制数据的偏差，VAE随着AE的演变而产生，以生成更好的合成数据，如[4]所示，其中VAE用于生成LSTM异常检测问题的数据。或这项其他工作[5]，其中他们使用VAE增强的数据集来提高对人类活动的LSTM识别。更详尽的研究显示了这些算法在增加数据集大小方面的效率。
但是，将VAEs用于DA不仅适用于神经网络模型，还可以在应用传统机器学习算法时改善结果。然而，它们也可用于具有无监督训练的应用，即[44]中，该文将它们应用于鲁棒语音识别的无监督域自适应。
在[20]中，他们指出，时间序列的大多数数据增强方法使用特征空间变换来人为地扩大训练集；他们提出了一种用于时间序列增强的自编码器（AEs）、变分自编码器（VAEs）和带梯度惩罚的Wasserstein生成对抗网络（WGAN GPs）的组合。
最后，每个VAE模型及其超参数配置使他们专门研究他们想要研究的数据集的区域或形式；但最重要的是它将用于以后的问题类型。也就是说，模型之间的差异在于生成的数据将用于哪些问题，例如：分类、预测、值填补或预测。

5.2.1 VAEs用于异常检测。

如前所述，VAEs是一种DA架构，已广泛应用于异常检测领域。在异常检测任务中使用该模型的主要目的是能够生成数据，以避免缺少数据集的无效数据。最常见的情况是，没有足够的可用异常样本来使用数据集训练机器学习模型，因此VAE的使用重点是生成新数据。
[4]中的工作集中于心电图（ECG）信号的分类，区分有心脏功能不全的信号。为了增加可用数据，使用了条件VAE（CVAE），它能够了解哪些样本正常，哪些样本异常。该CVAE架构由处理ECG信号的时间数据的LSTM层组成。
基于异常检测问题的另一种架构是平滑诱导序列VAE（SISVAE），它使用具有循环层的VAE来保持时间相关性。这项工作的重点是时间步长之间的突变问题，这会导致模型输入数据的非平稳重建，从而导致合成样本的时间突变。避免这种情况的机制是为信号的每个时间步长引入校正偏差，使用序列中一个点和下一个点之间的KL散度计算。

5.2.2 VAEs用于数据插补。

VAE架构被广泛应用的一个领域是数据插补任务。该过程包括在缺少信息的样本中生成新数据。在时间序列域中，该过程通常用于填补没有可用数据的时间空间中的空白。在这个意义上，VAEs根据需要生成合成信息以填补这一空白，生成符合原始数据分布的新信息。
GlowImp架构被提出为Wasserstein GAN（WGAN）架构与VAE的组合，以填补缺失数据。该架构由所谓的Glow VAE组成，它包含一个函数，该函数采用传统VAE编码器的潜在分布，并通过Glow模型对缺失值进行插值。架构的另一个主要部分是GAN模型，其中生成器与VAE的解码器相对应，鉴别器迫使系统生成真实样本。GlowImp的架构如图6所示。
Li等人的工作提出了一种VAE架构，用于使用气象数据集估算时间值。为了填充数据样本的缺失值，使用了偏移校正，该校正试图抵消缺失值造成的偏差。该校正用于高斯潜在分布，在该分布中应用了偏移超参数 $\lambda$ 从而校正由缺失值产生的可能偏差。本工作中用于填补缺失值的VAE架构是 $\beta$ -VAE。

5.2.3 回顾了VAE算法的分类。

图5显示了对不同已回顾研究进行分组的方案。
在这里插入图片描述

5.3 通过GAN的数据增强

GAN是过去十年中最流行的生成模型之一，自2014年由Ian Goodfellow引入以来，这种生成结构已被确立为DA的主要算法之一。GAN结构的主要优势在于，它通过提取样本的主要特征来学习数据的分布，而不直接复制分布。这增强了模型生成的合成数据的通用性和创造性。另一个重要因素是，网络的训练是无监督的，不一定需要有标记数据来学习分布。

5.3.1 基于GANs的长短时记忆（LSTM）。

使GAN结构适应时间序列的近似方法之一是使用循环网络作为ANN的基础。这些GAN用循环层代替规则的全连接或卷积层，能够具有连接数据时间特征的记忆。这组架构的主要优势在于，它们能够处理输入数据所具有的时间信息，类似于卷积神经网络的空间信息处理。
C-RNN-GAN是专门针对时间序列数据提出的第一种GAN架构之一。特别是，提出了学习和合成音乐曲目。该GANs使用LSTM块作为其主要学习结构。学习算法与标准训练GAN相同，其中网络生成器将每个输入与先前单元的输出连接起来，鉴别器由双向循环网络组成。鉴别器的内部组成基于Horchreiter和Bengio等人的工作，这避免了梯度消失并增强了时间相关性。
Haradal等人提出的工作还提出了一种基于在生成器和鉴别器网络中实现LSTM单元的GAN架构，以适应时间序列数据。鉴别器输出是通过对每个层生成的输出应用平均池化来生成的，将整个数据样本平均化为唯一的标量输出，该标量输出对应于生成器网络生成样本的概率。该架构用于生成ECG和脑电图（EEG）数据，以提高ANN分类器的分类精度。
在Zhu等人的工作中，LSTM和GAN组合也用于异常检测，其中LSTM层用于鉴别器中，以从数据中提取时间信息，而GAN架构为系统提供了提取数据最重要特征的能力。用于检测数据中异常的训练有两个阶段。第一阶段称为训练阶段，是标准的GAN训练，鉴别器在其中学习区分真实数据和合成数据。在第二阶段，即所谓的测试阶段，训练包括生成和嵌入数据集样本的特征提取，然后由生成器重构这些特征并与原始数据进行比较，鉴别器的任务是区分真实数据和重构数据，这是异常的。
Shi等人提出的工作使用GAN架构从两种不同类型生成故障数据序列，针对每种类型训练不同的模型。每个GAN的生成器和鉴别器由多对多LSTM模型组成，该模型处理电压信号数据和序列每个步骤的采样长度。以这种方式，生成器输出由两个向量组成，一个用于电压，另一个用于长度，而鉴别器处理这些数据，其输出通过对每个步骤的分类求平均并生成唯一的二进制输出来生成。

5.3.2 应用于时域序列的卷积GAN。

为了将GANs应用于时间序列域，最常用的技术之一是将时间数据视为图像。在该领域中使用了不同的近似方法，重点是如何将数据转换为图像格式，而不是调整GAN架构以处理时间序列信息。这种技术的一个主要优点是，它不必处理GAN的设计，由于结构的特殊性，这是一个复杂的过程。原始数据对图像的适配在每种情况下是不同的；将回顾过去几年发表的不同作品，以研究这种转换的不同近似。
这种使用的一个例子是SpecGAN提出的一种，它试图使用表示音频样本的声音频谱图进行操作。该方法使用深度卷积GAN（DCGAN）作为DA的主要算法，但在此之前，它处理音频信号以生成每个音频轨道的图像。用作者自己的话来说，将音频转换为图像的过程“可以近似反转”。首先，对每个音频应用傅立叶变换以生成数据频率矩阵。然后对数据的规模进行对数调整，并将其归一化为正态分布，以便更好地理解。最后，将图像裁剪为3个标准差，并在[−1，1]范围。如上所述，该过程是可逆的，因此一旦使用DCGAN生成新数据，就可以使用反向过程将其转换为音频数据。使用此过程的一个优点是，它打开了比较不同音频生成算法的可能性，将结果视为图像；在最初的论文中，SpecGAN的结果与同一篇文章中提出的WaveGAN进行了比较。
Jiang等人提出的工作使用了GANomaly架构来处理不同的时间序列数据。该算法用于工业任务中的异常检测；它将特征提取引入网络，对生成器和生成器的输入数据进行预处理。生成器由编码器-解码器-编码器网络组成，这使得可以学习由特征提取部分生成的潜在表示。关于用于训练的数据，滚动轴承数据用于检测异常，使用信号数据作为频谱图，从而将时间序列数据转换为图像域。特别是，他们使用了凯斯西储大学的轴承数据。
交通传感器数据插补GAN（TSDIGAN）是为缺失数据重建而提出的一种架构，特别是在使用交通数据时。在这项工作中，GAN负责生成合成数据，用真实信息填补缺失的数据缺口。本文中用于处理时间序列交通数据的方法是使用所提出的称为Gramian角求和场（GASF）的方法将其转换为图像格式。GASF算法专注于保持交通数据的时间依赖性；该算法能够通过将范围内的每个时间数据点表示为极坐标系，将数据转换为矩阵[−1, 1]。然后，每个点通过其角余弦和半径进行编码。这将生成具有每个点之间的时间相关性的矩阵，然后将其馈送到网络。最后，使用基于卷积的GAN处理数据，该GAN使用其生成器生成新数据并重构缺失值。

5.3.3 1D卷积GANs。

时间卷积神经网络（CNN）是CNN，其中卷积运算是在1D中计算的，而不是传统的2D卷积。这些网络将2D CNNs捕获的几何信息适配到时域，将学习的滤波器的维数降低到1D。这些网络已经在[50]等工作中用于对时间序列中的数据进行分类。
近年来，已经提出了使用这些1D卷积层作为基础的不同GAN架构，取代了应用于计算机视觉任务的GAN的传统2D卷积。这种近似非常简单，可以将传统的GAN架构应用于时间序列域，使其在时间序列相关任务中非常可行。
时间条件GAN（T-CGAN）是一种GAN架构，其基于通过用1D卷积层替换2D卷积层将条件GAN架构转换为时间序列域的思想。
情感GAN还应用这些1D卷积层来创建GAN架构，以增强ECG数据集，从而在对每个受试者的情感进行分类时改进支持向量机（SVM）和随机森林模型的分类。
Donahue等人发表的工作介绍了WaveGAN架构，该架构基于将一维卷积层应用于声音数据。此GAN使用DCGAN架构，但将卷积更改为1D。如所建议的，这些1D卷积相对于图像处理的2D卷积应该具有更宽的感受域；这是基于音频数据的特殊性，其中以16kHz采样的音符的每个周期可能需要36个样本才能完成。因此，有必要使用更宽的过滤器来捕获数据的远距离时间相关性。声音数据的这一特征先前已在WaveNet中提出的扩张卷积等解决方案中考虑在内。通过减少一维，将5x5卷积变为25个一维卷积，保持网络参数的数量，可以补偿接收野的这种扩大。该架构的其余部分保持标准的GAN架构，允许使用无监督训练GAN合成音轨。
Sabir等人也采用了这种近似方法来增强直流电流信号。提出的工作使用DCGAN架构作为基础，并将原始卷积更改为一维卷积。特别是，这项工作有两个不同的GAN，一个生成健康信号，另一个负责生成错误数据。
也有将1D卷积与其他技术相结合的混合实现，如[105]中提出的LSTM-GAN。该架构将鉴别器网络中的LSTM单元与生成器网络中使用的1D卷积层相结合。

5.3.4 时间序列生成对抗网络（TimeGAN）。

TimeGAN架构试图实现GAN模型，以对时间序列数据执行DA，但通过添加新的损失函数，试图捕获数据的逐步依赖性，将其自身与其他先前替代方案区分开来。数据序列中的GAN的先前实现是基于GAN的生成器和鉴别器网络使用循环网络，但这种近似可能不足以精确复制原始数据的时间转换。
这项工作将数据特征分为两类：静态特征和时间特征。静态特征S不随时间变化，例如性别，而时间特征X变化。换句话说，静态特征是数据的特征，与时间序列样本没有直接关系，但定义了其特征。
除了生成器和鉴别器网络之外，所提出的架构还增加了两个新网络：编码器和恢复网络。这些网络负责将输入数据嵌入潜在空间，正如自编码器传统上所做的那样。该系统学习所谓的嵌入和恢复函数，将静态和时间特征转化为两个独立的潜在代码 $h_s$ 和 $h_t$ 并恢复输入信息S和X.
网络的生成器和鉴别器部分的工作与传统GAN中的相同，使用鉴别器区分真实和合成样本。但在这种情况下，生成器生成嵌入空间的数据，而鉴别器也将该嵌入作为其分类的输入。
TimeGAN的主要创新是在生成器中实现的，该生成器除了正常生成合成样本外，还被迫学习数据的逐步相关性。为此，生成器接收合成嵌入 $h_a,h_{t-1}$ 作为输入并计算下一个向量 $h_a,h_t.$ 该新函数由一个新的监督损失函数学习，该函数将生成器预测与实际数据进行比较。
因此，所提出的体系结构的训练目标可以分为3个不同的损失函数。

重建损失（ $\mathcal{L}_R$ ): 该损失用于由编码器和恢复网络组成的网络的可逆映射部分。它可以表示如下：
$\mathcal{L}_R=\mathbb{E}_{s,x_{1:T}\sim p}[||s-\tilde s||_2+\sum_t||x_t-\tilde x_t||_2]\tag{13}$
其中波浪形表示重构样本。
无监督损失（ $\mathcal{L}_U$ ): 该函数是正常GAN的等效损失函数，它试图区分真实和假样本。其表示如下：
$\mathcal{L}_U=\mathbb{E}_{s,x_{1:T}\sim p}[\log y_S+\sum_t\log y_t]+\\ \mathbb{E}_{s,x_{1:T}\sim\hat p}[\log(1-\hat y_S)+\sum_t\log(1-\hat y_t)]\tag{14}$
其中 $y_s$ 和 $y_t$ 是静态和时间特征的鉴别器分类，强调符号表示合成样本。
监督损失（ $\mathcal{L}_S$ ): 为了鼓励生成器学习数据的条件转换，设计了此函数，用于在应用预测时度量真实样本和生成器创建的合成样本之间的相似性。损失函数表示如下：
$\mathcal{L}_S=\mathbb{E}_{s,x_{1:T}\sim p}[\sum_t||h_t-g_\mathcal{X}(h_S,h_{t-1},z_t)||_2]\tag{15}$
其中 $g_\mathcal{X}$ 表示生成器合成的样本，将嵌入的前样本 $h_S,h_{t-1},z_t$ 作为输入。
TimeGAN的学习模式概述如图8所示。

5.3.5 综述了GAN算法的分类。

图7显示了对研究的不同综述进行分组的方案。
在这里插入图片描述

5.4 基于数据增强的DTW

5.4.1 DTW重心平均。

DTW是一种度量两个数据序列之间相似性的经典算法。该方法在[29]中用作计算原始数据流形的基础。一旦他们计算出这个流形，他们就用它来生成新的数据。其思想是操纵流形以生成无限新的数据样本，它们通过改变一组时间序列的权重来实现这一点，比如集合 $D=\{(T_1,w_1),\cdots,(T_N,w_n)\}$ 嵌入到一个空间E中DTW的平均值表示如下：
$\arg\min\bar T\in E\sum^N_{i=1}w_i\cdot DTW^2(\bar T,T_i)\tag{16}$
其中w是每个样本的权重。
为了计算 $\bar T$ ，他们使用期望最大化算法并确定权重值，提出了三种不同的方法：

全部平均：该方法使用平坦的Dirichlet分布生成权重向量值。这种方法的主要问题是，它倾向于填充不应该填充的数据空间。
选择平均：该方法侧重于选择接近样本的子集。因此，它可以防止空白空间被信息填满，因为样本子集在流形中非常接近。
根据距离选择平均：该方法与前一种方法的区别在于，该方法计算数据的近样本之间的相对距离。

5.4.2 次优元素对齐平均。

次优扭曲时间序列生成器（SPAWNER）是一种基于DTW算法的DA方法。该DA方法使用DTW算法来对齐不同的多维信号 $X_1,X_2$ ，给出了所谓的扭曲路径𝑊其是使这些输入信号之间的距离最小的点序列。
SPAWNER算法采用用DTW算法计算的扭曲路径，并在序列中引入一个新的变形元素，称为 $w_p.$ 使用范围（0，1）内的均匀分布随机数生成该新点。然后，强制新的最优路径包含新生成的元素，获得新的扭曲路径 $W^*_1,W^*_2。$ 使用参数 $\xi$ 来对齐序列, 这降低了路径的灵活性。最后，将两条扭曲路径连接起来，生成路径 $W^*_{1,2}$ 从中获得新的时间序列信号 $X^*_1,X^*_2$ 。
观察到，对于某些多变量信号，DA的变化是不够的；因此，还使用正态分布将随机方差应用于信号的每个点比如 $x^*\sim N(\mu,\sigma^2),\mu=0.5(x^*_1+x^*_2),\sigma=0.05|x^*_1-x^*_2|.$
还建议对文本或图像数据使用不同的对齐方法，而不是使用DTW，该方法在使用信号时被使用。因此，整个算法可以很容易地转换到其他领域，需要两个样本之间的对齐方法。

6. 开放问题与挑战

由于神经网络模型的巨大进步，一些作者倾向于区分DA和数据生成。由于传统算法产生的数据总是基于现有数据，因此传统算法总是在DA领域中构建；作为一个开放的问题，它们生成的数据变化较小，但对生成的内容有更多的控制。此外，数据生成算法生成新数据的力度如此之大，以至于无法生成大量数据，从而降低了增强数据集的质量。
与传统模型生成的数据稀缺性的限制不同，AEs和VAE的诞生是为了弥补生成数据的不足。在[31]中，他们展示了生成神经网络模型为数据集增加更多多样性的能力。此外，传统算法在获取训练模型并将其应用于另一个问题时往往不灵活，迫使重新考虑算法。在这方面，神经网络往往更灵活，能够在不同的问题中使用相同的训练模型。在[83]中，T-CGAN（第5.3.3节）中，不同的数据集可以使用相同的架构，或者在[105]中，LSTM-GAN使用不同于心电图和计程车统计数据的数据集作为输入。
然而，尽管生成模型提供了巨大的优势，但GAN还存在着显著的额外问题，特别是在训练方面。在这些模型的每次训练中，都会遇到典型的问题，如模态崩溃、纳什均衡、梯度消失或不稳定性，使其优化成为一个非常复杂的过程。
一般来说，所有生成模型都有相同的开放问题，这常常使其验证过程复杂化。而且，如第4节所示，尽管存在一些评估指标，但社区中对应使用哪些指标没有共识。例如，在[104]中，使用经验评估来生成数据，为了可视化，他们使用主成分分析和判别预测模型来查看添加合成图像后的改善情况，在[21]中，他们使用Inception Score，最近邻测量和人类经验测量，在[46]使用传统的深度学习测量（MAE、RMSE和MRE）来比较未来值的生成。如果我们还关注GAN模型，我们必须考虑到，对于这个问题，我们必须补充，这些体系结构没有方法来定义训练中的停止条件。

7. 讨论

时间序列域中的数据增强算法对于改进可用数据集非常重要，而创建可用数据集并不总是容易的。一般而言，本文中提出的所有方法都是专门为时间序列中的DA设计的算法，但在其他情况下，它们通常是最初为其他领域（如图像处理）设计的架构的改编。然而，基于GAN的算法本身在图像领域有其开端，并已逐渐集成到其他领域。在本节中，我们将分析每种算法的主要优缺点。

7.1 优势

传统算法得到了广泛的发展和研究，其结果是公平的。在DA中，它们允许您通过修改已经存在的示例来工作，这允许您控制变化。此外，算法本身的简单性大大减少了要配置的超参数的数量，从而减少了设置它们的时间，也减少了训练它们所需的数据。
其次，VAE生成算法通过直接影响原始数据集潜在分布的标准差，允许在更大程度上控制生成数据的可变性。在所有算法中，该功能允许最大程度地控制生成数据的可变性。VAE由于其更好的性能，通常用于异常检测情况。
最后，最新的生成模型由于其巨大的结果而在该领域取得了突破。GANs和VAEs一样，允许生成合成数据，并且以失去对数据生成的一些控制为代价，它们是能够更好地概括的算法。所有这一切都归因于训练方案本身，它允许GANs模型学习原始数据集之后的分布，并通过它根据数据集的分布生成合成数据。
此外，由于GAN是相对较新的算法，它们从科学界的更多关注中受益，这意味着最近有更多的研究专注于改进其结果，而不是其他算法。

7.2 不足

就限制而言，传统算法的使用非常有限，因为它们基于对真实数据集的元素进行修改。因此，它们通常会产生无效的示例。一般来说，它们仅限于生成质量较低的示例，从不生成新元素。
尽管VAE是能够生成合成数据的算法，与仅修改原始数据的传统算法相反，新的神经网络模型（如GANs）减少了它们在该领域的使用，因为从本质上讲，它们能够生成比最新的生成网络更少的数据。尽管如此，因为它们可以非常精确地控制生成数据的可变性，所以仍有一些应用领域继续使用它们。
关于GANs，可以说，尽管取得了巨大的成果，但仍有一些困难阻碍了其进展。GAN是迄今为止最复杂的模型，由于其训练方式的特殊性，它们极难训练和获得结果。
然而，由于其基于纳什均衡搜索的训练，将生成器和鉴别器网络置于竞争中，一旦我们有了训练模型，它能够生成的数据的一半必须被丢弃，这使得有必要以更监督的方式控制新数据的生成。

8. 结论

由于近年来DA领域的重大发展，越来越多的领域开始出现，以应用和改进已给出的结果。在本文中，我们重点全面概述了时间序列领域中用于DA的主要算法。我们将综述方法组织在由基本方法和高级方法组成的分类学中，总结每种算法（传统、VAEs和GANs）中的代表性方法，以进行经验比较，按应用领域进行分类，并突出未来研究的优缺点。

相关阅读:
一点思考｜关于「引领性研究」的一点感悟
《熟悉List集合》第一弹
【交通标志识别】基于matlab HOG特征机器学习交通标识识别【含Matlab源码 2200期】
【JavaScript】一文搞懂JavaScript当中晦涩难懂的类型转换
【毕业设计】基于单片机的宠物自动喂食系统 - 物联网嵌入式单片机宠物喂食系统宠物投食系统
ES新特性与TypeScript、JS性能优化
Zookeeper
深入理解Windows句柄
服务响应时间的衡量指标
termux安装常用工具

原文地址：https://blog.csdn.net/c_cpp_csharp/article/details/126609651