当数据分布突然改变时,模型在部署中会出现灾难性的失败
机器学习的许多应用中都存在类似的问题: 通过将基于模型的决策引入环境,可能会破坏模型。
首先,我们考虑数据分布可能发生变化的各种方式,以及为挽救模型性能可能采取的措施。
在不同分布偏移中,协变量偏移可能是最为广泛研究的。 这里我们假设:虽然输入的分布可能随时间而改变, 但标签函数(即条件分布)没有改变。
统计学家称之为协变量偏移(covariate shift), 因为这个问题是由于协变量(特征)分布的变化而产生的。
虽然有时我们可以在不引用因果关系的情况下对分布偏移进行推断, 但在我们认为导致的情况下,协变量偏移是一种自然假设。
标签偏移(label shift)描述了与协变量偏移相反的问题。
概念偏移(concept shift): 当标签的定义发生变化时,就会出现这种问题
在许多情况下,训练集和测试集并不来自同一个分布。这就是所谓的分布偏移。
真实风险是从真实分布中抽取的所有数据的总体损失的预期。然而,这个数据总体通常是无法获得的。经验风险是训练数据的平均损失,用于近似真实风险。在实践中,我们进行经验风险最小化。
在相应的假设条件下,可以在测试时检测并纠正协变量偏移和标签偏移。在测试时,不考虑这种偏移可能会成为问题。
在某些情况下,环境可能会记住自动操作并以令人惊讶的方式做出响应。在构建模型时,我们必须考虑到这种可能性,并继续监控实时系统,并对我们的模型和环境以意想不到的方式纠缠在一起的可能性持开放态度。