当你的数据拥有不同的值,甚至使用不同的度量单位时,可能很难比较它们。与米相比,公斤是多少?或者海拔比较时间呢?
一般不同的特征变化不一样,都需要进行数据缩放,也可以说成数据标准化。
它与我们在多元回归一章中使用的数据集相同,但是这次,Volume 列包含的单位是升,而不是 ccm(1.0 而不是 1000)。
很难将排量 1.0 与车重 790 进行比较,但是如果将它们都缩放为可比较的值,我们可以很容易地看到一个值与另一个值相比有多少。
缩放数据有多种方法,在本教程中,我们将使用一种称为标准化(standardization)的方法。标准化方法使用以下公式:
z = (x -