深度学习可能存在过拟合问题——高方差,有两个解决方法,一个是正则化,另一个是准备更多的数据,这是非常可靠的方法,但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高,但正则化通常有助于避免过拟合或减少你的网络误差。
下面我们就来讲讲正则化的作用原理。
我们用逻辑回归来实现这些设想,求成本函数𝐽的最小值,它是我们定义的成本函数,参数包含一些训练数据和不同数据中个体预测的损失,w和b是逻辑回归的两个参数,w是一个多维度参数矢量,b是一个实数。在逻辑回归函数中加入正则化,只需添加参数 λ,也就是正则化参数,一会儿再详细讲。
λ 2 m \frac{λ}{2m} 2mλ乘以w范数的平方,w欧几里德范数的平方等于 w j w_j wj(j 值从 1 到n_x)平方的和,也可表示为 w T w w^Tw wTw,也就是向量参数w 的欧几里德范数(2 范数)的平方,此方法称为𝐿2正则化。因为这里用了欧几里德法线,被称为向量参数𝑤的𝐿2范数。
为什么只正则化参数𝑤?为什么不再加上参数 𝑏 呢?因为𝑤通常是一个高维参数矢量,已经可以表达高偏差问题,𝑤可能包含有很多参数,
我们不可能拟合所有参数,而𝑏只是单个数字,所以𝑤几乎涵盖所有参数,而不是𝑏,如果加了参数𝑏,其实也没太大影响,因为𝑏只是众多参数中的一个,所以我通常省略不计,如果你想加上这个参数,完全没问题。
𝐿2正则化是最常见的正则化类型,你们可能听说过𝐿1正则化,𝐿1正则化,加的不是𝐿2范数,而是正则项 λ m \frac{λ}{m} mλ乘以 ∑ j = 1 n x ∣ x ∣ \sum_{j=1}^{nx}{|x|} ∑j=1nx∣x∣, ∑ j = 1 n x ∣ x ∣ \sum_{j=1}^{nx}{|x|} ∑j=1nx∣x∣也被称为参数𝑤向量的𝐿1范数,无论分母是𝑚还是2𝑚,它都是一个比例常量。
如果用的是𝐿1正则化,𝑤最终会是稀疏的,也就是说𝑤向量中有很多 0,有人说这样有利于压缩模型,因为集合中参数均为 0,存储模型所占用的内存更少。实际上,虽然𝐿1正则化使模型变得稀疏,却没有降低太多存储内存,所以我认为这并不是𝐿1正则化的目的,至少不是为了压缩模型,人们在训练网络时,越来越倾向于使用𝐿2正则化。
我们来看最后一个细节,𝜆是正则化参数,我们通常使用验证集或交叉验证集来配置这个参数,尝试各种各样的数据,寻找最好的参数,我们要考虑训练集之间的权衡,把参数设置为较小值,这样可以避免过拟合,所以 λ 是另外一个需要调整的超级参数,顺便说一下,为了方便写代码,在 Python 编程语言中,𝜆是一个保留字段,编写代码时,我们写成𝑙𝑎𝑚𝑏𝑑,以免与 Python 中的保留字段冲突,这就是在逻辑回归函数中实现𝐿2正则化的过程,如何在神经网络中实现𝐿2正则化呢?
神经网络含有一个成本函数,该函数包含
W
[
1
]
,
b
[
1
]
W^{[1]},b^{[1]}
W[1],b[1]到
W
[
l
]
,
b
[
l
]
W^{[l]},b^{[l]}
W[l],b[l]所有参数,字母𝐿是神经网络所含的层数,因此成本函数等于𝑚个训练样本损失函数的总和乘以
1
m
\frac{1}{m}
m1,正则项为
λ
2
m
∑
1
L
∣
∣
W
[
l
]
∣
∣
2
\frac{λ}{2m}\sum_{1}^L{||W^{[l]}||^2}
2mλ∑1L∣∣W[l]∣∣2,我们称
∣
∣
W
[
l
]
∣
∣
2
||W^{[l]}||^2
∣∣W[l]∣∣2为范数平方,这个矩阵范数
∣
∣
W
[
l
]
∣
∣
2
||W^{[l]}||^2
∣∣W[l]∣∣2(即平方范数),被定义为矩阵中所有元素的平方求和。
我们看下求和公式的具体参数,第一个求和符号其值i从 1 到
n
[
l
−
1
]
n^{[l−1]}
n[l−1],第二个其J值从 1 到
n
[
l
]
n^{[l]}
n[l],因为𝑊是一个
n
[
l
]
x
n
[
l
−
1
]
n^{[l]} x n^{[l−1]}
n[l]xn[l−1]的多维矩阵,
n
[
l
]
n^{[l]}
n[l]表示𝑙 层单元的数量,
n
[
l
−
1
]
n{[l−1]}
n[l−1]表示第𝑙 − 1层隐藏单元的数量。
该矩阵范数被称作“弗罗贝尼乌斯范数”,用下标𝐹标注,鉴于线性代数中一些神秘晦涩的原因,我们不称之为“矩阵𝐿2范数”,而称它为“弗罗贝尼乌斯范数”,矩阵𝐿2范数听起来更自然,但鉴于一些大家无须知道的特殊原因,按照惯例,我们称之为“弗罗贝尼乌斯范数”,它表示一个矩阵中所有元素的平方和。
该如何使用该范数实现梯度下降呢?
用 backprop 计算出𝑑𝑊的值,backprop 会给出𝐽对𝑊的偏导数,实际上是𝑊[𝑙],把𝑊[𝑙]替换为𝑊[𝑙]减去学习率乘以𝑑𝑊。
这就是之前我们额外增加的正则化项,既然已经增加了这个正则项,现在我们要做的就是给dW加上这一项
λ
m
W
[
l
]
\frac{λ}{m}W^{[l]}
mλW[l],然后计算这个更新项,使用新定义的
d
W
[
l
]
dW^{[l]}
dW[l],它的定义含有相关参数代价函数导数和,以及最后添加的额外正则项,这也是𝐿2正则化有时被称为“权重衰减”的原因。
我们用
d
W
[
l
]
dW^{[l]}
dW[l]的定义替换此处的
d
W
[
l
]
dW^{[l]}
dW[l],可以看到,
W
[
l
]
W^{[l]}
W[l]的定义被更新为
W
[
l
]
W^{[l]}
W[l]减去学习率𝑎 乘以 backprop 再加上
λ
m
W
[
l
]
\frac{λ}{m}W^{[l]}
mλW[l]。
该正则项说明,不论
W
[
l
]
W[l]
W[l]是什么,我们都试图让它变得更小,实际上,相当于我们给矩阵 W 乘以(1 − 𝑎
λ
m
\frac{λ}{m}
mλ)倍的权重,矩阵𝑊减去𝛼
λ
m
\frac{λ}{m}
mλ倍的它,也就是用这个系数(1 −
λ
m
\frac{λ}{m}
mλ)乘以矩阵𝑊,该系数小于 1,因此𝐿2范数正则化也被称为“权重衰减”,因为它就像一般的梯度下降,𝑊被更新为少了𝑎乘以 backprop 输出的最初梯度值,同时𝑊也乘以了这个系数,这个系数小于 1,因此𝐿2正则化也被称为“权重衰减”。
我不打算这么叫它,之所以叫它“权重衰减”是因为这两项相等,权重指标乘以了一个小于 1 的系数。
以上就是在神经网络中应用𝐿2正则化的过程,有人会问我,为什么正则化可以预防过拟合,我们放在下节课讲,同时直观感受一下正则化是如何预防过拟合的。
为什么正则化有利于预防过拟合呢?为什么它可以减少方差问题?我们通过两个例子来直观体会一下。
左图是高偏差,右图是高方差,中间是 Just Right,这几张图我们在前面课程中看到过。
现在我们来看下这个庞大的深度拟合神经网络。这是我们的代价函数𝐽,含有参数𝑊,𝑏。我们添加正则项,它可以避免数据权值矩阵过大,这就是弗罗贝尼乌斯范数,为什么压缩𝐿2范数,或者弗罗贝尼乌斯范数或者参数可以减少过拟合?
直观上理解就是如果正则化𝜆设置得足够大,权重矩阵𝑊被设置为接近于 0 的值,直观理解就是把多隐藏单元的权重设为 0,于是基本上消除了这些隐藏单元的许多影响。如果是这种情况,这个被大大简化了的神经网络会变成一个很小的网络,小到如同一个逻辑回归单元,可是深度却很大,它会使这个网络从过度拟合的状态更接近左图的高偏差状态。
但是𝜆会存在一个中间值,于是会有一个接近“Just Right”的中间状态。
直观理解就是𝜆增加到足够大,𝑊会接近于 0,我们尝试消除或至少减少许多隐藏单元的影响,最终这个网络会变得更简单,这个神经网络越来越接近逻辑回归,我们直觉上认为大量隐藏单元被完全消除了,其实不然,实际上是该神经网络的所有隐藏单元依然存在,但是它们的影响变得更小了。神经网络变得更简单了,貌似这样更不容易发生过拟合,因此我不确定这个直觉经验是否有用,不过在编程中执行正则化时,你实际看到一些方差减少的结果。
我们再来直观感受一下,正则化为什么可以预防过拟合,假设我们用的是这样的双曲线激活函数。用𝑔(𝑧)表示𝑡𝑎𝑛ℎ(𝑧),那么我们发现,只要𝑧非常小,如果𝑧只涉及少量参数,这里我们利用了双曲正切函数的线性状态,只要𝑧可以扩展为这样的更大值或者更小值,激活函数开始变得非线性。
现在你应该摒弃这个直觉,如果正则化参数 λ 很大,激活函数的参数会相对较小,因为代价函数中的参数变大了,如果𝑊很小,相对来说,𝑧也会很小。
特别是,如果𝑧的值最终在这个范围内,都是相对较小的值,𝑔(𝑧)大致呈线性,每层几乎都是线性的,和线性回归函数一样。
总结一下,如果正则化参数变得很大,参数𝑊很小,𝑧也会相对变小,此时忽略𝑏的影响,𝑧会相对变小,实际上,𝑧的取值范围很小,这个激活函数,也就是曲线函数𝑡𝑎𝑛ℎ会相对呈线性,整个神经网络会计算离线性函数近的值,这个线性函数非常简单,并不是一个极复杂的高度非线性函数,不会发生过拟合。
大家在编程作业里实现正则化的时候,会亲眼看到这些结果,总结正则化之前,我给大家一个执行方面的小建议,在增加正则化项时,应用之前定义的代价函数𝐽,我们做过修改,增加了一项,目的是预防权重过大。
如果你使用的是梯度下降函数,在调试梯度下降时,其中一步就是把代价函数𝐽设计成这样一个函数,在调试梯度下降时,它代表梯度下降的调幅数量。可以看到,代价函数对于梯度下降的每个调幅都单调递减。如果你实施的是正则化函数,请牢记,𝐽已经有一个全新的定义。如果你用的是原函数𝐽,也就是这第一个项正则化项,你可能看不到单调递减现象,为了调试梯度下降,请务必使用新定义的𝐽函数,它包含第二个正则化项,否则函数𝐽可能不会在所有调幅范围内都单调递减。
这就是𝐿2正则化,它是我在训练深度学习模型时最常用的一种方法。在深度学习中,还有一种方法也用到了正则化,就是 dropout 正则化,我们下节课再讲。