神经网络其实都是一些矩阵乘法。如果权值的初始值过大,则会导致梯度爆炸,使得网络不收敛;过小的权值初始值,则会导致梯度消失,会导致网络收敛缓慢或者收敛到局部极小值
上面可以看到, 只是经过28次迭代,模型的输出变得就变得非常大,以至于计算机都无法识别它们的标准差和平均值。显然是权值初始化太大。
权值初始化过小,导致输出为0
可以看到模型的参数a经过缩放后,模型的输出的标准差也缩小。 模型输出的标准差与模型的参数相关。
上面的都是一些简单的情况,并没有激活函数。深层神经网络可以创造非常复杂的函数,近似的描述现实世界的现象。
这种传统的初始化方法导致激活梯度变得无穷小——它们几乎消失了。