1、 normalization(归一化): 解决的问题是梯度消失与梯度爆炸,将数据做处理,使其分布在均值为0,方差为1的区间,就不会进入激活函数的饱和区,学习梯度就不会降为0
知乎大咖文章
卷积神经网络CNN(2)—— BN(Batch Normalization) 原理与使用过程详解_卷积神经网络bn层-CSDN博客
2、Regularization(正则化)与Dropout:针对模型过拟合问题而提出来的
神经网络九:Regularization(正则化)与Dropout_dorpout率和正则化程度的关系-CSDN博客
https://www.cnblogs.com/MrSaver/p/10217315.html
3、残差网络(shortcut):在网络深度加深的情况下解决梯度消失的问题
Transformer里layer-normlization与残差连接_transformer怎么做残差网络_Arxan_hjw的博客-CSDN博客