dropout

1.理解dropout正则化

Dropout可以随机删除网络中的神经单元，它为什么可以通过正则化发挥如此大的作用呢?直观上理解:不要依赖于任何一个特征，因为该单元的输入可能随时被清除，因此该单元通过这种方式传播下去，并为单元的四个输入增加一点权重，通过传播所有权重，dropout将产生收缩权重的平方范数的效果，和之前讲的L2正则化类似;实施dropout的结果实它会压缩权重，并完成一些预防过拟合的外层正则化; L2对不同权重的衰减是不同的，它取决于激活函数倍增的大小。

2.dropout率的选择

经过交叉验证，隐含节点dropout率等于0.5的时候效果最好，原因是0.5的时候dropout随机生成的网络结构最多。
dropout也可以被用作一种添加噪声的方法，直接对input进行操作。输入层设为更接近1的数。使得输入变化不会太大(0.8)
对参数w的训练进行球形限制(max- normalization)，对dropout的训练非常有用。
球形半径c是一个需要调整的参数，可以使用验证集进行参数调优。
dropout自己虽然也很牛，但是dropout、max-normalization、 large decaying learning rates and high momentum组合起来效果更好，比如max-norm regularization 就可以防止大的learning rate导致的参数blow up。
使用pretraining方法也可以帮助dropout训练参数，在使用dropout时，要将所有参数都乘以1/p。

3.dropout有什么缺点?

dropout-大缺点就是代价函数J不再被明确定义，每次迭代，都会随机移除一-些节点，如果再三检查梯度下降的性能，实际上是很难进行复查的。定义明确的代价函数J每次迭代后都会下降，因为我们所优化的代价函数J实际上并没有明确定义，或者说在某种程度上很难计算，所以我们失去了调试工具来绘制这样的图片。我通常会关闭dropout函数，将keep- prob的值设为1,运行代码，确保J函数单调递减。然后打开dropout函数，希望在dropout过程中，代码并未引入bug。我觉得你也可以尝试其它方法，虽然我们并没有关于这些方法性能的数据统计，但你可以把它们与dropout方法一起使用。

相关阅读:
【C++】类和对象（中）
当Synchronized遇到这玩意儿，有个大坑，要注意
嵌入式学习笔记（63）位操作实战
万维网：蒂姆·伯纳斯·李的信息帝国
Pop3和SMTP协议有什么关系或者区别吗？
Java基础篇 IO流
电源差异。
基于DataX的海量时序数据迁移实战：从MySQL到TDengine3.x
安卓玩机搞机之. 更换内核 .内核比rom重要.了解内核相关
gitlab上传文件

原文地址：https://blog.csdn.net/m0_45447650/article/details/126109191