1.问题:loss出现剧烈抖动
2.方法:
2.1 无过拟合
- loss函数:不同loss函数针对的任务不同;
- batch size:较大:收敛更快,可躲过局部最优解,但也会导致sharp minima,泛化性不好;较小:类别较多会是网络明显震荡;
- 激活函数:一般使用ReLU,sigmoid函数容易导致梯度弥散
- 学习率:较大:会出现来回震荡,容易卡在局部最优解;较小:收敛速度较慢;
- 优化算法:adam
- 数据格式
- 数据与标签:样本少只可能带来过拟合问题,只要一直训练就会收敛
- 网络设计:数据信息量大,任务复杂,会出现不收敛,可以适当加深网络深度
2.2 过拟合
9.早停: 在模型最优状态下,直接终止训练
10. 正则化:L1、L2:防止过拟合
11. dropout:随机丢弃神经元
12. 增加数据量,进行数据增强
13. 训练集和测试集分布不一致
14. 去除污染数据