超参数
学习率过大,训练过程无法收敛
学习率偏大,在最小值附近震荡,达不到最优
学习率太小,收敛时间较长
学习率适中,收敛快、结果好
缺点:横轴3个测试值*纵轴3个测试值=9组实验,将注意力放在了不重要的参数δ
利用随机法在较大范围里采样超参数,训练一个周期,依据验证集正确率缩小超参数范围
利用随机法在前述缩小的范围内采样超参数,运行模型五到十个周期,选择验证集上精度最高的那组超参数
例:假设最优值在0.0001到1之间,如果在0-1之间采样,90%会在0.1-1之间。
最优的值在[0.0001,1]之间,我们该如何采样?
建议:对于学习率、正则项强度这类超参数,在对数空间上进行随机采样更合适!
在1~0的量级范围内,差别不大,不敏感,所以一般在log对数空间上进行随机采样。
在log空间上,0.0001-0.001-0.01-0.1-1之间的间隔是等距的