目录:目录
1.如果你有10,000,000个例子,你会如何划分训练/验证/测试集?
A. 【 】33%训练,33%验证,33%测试
B. 【 】60%训练,20%验证,20%测试
C. 【 】98%训练,1%验证,20%测试
答案:
C.【 √ 】98%训练,1%验证,20%测试
2.验证集和测试集应该:
A. 【 】来自同一分布
B. 【 】来自不同分布
C. 【 】完全相同(一样的(x, y)对)
D. 【 】数据数量应该相同
答案:
A.【 √ 】来自同一分布
3.如果你的神经网络方差很高,下列哪个尝试是可能解决问题的?
A. 【 】添加正则项
B. 【 】获取更多测试数据
C. 【 】增加每个隐藏层的神经元数量
D. 【 】用更深的神经网络
E. 【 】用更多的训练数据
答案:
A.【 √ 】添加正则项
E.【 √ 】用更多的训练数据
4.你正在为苹果,香蕉和橘子制作分类器。 假设您的分类器在训练集上有0.5%的错误,以及验证集上有7%的错误。 以下哪项尝试是有希望改善你的分类器的分类效果的?
A. 【 】增大正则化参数 λ \lambda λ
B. 【 】减小正则化参数 λ \lambda λ
C. 【 】获取更多训练数据
D. 【 】用更大的神经网络
答案:
A.【 √ 】增大正则化参数 λ \lambda λ
C.【 √ 】获取更多训练数据
5.什么是权重衰减?
A. 【 】正则化技术(例如L2正则化)导致梯度下降在每次迭代时权重收缩
B. 【 】在训练过程中逐渐降低学习率的过程
C. 【 】如果神经网络是在噪声数据下训练的,那么神经网络的权值会逐渐损坏
D. 【 】通过对权重值设置上限来避免梯度消失的技术
答案:
A.【 √ 】正则化技术(例如L2正则化)导致梯度下降在每次迭代时权重收缩
6.当你增大正则化的超参数 λ \lambda λ时会发生什么?
A. 【 】权重变小(接近0)
B. 【 】权重变大(远离0)
C. 【 】2倍的 λ \lambda λ导致2倍的权重
D. 【 】每次迭代,梯度下降采取更大的步距(与 λ \lambda λ成正比)
答案:
A.【 √ 】权重变小(接近0)
7.在测试时候使用dropout:
A. 【 】不随机关闭神经元,但在训练中使用的计算中保留1 / keep_prob因子
B. 【 】随机关闭神经元,在训练中使用的计算中保留1 / keep_prob因子
C. 【 】随机关闭神经元,但不要在训练中使用的计算中保留1 / keep_prob因子
D. 【 】不随机关闭神经元,也不要在训练中使用的计算中保留1 / keep_prob因子
答案:
D.【 √ 】不随机关闭神经元,也不要在训练中使用的计算中保留1 / keep_prob因子
8.将参数keep_prob从(比如说)0.5增加到0.6可能会导致以下情况(选出所有正确项):
A. 【 】正则化效应被增强
B. 【 】正则化效应被减弱
C. 【 】训练集的误差会增加
D. 【 】训练集的误差会减小
答案:
B.【 √ 】正则化效应被减弱
D.【 √ 】训练集的误差会减小
9.以下哪些技术可用于减少方差(减少过拟合)?(选出所有正确项)
A. 【 】梯度消失
B. 【 】数据扩充
C. 【 】Dropout
D. 【 】梯度检查
E. 【 】Xavier初始化
F. 【 】L2正则化
G. 【 】梯度爆炸
答案:
B.【 √ 】数据扩充
C.【 √ 】Dropout
F.【 √ 】L2正则化
10.为什么要对输入 x x x进行归一化?
A. 【 】让参数初始化更快
B. 【 】让代价函数更快地优化
C. 【 】更容易做数据可视化
D. 【 】是另一种正则化——有助减少方差
答案:
B.【 √ 】让代价函数更快地优化