假设在一个深度学习网络中,批量梯度下降花费了大量时间时来找到一组参数值,使成本函数小。以下哪些方法可以帮助找到值较小的参数值?()
A.令所有权重值初始化为0
B.尝试调整学习率
C.尝试mini-batch梯度下降
D.尝试对权重进行更好的随机初始化
A.令所有权重值初始化为0
B.尝试调整学习率
C.尝试mini-batch梯度下降
D.尝试对权重进行更好的随机初始化
A.尝试使用Adam算法
B.尝试对权重进行更好的随机初始化
C.尝试调整学习率α
D.尝试mini-batch梯度下降
A.随机梯度下降
B.设置Momentum
C.设置不同初始值
D.增大batchsize
A.当优化问题的数值解接近局部最优值时,随着目标函数解的梯度接近或变为零,通过最终迭代获得的数值解可能仅使目标函数局部最优,而不是全局最优
B.在深度学习优化问题中,经常遇到的是梯度爆炸或梯度消失
C.优化问题中设置的学习率决定目标函数能否收敛到局部最小值,以及何时收敛到最小值
D.一般来说,小批量随机梯度下降比随机梯度下降和梯度下降的速度慢,收敛风险较大
A.LSTM在一定程度上解决了传统RNN梯度消失或梯度爆炸的问题
B.CNN相比于全连接的优势之一是模型复杂度低,缓解过拟合
C.只要参数设置合理,深度学习的效果至少应优于随机算法
D.随机梯度下降法可以缓解网络训练过程中陷入鞍点的问题
A.对激活函数的输出结果进行范围限定,有助于梯度平稳下降,而ReLU输出范围无限的函数会导致梯度消失问题
B.ReLU函数中所有负值均被截断为结果0,从而导致特征丢失,可适当调高学习率避免此类情况
C.RMSProp学习率调整策略引入累积梯度的概念,从而解决学习率过早趋向于0而结束训练
D.随机梯度下降(SGD)每次更新只随机取一个样本,按照固定学习率计算梯度,所以速度较快
A.学习率为0.3是一个非常好的选择
B.可以考虑使用更大的学习率1.0
C.可以考虑使用较小的学习率0.1
D.以上全部不正确
A.如果学习率很小,则优化成本函数将花费大量时间
B.如果学习率非常高,则梯度下降可能永远不会收敛
C.学习率是使用损失函数导数和步长来计算的
D.学习率是梯度下降算法中的超参数
A.反向传播计算结果
B.反向传播更新参数
C.正向传播更新参数
D.正向传播计算结果
A.AlexNet的网络结构和LeNet非常类似,但更深更大,并且使用了层叠的卷积层来获取特征
B.GoogLeNet的主要贡献是实现了一个bottleneck模块,能够显著地减少网络中参数的数量
C.ResNet使用了特殊的跳跃链接,大量使用了批量归一化,并在最后使用了全连接层
D.VGGNet的主要贡献是展示出网络的深度是算法优良性能的关键部分