题目在梯度下降算法中,关于步长的说法,下列说法正确的是()
A.步长越大越好
B.步长越小越好
C.步长大小无所谓
D.步长需要根据实际训练的过程进行动态调
D、步长需要根据实际训练的过程进行动态调
A.步长越大越好
B.步长越小越好
C.步长大小无所谓
D.步长需要根据实际训练的过程进行动态调
D、步长需要根据实际训练的过程进行动态调
A.如果学习率很小,则优化成本函数将花费大量时间
B.如果学习率非常高,则梯度下降可能永远不会收敛
C.学习率是使用损失函数导数和步长来计算的
D.学习率是梯度下降算法中的超参数
A.随机梯度下降是梯度下降中常用的一种
B.梯度下降包括随机梯度下降和批量梯度下降
C.梯度下降算法速度快且可靠
D.随机梯度下降是深度学习算法当中常用的优化算法之一
A.LSTM在一定程度上解决了传统RNN梯度消失或梯度爆炸的问题
B.CNN相比于全连接的优势之一是模型复杂度低,缓解过拟合
C.只要参数设置合理,深度学习的效果至少应优于随机算法
D.随机梯度下降法可以缓解网络训练过程中陷入鞍点的问题
A.当目标函数是凸函数时,梯度下降算法的解一般就是全局最优解
B.进行PCA降维时,需要计算协方差矩
C.沿负梯度的方向一定是最优的方向
D.利用拉格朗日函数能解带约束的优化问题
A.当优化问题的数值解接近局部最优值时,随着目标函数解的梯度接近或变为零,通过最终迭代获得的数值解可能仅使目标函数局部最优,而不是全局最优
B.在深度学习优化问题中,经常遇到的是梯度爆炸或梯度消失
C.优化问题中设置的学习率决定目标函数能否收敛到局部最小值,以及何时收敛到最小值
D.一般来说,小批量随机梯度下降比随机梯度下降和梯度下降的速度慢,收敛风险较大
以下哪项是对早期停止(early stop)的最佳描述?()
A.训练网络直到达到误差函数中的局部最小值
B.在每次训练期后在测试数据集上模拟网络,当泛化误差开始增加时停止训练
C.在中心化权重更新中添加一个梯度下降加速算子,以便训练更快地收敛
D.更快的方法是反向传播算法
A.随机梯度下降法(Stochastic Gradient Descent)
B.不知道
C.整批梯度下降法(FulIBatch Gradient Descent)
D.都不是
A.尝试使用Adam算法
B.尝试对权重进行更好的随机初始化
C.尝试调整学习率α
D.尝试mini-batch梯度下降