题目内容
(请给出正确答案)
[多选题]
假设在一个深度学习网络中批处理梯度下降花费了太多的时间来找到一个值的参数值,该值对于成本函数J(W[1],b[1],…,W[L],b[L])来说是很小的值。以下哪些方法可以帮助找到J值较小的参数值()
A.尝试使用Adam算法
B.尝试对权重进行更好的随机初始化
C.尝试调整学习率α
D.尝试mini-batch梯度下降
查看答案
如果结果不匹配,请 联系老师 获取答案
A.尝试使用Adam算法
B.尝试对权重进行更好的随机初始化
C.尝试调整学习率α
D.尝试mini-batch梯度下降
A.对激活函数的输出结果进行范围限定,有助于梯度平稳下降,而ReLU输出范围无限的函数会导致梯度消失问题
B.ReLU函数中所有负值均被截断为结果0,从而导致特征丢失,可适当调高学习率避免此类情况
C.RMSProp学习率调整策略引入累积梯度的概念,从而解决学习率过早趋向于0而结束训练
D.随机梯度下降(SGD)每次更新只随机取一个样本,按照固定学习率计算梯度,所以速度较快
A.反向传播计算结果
B.反向传播更新参数
C.正向传播更新参数
D.正向传播计算结果
A.梯度消失
B.梯度爆炸
C.eLU函数作为激活函数g(.),在计算g(z)时,z的数值过大了
D.Sigmoid函数作为激活函数g(.),在计算g(z)时,z的数值过大了
A.要把国内外一切积极因素调动起来,为社会主义事业服务
B.向外国学习的口号
C.自花开放,百家争鸣
D.正确处理农、轻、重三者的关系