我们想要训练一个ML模型,样本数量有100万个,特征维度是5000,面对如此大数据,如何有效地训练模型()。
A.对训练集随机采样,在随机采样的数据上建立模型
B.尝试使用在线机器学习算法
C.使用PCA算法减少特征维度
A.对训练集随机采样,在随机采样的数据上建立模型
B.尝试使用在线机器学习算法
C.使用PCA算法减少特征维度
A.使用前向特征选择方法
B.使用后向特征排除方法
C.我们先把所有特征都使用,去训练一个模型,得到测试集上的表现.然后我们去掉一个特征,再去训练,用交叉验证看看测试集上的表现.如果表现比原来还要好,我们可以去除这个特征
D.查看相关性表,去除相关性最高的一些特征
(i)求出样本中的平均工资和平均IQ。IQ的样本标准差是多少?(总体中的IQ已标准化为平均值是100,标准差是15。)
(ii)估计一个简单回归模型,其中IQ提高一个单位导致wage变化相同的数量。利用这个模型计算IQ提高15个单位时,工资的预期变化。10能够解释大多数工资波动吗?
(iii)现在再估计一个模型,其中IQ提高一个单位对工资具有相同的百分比影响。如果IQ提高15个单位,预期工资提高的百分比大约是多少?
A.在数据集比较大的时候,训练M个模型的计算开销可能是难以忍受的
B.改变了初始数据集的分布,引入估计偏差
C.样本利用率低
D.只能得到一个评估值
A.测试集和训练集是相互联系的
B.测试集是用以测试模型的数据集
C.通常测试集大约占总样本的三分之一
D.K-次交叉验证中,测试集只有1个,训练集有K-1个
A.VAE的变分下界由KL散度项和模型重建误差项组成
B.VAE是一类生成模型,可用于训练出一个样本的生成器
C.VAE的变分下界中,KL散度项可以为负值
D.VAE广泛用于生成图像