机器学习知到智慧树章节测试课后答案2024年秋同济大学_第1页
机器学习知到智慧树章节测试课后答案2024年秋同济大学_第2页
机器学习知到智慧树章节测试课后答案2024年秋同济大学_第3页
机器学习知到智慧树章节测试课后答案2024年秋同济大学_第4页
机器学习知到智慧树章节测试课后答案2024年秋同济大学_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习知到智慧树章节测试课后答案2024年秋同济大学第一章单元测试

回归和分类都是有监督学习问题。()

A:对B:错

答案:对输出变量为有限个离散变量的预测问题是回归问题;输出变量为连续变量的预测问题是分类问题。()

A:对B:错

答案:错关于“回归(Regression)”和“相关(Correlation)”,下列说法正确的是?注意:x是自变量,y是因变量。()

A:回归和相关在x和y之间都是互为对称的

B:回归和相关在x和y之间都是非对称的

C:回归在x和y之间是非对称的,相关在x和y之间是互为对称的

D:回归在x和y之间是对称的,相关在x和y之间是非对称的

答案:回归在x和y之间是非对称的,相关在x和y之间是互为对称的

如果一个经过训练的机器学习模型在测试集上达到100%的准确率,这就意味着该模型将在另外一个新的测试集上也能得到100%的准确率。()

A:错B:对

答案:错机器学习学得的模型适用于新样本的能力,称为"泛化"能力,这是针对分类和回归等监督学习任务而言的,与聚类这样的无监督学习任务无关。()

A:错B:对

答案:错机器学习时,我们通常假设样本空间中的全体样本都服从某个未知"分布",并且我们获得的每个样本都是独立地从这个分布上采样获得的。()

A:对B:错

答案:对从归纳偏好一般性原则的角度看,"奥卡姆剃刀"(Occam'srazor)准则与“大道至简”说的是相同的道理。()

A:错B:对

答案:对以下方法或系统属于"符号主义"(symbolism)学习技术的是()

A:"概念学习系统"

B:"基于逻辑的归纳学习系统“

C:支持向量机

D:"结构学习系统"

答案:"概念学习系统"

;"基于逻辑的归纳学习系统“

;"结构学习系统"

以下方法或技术属于统计学习范畴的是()

A:Hopfield神经网络

B:支持向量机

C:感知机

D:核方法

答案:支持向量机

;核方法

归纳学习相当于"从样例中学习",即从训练样例中归纳出学习结果。()

A:对B:错

答案:对

第二章单元测试

回归问题和分类问题都有可能发生过拟合。()

A:错B:对

答案:对对于k折交叉验证,以下对k的说法正确的是()

A:k越大,不一定越好,选择大的k会加大评估时间

B:在选择k时,要最小化数据集之间的方差

C:选择更大的k,就会有更小的bias(因为训练集更加接近总数据集)

D:k越大越好

答案:k越大,不一定越好,选择大的k会加大评估时间

;在选择k时,要最小化数据集之间的方差

;选择更大的k,就会有更小的bias(因为训练集更加接近总数据集)

小明参加Kaggle某项大数据竞赛,他的成绩在大赛排行榜上原本居于前20,后来他保持特征不变,对原来的模型做了1天的调参,将自己的模型在自己本地测试集上的准确率提升了3%,然后他信心满满地将新模型的预测结果更新到了大赛官网上,结果懊恼地发现自己的新模型在大赛官方的测试集上准确率反而下降了。对此,他的朋友们展开了讨论,下列说法正确的是()

A:小明应该乖乖使用默认的参数就行了,调参是不可能有收益的

B:小明可以考虑一下,使用交叉验证来验证一下是否发生了过拟合

C:从机器学习理论的角度,这样的情况不应该发生,应该去找大赛组委会反应

D:小明这个有可能是由于过拟合导致的

答案:小明可以考虑一下,使用交叉验证来验证一下是否发生了过拟合

;小明这个有可能是由于过拟合导致的

下列哪种方法可以用来减小过拟合?()

A:更多的训练数据

B:减小模型的复杂度

C:L2正则化

D:L1正则化

答案:更多的训练数据

;减小模型的复杂度

;L2正则化

;L1正则化

下列关于bootstrap说法正确的是?()

A:从总的N个样本中,无放回地抽取n个样本(n<N)

B:从总的N个样本中,有放回地抽取n个样本(n<N)

C:从总的M个特征中,无放回地抽取m个特征(m<M)

D:从总的M个特征中,有放回地抽取m个特征(m<M)

答案:从总的N个样本中,有放回地抽取n个样本(n<N)

评估完模型之后,发现模型存在高偏差(highbias),应该如何解决?()

A:增加模型的特征数量

B:增加样本数量

C:减少模型的特征数量

答案:增加模型的特征数量

第三章单元测试

如果我们说“线性回归”模型完美地拟合了训练样本(训练样本误差为零),则下面哪个说法是正确的?()

A:测试样本误差始终为零

B:测试样本误差不可能为零

C:选项中的答案都不对

答案:选项中的答案都不对

下列关于线性回归分析中的残差(Residuals)说法正确的是?()

A:选项中的说法都不对

B:残差均值总是大于零

C:残差均值总是小于零

D:残差均值总是为零

答案:残差均值总是为零

下列哪些假设是我们推导线性回归参数时遵循的?()

A:误差一般服从0均值和固定标准差的正态分布

B:X是非随机且测量没有误差的

C:X与Y有线性关系(多项式关系)

D:模型误差在统计学上是独立的

答案:误差一般服从0均值和固定标准差的正态分布

;X是非随机且测量没有误差的

;X与Y有线性关系(多项式关系)

;模型误差在统计学上是独立的

一般来说,下列哪种方法常用来预测连续独立变量?()

A:线性回归和逻辑回归都行

B:线性回归

C:逻辑回归

答案:线性回归

上图中哪一种偏移,是我们在最小二乘直线拟合的情况下使用的?图中横坐标是输入X,纵坐标是输出Y。()

A:垂向偏移(perpendicularoffsets)

B:两种偏移都可以

C:垂直偏移(verticaloffsets)

答案:垂直偏移(verticaloffsets)

加入使用逻辑回归对样本进行分类,得到训练样本的准确率和测试样本的准确率。现在,在数据中增加一个新的特征,其它特征保持不变。然后重新训练测试。则下列说法正确的是?()

A:测试样本准确率一定会降低

B:测试样本准确率一定增加或保持不变

C:训练样本准确率一定会降低

D:训练样本准确率一定增加或保持不变

答案:训练样本准确率一定增加或保持不变

点击率预测是一个正负样本不平衡问题(例如99%的没有点击,只有1%点击)。假如在这个非平衡的数据集上建立一个模型,得到训练样本的正确率是99%,则下列说法正确的是?()

A:无法对模型做出好坏评价

B:模型正确率很高,不需要优化模型了

C:模型正确率并不高,应该建立更好的模型

答案:模型正确率并不高,应该建立更好的模型

第四章单元测试

在决策树分割结点的时候,下列关于信息增益说法正确的是()

A:如果选择一个属性具有许多特征值,那么这个信息增益是有偏差的

B:纯度高的结点需要更多的信息来描述它

C:信息增益可以用”1比特-熵”获得

答案:如果选择一个属性具有许多特征值,那么这个信息增益是有偏差的

;信息增益可以用”1比特-熵”获得

如果自变量X和因变量Y之间存在高度的非线性和复杂关系,那么树模型很可能优于经典回归方法。()

A:对B:错

答案:对在决策树学习过程中,用属性α对样本集D进行划分所获得的"信息增益"越大,则意味着使用属性α来进行划分所获得的"纯度提升"越大。()

A:对B:错

答案:对对于划分属性选择,以下说法正确的是()

A:增益率准则对可取值数目较少的属性有所偏好

B:C4.5算法并不是直接选择增益率最大的候选划分属性,而是先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。

C:选项中说法都不对

D:信息增益准则对可取值数目较多的属性有所偏好

答案:增益率准则对可取值数目较少的属性有所偏好

;C4.5算法并不是直接选择增益率最大的候选划分属性,而是先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。

;信息增益准则对可取值数目较多的属性有所偏好

数据集D的纯度可用它的基尼值来度量,基尼值越小,则数据集D的纯度越高。()

A:错B:对

答案:对

第五章单元测试

假定你在神经网络中的隐藏层中使用激活函数X。在特定神经元给定任意输入,你会得到输出-0.01。X可能是以下哪一个激活函数?()

A:tanh

B:ReLU

C:选项中都有可能

D:Sigmoid

答案:tanh

在回归模型中,下列哪一项在权衡欠拟合(under-fitting)和过拟合(over-fitting)中影响最大?()

A:更新权重w时,使用的是矩阵求逆还是梯度下降

B:多项式阶数

C:使用常数项

答案:多项式阶数

深度神经网络中常用Relu函数作为激活函数,其好处是:()

A:求梯度简单

B:选项中没有正确答案

C:具有稀疏特性

D:收敛快

答案:求梯度简单

;具有稀疏特性

;收敛快

梯度爆炸问题是指在训练深度神经网络的时候,梯度变得过大而损失函数变为无穷。在RNN中,下面哪种方法可以较好地处理梯度爆炸问题?()

A:用改良的网络结构比如LSTM和GRUs

B:Dropout

C:选项中的方法都不行

D:梯度裁剪

答案:梯度裁剪

Dropout技术在下列哪种神经层中将无法发挥显著优势?()

A:卷积层

B:仿射层(全连接层)

C:RNN层

答案:RNN层

第六章单元测试

如果SVM模型欠拟合,以下方法哪些可以改进模型()

A:减小核函数的参数

B:增大惩罚参数C的值

C:减小惩罚参数C的值

答案:增大惩罚参数C的值

在训练完SVM之后,我们可以只保留支持向量,而舍去所有非支持向量,仍然不会影响模型分类能力。()

A:错B:对

答案:对关于SVM与感知机,以下说法正确的是:()

A:损失函数方面,感知机采用的是误分类,易造成过拟合,而SVM采用间隔最大化(合页损失函数),一定程度上可避免过拟合

B:感知机只用于线性分类,SVM可用于线性和非线性分类

C:都是用于分类的监督学习算法

D:优化方法方面,感知机采用梯度下降法,而SVM采用不等式约束结合拉格朗日乘子

答案:损失函数方面,感知机采用的是误分类,易造成过拟合,而SVM采用间隔最大化(合页损失函数),一定程度上可避免过拟合

;感知机只用于线性分类,SVM可用于线性和非线性分类

;都是用于分类的监督学习算法

;优化方法方面,感知机采用梯度下降法,而SVM采用不等式约束结合拉格朗日乘子

支持向量机SVM是结构风险最小化模型,而逻辑回归LR是经验风险最小化模型。()

A:对B:错

答案:对逻辑回归LR是参数模型,支持向量机SVM是非参数模型。()

A:对B:错

答案:对关于SVM如何选用核函数,下列说法正确的是:()

A:高斯核和tanh核都属于非线性核,而且高斯核还可以把原始维度映射到无穷多维

B:非线性核主要用于线性不可分以及特征数较少样本量一般的情况

C:选项中说法都不对

D:线性核主要用于线性可分以及样本数与特征数差不多的情况

答案:高斯核和tanh核都属于非线性核,而且高斯核还可以把原始维度映射到无穷多维

;非线性核主要用于线性不可分以及特征数较少样本量一般的情况

;线性核主要用于线性可分以及样本数与特征数差不多的情况

第七章单元测试

下列关于极大似然估计(MaximumLikelihoodEstimate,MLE),说法正确的是()

A:MLE可能并不存在

B:如果MLE存在,那么它的解一定是唯一的

C:MLE总是存在

D:如果MLE存在,那么它的解可能不是唯一的

答案:MLE可能并不存在

;如果MLE存在,那么它的解可能不是唯一的

朴素贝叶斯属于生成式模型,而SVM和决策树属于判别式模型。()

A:对B:错

答案:对朴素贝叶斯分类器有属性条件独立的假设前提。()

A:错B:对

答案:对

上面三个贝叶斯模型中,属性之间存在依赖关系的是:()

A:(b)

B:都不存在

C:(c)

D:(a)

答案:(b)

;(c)

关于贝叶斯网络,以下说法正确的是:()

A:贝叶斯网络又称信念网络

B:贝叶斯网络是有向无环图模型

C:贝叶斯网络是无向有环图模型

D:贝叶斯网络是一种概率图模型

答案:贝叶斯网络又称信念网络

;贝叶斯网络是有向无环图模型

;贝叶斯网络是一种概率图模型

第八章单元测试

下面关于RandomForest和GradientBoostingTrees说法正确的是?()

A:两者都使用随机特征子集来创建中间树

B:无论任何数据,GradientBoostingTrees总是优于RandomForest

C:在GradientBoostingTrees中可以生成并行树,因为它们是相互独立的

D:RandomForest的中间树不是相互独立的,而GradientBoostingTrees的中间树是相互独立的

答案:两者都使用随机特征子集来创建中间树

数据科学家经常使用多个算法进行预测,并将多个机器学习算法的输出(称为“集成学习”)结合起来,以获得比所有个体模型都更好的更健壮的输出。则下列说法正确的是?()

A:基本模型之间相关性低

B:基本模型都来自于同一算法

C:基本模型之间相关性高

D:集成方法中,使用加权平均代替投票方法

答案:基本模型之间相关性低

以下方法属于集成学习方法的是()

A:boosting

B:stacking

C:bagging

D:bootstrapping

答案:boosting

;stacking

;bagging

如果用“三个臭皮匠顶个诸葛亮”来比喻集成学习的话,那么对三个臭皮匠的要求可能是:()

A:三个臭皮匠的优点各不相同

B:选项中说法都不对

C:三个臭皮匠不能太差,每个人考试都能及格

D:三个臭皮匠的缺点各不相同

答案:三个臭皮匠的优点各不相同

;三个臭皮匠不能太差,每个人考试都能及格

集成学习中个体学习器的多样性不宜高,否则容易顾此失彼,降低系统的总体性能。()

A:错B:对

答案:错

第九章单元测试

向量x=[1,2,3,4,-9,0]的L1范数是()

A:19

B:4

C:20

D:5

答案:19

如何在监督式学习中使用聚类算法?()

A:在应用监督式学习算法之前,不能将其类别ID作为特征空间中的一个额外的特征

B:在应用监督式学习之前,不能创建聚类

C:在应用监督式学习算法之前,可以将其类别ID作为特征空间中的一个额外的特征

D:首先,可以创建聚类,然后分别在不同的集群上应用监督式学习算法

答案:在应用监督式学习算法之前,可以将其类别ID作为特征空间中的一个额外的特征

;首先,可以创建聚类,然后分别在不同的集群上应用监督式学习算法

下列聚类方法属于原型聚类的是()

A:学习向量量化LVQ

B:高斯混合聚类

C:DBSCAN

D:K-Means算法

答案:学习向量量化LVQ

;高斯混合聚类

;K-Means算法

K-Means聚类的主要缺点有:()

A:原理复杂,不容易实现

B:对于非凸数据集或类别规模差异太大的数据效果不好

C:对噪音和异常点敏感

D:K值很难确定

E:聚类效果依赖于聚类中心的初始化

答案:对于非凸数据集或类别规模差异太大的数据效果不好

;对噪音和异常点敏感

;K值很难确定

;聚类效果依赖于聚类中心的初始化

k均值算法和"学习向量量化"都是原型聚类方法,也都属于无监督学习方法。()

A:对B:错

答案:错

第十章单元测试

使用k=1的kNN算法,下图二分类问题,“+”和“o”分别代表两个类,那么,用仅拿出一个测试样本的交叉验证方法,交叉验证的错误率是()

A:0%到100%

B:100%

C:0%

答案:100%

下列说法错误的是?()

A:进行PCA降维时,需要计算协方差矩阵

B:当目标函数是凸函数时,梯度下降算法的解一般就是全局最优解

C:利用拉格朗日函数能解带约束的优化问题

D:沿负梯度的方向一定是最优的方向

答案:沿负梯度的方向一定是最优的方向

以下哪些方法不可以直接来对文本分类?()

A:支持向量机

B:决策树

C:K-Means

D:kNN

答案:K-Means

下列哪些算法可以用来够造神经网络?()

A:逻辑回归

B:线性回归

C:选项中都不行

D:kNN

答案:逻辑回归

;线性回归

我们想要训练一个ML模型,样本数量有100万个,特征维度是5000,面对如此大数据,如何有效地训练模型?()

A:尝试使用在线机器学习算法

B:对训练集随机采样,在随机采样的数据上建立模型

C:使用PCA算法减少特征维度

D:选项中都不对

答案:尝试使用在线机器学习算法

;对训练集随机采样,在随机采样的数据上建立模型

;使用PCA算法减少特征维度

上图中,主成分的最佳数目是多少?()

A:10

B:无法确定

C:30

D:20

答案:30

第十一章单元测试

关于L1正则和L2正则下面的说法正确的是()

A:L2范数可以防止过拟合,提升模型的泛化能力。但L1正则做不到这一点

B:L1范数会使权值稀疏

C:L2正则化有个名称叫“Lassoregularization”

D:L2正则化表示各个参数的平方和的开方值

答案:L1范数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论