机器学习知到智慧树章节测试课后答案2024年秋三亚学院_第1页
机器学习知到智慧树章节测试课后答案2024年秋三亚学院_第2页
机器学习知到智慧树章节测试课后答案2024年秋三亚学院_第3页
机器学习知到智慧树章节测试课后答案2024年秋三亚学院_第4页
机器学习知到智慧树章节测试课后答案2024年秋三亚学院_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习知到智慧树章节测试课后答案2024年秋三亚学院第一章单元测试

下面哪句话是正确的()

A:机器学习模型的精准度越高,则模型的性能越好

B:增加模型的复杂度,总能减小训练样本误差

C:其余选项说法都不对

D:增加模型的复杂度,总能减小测试样本误差

答案:增加模型的复杂度,总能减小训练样本误差

评估模型之后,得出模型存在偏差,下列哪种方法可能解决这一问题()

A:向模型中增加更多的特征和增加更多的数据B:减少模型中特征的数量

C:增加更多的数据

D:其余选项全是

E:向模型中增加更多的特征

答案:向模型中增加更多的特征

以垃圾微信识别为例,TomMitchell的机器学习的定义中,任务T是什么?()

A:T是垃圾微信

B:T是性能度量

C:T是识别

D:T是不必要条件

答案:T是识别

如何在监督式学习中使用聚类算法()?

A:在应用监督式学习算法之前,可以将其类别ID作为特征空间中的一个额外的特征

B:首先,可以创建聚类,然后分别在不同的集群上应用监督式学习算法

C:在应用监督式学习之前,不能创建聚类

D:在应用监督式学习算法之前,不能将其类别ID作为特征空间中的一个额外的特征

答案:在应用监督式学习算法之前,可以将其类别ID作为特征空间中的一个额外的特征

;首先,可以创建聚类,然后分别在不同的集群上应用监督式学习算法

想要训练一个ML模型,样本数量有100万个,特征维度是5000,面对如此大数据,如何有效地训练模型()?

A:尝试使用在线机器学习算法

B:对训练集随机采样,在随机采样的数据上建立模型

C:使用PCA算法减少特征维度

答案:尝试使用在线机器学习算法

;对训练集随机采样,在随机采样的数据上建立模型

;使用PCA算法减少特征维度

机器学习兴起于()。

A:1990年

B:1960年

C:1970年

D:1980年

答案:1990年

;1980年

监督学习包括是()。

A:聚类算法

B:分类

C:回归

D:关联算法

答案:分类

;回归

机器学习可以对电子商务产品评价进行好评与差评分类。()

A:对B:错

答案:对机器学习必备知识包括数学基础、心理学基础、算法设计基础、商业模式基础。()

A:错B:对

答案:错机器学习是一门多学科交叉专业,涵盖____、____、近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。

答案:0

第二章单元测试

关于k-NN算法,以下哪个选项是正确的?

A:可用于分类B:可用于回归C:可用于分类和回归

答案:可用于分类和回归k-NN算法在测试时间而不是训练时间上进行了更多的计算。

A:对B:错

答案:对假设算法是k最近邻算法,在下面的图像中,____将是k的最佳值。

A:50B:3C:20D:10

答案:10

一个kNN分类器,该分类器在训练数据上获得100%的准确性。而在客户端上部署此模型时,发现该模型根本不准确。以下哪项可能出错了?注意:模型已成功部署,除了模型性能外,在客户端没有发现任何技术问题

A:其余三个选项都不是B:不能判断C:可能是模型过拟合D:可能是模型未拟合

答案:可能是模型过拟合以下是针对k-NN算法给出的两条陈述,其中哪一条是真的?1、我们可以借助交叉验证来选择k的最优值2、欧氏距离对每个特征一视同仁

A:1和2都不是B:1C:1和2D:2

答案:1和2你给出了以下2条语句,发现在k-NN情况下哪个选项是正确的?1、如果k的值非常大,我们可以将其他类别的点包括到邻域中。2、如果k的值太小,该算法会对噪声非常敏感

A:1B:1和2都不是C:2D:1和2

答案:1和2在下图中,下列哪一个k值可以给出最低的留一法交叉验证精度?

A:5B:1C:3D:2

答案:2如果一个经过训练的机器学习模型在测试集上达到100%的准确率,这是否意味着该模型将在另外一个新的测试集上也能得到100%的准确率呢?

A:不行,因为还有一些模型不确定的东西,例如噪声B:是的,因为这个模型泛化能力已经很好了,可以应用于任何数据

答案:不行,因为还有一些模型不确定的东西,例如噪声关于K折交叉验证,下列说法正确的是?

A:其余选项都正确

B:选择合适的K值,能减小验方差C:K值并不是越大越好,K值过大,会降低运算速度;D:选择更大的K值,会让偏差更小,因为K值越大,训练集越接近整个训练样本

答案:其余选项都正确

第三章单元测试

下面有关决策树的描述,错误的是()。

A:决策树易于理解和实现,人们在在学习过程中不需要使用者了解很多的背景知识,这同时是它的能够直接体现数据的特点,只要通过解释后都有能力去理解决策树所表达的意义

B:决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别

C:决策树(DecisionTree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法

D:对于决策树,数据的准备需要海量的,并且需要能够同时处理数据型和常规型属性,在相对短的时间内能够对大型数据源做出可行且效果良好的结果

答案:对于决策树,数据的准备需要海量的,并且需要能够同时处理数据型和常规型属性,在相对短的时间内能够对大型数据源做出可行且效果良好的结果

决策树的优点在于()。

A:直观简洁

B:便于解决多阶段问题差

C:其余三方面均是

D:简化决策过程

答案:便于解决多阶段问题差

在决策树方法中,由决策节点引出的分支称为__,由自然状态节点引出的分支称为___。()

A:决策分支、状态分支

B:方案分支、概率分支

C:方案分支、状态分支

D:决策分支、概率分支

答案:决策分支、概率分支

决策树一般不包括。()

A:状态节点

B:结果节点

C:决策节点

D:时间节点

答案:时间节点

以下哪个领域不是决策树算法擅长的应用领域?()

A:垃圾邮件分类

B:客户信用度分类

C:医疗诊断

D:机器视觉

答案:机器视觉

决策树的构成要素包括:()?

A:概率枝

B:状态节点

C:决策点

D:方案枝

答案:概率枝

;状态节点

;决策点

;方案枝

在决策树剪枝中,常用的后剪枝法有:()?

A:REP错误率降低剪枝法

B:TP阈值剪枝法

C:PEP悲观剪枝法

D:CCP代价复杂度剪枝法

答案:REP错误率降低剪枝法

;PEP悲观剪枝法

;CCP代价复杂度剪枝法

决策树特征选择准则较常采用的三种指标是:()?

A:信息增益(InformationGain)

B:基尼指数(GiniIndex)

C:信息熵(Informationentropy)

D:信息增益率(InformationGainRatio)

答案:信息增益(InformationGain)

;基尼指数(GiniIndex)

;信息增益率(InformationGainRatio)

决策树的学习过程主要包括:()?

A:特征选择

B:决策树的生成

C:数据清洗

D:决策树的剪枝

答案:特征选择

;决策树的生成

;决策树的剪枝

如果决策树过度拟合训练集,那么可以适当降低max_depth值,因为这样会限制模型,使其正则化。()

A:错B:对

答案:对绘制决策树时,节点上的数字为此方案的损益期望值。()

A:对B:错

答案:对ID3决策树学习算法是以为准则来划分的属性的。____

答案:信息增益C4.5决策树学习算法是以为准则来划分的属性的。____

答案:0CAR决策树学习算法是以为准则来划分的属性的。____

答案:0

第四章单元测试

p1(x,y)属于类别R,p2(x,y)属于类别B,一个新数据点(x1,y1),可以用下面的规则来判断它的类别()。

A:如果p1(x1,y1)<p2(x1,y1),那么类别为R

B:如果p1(x1,y1)>p2(x1,y1),那么类别为B

C:如果p1(x1,y1)<p2(x1,y1),不清楚

D:如果p1(x1,y1)>p2(x1,y1),那么类别为R

答案:如果p1(x1,y1)>p2(x1,y1),那么类别为R

在PYTHON中实现中文商品评价词条向量应用()。

A:分词函数jieba

B:分词函数jieba,再做向量化格式

C:直接使用

D:根据在字典中存在情况转化为0和1

答案:分词函数jieba,再做向量化格式

朴素贝叶斯中的朴素一词的来源就是()

A:牺牲一定的分类准确率

B:假设各特征之间相互独立

C:使得朴素贝叶斯算法变得简单

D:一般的意思

答案:牺牲一定的分类准确率

;假设各特征之间相互独立

;使得朴素贝叶斯算法变得简单

朴素贝叶斯算法优缺点包括()。

A:数据集属性之间是相互独立情况下,会导致分类的效果大大降低

B:数据集属性之间是相互独立情况下,算法的逻辑性十分简单

C:数据集属性之间是相互独立情况下,对于不同类型的数据集不会呈现出太大的差异性

D:数据集属性之间是相互独立情况下,算法较为稳定

答案:数据集属性之间是相互独立情况下,算法的逻辑性十分简单

;数据集属性之间是相互独立情况下,对于不同类型的数据集不会呈现出太大的差异性

;数据集属性之间是相互独立情况下,算法较为稳定

朴素贝叶斯算法工程应用分为三个阶段()

A:计算概率阶段

B:朴素贝叶斯分类器构建与训练学习

C:部署与应用阶段

D:数据准备阶段

答案:朴素贝叶斯分类器构建与训练学习

;部署与应用阶段

;数据准备阶段

全概率公式解决的是由果索因的问题。()

A:错B:对

答案:错将数据表格中数据进行预处理,转化为0、1格式,便于算法计算。()

A:错B:对

答案:对拉普拉斯平滑(LaplaceSmoothing)是比较常用的平滑方法,是为了解决0概率问题。()

A:对B:错

答案:对P(购买|特征)=

P(

|

)*P(

)/

P(

____、____、____、____。

答案:P(特征|购买)、P(购买)、P(特征)、P(购买)词袋模型是为了解决商品各段评价文档中可能有重复单词,每遇到一个单词,增加词向量中对应值,采用____的方法实现。

答案:0在相应小数位置进行四舍五入乘法运算中,计算结果可能就变成____。为了避免下溢出或者浮点数舍入导致的错误问题,对乘积结果取____方法。

答案:0

第五章单元测试

线性回归要求因变量符合正态分布?()

A:错B:对

答案:对线性回归参数的求解方法有几类,分别是什么?

答案:两类,分别为普通最小二乘法(OrdinaryLeastSquares,OLS)和梯度下降法(GradientDescent)。下列关于线性回归说法错误的是()

A:线性回归的前提假设之一是残差必须服从独立正态分布

B:在现有模型上,加入新的变量,所得到的R^2的值总会增加

C:残差的方差无偏估计是SSE/(n-p)

D:自变量和残差不一定保持相互独立

答案:自变量和残差不一定保持相互独立

在以下四个散点图中。其中适用于做线性回归的散点图为

A:3和4B:1和3C:1和2

D:2和3

答案:1和3下列变量中,属于负相关的是

A:收入增加,支出增加B:产量增加,生产费用增加C:收入增加,储蓄额增加D:价格下降,消费增加

答案:价格下降,消费增加二次多项式回归,x的列数为2,则执行如下程序后,polynomial=PolynomialFeatures(degree=3)x_transformed=polynomial.fit_transform(x)x_transformed的列数为

A:4B:5C:2D:3E:6F:1

答案:5逻辑回归主要用来做回归吗?

A:是B:否

答案:否逻辑回归能否解决多分类问题?

A:是B:否

答案:是下列关于梯度下降法说法正确的是

A:梯度下降法就是不断地更新w和b的导数值

B:梯度下降法就是不断地更新和调整学习率

C:梯度下降法就是不断寻找损失函数的最大值

D:梯度下降法就是不断地更新w和b的值

答案:梯度下降法就是不断地更新w和b的值

逻辑回归中采用以下哪种方法来调整参数?

A:最大似然法B:杰卡德距离C:最小二乘法

答案:最大似然法

第六章单元测试

对于常用在高斯核的支持向量分类,参数gamma对分类效果有影响,图1、图2和图3是不同gamma值g1、g2、g3对应的分类结果,则关于g1、g2、g3大小下列说法正确的是

()。

A:g1<g3<g2

B:g1>g2>g3

C:g1>g3>g2

D:g1<g2<g3

答案:g1<g3<g2

线性SVM和一般线性分类器的区别主要是:()。

A:训练误差通常较低

B:是否能处理线性不可分问题

C:是否进行了空间映射

D:是否确保间隔最大化

答案:是否确保间隔最大化

假设超平面为w*x+b=0,其间隔(margin)的大小为:()

A:1/||w||

B:|b|/||w||

C:2/||w||

D:2|b|/||w||

答案:2/||w||

求解线性SVM优化问题时,为什么要通过求解原始问题的对偶问题来获得原始问题的最优解?()。

A:对偶问题等价于原始问题

B:对偶问题更容易理解

C:能自然地引入核函数,进而高效地解决高维非线性分类问题

D:对偶问题往往更容易求解

答案:能自然地引入核函数,进而高效地解决高维非线性分类问题

;对偶问题往往更容易求解

为什么通常要选择margin最大的分类器?()

A:训练误差最低

B:所需的支持向量个数最少

C:计算复杂度最低

D:有望获得较低的测试误差

答案:有望获得较低的测试误差

如果训练集有上千万个实例和几百个特征,应该使用SVM原始问题来训练模型。()

A:对B:错

答案:对通过求解线性可分SVM的拉格朗日对偶问题,可以得出所有样本对应的拉格朗日乘子,其中支持向量是对应的样本点。()

A:对B:错

答案:错硬间隔SVM存在对对离群点敏感的弱点,因此引入软间隔SVM,硬间隔SVM可以看作软间隔SVM一种特例。()

A:错B:对

答案:对对于任意的数据,核函数一定存在。()

A:对B:错

答案:错对于常用在高斯核的SVC,参数gamma对分类效果的影响gamma值越大,则模型越倾向于出现过拟合的问题。()

A:错B:对

答案:对

第七章单元测试

Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。()

A:对B:错

答案:对Adaboost方法不仅可以用于设计弱分类器,还可以用于设计弱预测器。()

A:对B:错

答案:错相较于与BP神经网络的弱分类器,基于Adaboost强分类器的分类模型可以具有更高的分类准确率。()

A:对B:错

答案:对Adaboost算法在样本训练集使用过程中,对其中的关键分类特征集进行多次挑选,逐步训练分量弱分类器,用适当的阈值选择最佳弱分类器,最后将每次迭代训练选出的最佳弱分类器构建为强分类器。()

A:错B:对

答案:对Aadboost算法系统具有较高的检测速率,但是容易出现过拟合现象。()

A:错B:对

答案:错以下哪些内容是Adabosst权值更新方法。()

A:计算弱分类器的权值;

B:集合多个弱分类器成一个最终的强分类器。

C:找到误差最小的弱分类器;

D:更新下一轮样本的权值分布;

E:初始化权值分布;

答案:计算弱分类器的权值;

;集合多个弱分类器成一个最终的强分类器。

;找到误差最小的弱分类器;

;更新下一轮样本的权值分布;

;初始化权值分布;

AdaBoost中基础分类器的权重设置策略存在的问题有()。

A:不能保证是最优解B:不能根据测试样本进行自适应调整

C:需要用户进行手工设置D:计算复杂

答案:不能保证是最优解;需要用户进行手工设置;计算复杂集成学习(ensemblelearning)通过构建并结合多个学习器(learner)来完成学习任务,目前集成学习主要分为两大类,以下哪些算法中个体学习器是串行序列化生成的。()。

A:boostingB:baggingC:RandomForestD:Adaboost

答案:boosting;Adaboost

AdaBoost算法的优点有:()。

A:adaboost是一种有很高精度的分类器。

B:当使用简单分类器时,计算出的结果是可以理解的。而且弱分类器构造极其简单。

C:可以使用各种方法构建子分类器,Adaboost算法提供的是框架。

D:简单,不用做特征筛选。

答案:adaboost是一种有很高精度的分类器。

;当使用简单分类器时,计算出的结果是可以理解的。而且弱分类器构造极其简单。

;可以使用各种方法构建子分类器,Adaboost算法提供的是框架。

;简单,不用做特征筛选。

由于AdaBoost是boosting的改进方法,而且性能比较稳定,故在实际中一般都直接使用AdaBoost而不会使用原始的boosting。()

A:错B:对

答案:对

第八章单元测试

如图是某个p值闵可夫斯基距离表示的单位圆,请问p的值为

()。

A:p=2

B:p=∞

C:p=1

D:p=4

答案:p=1

使用k-means算法得到了三个聚类中心,分别是[1,2],[-3,0],[4,2],现输入数据X=[3,1],则X属于第几类()。

A:3

B:不能确定

C:1

D:2

答案:3

以下关于经典的k-means聚类的说法哪个是错误的?()

A:k-means的聚类结果和初始聚类中心点的选取有关

B:k-means聚类算法是全局收敛的

C:k-means聚类算法的时间复杂度是O(NKT),其中N为样本个数,K为聚类团数量,T为迭代次数

D:k-means聚类算法无法自动确定聚类团数量

答案:k-means聚类算法是全局收敛的

关于K-means的说法正确的有()。

A:K值的选取往往需要依靠经验或者数据集的情况来确定。

B:该算法不会存在陷入局部极值的情况

C:初始化聚类中心时,一定要将各个聚类中心的坐标设置为相同的值

D:K-means算法属于层次聚类。

答案:K值的选取往往需要依靠经验或者数据集的情况来确定。

对一组无标签的数据,使用不同的初始化值运行k-mens算法50次,如何评测这50次聚类的结果哪个最优()。

A:需要获取到数据的标签才能评测。

B:暂无方法。

C:最后一次运行结果最优。

D:优化目标函数值最小的一组最优

答案:需要获取到数据的标签才能评测。

在市场营销中,聚类最有可能帮助经营者()。

A:进行商品推荐。

B:对客户群进行划分。

C:辅助商品定价

D:识别优质客户

答案:对客户群进行划分。

聚类算法中通常使用某种形式的距离来定义“相似度”,但相似度度量不一定满足距离度量的所有基本性质。()

A:错B:对

答案:对K-means++算法是针对新的质心选取方式问题的改进。()

A:错B:对

答案:错所有聚类算法都是基于某种距离的。()

A:错B:对

答案:错聚类属于无监督学习,其样本数据无需标注信息,因此有标注信息对聚类算法无帮助。()

A:错B:对

答案:错

第九章单元测试

Apriori算法的优点是容易编码实现。()

A:对B:错

答案:对Apriori算法的缺点是在速度可能较慢。()

A:对B:错

答案:错标称型数据的特点是()

A:互斥B:无序C:可区分大小

D:有类别

答案:互斥;无序;有类别下列哪类数据是标称型数据()

A:胖瘦B:性别

C:高矮D:肤色

答案:性别

;肤色关联分析是从大规模数据集中寻找物品间的隐含关系。()

A:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论