机器学习智慧树知到期末考试答案章节答案2024年三亚学院_第1页
机器学习智慧树知到期末考试答案章节答案2024年三亚学院_第2页
机器学习智慧树知到期末考试答案章节答案2024年三亚学院_第3页
机器学习智慧树知到期末考试答案章节答案2024年三亚学院_第4页
机器学习智慧树知到期末考试答案章节答案2024年三亚学院_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习智慧树知到期末考试答案+章节答案2024年三亚学院基尼指数偏向于多值属性;当类数较大时,基尼指数求解比较困难;基尼指数倾向于支持在两个分区中生成大小相同的测试。()

答案:对精确率(Precision),也叫查准率。即正确预测为正的占全部预测为正的比例。是真正正确的占所有预测为正的比例()

答案:对准确率(Accuracy)是所有的预测正确(正类负类)的占总的比重。()

答案:对在AdaBoost算法中,所有被错分的样本的权重更新比例相同。()

答案:对当训练数据较少时更容易发生过拟合。()

答案:对非监督学习包括是()。

答案:关联算法###聚类算法基于二次准则函数的H-K算法较之于感知器算法的优点是()。

答案:其解的适应性更好###可以判别问题是否线性可分逻辑回归是一个回归模型。()

答案:错朴素贝叶斯定理中的朴素意思是()。

答案:是贝叶斯公式的一个简化条件假设###特征元素间彼此独立的特征朴素贝叶斯中有多少种模型()

答案:有高斯模型对连续型数据进行处理###伯努利模型,取值特征是布尔型,如一个单词有没有在一个文档中出现过###多项式模型,对离散型数据进行处理,计算数据的条件概率,使用拉普拉斯估计器进行平滑的一个模型数据清理中,处理缺失值的方法是()。

答案:变量删除###成对删除###整例删除###估算以下(

)属于线性分类器最佳准则?

答案:感知准则函数###Fisher准则###支持向量机我们想要减少数据集中的特征数,即降维.请选择以下适合的方案。(1)使用前向特征选择方法(2)使用后向特征排除方法(3)我们先把所有特征都使用,去训练一个模型,得到测试集上的表现.然后我们去掉一个特征,再去训练,用交叉验证看看测试集上的表现.如果表现比原来还要好,我们可以去除这个特征(4)查看相关性表,去除相关性最高的一些特征()

答案:其他选项都对深度学习是当前很热门的机器学习算法,在深度学习中,涉及到大量的矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m∗n,n∗p,p∗q,且m答案:(AB)C下面哪个选项中哪一项属于确定性算法?()

答案:PCA朴素贝叶斯算法在统计训练样本中每个类别出现的频率时,若某一特征值的概率为0会使整个概率乘积变为0(称为数据稀疏)问题,解决的的办法有()

答案:采用贝叶斯估计,如拉普拉斯平滑###通过聚类将未出现的特征找出相关特征的概率求平均值进行替代###剔除掉某一特征值的概率为0的特征我们想在大数据集上训练决策树,为了使用较少时间,我们可以()。

答案:减少树的深度下面对集成学习模型中的弱学习者描述错误的是()。

答案:他们通常会过拟合我们注意变量间的相关性。在相关矩阵中搜索相关系数时,如果我们发现3对变量的相关系数是(Var1和Var2,Var2和Var3,Var3和Var1)是-0.98,0.45,1.23.我们可以得出什么结论?1.Var1和Var2是非常相关的2.因为Var和Var2是非常相关的,我们可以去除其中一个3.Var3和Var1的1.23相关系数是不可能的()

答案:1,2and3”点击率问题”是这样一个预测问题,99%的人是不会点击的,而1%的人是会点击进去的,所以这是一个非常不平衡的数据集。假设,现在我们已经建了一个模型来分类,而且有了99%的预测准确率,我们可以下的结论是()

答案:模型预测准确率不高,我们需要做点什么改进模型下列属于无监督学习的是()。

答案:K-means一元线性回归的基本假设不包括()。

答案:随机误差项彼此相关;下面的交叉验证方法:i.有放回的Bootstrap方法ii.留一个测试样本的交叉验证iii.5折交叉验证iv.重复两次的5折交叉验证当样本是1000时,下面执行时间的顺序,正确的是()。

答案:ii>iv>iii>i

答案:g1<g2<g3下面哪些对「类型1(Type-1)」和「类型2(Type-2)」错误的描述是错误的?()

答案:类型2通常称之为假正类,类型1通常称之为假负类。朴素贝叶斯算法缺点是()。

答案:会导致分类的效果有所降低在二分类问题中,当测试集的正例和负例数量不均衡时,以下评价方案哪个是相对不合理的?()(假设precision=TP/(TP+FP),recall=TP/(TP+FN)。)

答案:假如你在训练一个线性回归模型,有下面两句话:1.如果数据量较少,容易发生过拟合。2.如果假设空间较小,容易发生过拟合。关于这两句话,下列说法正确的是?()

答案:1正确,2错误数据科学家可能会同时使用多个算法(模型)进行预测,并且最后把这些算法的结果集成起来进行最后的预测(集成学习),以下对集成学习说法正确的是()。

答案:单个模型之间有低相关性________是一种基于树结构进行决策的算法。()

答案:决策树输入图片大小为200×200,依次经过一层卷积(kernelsize5×5,padding1,stride2),pooling(kernelsize3×3,padding0,stride1),又一层卷积(kernelsize3×3,padding1,stride1)之后,输出特征图大小为()

答案:97对于线性回归模型,包括附加变量在内,以下的可能正确的是1.R-Squared和AdjustedR-squared都是递增的2.R-Squared是常量的,AdjustedR-squared是递增的3.R-Squared是递减的,AdjustedR-squared也是递减的4.R-Squared是递减的,AdjustedR-squared是递增的()。

答案:其余选项都不是决策树的优点在于()。

答案:便于解决多阶段问题差预剪枝是在决策树的构建过程中加入限制,比如控制叶子节点最少的样本个数,提前停止。()

答案:对给线性回归模型添加一个不重要的特征可能会造成R-square增加。

答案:对支持向量是那些最接近决策平面的数据点。()

答案:对决策树只能用于分类问题,不能用于回归问题。()

答案:错如果特征很多,决策树中最后没有用到的特征一定是无用的。()

答案:错后剪枝是在决策树构建完成之后,根据加上正则项的结构风险最小化自上而下进行的剪枝操作。()

答案:错对于具有固定学习速率的logistic回归模型,随机梯度算法将精确地找到权重的最优设置。()

答案:错决策树的缺点是对中间值的缺失敏感;可能产生过度匹配的问题,即过拟合。()

答案:对下面哪些算法模型可以用来完成命名实体的任务?()

答案:seq2seq###LSTM###HMM###CRF位势函数法的积累势函数K(x)的作用相当于Bayes判决中的()。

答案:类概率密度与先验概率的乘积###后验概率朴素贝叶斯对缺失值敏不敏感,为什么()

答案:朴素贝叶斯算法对缺失值不敏感,能够处理缺失的数据,在算法的建模时和预测时数据的属性都是单独处理的。###缺失的数据在建模时将被忽略,不影响类条件概率的计算###在预测时,不影响预测最终结果。SPSS中,数据整理的功能主要集中在()等菜单中

答案:转换###数据给定n个数据点,如果其中一半用于训练,另一半用于测试,则训练误差和测试误差之间的差别会随着n的增加而减小。()

答案:对关于Word2vec,下列哪些说法是正确的()

答案:Word2vec能够表示词汇之间的语义相关性###Word2vec可以采用负采样的方式来节省计算开销###Word2vec是无监督学习###Word2vec利用当前特征词的上下文信息实现词向量编码,是语言模型的副产品###Word2vec没有使用完全的深度神经网络模型下列哪些假设是我们推导线性回归参数时遵循的?()

答案:误差一般服从0均值和固定标准差的正态分布###模型误差在统计学上是独立的###X是非随机且测量没有误差的###X与Y有线性关系(多项式关系)影响聚类算法效果的主要原因有?()

答案:特征选取###模式相似性测度###分类准则下列哪些方法可以用来对高维数据进行降维?()

答案:拉普拉斯特征映射###主成分分析法###LASSO###线性判别法###小波分析法二分类任务中,有三个分类器h1,h2,h3,三个测试样本x1,x2,x3。假设1表示分类结果正确,0表示错误,h1在x1,x2,x3的结果分别(1,1,0),h2,h3分别为(0,1,1),(1,0,1),按投票法集成三个分类器,下列说法正确的是()。

答案:集成提高了性能如果训练集有100万个实例,训练无约束决策树的大致深度是多少()?请选择最接近的值。()

答案:20层机器学习发展的历史包括()。

答案:推理时期###知识时期

答案:a(x)与b(x)是同阶无穷小,但不是等价无穷小在有监督学习中,我们如何使用聚类方法?1.我们可以先创建聚类类别,然后在每个类别上用监督学习分别进行学习2.我们可以使用聚类“类别id”作为一个新的特征项,然后再用监督学习分别进行学习3.在进行监督学习之前,我们不能新建聚类类别4.我们不可以使用聚类“类别id”作为一个新的特征项,然后再用监督学习分别进行学习()

答案:1和2中文同义词替换时,常用到Word2Vec,以下说法错误的是()。

答案:Word2Vec得到的都是语义上的同义词对于线性回归,我们应该有以下哪些假设?1.找到利群点很重要,因为线性回归对利群点很敏感2.线性回归要求所有变量必须符合正态分布3.线性回归假设数据没有多重线性相关性()

答案:其余选项都不是

答案:学历朴素贝叶斯NB与逻辑回归LR的区别()

答案:NB适用于数据集少的情景,LR适用于大规模数据集朴素贝叶斯分类器构建与训练学习阶段主要任务是()。

答案:其余选项都不是解决隐马模型中预测问题的算法是?()

答案:维特比算法为了观察测试Y与X之间的线性关系,X是连续变量,使用下列哪种图形比较适合?()

答案:散点图

答案:(2,0,1,0)对于下图,最好的主成分选择是多少?()

答案:30印度电影《宝莱坞机器人之恋》中的机器人七弟采用的智能算法最有可能是以下哪一种?()

答案:神经网络对于随机森林和GradientBoostingTrees,下面说法正确的是1.在随机森林的单个树中,树和树之间是有依赖的,而GradientBoostingTrees中的单个树之间是没有依赖的2.这两个模型都使用随机特征子集,来生成许多单个的树3.我们可以并行地生成GradientBoostingTrees单个树,因为它们之间是没有依赖的,GradientBoostingTrees训练模型的表现总是比随机森林好()。

答案:2NaveBayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是()。

答案:特征变量X的各个维度是类别条件独立随机变量如果在包含100万个实例的训练集上训练决策树需要一个小时,那么在包含1000万个实例的训练集上训练决策树,大概需要多长时间?请选择最接近的值。()

答案:11个小时下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测?()

答案:GARCH模型

答案:图1、2中的特征如果一个模型在训练集上正确率为99%,测试集上正确率为60%,则下面哪种处理方法是错误的?()

答案:增加模型复杂度以下说法正确的是1.一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的2.如果增加模型复杂度,那么模型的测试错误率总是会降低3.如果增加模型复杂度,那么模型的训练错误率总是会降低()。

答案:3Fisher线性判别函数的求解过程是将M维特征矢量投影在()中求解。

答案:一维空间SVM在下列那种情况下表现糟糕?()

答案:含噪声数据与重叠数据点下面有关序列模式挖掘算法的描述,错误的是?()

答案:在时空的执行效率上,FreeSpan比PrefixSpan更优SVM的效率依赖于()

答案:其余选项都对变量选择是用来选择最好的判别器子集,如果要考虑模型效率,我们应该做哪些变量选择的考虑?1.多个变量其实有相同的用处2.变量对于模型的解释有多大作用3.特征携带的信息4.交叉验证()

答案:1,3和4以下哪种决策树法可以用于求解回归问题()

答案:其余选项都可以下面有关分类算法的准确率,召回率,F1值的描述,错误的是()。

答案:正确率、召回率和F值取值都在0和1之间,数值越接近0,查准率或查全率就越高以垃圾微信识别为例,TomMitchell的机器学习的定义中,性能度量值P是什么?()

答案:P是识别BP神经网络优点。()

答案:具有较好的容错性###很好的逼近特性###具有较强的泛化能力已知输入层、输出层神经元个数后,三层BP神经网络隐藏层神经元个数有准确的计算公式。()

答案:错三个层次的神经网络三层分别为()。

答案:输入层###中间层###输出层BP神经网络数据预处理包括()

答案:模糊量的量化###数据归一化###异常数据剔除采用随机梯度下降(SGD)优化算法去逐步改变网络的权重w和偏置b,损失函数会缓慢地降低,从而改进我们的神经网络。()

答案:对一个神经元通常具有1个树突,主要用来接受传入信息。()

答案:错那个不是BP神经网络缺点。()

答案:结构复杂BP神经网络隐藏层层数是否越多越好。()

答案:错生物神经网络(naturalneuralnetwork,NNN)是由中枢神经系统及周围神经系统所构成的错综复杂的神经网络,其中最重要的是()

答案:脑神经系统神经元模型是一个包含输入,输出与计算功能的模型。()

答案:对关联分析是从大规模数据集中寻找物品间的隐含关系。()

答案:对提升度指当销售一个物品时,另一个物品销售率会增加多少。()

答案:对下列哪类数据是标称型数据()

答案:肤色###性别.频繁项集(frequentitemset)是满足最小支持度阈值的项集(frequentitemset)()

答案:错关联规则(associationrules)暗示两种物品之间可能存在一些关系。()

答案:错标称型数据的特点是()

答案:互斥###有类别###无序如果某一个项集是非频繁的,那么它的所有子集也是非频繁的。()

答案:错频繁项集(frequentitemsets)是经常出现在一块的物品的集合。()

答案:对Apriori算法的缺点是在速度可能较慢。()

答案:错Apriori算法的优点是容易编码实现。()

答案:对聚类算法中通常使用某种形式的距离来定义“相似度”,但相似度度量不一定满足距离度量的所有基本性质。()

答案:对以下关于经典的k-means聚类的说法哪个是错误的?()

答案:k-means聚类算法是全局收敛的聚类属于无监督学习,其样本数据无需标注信息,因此有标注信息对聚类算法无帮助。()

答案:错K-means++算法是针对新的质心选取方式问题的改进。()

答案:错

答案:p=1所有聚类算法都是基于某种距离的。()

答案:错使用k-means算法得到了三个聚类中心,分别是[1,2],[-3,0],[4,2],现输入数据X=[3,1],则X属于第几类()。

答案:3对一组无标签的数据,使用不同的初始化值运行k-mens算法50次,如何评测这50次聚类的结果哪个最优()。

答案:需要获取到数据的标签才能评测。关于K-means的说法正确的有()。

答案:K值的选取往往需要依靠经验或者数据集的情况来确定。在市场营销中,聚类最有可能帮助经营者()。

答案:对客户群进行划分。Adaboost方法不仅可以用于设计弱分类器,还可以用于设计弱预测器。()

答案:错Aadboost算法系统具有较高的检测速率,但是容易出现过拟合现象。()

答案:错AdaBoost中基础分类器的权重设置策略存在的问题有()。

答案:不能保证是最优解###需要用户进行手工设置###计算复杂Adaboost算法在样本训练集使用过程中,对其中的关键分类特征集进行多次挑选,逐步训练分量弱分类器,用适当的阈值选择最佳弱分类器,最后将每次迭代训练选出的最佳弱分类器构建为强分类器。()

答案:对AdaBoost算法的优点有:()。

答案:可以使用各种方法构建子分类器,Adaboost算法提供的是框架。###简单,不用做特征筛选。###adaboost是一种有很高精度的分类器。###当使用简单分类器时,计算出的结果是可以理解的。而且弱分类器构造极其简单。集成学习(ensemblelearning)通过构建并结合多个学习器(learner)来完成学习任务,目前集成学习主要分为两大类,以下哪些算法中个体学习器是串行序列化生成的。()。

答案:boosting###Adaboost以下哪些内容是Adabosst权值更新方法。()

答案:计算弱分类器的权值;###初始化权值分布;###集合多个弱分类器成一个最终的强分类器。###更新下一轮样本的权值分布;###找到误差最小的弱分类器;Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。()

答案:对由于AdaBoost是boosting的改进方法,而且性能比较稳定,故在实际中一般都直接使用AdaBoost而不会使用原始的boosting。()

答案:对相较于与BP神经网络的弱分类器,基于Adaboost强分类器的分类模型可以具有更高的分类准确率。()

答案:对如果训练集有上千万个实例和几百个特征,应该使用SVM原始问题来训练模型。()

答案:对假设超平面为w*x+b=0,其间隔(margin)的大小为:()

答案:2/||w||

答案:错对于常用在高斯核的SVC,参数gamma对分类效果的影响gamma值越大,则模型越倾向于出现过拟合的问题。()

答案:对

答案:错硬间隔SVM存在对对离群点敏感的弱点,因此引入软间隔SVM,硬间隔SVM可以看作软间隔SVM一种特例。()

答案:对求解线性SVM优化问题时,为什么要通过求解原始问题的对偶问题来获得原始问题的最优解?()。

答案:对偶问题往往更容易求解###能自然地引入核函数,进而高效地解决高维非线性分类问题线性SVM和一般线性分类器的区别主要是:()。

答案:是否确保间隔最大化为什么通常要选择margin最大的分类器?()

答案:有望获得较低的测试误差

答案:g1<g3<g2二次多项式回归,x的列数为2,则执行如下程序后,polynomial=PolynomialFeatures(degree=3)x_transformed=polynomial.fit_transform(x)x_transformed的列数为

答案:5逻辑回归中采用以下哪种方法来调整参数?

答案:最大似然法在以下四个散点图中。其中适用于做线性回归的散点图为

答案:1和3下列关于线性回归说法错误的是()

答案:自变量和残差不一定保持相互独立逻辑回归主要用来做回归吗?

答案:否线性回归要求因变量符合正态分布?()

答案:对下列关于梯度下降法说法正确的是

答案:梯度下降法就是不断地更新w和b的值逻辑回归能否解决多分类问题?

答案:是下列变量中,属于负相关的是

答案:价格下降,消费增加p1(x,y)属于类别R,p2(x,y)属于类别B,一个新数据点(x1,y1),可以用下面的规则来判断它的类别()。

答案:如果p1(x1,y1)>p2(x1,y1),那么类别为R在PYTHON中实现中文商品评价词条向量应用()。

答案:分词函数jieba,再做向量化格式朴素贝叶斯算法优缺点包括()。

答案:数据集属性之间是相互独立情况下,算法的逻辑性十分简单###数据集属性之间是相互独立情况下,算法较为稳定###数据集属性之间是相互独立情况下,对于不同类型的数据集不会呈现出太大的差异性将数据表格中数据进行预处理,转化为0、1格式,便于算法计算。()

答案:对全概率公式解决的是由果索因的问题。()

答案:错朴素贝叶斯算法工程应用分为三个阶段()

答案:朴素贝叶斯分类器构建与训练学习###数据准备阶段###部署与应用阶段拉普拉斯平滑(LaplaceSmoothing)是比较常用的平滑方法,是为了解决0概率问题。()

答案:对朴素贝叶斯中的朴素一词的来源就是()

答案:牺牲一定的分类准确率###假设各特征之间相互独立###使得朴素贝叶斯算法变得简单绘制决策树时,节点上的数字为此方案的损益期望值。()

答案:对在决策树方法中,由决策节点引出的分支称为__,由自然状态节点引出的分支称为___。()

答案:决策分支、概率分支决策树的学习过程主要包括:()?

答案:决策树的生成###特征选择###决策树的剪枝决策树特征选择准则较常采用的三种指标是:()?

答案:基尼指数(GiniIndex)###信息增益率(InformationGainRatio)###信息增益(InformationGain)以下哪个领域不是决策树算法擅长的应用领域?()

答案:机器视觉决策树一般不包括。()

答案:时间节点下面有关决策树的描述,错误的是()。

答案:对于决策树,数据的准备需要海量的,并且需要能够同时处理数据型和常规型属性,在相对短的时间内能够对大型数据源做出可行且效果良好的结果决策树的构成要素包括:()?

答案:方案枝###概率枝###状态节点###决策点如果决策树过度拟合训练集,那么可以适当降低max_depth值,因为这样会限制模型,使其正则化。()

答案:对在决策树剪枝中,常用的后剪枝法有:()?

答案:REP

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论