《机器学习-Python实践》试卷及答案 卷2_第1页
《机器学习-Python实践》试卷及答案 卷2_第2页
《机器学习-Python实践》试卷及答案 卷2_第3页
《机器学习-Python实践》试卷及答案 卷2_第4页
《机器学习-Python实践》试卷及答案 卷2_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1页,共1页一、单项选择题(本大题共10小题,每题3分,共30分)试卷(试卷(学年第1学期)考试科目机器学习-Python实践(A卷)适用专业班级(年级)得分命题人:审阅人:班级学号姓名考试科目装订线1、假设,现在我们已经建了一个模型来分类,而且有了99%的预测准确率,我们可以下的结论是:()A.模型预测准确率已经很高了,我们不需要做什么了B.模型预测准确率不高,我们需要做点什么改进模型C.无法下结论D.以上都不对2、我们想在大数据集上训练决策树,为了使用较少时间,我们可以:()A.增加树的深度B.增加学习率(learningrate)C.减少树的深度D.减少树的数量3、对于线性回归,我们应该有以下哪些假设?()1.找到离群点很重要,因为线性回归对利群点很敏感2.线性回归要求所有变量必须符合正态分布3.线性回归假设数据没有多重线性相关性A.1和2B.2和3C.1,2和3D.以上都不是4、关于正态分布,下列说法错误的是:()A.正态分布具有集中性和对称性B.正态分布的均值和方差能够决定正态分布的位置和形态C.正态分布的偏度为0,峰度为1D.标准正态分布的均值为0,方差为15、决策树的父节点和子节点的熵的大小关系是什么?()A.决策树的父节点更大B.子节点的熵更大C.两者相等D.根据具体情况而定6、下列关于极大似然估计(MaximumLikelihoodEstimate,MLE),说法正确的是(多选)?()A.MLE可能并不存在B.MLE总是存在C.如果MLE存在,那么它的解可能不是唯一的D.如果MLE存在,那么它的解一定是唯一的7、一般来说,下列哪种方法常用来预测连续独立变量?()A.线性回归B.逻辑回顾C.线性回归和逻辑回归都行D.以上说法都不对8、你使用随机森林生成了几百颗树(T1,T2,...,Tn),然后对这些树的预测结果进行综合,下列说法正确的是:()1、每棵树是通过所有数据的子集构建而成的2、每棵树学习的样本数据都是通过随机有放回采样而得的3、每棵树是通过数据集的子集和特征的子集构建而成的4、每棵树是通过所有的数据构建而成的A.1和2B.2和4C.1、2和3D.2和39、下面关于随机森林和GBDT的说法正确的是:()①这两种方法都可以用来解决分类问题②随机森林解决分类问题,GBDT解决回归问题③随机森林解决回归问题,GBDT解决分类问题④这两种方法都可以用来解决回归问题A.①B.②C.③D.④E.①和④10、关于随机森林和GBDT,下列说法错误的是:()A.随机森林中每个学习器是相互独立的B.随机森林利用了bagging的思想来构建强学习器C.GBDT利用了Boosting的思想来构建强学习器D.GBDT中每个学习器之间没有任何联系二、判断题(本大题共10小题,每题1分,共10分)1、SVM是一个凸优化问题,因此局部最优解一定是全局最优解的优点。()2、错误否定(FalseNegative,FN):预测为假,实际为真。()3、逻辑回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最常用的就是二分类的逻辑回归。()4、决策树只能处理数据型属性。()5、朴素贝叶斯适合高维数据。()6、随机事件X所包含的信息量与其发生的概率有关。发生的概率越小,其信息量就越小。()7、决策树短时间内处理大量数据,得到可行且效果较好的结果。()8、集成学习以boosting、Adaboost等算法为代表的,个体学习器不是串行序列化生成的、具有依赖关系。()9、Adaboost算法流程给数据中的每一个样本一个权重。()10、Adaboost算法流程训练数据中的每一个样本,得到第一个分类器()三、填空(本大题共10小题,每题3分,共30分)1、评判分类效果好坏的三个指标就是上面介绍的三个指标:,,。2、提取出的正确信息条数/提取出的信息条数是。3、模型把训练样本学习“太好了”,可能把一些训练样本自身的特性当做了所有潜在样本都有的一般性质,导致泛化能力下降叫。4、分类是预测,比如把人分为好人和坏人之类的学习任务。5、训练用到的每个样本叫。6、训练过程中用到的数据叫。7、在某些情况下,我们会讨论坐标超过两维的数组。一般地,一个数组中的元素分布在若干维坐标的规则网格中,我们将其称之为。8、聚类的特征选择:从最初的特征中选择最有效的特征,并将其存储在?中。9、聚类的特征提取:通过对进行转换形成新的突出特征。10、聚类的聚类:基于某种距离函数进行相似度度量,获取。四、简答题(本大题共3小题,共30分)1、为什么朴素贝叶斯如此“朴素”?2、简单说下有监督学习和无监督学习的区别?3、特征选择与数据降维(特征提取)?一、选择题1.B 2.C 3.D 4.C 5.B 6.AC 7.A 8.D 9.E 10.D二、判断题1.对 2.对 3.对 4.错 5.错 6.错 7.对 8.错 9.对 10.对 三、填空题1.正确率召回率F值 2.正确率 3.过拟合 4.离散值5.训练样本 6.训练集 7.张量 8.向量 9.选择的特征 10.簇四、简答题1、因为它假定所有的特征在数据集中的作用是同样重要和独立的。正如我们所知,这个假设在现实世界中是很不真实的,因此,说朴素贝叶斯真的很“朴素”。2、答:有监督学习:对具有标记的训练样本进行学习,以尽可能对训练样本集外的数据进行分类预测。(LR,SVM,BP,RF,GBDT)无监督学习:对未标记的样本进行训练学习,比发现这些样本中的结构知识。(KMeans,DL)3、答:降维的方法:结合专业知识剔除或合并类别通过数据概要来发现变量间的信息重叠(并剔除或合并类别)对数据进行转换,例如将分类型变量转换为数值型变量使用如主成分分析(PCA

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论