《机器学习-Python实践》试卷及答案 卷9_第1页
《机器学习-Python实践》试卷及答案 卷9_第2页
《机器学习-Python实践》试卷及答案 卷9_第3页
《机器学习-Python实践》试卷及答案 卷9_第4页
《机器学习-Python实践》试卷及答案 卷9_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1页,共1页一、单项选择题(本大题共10小题,每题3分,共30分)试卷(试卷(学年第1学期)考试科目机器学习-Python实践(A卷)适用专业班级(年级)得分命题人:审阅人:班级学号姓名考试科目装订线1、选择Logistic回归中的One-Vs-All方法中的哪个选项是真实的。()A我们需要在n类分类问题中适合n个模型B我们需要适合n-1个模型来分类为n个类C我们需要只适合1个模型来分类为n个类D这些都没有2、假设对给定数据应用了Logistic回归模型,并获得了训练精度X和测试精度Y。现在要在同一数据中添加一些新特征,以下哪些是错误的选项。()注:假设剩余参数相同。A训练精度提高B训练准确度提高或保持不变C测试精度提高或保持不变3、假定特征F1可以取特定值:A、B、C、D、E和F,其代表着学生在大学所获得的评分。在下面说法中哪一项是正确的?()A特征F1是名义变量(nominalvariable)的一个实例。B特征F1是有序变量(ordinalvariable)的一个实例。C该特征并不属于以上的分类。D以上说法都正确。4、下面哪一项对梯度下降(GD)和随机梯度下降(SGD)的描述是正确的?()1在GD和SGD中,每一次迭代中都是更新一组参数以最小化损失函数。2在SGD中,每一次迭代都需要遍历训练集中的所有样本以更新一次参数。3在GD中,每一次迭代需要使用整个训练集的数据更新一个参数。A只有1B只有2C只有3D都正确5、假定你正在处理类属特征,并且没有查看分类变量在测试集中的分 布。现在你想将onehotencoding(OHE)应用到类属特征中。()那么在训练集中将OHE应用到分类变量可能要面临的困难是什么?A.分类变量所有的类别没有全部出现在测试集中B.类别的频率分布在训练集和测试集是不同的C.训练集和测试集通常会有一样的分布D.A和B都正确6、假定你现在解决一个有着非常不平衡类别的分类问题,即主要类别 占据了训练数据的99%。现在你的模型在测试集上表现为99%的准确度。 那么下面哪一项表述是正确的?()1准确度并不适合于衡量不平衡类别问题2准确度适合于衡量不平衡类别问题3精确率和召回率适合于衡量不平衡类别问题4精确率和召回率不适合于衡量不平衡类别问题A1and3B1and4C2and3D2and47、假设我们有一个数据集,在一个深度为6的决策树的帮助下,它可 以使用100%的精确度被训练。现在考虑一下两点,并基于这两点选择正确 的选项。()注意:所有其他超参数是相同的,所有其他因子不受影响。1深度为4时将有高偏差和低方差2深度为4时将有低偏差和低方差A只有1B只有2C1和2D没有一个8、与人类神经元相比,人工神经元的输入类比于什么?()A.树突B.轴突C.细胞核D.细胞膜9、与人类神经元相比,人工神经元的输出类比于什么?()A.树突B.轴突C.细胞核D.细胞膜10、以下关于感知器中的链接方式表示正确的是?()A.输入层与隐藏层相连B.输入层与输出层相连C.隐藏层与细胞核相连D.输入层与输入层相连二、判断题(本大题共10小题,每题1分,共10分)1、P(A|B)表示事件B已经发生的前提下,事件A发生的概率,叫做事 件B发生下事件A的条件概率。()2、输出变量为连续变量的预测问题是分类问题。()3、回归及分类常用的评估指标都是准确率和召回率。()4、决策树只用来分类。()5、一般来说,回归不用在分类问题上,但也有特殊情况,逻辑回归可 以用来解决0/1分类问题。()6、回归问题与分类问题都有可能发生过拟合。()7、如果一个经过训练的机器学习模型在测试集上达到100%的准确率, 这是否意味着该模型将在另外一个新的测试集上也能得到100%的准确率。 ()8、序列数据没有时间戳。()9、定量属性可以是整数值或者是连续值。()10、可视化技术对于分析的数据类型通常不是专用性的。()三、填空(本大题共10小题,每题3分,共30分)1、损失函数也叫或。2、已知坐标轴中两点A(2,−2)B(−1,2),这两点的曼哈顿距离(L1距离)是。3、算法利用信息增益进行特征的选择,信息增益反映的是给定条件后不确定性减少的程度。4、表示在样本集合中一个随机选中的样本被分错的概率。5、基尼指数(基尼不纯度)=*。6、欧式距离的特征是:、。7、一个表示一个单独的数,它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。8、AdaBoost迭代次数也就是数目不太好设定,可以使用交叉验证来进行确定;数据不平衡导致分类精度下降。9、AdaBoost训练比较耗时,每次重新选择最好切分点。10、聚类(Clustering)是指把相似的数据划分到一起,具体划分的时候并不关心这一类的标签,目标就是把相似的数据聚合到一起,聚类是一种。四、简答题(本大题共3小题,共30分)1、决策树算法特点?2、预剪枝核心思想是?3、如果你已经在完全相同的训练集上训练了五个不同的模型,并且它们都达到了95%的准确率,是否还有机会通过结合这些模型来获得更好的结果?如果可以,该怎么做?如果不行,为什么??一、选择题1.A 2.B 3.B 4.A 5.D 6.A 7.A 8.A 9.B 10.A二、判断题1.对 2.错 3.错 4.错 5.对 6.对 7.错 8.对 9.对 10.错 三、填空题1.代价函数目标函数 2.7 3.ID3 4.基尼指数(基尼不纯度) 5.样本被选中的概率样本被分错的概率 6.平移不变性旋转不变性 7.标量 8.弱分类器 9.当前分类器 10.无监督学习(UnsupervisedLearning)方法四、简答题1、答:优点:计算复杂度不高,输出结果易于理解,数据有缺失也能跑,可以处理不相关特征。缺点:容易过拟合。适用数据类型:数值型和标称型。2、答:其中的核心思想就是,在每一次实际对结点进行进一步划分之前,先采用验证集的数据来验证划分是否能提高划分的准确性。如果不能,就把结点标记为叶结点并退出进一步划分;如果可以就继续递归生成节点。3、答:如果你已经训练了五个不同的模型,并且都达到了95%的精度,你可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论