人工智能机器学习技术练习(习题卷14)_第1页
人工智能机器学习技术练习(习题卷14)_第2页
人工智能机器学习技术练习(习题卷14)_第3页
人工智能机器学习技术练习(习题卷14)_第4页
人工智能机器学习技术练习(习题卷14)_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:人工智能机器学习技术练习人工智能机器学习技术练习(习题卷14)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能机器学习技术练习第1部分:单项选择题,共58题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.一个SVM存在欠拟合问题,下面怎么做能提高模型的性能:A)增大惩罚参数CB)减小惩罚参数CC)减小核函数系数(gamma值)答案:A解析:C>0称为惩罚参数,是调和二者的系数,C值大时对误差分类的惩罚增大,C值小时对误差分类的惩罚减小。当C越大,趋近无穷的时候,表示不允许分类误差的存在,margin越小,容易过拟合;当C趋于0时,表示我们不再关注分类是否正确,只要求margin越大,容易欠拟合。[单选题]2.分类问题的label是一个()值A)数B)类别C)类别或者数答案:B解析:[单选题]3.如右图所示有向图,节点G的马尔可夫毯为()A){D,E}B){I,J}C){D,E,I,J}D){D,E,F,H,I,J}答案:D解析:[单选题]4.边界跟踪技术技术属于哪一类分割方法。()A)阈值分割法B)边缘分割法C)区域分割法D)特征分区法答案:B解析:[单选题]5.k近邻学习是一种(__)。A)监督学习方法B)半监督学习方法C)无监督学习方法D)测试方法答案:A解析:[单选题]6.下列关于DataFrame说法正确的是()。A)DataFrame结构是由索引和数据组成B)DataFrame的行索引位于最右侧C)创建一个DataFrame对象时需要指定索引D)DataFrame每列的数据类型必须是相同的答案:C解析:[单选题]7.关于EDA与统计学中验证性分析的相关描述不正确的有(__)。A)EDA无需事先假设,验证性分析需要事先假设B)探索分析在后,验证性分析在前C)EDA中采取的方法往往比验证分析简单D)基于EDA是数据计算工作可以分为2个部分:探索性分析和验证性分析答案:B解析:[单选题]8.假设file是文本文件对象,下列选项中,哪个用于读取一行内容()。A)file.read()B)file.read(200)C)file.readline()D)file.readlines()答案:C解析:[单选题]9.关于常用评分函数描述错误的为A)基于信息论准则;B)学习问题看做为数据压缩任务;C)学习目标为以最短编码长度描述训练数据模型;D)编码位数仅为自身所需的编码位数;答案:D解析:[单选题]10.下面不属于数据科学主要研究内容的有(__)。A)基础理论B)数据管理C)数据分析D)数据商务答案:D解析:[单选题]11.关于随机森林描述不正确的是()。A)随机森林是一种集成学习方法B)随机森林的随机性主要体现在,当训练单棵决策树时,对样本和特征同时进行采样C)随机森林可以高度并行化D)随机森林在预测时,根据单棵决策树分类误差进行加权投票答案:D解析:[单选题]12.对数值型输出,最常见的结合策略是(__)。A)投票法B)平均法C)学习法D)排序法答案:B解析:[单选题]13.(__)通过构建并结合多个学习器来完成学习任务。A)支持向量机B)贝叶斯分类器C)神经网络D)集成学习答案:D解析:[单选题]14.spark.deploy.recoveryMode不支持那种()。A)ZooKeeperB)FileSystemC)NONED)hadoop答案:D解析:[单选题]15.一条规则形如:⊕←f1⋀f2⋀…⋀fL,其中?←"左边的部分称为A)规则长度B)规则头C)布尔表达式D)规则体答案:B解析:[单选题]16.利用平滑滤波器可对图像进行低通滤波,消除噪声,但同时模糊了细节。一下哪项措施不能减小图像的模糊程度?A)增加对平滑滤波器输出的或值处理(即仅保留大于或值的输出);B)采用中值滤波的方法;C)采用领域平均处理;D)适当减小平滑滤波器的领域操作模板;答案:C解析:[单选题]17.(__)用于将非线性引入神经网络。它会将值缩小到较小的范围内。A)损失函数B)优化函数C)激活函数D)目标函数答案:C解析:[单选题]18.下面不属于数据科学家的主要职责有(__)。A)制定?数据战略?B)研发?数据产品?C)模拟?数据学习?D)构建?数据生态系统?答案:C解析:[单选题]19.从学科定位来看,数据科学处于(__)三大领域的重叠之处。A)统计学B)黑客精神与技能C)数学与统计知识D)领域务实知识答案:A解析:[单选题]20.逻辑回归与多元回归分析有哪些不同之处?A)逻辑回归用来预测事件发生的概率B)逻辑回归用来计算拟合优度指数C)逻辑回归用来对回归系数进行估计D)以上都是答案:D解析:A选项,逻辑回归是用来解决分类问题的,可以用于预测事件发生的概率。B选项,一般来说,为了测量真实样本与模型的拟合程度,可以使用逻辑回归来计算拟合优度指数。C选项,在拟合逻辑回归模型之后,我们还可以根据系数值,来判断各个独立特征与目标输出的关系(正相关或负相关)。[单选题]21.假设三个稠密矩阵(DenseMatrix)A,B,C的尺寸分别为m*n,n*q和p*q,且m<n<p<qm<n<p<q,一下计算顺序会加速的是?A)(AB)CB)AC(B)C)A(BC)D)所有效率都相同答案:A解析:(AB)C要mp(2n-1)+mq(2p-1)次运算;A(BC)要nq(2p-1)mq(2n-1)次运算;又因为m<n<p<q又因为m<n<p<q;所以Mp(2n−1)<mq(2n−1);mp(2n−1)<mq(2n−1);Mq(2p−1)<nq(2p−1);mq(2p−1)<nq(2p−1);所以(AB)C运算次数最少,效率最高;越小越要先乘[单选题]22.点击率的预测是一个数据比例不平衡问题(如训练集中样本呈阴性的比例为99%,阳性的比例是1%),如果我们用这种数据建立模型并使得训练集的准确率高达99%。我们可以得出结论是()。A)模型的准确率非常高,我们不需要进一步探索B)模型不好,我们应建一个更好的模型C)无法评价模型D)以上答案都不正确答案:C解析:对于失衡数据,模型的准确率不能作为衡量模型效果的标准。因为我们需要探索的是少数1%的数据,为更好地评估模型效果,可以用灵敏度、特异度、F-measure来判断。[单选题]23.可以从新闻文本数据中分析出名词短语,动词短语,主语的技术是?A)词性标注B)依存分析和句法分析C)N-Gram抽取D)词袋模型答案:B解析:[单选题]24.有如下两组数据{(-1,0),(-1,2),(1,2)}{(0,0),(1,0),(1,1)}我们在该数据集上训练一个线性SVM模型,该模型中的支持向量是哪些?A)(−1,2),(1,1),(1,0)B)(−1,0),(−1,2),(1,1),(1,0)C)(−1,0),(1,2),(0,0),(1,1)D)(−1,0),(-1,2),(0,0),(1,0)答案:C解析:[单选题]25.不属于KNN算法要素的是:A)k值的选择B)距离度量C)分类决策的规则D)训练样本的个数答案:D解析:[单选题]26.软间隔SVM的阈值趋于无穷,下面哪种说法正确()A)只要最佳分类超平面存在,它就能将所有数据全部正确分类B)软间隔SVM分类器将正确分类数据C)会发生误分类现象D)以上都不对答案:A解析:[单选题]27.采用模板[-11]主要检测___方向的边缘。A)水平B)45°C)垂直D)135°答案:C解析:[单选题]28.后剪枝是先从训练集生成一颗完整的决策树,然后()对非叶结点进行考察。A)自上而下B)在划分前C)禁止分支展开D)自底向上答案:D解析:[单选题]29.()算法要求基学习器能对特定的数据分布进行学习,在训练过程的每一轮中,根据样本分布为每个训练样本重新赋予一个权重。A)BoostingB)支持向量机C)贝叶斯分类器D)神经网络答案:A解析:[单选题]30.OpenCV用于绘制椭圆的函数是()。A)line()B)circle()C)ellipse()D)polylines()答案:C解析:[单选题]31.Xi和Xj是较高维度表示中的两个不同点,其中Yi和Yj是较低维度中的Xi和Xj的表示。1数据点Xi与数据点Xj的相似度是条件概率p(j|i)。2数据点Yi与数据点Yj的相似度是条件概率q(j|i)。对于在较低维度空间中的Xi和Xj的完美表示,以下哪一项必须是正确的?A)p(j|i)=0,q(j|i)=1B)p(j|i)C)p(j|i)=q(j|i)D)P(j|i)>q(j|i)答案:C解析:两点的相似性的条件概率必须相等,因为点之间的相似性必须在高维和低维中保持不变,以使它们成为完美的表示[单选题]32.移动运营商对客户进行细分,设计套餐和营销活动可以使用下面哪种机器学习方法()。A)贝叶斯分类器B)关联方法C)聚类算法D)多层前馈网络答案:C解析:[单选题]33.以下哪种不是Hive支持的数据类型?A)StructB)IntC)MapD)Long答案:D解析:[单选题]34.不是专家系统组成部分的是______A)用户B)综合数据库C)推理机D)知识库答案:A解析:[单选题]35.情感信息抽取不包括以下哪些方法?()A)基于命名实体识别的抽取方法B)基于重复段落的识别方法C)基于语义角色标注的抽取方法D)基于监督学习抽取的学习方法答案:B解析:[单选题]36.(__)是指捕获人们的生活、业务或社会活动,并将其转换为数据的过程。A)数据化B)数据可视化C)数据存储D)数据加工答案:A解析:[单选题]37.卷积神经网络调整参数时信息的传播方向是()。A)后向传播B)前向传播C)双向传播D)跳跃传播答案:A解析:[单选题]38.多次?采样?,然后求取平均累积奖赏来作为期望积累奖赏的近似,这称为(__)。A)免模型学习B)机器学习C)深度学习D)蒙特卡罗强化学习答案:D解析:[单选题]39.在包含N个文档的语料库中,随机选择的一个文档总共包含T个词条,词条?hello?出现K次。如果词条?hello?出现在全部文档的数量接近三分之一,则TF(词频)和IDF(逆文档频率)的乘积的正确值是多少?A)KT*Log(3)B)T*Log(3)/KC)K*Log(3)/TD)Log(3)/KT答案:C解析:[单选题]40.OLAP技术的核心是:()A)在线性B)对用户的快速响应C)互操作性D)多维分析答案:D解析:[单选题]41.下列有关KNN算法的流程顺序,描述正确的是()①确定K的大小,和距离的计算方法②根据K个样本的所属类别,投票决定测试样本的类别归属③计算训练集样本与测试样本的距离,选出K个与测试样本最相似的样本A)①②③B)③②①C)①③②D)②①③答案:C解析:[单选题]42.与科学可视化相比,(__)更关注抽象且应用层次的可视化问题。A)信息可视化B)可视化理论C)可视分析学D)数据可视化答案:A解析:[单选题]43.极大似然估计是()A)与总体分布无关的统计量B)通过总体分布才能求出来的统计量C)似然方程的解D)对数似然方程的解答案:B解析:[单选题]44.机器学习训练时,Mini-Batch的大小优选为2个的幂,如256或512。它背后的原因是什么?A)Mini-Batch为偶数的时候,梯度下降算法训练的更快B)Mini-Batch设为2的幂,是为了符合CPU、GPU的内存要求,利于并行化处理C)不使用偶数时,损失函数是不稳定的D)以上说法都不对答案:B解析:[单选题]45.关于贝叶斯网描述错误的是A)也称为信念网;B)借助有向无环图刻画属性之间的关系;C)借助无向无环图刻画属性之间的关系;D)用条件概率表来描述属性的联合概率分布;答案:C解析:[单选题]46.假设您已在数据集上拟合了一个复杂的回归模型。现在,您正在使用Ridge回归,并调整参数λ以减少其复杂性。下面的描述哪个表达了偏差和方差与λ的关系()。A)在λ非常小的情况下,偏差低,方差低B)在λ非常小的情况下,偏差低,方差高C)在λ非常小的情况下,偏差高,方差低D)在λ非常小的情况下,偏差低,方差低答案:B解析:λ很小,则意味着模型比较复杂,在这种情况下,会产生偏差低且方差高的结果,模型会对数据过拟合。[单选题]47.在Numpy中创建全为0的矩阵使用()。A)zeros()B)ones()C)empty()D)arange()答案:A解析:[单选题]48.以等可能性为基础的概率是()。A)古典概率B)经验概率C)试验概率D)主观概率答案:A解析:古典概率是以这样的假设为基础的,即随机现象所能发生的事件是有限的、互不相容的,而且每个基本事件发生的可能性相等。根据大量的、重复的统计试验结果计算随机事件中各种可能发生结果的概率,称为试验概率或频率概率。主观概率,是指建立在过去的经验与判断的基础上,根据对未来事态发展的预测和历史统计资料的研究确定的概率,反映的只是一种主观可能性。[单选题]49.数据战略的侧重点是(__)。A)数据密集型问题B)计算密集型问题C)人才密集型问题D)模型密集型问题答案:A解析:[单选题]50.以下哪个度量属于数据散度的描述?()A)均值B)中位数C)标准差D)众数答案:C解析:[单选题]51.以下剪枝算法中性能最好的是A)REPB)IREPC)RIPPERD)CN2答案:C解析:[单选题]52.下列哪些项所描述的相关技术是对的?A)AdaGrad和L-BFGS使用的都是一阶差分B)AdaGrad和L-BFGS使用的都是二阶差分C)Adagrad使用的是一阶差分,L-BFGS使用的是二阶差分D)Adagrad使用的是二阶差分,L-BFGS使用的是一阶差分答案:C解析:牛顿法不仅使用了一阶导信息,同时还利用了二阶导来更新参数,L-BFGS算法是一种在牛顿法基础上提出的一种求解函数根的算法[单选题]53.分析逻辑回归表现的一个良好的方法是AIC,它与线性回归中的R平方相似。有关AIC,以下哪项是正确的?A)具有最小AIC值的模型更好B)具有最大AIC值的模型更好C)视情况而定D)以上都不是答案:A解析:AIC信息准则即Akaikeinformationcriterion,是衡量统计模型拟合优良性的一种标准,由于它为日本统计学家赤池弘次创立和发展的,因此又称赤池信息量准则。考虑到AIC=2k-2In(L),所以一般而言,当模型复杂度提高(k增大)时,似然函数L也会增大,从而使AIC变小,但是k过大时,似然函数增速减缓,导致AIC增大,模型过于复杂容易造成过拟合现象。目标是选取AIC最小的模型,AIC不仅要提高模型拟合度(极大似然),而且引入了惩罚项,使模型参数尽可能少,有助于降低过拟合的可能性。综上,我们一般选择逻辑回归中最少的AIC作为最佳模型。[单选题]54.关于Logistic回归和SVM的描述,不正确的是()。A)Logistic回归本质上是一种根据样本对权值进行极大似然估计的方法,用先验概率的乘积代替后验概率B)Logistic回归的输出就是样本属于正类别的概率C)SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,属于结构风险最小化D)SVM可以通过正则化系数控制模型的复杂度,避免过拟合答案:A解析:Logistic回归目标函数是最小化后验概率,Logistic回归可以用于预测事件发生概率的大小,SVM目标是结构风险最小化,SVM可以有效避免模型过拟合。[单选题]55.关于RBF神经网络描述错误的是A)单隐层前馈神经网络;B)隐层神经元激活函数为径向基函数;C)输出层是对隐层神经元输出的非线性组合;D)可利用BP算法来进行参数优化;答案:C解析:[单选题]56.在构建一个基于决策树模型时,使用信息增益informationgain作为决策树节点属性选择的标准,以下图片中哪一个属性具信息增益最大:A)OutlookB)HumidityC)WindyD)Temperature答案:A解析:信息增益是划分前样本数据集的不纯程度(熵)和划分后数据集的不纯程度(熵)的差值,计算各信息增益即可。[单选题]57.已知中国人的血型分布约为A型:30%,B型:20%,O型:40%,AB型:10%,则任选一批中国人作为用户调研对象,希望他们中至少有一个是B型血的可能性不低于90%,那么最少需要选多少人?A)7B)9C)11D)13答案:C解析:[单选题]58.在有关数据仓库测试,下列说法不正确的是:A)在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试.B)当数据仓库的每个单独组件完成后,就需要对他们进行单元测试.C)系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试.D)在测试之前没必要制定详细的测试计划.答案:D解析:第2部分:多项选择题,共21题,每题至少两个正确答案,多选或少选均不得分。[多选题]59.对于变换矩阵的平移矩阵,以下说法正确的是()?A)平移矩阵属于仿射变换B)平移矩阵可逆C)平移矩阵是正交矩阵D)平移矩阵属于线性变换答案:AB解析:[多选题]60.有监督机器学习方法可以被分为判别式模型和生成式模型,下面属于生成式模型的有()A)SVM支持向量机B)朴素贝叶斯C)隐马尔科夫D)logistic回归答案:BC解析:[多选题]61.集成集成学习学习中投票法分为:____。A)绝对多数投票法B)相对多数投票法C)加权投票法D)快速投票法答案:ABC解析:[多选题]62.对于正交属性空间中的样本点,若存在一个超平面对所有样本进行恰当的表达,则这样的超平面应具有(__)和(__)的性质。A)最近重构性B)最大可分性C)最远重构性D)最小可分性答案:AB解析:[多选题]63.如果SVM模型欠拟合,以下方法哪些可以改进模型()A)增大惩罚参数C的值B)减小惩罚参数C的值C)减小核系数(gamma参数)D)增大核系数(gamma参数)答案:AD解析:[多选题]64.ID3算法从功能上看有哪两点明显不足?A)实例各特征的取值必须是连续实数值,而不能是离散值B)实例各特征的取值必须是离散值,而不能是连续实数值C)预测目标值只能为连续实数值,不能是离散值,因此只能处理回归问题,不能处理分类问题D)预测目标值只能为离散值,不能是连续实数值,因此只能处理分类问题,不能处理回归问题答案:BD解析:[多选题]65.下列关于PCA和LDA的描述正确是()。A)PCA和LDA都可对高维数据进行降维B)PCA可以保留类的信息C)LDA可以保留类的信息D)PCA一般选择方差大的方向进行投影答案:ACD解析:[多选题]66.半监督支持向量机中最著名的是TSVM(TransductiveSupportVectorMachine)。与标准SVM一样,TSVM不是针对()问题的学习方法?A)分类B)回归C)聚类D)二分类答案:BC解析:[多选题]67.下列哪些技术能被用于计算两个词向量之间的距离?A)词形还原(Lemmatization)B)欧氏距离(EuclideanDistance)C)余弦相似度(CosineSimilarity)D)N-grams答案:BC解析:[多选题]68.常见的行业应用包括(__)和金融/借贷、保险、健康医疗、生命科学等。A)广告B)教育C)政府D)农业答案:ABCD解析:[多选题]69.图像间的算术运算?A)可以?原地完成?是因为每次运算只涉及1个空间位置;B)加法运算和减法运算互为逆运算,所以用加法运算实现的功能也可用减法运算实现;C)与逻辑运算类似,也可用于二值图像;D)与逻辑运算类似,既可对一副图像进行,也可以对两幅图像进行;答案:AC解析:[多选题]70.Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于(__)、(__)、(__)规则。A)逻辑关联B)布尔关联C)单维D)单层答案:BCD解析:[多选题]71.同题15所示无向图,它的极大团包括()A){B,C,D}B){A,B}C){A,B,C}D){A,B,C,D}答案:AC解析:[多选题]72.数据可视化狭义上与(__)概念平行,广义上包含这些概念。A)信息可视化B)科学可视化C)可视分析学D)可视化理论答案:ABC解析:[多选题]73.数据源和APPs提供的数据内容包括(__)和物联网,金融,人/实体,位置智能等数据。A)健康B)经济C)空气D)海洋答案:ABCD解析:[多选题]74.Feigenbaum等人在著名的《人工智能手册》中将机器学习划分为机械学习和(_)四种。A)深度学习B)示教学习C)类比学习D)归纳学习答案:BCD解析:[多选题]75.随机森林中进行投票时,采用()A)平等投票B)权重投票C)随机投票D)不投票答案:AB解析:第3部分:判断题,共12题,请判断题目是否正确。[判断题]76.贝叶斯网不是因果关系网络图A)正确B)错误答案:错解析:[判断题]77.决策树的适用面较广,对于分类应用和回归应用,决策树都可以被用来构建模型。A)正确B)错误答案:对解析:[判断题]78.神经网络中各个隐藏层能提取出和人类看到的一样的特征A)正确B)错误答案:错解析:[判断题]79.Bagging是并行式集成学习方法最著名的代表A)正确B)错误答案:对解析:[判断题]80.K近邻算法比较适合于小数据样本A)正确B)错误答案:对解析:[判断题]81.若按照属性a划分后获得的信息增益越大,意味着使用属性a划分所获得的纯度提升越大。因此,可选择获得最大信息增益的属性作为决策树的最优化分属性。著名的ID3决策树学习算法就是以信息增益为准则来选择划分属性的。A)正确B)错误答案:对解析:[判断题]82.Lasso回归是对线性回归的优化,在线性回归的基础上,对损失函数增加了一个L1正则项,目的是降低方差,提高模型泛化能力。A)正确B)错误答案:对解析:[判断题]83.CART算法能用于回归问题,不能用于分类问题A)正确B)错误答案:错解析:[判断题]84.精确率、查全率、准确率、F1分数四种指标各有侧重,指标值都是越高越好,最佳值均为1,最差值均为0。A)正确B)错误答案:对解析:[判断题]85.线性模型形式简单、易于建模,有很好的可解释性、可理解性。__A)正确B)错误答案:对解析:[判断题]86.决策树学习是一种逼近离散值目标函数的方法,学习到的函数被表现为一棵决策树。A)正确B)错误答案:对解析:[判断题]87.训练集与验证集的样本是不同的。A)正确B)错误答案:对解析:第4部分:问答题,共9题,请在空白处填写正确答案。[问答题]88.随机森林(RandomForest)就属于()答案:Bagging解析:[问答题]89.硬投票分类器和软投票分类器有什么区别?答案:硬投票分类器只是统计每个分类器的投票,然后挑选出得票最多的类别。软投票分类器计算出每个类别的平均估算概率,然后选出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论