人工智能机器学习技术练习(习题卷18)_第1页
人工智能机器学习技术练习(习题卷18)_第2页
人工智能机器学习技术练习(习题卷18)_第3页
人工智能机器学习技术练习(习题卷18)_第4页
人工智能机器学习技术练习(习题卷18)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:人工智能机器学习技术练习人工智能机器学习技术练习(习题卷18)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能机器学习技术练习第1部分:单项选择题,共58题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.所谓几率,是指发生概率和不发生概率的比值。所以,抛掷一枚正常硬币,正面朝上的几率(odds)为多少?A)0.5B)1C)都不是答案:B解析:几率(odds)是事件发生不发生概率的比率,正面朝上概率为1/2和反面朝上的概率都为1/2,所以几率为1。[单选题]2.主成分分析用于()A)特征降维B)特征膨胀C)特征子集计算答案:A解析:[单选题]3.OpenCV用于将图像写入文件的函数是()。A)imread()B)imshow()C)imwrite()D)VideoCapture()答案:C解析:[单选题]4.根据边的性质不同,概率图模型可大致分为两类:第一类是使用有向无环图表示变量间的依赖关系,称为有向图模型或贝叶斯网(Bayesiannetwork);第二类是使用无向图表示变量间的相关关系,称为()。A)赫布网B)拉普拉斯网C)马尔科夫网D)塞缪尔网答案:C解析:[单选题]5.假设现在只有两个类,这种情况下SVM需要训练几次?A)1B)2C)3D)4答案:A解析:[单选题]6.RGB色彩空间转到GRAY色彩空间的方法为()A)cv2.cvtColor()B)cv2.CvtColor()C)cv2.CVTColor()D)cv2.cvtcolor()答案:A解析:[单选题]7.以下内容符合物体识别任务的是()。A)不能对图像进行压缩或剪裁B)遵守误差最小准则和最佳近似准则C)可以不指定分类的类别数量D)事先给定样本的分布特征答案:B解析:[单选题]8.在有限支撑集上,下面分布的熵最大()A)几何分布B)指数分布C)高斯分布D)均匀分布答案:D解析:[单选题]9.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。A)统计方法B)邻近度C)密度D)聚类技术答案:A解析:[单选题]10.当原始数据的存在形式不符合目标算法的要求时,需要对原始数据进行(__)。A)数据变换B)数据加工C)数据清洗D)数据集成答案:A解析:[单选题]11.4.?学习向量量化?与一般聚类算法不同的是()A)数据样本带有类别标记B)结构不同C)向量程度不同D)簇的种类不同答案:A解析:[单选题]12.随机试验所有可能出现的结果称为()。A)基本事件B)样本C)全部事件D)样本空间答案:D解析:随机试验中的每一个可能出现的试验结果称为这个试验的一个样本点。全体样本点组成的集合,即随机试验的所有可能出现的结果称为这个试验的样本空间。[单选题]13.人工神经网络是20世纪80年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象,建立某种简单的模型,按()连接方式组成()网络。在工程与学术界简称为神经网络或类神经网络。A)不同的不同的B)不同的相同的C)相同的不同的D)相同的相同的答案:A解析:[单选题]14.下列可以用隐马尔可夫模型来分析的是?A)基因序列数据B)电影评论数据C)股价数据D)以上三种答案:D解析:三种都是时间序列数据,可以应用隐马尔可夫模型。[单选题]15.专家系统的发展趋势不包括()。A)知识库变大B)推理引擎更加专用C)用户接口更多样D)用户需求量减少答案:D解析:[单选题]16.二分类问题使用__检验。A)二项检验B)t检验C)交叉验证t检验D)McNemar检验答案:D解析:[单选题]17.下面哪个回归分析的说法是正确的()。A)回归分析是分析一个变量与其他一个(或几个)变量之间的线性关系的统计方法B)回归分析不需要样本训练C)不可以预测非数据型属性的类别D)非线性回归方程一般要转化为线性回归方程才比较容易求解其中的参数答案:D解析:[单选题]18.对于下图,最好的主成分选择是多少?:这里写图片描述A)7B)30C)35D)Can?tSay答案:B解析:主成分选择使variance越大越好,在这个前提下,主成分越少越好。[单选题]19.被广泛认为AI诞生的标志的是(A)计算机的产生B)图灵机的出现C)达特茅斯会议D)神经网络的提出答案:C解析:[单选题]20.机器学习研究如何通过计算的手段,利用经验来改善系统自身的性能,请问机器学习利用数据训练出什么()A)模型B)表结构C)结果D)报表答案:A解析:[单选题]21.规则学习中ILP的全称是A)归纳逻辑程序设计B)内部逻辑程序设计C)信息泄露防护D)引入层次程序设计答案:A解析:[单选题]22.在其它条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题()A)增加训练集数量B)减少神经网络隐藏层节点数C)删除稀疏的特征D)SVM算法中使用高斯核/RBF核代替答案:D解析:机器学习中发生过拟合的主要原因有:1使用过于复杂的模型;2数据噪声较大;3训练数据少。由此对应的降低过拟合的方法有:1简化模型假设,或者使用惩罚项限制模型复杂度;2进行数据清洗,减少噪声;3收集更多训练数据。本题中,A对应于增加训练数据,B为简化模型假设,C为数据清洗。D选项中,高斯核的使用增加了模型复杂度,容易引起过拟合。选择合适的核函数以及软边缘参数C就是训练SVM的重要因素。一般来讲,核函数越复杂,模型越偏向于过拟合;C越大模型越偏向于过拟合,反之则拟合不足。[单选题]23.调用open函数可以打开指定文件,在open()函数中访问模式参数使用什么表示只读()。A)?a?B)?w+?C)?r?D)?w?答案:C解析:[单选题]24.属于监督学习的机器学习算法是()A)贝叶斯分类器B)主成分分析C)K-MeansD)高斯混合聚类答案:A解析:[单选题]25.一幅灰度级均匀分布的图象,其灰度范围在[0,255],则该图象的信息量为:()A)0B)255C)6D)8答案:D解析:[单选题]26.在基本K-Means中,当计算邻近度的函数采用()的时候,合适的质心是簇中各点的中位数。A)曼哈顿距离B)平方欧几里得距离C)余弦距离D)Bregman散度答案:A解析:[单选题]27.(假设precision=TP/(TP+FP),recall=TP/(TP+FN)。)在二分类问题中,当测试集的正例和负例数量不均衡时,以下评价方案哪个是相对不合理的()A)Accuracy:(TP+TN)/allB)F-value:2recallprecision/(recall+precision)C)G-mean:sqrt(precision*recall)D)AUC:曲线下面积答案:A解析:题目提到测试集正例和负例数量不均衡,那么假设正例数量很少占10%,负例数量占大部分90%。而且算法能正确识别所有负例,但正例只有一半能正确判别。那么TP=0.05×all,TN=0.9×all,Accuracy=95%。虽然Accuracy很高,precision是100%,但正例recall只有50%[单选题]28.在IBM提出的企业管理范畴中,企业数据不包含(__)。A)元数据B)主数据C)关系数据D)业务数据答案:D解析:[单选题]29.观察如下数据集:删除A,b,c,d哪个点对拟合回归线的影响最大?A)aB)bC)cD)d答案:D解析:线性回归对数据中的离群点比较敏感。虽然c点也是离群点,但它接近与回归线,残差较小。因此,d点对拟合回归线的影响最大。[单选题]30.以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线,简称(__)。A)双曲线B)P-R曲线C)科克曲线D)共轭曲线答案:B解析:[单选题]31.当训练数据很多时,一种更为强大的结合策略是使用(__),通过另一个学习器来进行结合。A)投票法B)平均法C)学习法D)排序法答案:C解析:[单选题]32.解决隐马模型中预测问题的算法是?A)前向算法B)后向算法C)Baum-Welch算法D)维特比算法答案:D解析:[单选题]33.在机器学习中,不属于常用的冲突消解策略是()。A)投票法B)排序法C)元规则法D)加权法答案:D解析:常用的冲突消解策略有投票法、排序法、元规则法等。[单选题]34.以下有关特征数据归一化的说法错误的是:A)特征数据归一化加速梯度下降优化的速度B)特征数据归一化有可能提高模型的精度C)线性归一化适用于特征数值分化比较大的情况D)概率模型不需要做归一化处理答案:C解析:线性归一化这种归一化方法比较适用在数值比较集中的情况。这种方法有个缺陷,如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定。实际使用中可以用经验常量值来替代max和min。非线性归一化经常用在数据分化比较大的场景,有些数值很大,有些很小。通过一些数学函数,将原始值进行映射。该方法包括log、指数,正切等。需要根据数据分布的情况,决定非线性函数的曲线,比如log(V,2)还是log(V,10)等。概率模型(决策树)不需要归一化,因为他们不关心变量的值,而是关心变量的分布和变量之间的条件概率。像SVM、线性回归之类的最优化问题需要归一化。归一化之后加快了梯度下降求最优解的速度,并有可能提高精度。[单选题]35.协同训练(co-training)是针对()数据设计?A)多角度B)多视图C)多环境D)多版本答案:B解析:[单选题]36.机器学习的实质在于()A)找B)想C)判断D)理解答案:A解析:[单选题]37.Spark支持的分布式部署方式中哪个是错误的()。A)standaloneB)sparkonmesosC)sparkonYARND)Sparkonlocal答案:D解析:[单选题]38.OLAM技术一般简称为?数据联机分析挖掘?,下面说法正确的是:A)OLAP和OLAM都基于客户机/服务器模式,只有后者有与用户的交互性;B)由于OLAM的立方体和用于OLAP的立方体有本质的区别.C)基于WEB的OLAM是WEB技术与OLAM技术的结合.D)OLAM服务器通过用户图形借口接收用户的分析指令,在元数据的知道下,对超级立方体作一定的操作.答案:D解析:[单选题]39.在高斯混合分布中,其隐变量的含义是:A)表示高斯分布的方差B)表示高斯分布的均值C)表示数据分布的概率D)表示数据从某个高斯分布中产生答案:D解析:首选依赖GMM的某个高斯分量的系数概率(因为系数取值在0~1之间,因此可以看做是一个概率取值)选择到这个高斯分量,然后根据这个被选择的高斯分量生成观测数据。然后隐变量就是某个高斯分量是否被选中:选中就为1,否则为0。[单选题]40.()能反映出X和Y之间的强相关性。A)相关系数为0.9B)对于无效假设,β=0的p值为0.0001C)对于无效假设,β=0的t值为30D)以上说法都不对答案:A解析:相关系数反映了不同变量之间线性相关程度,取值范围为[-1,1],值越大表示相关程度越高。因此,A选项中r=0.9,表示X和Y之间有较强的相关性。p和t的数值大小没有统计意义,只是将其与某一个阈值进行比对,以得到二选一的结论。[单选题]41.以下()是Python中的二维图形包。A)MatplotlibB)PandasC)NumPyD)BoKeh答案:A解析:[单选题]42.关于引入模块的方式,错误的是()。A)importmathB)fromfibimportFibonacciC)frommathimport*D)from*importfib答案:D解析:[单选题]43.多元线性回归的训练样本由(__)个属性描述。A)一B)二C)三D)多答案:D解析:[单选题]44.以下关于数据科学相关描述不正确的是()。A)数据科学是数据,尤其是大数据背后的科学B)?数据?是一门科学,答案就在?大数据?手中C)在数据科学出现之前,我们关注的是数据主动的一面,而在数据科学中我们更加重视的是被动作用。D)数据科学的最终研究目标是实现数据、物质和能量之间的转换。答案:C解析:[单选题]45.k近邻算法在()的情况下效果较好。A)样本较多但典型性不好B)样本较少但典型性好C)样本呈团状分布D)样本呈链状分布答案:B解析:k近邻算法主要依靠的是周围的点,因此如果样本过多,则难以区分,典型性好的容易区分。样本都是呈团状分布,KNN就发挥不出其求近邻的优势了,整体样本应该具有典型性好,样本较少,比较适宜。[单选题]46.(__)不仅可用于多层前馈神经网络,还可用于其他类型的神经网络。A)感知机B)神经元C)神经系统D)误差逆传播答案:D解析:[单选题]47.(__)试图学得一个属性的线性组合来进行预测的函数。A)决策树B)贝叶斯分类器C)神经网络D)线性模型答案:D解析:[单选题]48.集成学习中,每个基分类器的正确率的最低要求()A)50%以上B)60%以上C)70%以上D)80%以上答案:A解析:[单选题]49.CNN常见的Loss函数不包括以下哪个()A)softmax_lossB)sigmoid_lossC)Contrastive_LossD)siamese_loss答案:D解析:[单选题]50.下列选项中,()不可以直接对文本进行分类。A)K-MeansB)决策树C)支持向量机D)K近邻答案:A解析:[单选题]51.EM算法是()学习算法A)有监督B)无监督C)半监督D)都不是答案:B解析:[单选题]52.OpenCV的描述正确的是()。A)只有-个模块B)由多个模块组成C)core中有OpenCVD)opencv主要由C++语言编写答案:B解析:[单选题]53.在图集合中发现一组公共子结构,这样的任务称为A)频繁子集挖掘B)频繁子图挖掘C)频繁数据项挖掘D)频繁模式挖掘答案:B解析:[单选题]54.机器学习模型包括四个组成部分,不包含(A)模型结构B)知识库C)学习单元D)执行单元答案:A解析:[单选题]55.图像中的椒盐噪声可以用(__)去除。A)中值滤波B)均值滤波C)最大值滤波D)最小值滤波答案:A解析:[单选题]56.()是一门以可视交互为基础,综合运用图形学、数据挖掘和人机交互等技术等多个学科领域的知识,以实现人机协同完成可视化任务为主要目的分析推理性学科。A)科学可视化B)可视分析学C)数据可视化D)信息可视化答案:B解析:[单选题]57.假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?A)第一个B)第二个C)第三个D)第四个答案:B解析:[单选题]58.下面哪项不属于循环神经网络的输出模式。()A)单输出B)多输出C)同步多输出D)异步多输出答案:C解析:第2部分:多项选择题,共21题,每题至少两个正确答案,多选或少选均不得分。[多选题]59.常见的原型聚类算法包括()。A)K均值算法B)学习向量量化C)高斯混合聚类D)密度聚类答案:ABC解析:[多选题]60.以下可能会导致过拟合的是(___)。A)训练集中含有噪声样本B)训练集中缺乏代表性样本C)训练集的样本数目过少D)训练集中样本的维度过少答案:AB解析:[多选题]61.关于集成学习正确的是()A)Bagging降低偏差B)Bagging降低方差C)Boosting降低偏差D)Boosting降低方差答案:BC解析:[多选题]62.下面关于k近邻的表述中,正确的是(__)。A)当k取不同值时,分类结果会有显著不同B)若采用不同的距离计算方式,则找出的?近邻?可能有显著差别C)k近邻可用来对数据进行分类D)k近邻可用来对数据进行回归答案:ABCD解析:[多选题]63.下列属于有监督算法的是()A)决策树B)K-均值C)贝叶斯网路D)SVM答案:ACD解析:[多选题]64.下面属于词袋模型的缺点的是?()A)词汇表的词汇需要经过精心设计B)表示具有稀疏性C)丢失词序忽略了上下文D)模型复杂,不利于实施答案:ABC解析:[多选题]65.SVM处理线性不可分数据时()A)数据变换到高维空间B)在原始空间求解MMHC)在高维空间求解MMHD)使用核函数代替点积运算答案:ACD解析:[多选题]66.数据科学项目主要涉及的角色有(__)和项目发起人、客户、项目经理。A)数据科学家B)领域专家C)数据工程师D)操作人员答案:ACD解析:[多选题]67.下来哪些概念已被广泛应用于计算机视觉、自然语言处理、无人驾驶等领域?A)机器学习B)深度学习C)强化学习D)迁移学习答案:ABCD解析:[多选题]68.下列哪些项属于传统循环神经网络的性质。()A)上一时刻的网络状态信息将会作用于下一时刻的网络状态B)并行处理序列中所有信息C)容易梯度爆炸/消失D)易于搭建答案:AC解析:[多选题]69.以下哪些产品属于数据产品A)数据报表平台B)DMPC)搜索与精准化产品D)风控产品答案:ABCD解析:[多选题]70.机器学习中做特征选择时,可能用到的方法有?A)卡方B)信息增益C)平均互信息D)期望交叉熵答案:ABCD解析:[多选题]71.根据边的性质的不同,概率图模型可大致分为两类:第一类是使用(__)表示变量间的依赖关系;第二类是使用(__)表示变量间的相关关系。A)有向无环图B)无向图C)环形图D)树形图答案:AB解析:[多选题]72.神经网络可以按()A)学习方式分类B)网络结构分类C)网络的协议类型分类D)网络的活动方式分类答案:ABD解析:[多选题]73.Zookeeper客户端命令中,递归删除节点可以使用()A)rmrB)deleteallC)deleteD)Mm答案:AB解析:[多选题]74.基因遗传算法的两个常用的结束条件为()**A)达到一定的迭代次数B)适应度函数达到一定的要求C)达到一定的变异次数D)达到一定的交叉次数答案:AB解析:[多选题]75.图像识别的精度会受到以下那些因素的影响。A)数据类别数量不平衡B)输入图像尺寸不同C)图像中存在类标之外的环境干扰D)图像中存在随机噪声答案:ACD解析:第3部分:判断题,共12题,请判断题目是否正确。[判断题]76.数据集一般划分为训练集、验证集和测试集三部分,训练集用于建模,验证集用于模型验证与矫正,测试集用于模型的最终评估。A)正确B)错误答案:对解析:[判断题]77.使用梯度下降法训练回归模型时,会由于各特征尺寸相差较大而造成算法收敛较慢。应该将特征尺寸进行缩放至接近或相同尺寸。可采用sklearn中的类或函数LabelEcoderA)正确B)错误答案:错解析:[判断题]78.通过求解损失函数的最小值,可以实现求解模型参数、优化模型参数和评价模型学习效果的目的。A)正确B)错误答案:对解析:[判断题]79.随机森林的收敛性与Bagging相似,随机森林的起始性能往往相对较好,随着个体学习器数目的增加,随机森林通常会收敛到更低的泛化误差。A)正确B)错误答案:错解析:[判断题]80.聚类算法的任务是根据数据特征将数据集相似的数据划分到同一簇A)正确B)错误答案:对解析:[判断题]81.神经网络中最基本的成分是神经元模型,即神经网络中简单单元A)正确B)错误答案:对解析:[判断题]82.Matplotlib是一个用在Python中绘制数组的3D图形库。A)正确B)错误答案:错解析:Matplotlib是一个用在Python中绘制数组的2D图形库。多选[判断题]83.CART算法既能用于分类问题,又能用于回归问题A)正确B)错误答案:对解析:[判断题]84.相对于人工神经元网络和深度学习,类脑人工智能对人类大脑的神经回路具用更深入的理解A)正确B)错误答案:对解析:[判断题]85.如果希望创建一个数组,则只能用array()函数实现。A)正确B)错误答案:错解析:[判断题]86.预测西瓜的甜度值,可以使用简单线性回归模型进行预测A)正确B)错误答案:错解析:[判断题]87.朴素贝叶斯做了一个很强的?特征条件独立性假设?把问题简化,即假设的各个特征之间相互独立,一个特征出现的概率不受其他特征的影响。A)正确B)错误答案:对解析:第4部分:问答题,共9题,请在空白处填写正确答案。[问答题]88.假设现在只有两个类,这种情况下SVM需要训练几次?答案:1解析:[问答题]89.集成学习主要有哪几种框架

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论