人工智能机器学习技术练习(习题卷24)_第1页
人工智能机器学习技术练习(习题卷24)_第2页
人工智能机器学习技术练习(习题卷24)_第3页
人工智能机器学习技术练习(习题卷24)_第4页
人工智能机器学习技术练习(习题卷24)_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:人工智能机器学习技术练习人工智能机器学习技术练习(习题卷24)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能机器学习技术练习第1部分:单项选择题,共58题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.属于常见问题解答模块的主要技术的是()。[]*A问句相似度计算A)语料库的构建B)查询扩展C)模式匹配答案:A解析:[单选题]2.最佳分类是曲线下区域面积最大者,而黄线在曲线下面积最大.2、假设你在测试逻辑回归分类器,设函数H为style="width:211px;"class="fr-ficfr-filfr-dibcursor-hover">下图中的哪一个代表上述分类器给出的决策边界?A)style="width:auto;"class="fr-ficfr-filfr-dib">B)style="width:auto;"class="fr-ficfr-filfr-dib">C)style="width:auto;"class="fr-ficfr-filfr-dib">答案:B解析:选项B正确。虽然我们的式子由选项A和选项B所示的y=g(-6+x2)表示,但是选项B才是正确的答案,因为当将x2=6的值放在等式中时,要使y=g(0)就意味着y=0.5将在线上,如果你将x2的值增加到大于6,你会得到负值,所以输出将是区域y=0。[单选题]3.下图是哪一种算法表示()A)K-近邻算法B)贝叶斯C)一元线性回归D)多项式回归答案:C解析:[单选题]4.概率密度函数服从正态分布的噪声,叫做(__)。A)泊松噪声B)高斯噪声C)乘性噪声D)椒盐噪声答案:B解析:[单选题]5.决策树所形成的分类边界有一个明显特点,它的分类边界由若干个__分段组成。A)与坐标轴平行B)与坐标轴垂直C)与坐标轴重合D)过坐标原点答案:A解析:[单选题]6.PCA和LDA的以下比较哪些是正确的?A)1和2B)1和3C)只有3D)1、2和3答案:D解析:[单选题]7.SVM的原理的简单描述,可概括为()A)最小均方误差分类B)最小距离分类C)最大间隔分类D)最近邻分类答案:C解析:[单选题]8.下列哪项方法不属于图像分割方法()。A)边缘检测法B)阈值分割法C)区域分割法D)特征提取法答案:D解析:[单选题]9.下列选项中,()不是Python合法标识符。A)int32B)40XLC)selfD)name答案:B解析:[单选题]10.下列选择Logistic回归中的One-Vs-All方法中,()是真实的。A)我们需要在n类分类问题中适合n个模型B)我们需要适合n-1个模型来分类为n个类C)我们需要只适合1个模型来分类为n个类D)以上答案都不正确答案:A解析:如果存在n个类,那么n个单独的逻辑回归必须与之相适应,其中每个类的概率由剩余类的概率之和确定。[单选题]11.下面能实现人工智能算法的开发环境有A)C语言B)Java语言C)Python语言D)以上都可以答案:D解析:[单选题]12.一监狱人脸识别准入系统用来识别待进入人员的身份,此系统识别狱警、小偷、送餐员、其他人员4种不同人员。下列学习方法最适合此种应用需求的是()。A)二分类问题B)层次聚类问题C)多分类问题D)回归问题答案:C解析:涉及4种人员类别属于多分类问题。[单选题]13.()一般采用图表或数学方法描述数据的统计特征,如分布状态、数值特征等。A)推断统计B)预测分析C)描述统计D)诊断分析答案:C解析:[单选题]14.以下哪种NLP模型的准确性最高?A)BERTB)XLNETC)GPT-2D)ELMo答案:B解析:[单选题]15.SVM算法的性能取决于:A)以上所有B)软间隔参数C)核函数的参数D)核函数的选择答案:A解析:[单选题]16.下面不属于探索性统计中常用离散程度统计量的是(__)。A)平均数B)方差C)标准差D)极大值答案:A解析:[单选题]17.混淆矩阵中的TP=16,FP=12,FN=8,TN=4,准确率是A)四分之一B)二分之一C)七分之四D)三分之二答案:B解析:[单选题]18.下列哪个语句在Python中是非法的是()。A)x=y=z=1B)x,y=y,xC)x=(y=z+1)D)x+=y答案:C解析:[单选题]19.(__)是一种著名的密度聚类算法,它基于一组?邻域?参数来刻画样本的紧密程度。A)DBSCANB)原型聚类C)密度聚类D)层次聚类答案:A解析:[单选题]20.当训练样本数量趋向于无穷大时,在该数据集上训练的模型变化趋势,对于其描述正确的是()A)偏差(bias)变小B)偏差变大C)偏差不变D)不变答案:C解析:偏差大是欠拟合,方差大是过拟合。增大样本数量会降低方差,和偏差没关系。[单选题]21.解决线性不可分情况下的支持向量分类机的最优化模型问题时,以下可以保证结果模型线性可分的是A)C=1B)C=0C)C无限制D)以上均不正确答案:C解析:[单选题]22.某公司有这么一个规定:只要有一个员工过生日,当天所有员工全部放假一天。但在其余时候,所有员工都没有假期,必须正常上班。假设一年有365天,每个员工的生日都概率均等地分布在这365天里。那么,这个公司需要雇用多少员工,才能让公司一年内所有员工的总工作时间期望值最大?A)1B)122C)183D)365答案:D解析:[单选题]23.以下不属于数据治理工作的主要内容的有(__)。A)理解自己的数据B)数据部门的建立C)有效监督与动态优化D)岗位工资的定义答案:D解析:[单选题]24.Boosting算法要求基学习器能对特定的数据分布进行学习,可通过?____?实施,对无法接受带权样本的基学习算法,则可通过?____?来处理。A)重赋权法,B)重采样法,重赋权法C)赋权法,D)采样法,答案:A解析:[单选题]25.下列算法中属于图像平滑处理的是()。A)梯度锐化B)直方图均衡化C)中值滤波D)Laplacian增强答案:C解析:[单选题]26.Spark可以处理的数据任务包括()A)数据批处理任务B)准实时处理任务C)图数据处理任务D)A,B和C答案:D解析:[单选题]27.下面有关线性判别分析错误的说法是哪个()。A)通过对原始的数据进行线性变换,使得不同类的样本尽量分开B)线性判别分析中线性变换可以使同类样本的方差变大C)线性变换可以使不同类别样本的距离加大D)提高不同类样本的可分性答案:B解析:[单选题]28.下列算法中,()更适合做时间序列建模。A)CNNB)决策树C)LSTMD)贝叶斯算法答案:C解析:LSTM为长短时记忆网络,是一种时间递归神经网络。[单选题]29.下列图像边缘检测算子中抗噪性能最好的是()。A)梯度算子B)Prewitt算子C)Roberts算子D)Laplacian算子答案:B解析:[单选题]30.下面不属于数据加工的有(__)。A)数据脱敏B)数据脱质C)数据规约D)数据标注答案:B解析:[单选题]31.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?A)根据内容检索B)建模描述C)预测建模D)寻找模式和规则答案:A解析:[单选题]32.以下哪些方法不可以直接来对文本分类?A)K-MeansB)决策树C)支持向量机D)kNN答案:A解析:K-Means是无监督算法,它之所以不能称为分类是因为它之前并没有类别标签,因此只能聚类。[单选题]33.可分解为偏差、方差与噪声之和的是()。A)训练误差(trainingerror)B)经验误差(empiricalerror)C)均方误差(meansquarederror)D)泛化误差(generalizationerror)答案:D解析:泛化误差可分解为偏差、方差与噪声之和。[单选题]34.在机器学习中,学得的模型适用于新样本的能力称为()A)分析能力B)泛化能力C)训练能力D)验证能力答案:B解析:[单选题]35.根据边的性质不同,概率图模型可大致分为两类:第一类是使用有向无环图表示变量间的依赖关系,称为();第二类是使用无向图表示变量间的相关关系,称为无向图模型或马尔可夫网(Markovnetwork)。A)贝叶斯网B)拉普拉斯网C)帕斯卡网D)塞缪尔网答案:A解析:[单选题]36.下列关于数据的说法,不正确的是()A)数据的类别有多种多样B)数据库中的一列代表一个特征C)一组数据平均值不会受异常值影响D)数据点之间的距离满足d_ij+d_jk≥d_ik答案:C解析:[单选题]37.关于列表数据结构,下面描述正确的是()。A)可以不按顺序查找元素B)必须按顺序插入元素C)不支持in运算符D)所有元素类型必须相同答案:A解析:[单选题]38.BP神经网络模型拓扑结构不包括()A)输入层B)隐层C)翰出层D)显层答案:D解析:[单选题]39.假设NumPy数组A的原来的内容是[[0,1,2],[3,4,5]],则命令print(A.max())的执行结果是()。A)3B)5C)7D)9答案:B解析:[单选题]40.两位同事从上海出发前往深圳出差,他们在不同时间出发,搭乘的交通工具也不同,能准确描述两者?上海到深圳?距离差别的是()A)欧式距离B)余弦距离C)曼哈顿距离D)切比雪夫距离答案:D解析:①欧几里得距离计算公式(n维空间下)二维:dis=sqrt((x1-x2)^2+(y1-y2)^2)三维:dis=sqrt((x1-x2)^2+(y1-y2)^2+(z1-z2)^2)②余弦距离:余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。公式如下:style="width:auto;"class="fr-ficfr-filfr-dib">③曼哈顿距离:两个点在标准坐标系上的绝对轴距总和Dis=abs(x1-x2)+abs(y1-y2)④切比雪夫距离:各坐标数值差的最大值Dis=max(abs(x1-x2),abs(y1-y2))[单选题]41.()不属于聚类性能度量外部指标。A)Jaccard系数B)FM系数C)Rand指数D)DB指数答案:D解析:聚类常用的外部指标包括Jaccard系数、FM指数、Rand指数;聚类常用的内部指标包括DB指数、Dunn指数。[单选题]42.(__)是一类用图来表达变量相关关系的概率模型。A)神经元模型B)感知机模型C)概率图模型D)SVM答案:C解析:[单选题]43.当学习器将训练样本自身的特点作为所有潜在样本都具有的一般性质,这样会导致泛化性能下降,这种现象称为()。A)欠拟合B)过拟合C)拟合D)以上答案都不正确答案:B解析:当学习器把训练样本学得太好了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降,这种现象在机器学习中称为过拟合。[单选题]44.一个分布式应用程序协调服务,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等的工具有()A)FlumeB)ZookeeperC)StormD)Sparkstreaming答案:B解析:[单选题]45.(__)是根据数据采样来估计概率分布参数的经典方法。A)贝叶斯判定准则B)贝叶斯决策论C)贝叶斯分类器D)极大似然估计答案:D解析:[单选题]46.Python不支持的数据类型有()。A)charB)intC)floatD)list答案:A解析:[单选题]47.(__)训练好之后可以通过一些属性变量的观测值来推测其他属性变量的取值。A)贝叶斯决策B)贝叶斯分类器C)贝叶斯网D)结构答案:C解析:[单选题]48.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?A)探索性数据分析B)建模描述C)预测建模D)寻找模式和规则答案:A解析:[单选题]49.在n维空间中(n>1),下列哪种方法最适合用来检测异常值?A)正态概率图B)箱形图C)马氏距离D)散点图答案:C解析:正态概率图(NormalProbabilityPlot)一般用来检查一组数据是否服从正态分布。是实数与正态分布数据之间函数关系的散点图。如果这组实数服从正态分布,正态概率图将是一条直线。[单选题]50.因为文本数据在可用的数据中是非常无结构的,它内部会包含很多不同类型的噪点,所以要做数据预处理。以下不是自然语言数据预处理过程的是:A)词汇规范化B)词汇关系统一化C)对象标准化D)噪声移除答案:B解析:[单选题]51.将两个簇的邻近度定义为不同簇中任意两点的最短距离,它是哪一种凝聚层次聚类技术?()A)MIN(单链)B)MAX(全链)C)组平均D)Ward方法答案:A解析:[单选题]52.假定你使用了一个很大γ值的RBF核,这意味着:A)模型将考虑使用远离超平面的点建模B)模型仅使用接近超平面的点来建模C)模型不会被点到超平面的距离所影响D)以上都不正确答案:B解析:SVM调参中的γ衡量距离超平面远近的点的影响。对于较小的γ,模型受到严格约束,会考虑训练集中的所有点,而没有真正获取到数据的模式、对于较大的γ,模型能很好地学习到模型。[单选题]53.SparkJob默认的调度模式()。A)FIFOB)FAIRC)无D)运行时指定答案:A解析:[单选题]54.关于数据重塑的说法中,下列选项描述错误的是()。A)数据重塑可以将DataFrame转换为SeriesB)stack()方法可以将列索引转换为行索引C)对一个DataFrame使用stack()方法后返回的一定是一个SeriesD)unstack()方法可以将行索引转换为列索引答案:C解析:当一个DataFrame具有层次索引时,使用stack()方法会返回一个DataFrame对象。[单选题]55.以下表的设计,最合理的是A)学生{id,name,age},学科{id,name}分数{学生id,学科id,分数}B)学生{id,name,age},分数{学生id,学科id,学科name,分数}C)分数{学生id,学生name,学生age,学科id,学科名称,分数,}D)学科{id,name},分数{学生id,学生姓名,学生age,学科id,分数}答案:A解析:[单选题]56.以下机器学习中,在数据预处理时,不需要考虑归一化处理的是:A)logistic回归B)SVMC)树形模型D)神经网络答案:C解析:[单选题]57.下面关于非监督学习算法的说法正确的是A)数据要是成对的B)算法准确率非常高C)没有经验数据可供学习D)需要一定的经验数据答案:C解析:[单选题]58.()和假设检验又可归结为统计推断的范畴,即对总体的数量特征做出具有一定可靠程度的估计和判断。A)参数估计B)逻辑分析C)方差分析D)回归分析答案:A解析:推断统计包括参数估计和假设检验两方面的内容。第2部分:多项选择题,共21题,每题至少两个正确答案,多选或少选均不得分。[多选题]59.大数据的主要特征()。A)容量大B)类型多C)存取速度快D)应用价值高答案:ABCD解析:[多选题]60.M-P神经元模型描述正确的是A)神经元接收多个其他神经元传递过来的输入信号;B)这些输入信号通过带权重的连接传递;C)神经元接收到的总输入值将与神经元的阈值进行比较;D)通过激活函数处理产生神经元的输出;答案:ABCD解析:[多选题]61.下列属于聚类性能度量外部指标的是(__)。A)Jaccard系数B)FM系数C)Rand指数D)DB指数答案:ABC解析:[多选题]62.关于Zookeeper可用性的说法,正确的有()A)Follower宕机:还有2台服务器提供访问,因为Zookeeper上的数据是有多个副本的,数据并不会丢失B)Leader宕机:Zookeeper会选举出新的LeaderC)ZK集群的机制是只要超过半数的节点正常,集群就能正常提供服务D)Leader宕机:Zookeeper无法使用答案:ABC解析:[多选题]63.关于k-means聚类,说法正确的是()A)可以在簇完全不发生任何更新时停止B)可以设定簇的最大更新次数C)k值设定一般来源于经验值和场景设定D)最佳k值设定需要多次重复试验进行优化。答案:ABCD解析:[多选题]64.关于ART神经网络描述的是:-P109A)由比较层、识别层、识别阈值和重置模块构成;B)比较层接收输入样本并传输至识别层,识别层每个神经元对应一个模式类,可在训练过程中动态增长神经元数目以增加新的模式类;C)识别阈值对于ART神经网络性能有重要影响;D)可进行增量学习或在线学习;答案:ABCD解析:[多选题]65.常见的决策树节点测试的类型有()A)离散值,分裂所有可能B)连续值,分裂两种可能C)离散值,分裂两种可能D)连续值,分裂两种以上可能答案:ABC解析:[多选题]66.数据科学项目的基本流程涉及发活动包括(__)和数据的管理与获取、结果的可视化与文档化、模式/模型的验证和优化。A)模式/模型的应用和维护B)项目目标定义C)项目成本控制D)模式/模型的洞见答案:ABD解析:[多选题]67.以下关于机器学习的发展历程描述正确的是(___)。A)机器学习是人工智能研究发展到一定阶段的必然产物B)二十世纪五十年代到七十年代出,人工智能研究处于?推理期?C)图灵在1950年关于图灵测试的文章中,就曾提到了机器学习的可能D)人工智能在二十世纪五十到八十年代经历了?推理期?和?知识期?答案:ABCD解析:[多选题]68.下列关于PCA的说法,正确的是()。A)在使用PCA之前,我们必须标准化数据B)应该选择具有最大方差的主成分C)应该选择具有最小方差的主成分D)可以使用PCA在低维空间中可视化数据答案:ABD解析:PCA对数据中变量的尺度非常敏感,因此需要对各个变量进行标准化。方差越大,说明在该特征上分布越广泛,说明该特征越有用,影响越大。PCA有时在较低维度上绘制数据是非常有用,可以提取前2个主要组成部分,在二维平面上使用散点图可视化数据。[多选题]69.在监督式学习中使用聚类算法的方法有()。A)首先,可以创建聚类,然后分别在不同的集群上应用监督式学习算法B)在应用监督式学习算法之前,可以将其类别ID作为特征空间中的一个额外的特征C)在应用监督式学习之前,不能创建聚类D)在应用监督式学习算法之前,不能将其类别ID作为特征空间中的一个额外的特征答案:AB解析:我们可以为不同的集群构建独立的机器学习模型,并且可以提高预测精度。将每个类别的ID作为特征空间中的一个额外的特征可能会提高的精度结果。[多选题]70.深度学习中的激活函数需要具有哪些属性?()A)计算简单B)非线性C)具有饱和区D)几乎处处可微答案:ABD解析:[多选题]71.关联规则的强度可以用它的(__)和(__)来度量。A)准确率B)支持度C)置信度D)误差答案:BC解析:[多选题]72.zookeeper常用的命令有哪些A)deleteB)getC)setD)Create答案:ABCD解析:[多选题]73.在正则化公式中,λ为正则化参数,关于λ的描述正确的是()。A)若正则化参数λ过大,可能会导致出现欠拟合现象B)若λ的值太大,则梯度下降可能不收敛C)取一个合理的λ值,可以更好地应用正则化D)如果令λ的值很大的话,为了使CostFunction尽可能的小,所有θ的值(不包括θ0)都会在一定程度上减小答案:ABCD解析:正则化参数太小容易产生过拟合,太大容易产生欠拟合。[多选题]74.支持向量机是一类模型的统称,通常包括A)线性非可分向量机B)非线性支持向量机C)线性支持向量机D)线性可分支持向量机答案:BCD解析:[多选题]75.信息熵(InformationEntropy)来度量随机变量的不确定性。在使用一个特征切分数据集后,可用来量化分类不确定性降低的程度的具体指标有?A)信息增益B)信息熵汇总值C)信息增益比D)信息熵累计值答案:AC解析:第3部分:判断题,共12题,请判断题目是否正确。[判断题]76.CART算法处理回归问题时,要求算法输出的是布尔值A)正确B)错误答案:错解析:[判断题]77.小批量梯度下降同时具备批量梯度下降和随机梯度下降二者的优缺点A)正确B)错误答案:对解析:[判断题]78.在聚类算法中,使用欧氏距离作为距离度量,欧氏距离越小,两个数据相似度越低A)正确B)错误答案:错解析:[判断题]79.CART分类树构造算法在选择切分特征时,选择使得每一个特征条件下基尼指数最大的特征来切分数据形成子集A)正确B)错误答案:错解析:[判断题]80.支持向量机是一种二元分类模型。其核心思想是,训练阶段在特征空间中寻找一个超平面,它能(或尽量能)将训练样本中的正例和负例分离在它的两侧,预测时以该超平面作为决策边界判断输入实例的类别。寻找超平面的原则是,在可分离的情况下使超平面与数据集间隔最大化。A)正确B)错误答案:对解析:[判断题]81.预剪枝决策树通常比后剪枝决策树保留了更多的分支。A)正确B)错误答案:错解析:[判断题]82.K-means算法中k个初始化的质心的位置选择对最后的聚类结果和运行时间都有很大的影响,因此需要选择合适的k个质心A)正确B)错误答案:对解析:[判断题]83.梯度下降法中梯度方向是函数值下降最快方向。A)正确B)错误答案:错解析:[判断题]84.有时会由于包含少量特异点使得数据集变得线性不可分。如果将特异点去掉,剩余数据子集依然是线性可分的。对于这样的数据集,适合采用软间隔线性支持向量机A)正确B)错误答案:对解析:[判断题]85.决策树的生成是一个递归过程,,在决策树基本算法中,有三种情形会导致递归返回。A)正确B)错误答案:对解析:[判断题]86.机器学习的含义是指机器面对自行为的修正或性能的改善和机器对客观规律和发展A)正确B)错误答案:对解析:[判断题]87.Series和DataFrame都支持切片操作。A)正确B)错误答案:对解析:第4部分:问答题,共9题,请在空白处填写正确答案。[问答题]88.()就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大答案:聚类解析:[问答题]89.ID3算法,在决策树生成过程中,以______为特征选择的准则。答案:信息增益解析:[问答题]90.AGNES采用了()的聚合策略来产生层次聚类结构,DIANA则采用()的分拆策略。答案:自底向上解析:[问答题]91.假设数据挖掘的任务是将8个点聚类成3,A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C3(4,9),距离函数是欧几里得距离。假设初始选择A1,B1,C1分别作为每个聚类的中心,用k-平均算法来给出:1.第一次循环执行后的三个聚类中心;2.最后的三个簇答案:1.第一轮A1(2,10);B1(5,8),A3(8,4),

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论