版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试卷科目:人工智能机器学习技术练习人工智能机器学习技术练习(习题卷21)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能机器学习技术练习第1部分:单项选择题,共58题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.在分类中的?设备故障/异常检测?场景下,指标()要首先满足接近100%A)accuracyB)specificityC)recall答案:C解析:[单选题]2.分箱用于处理()A)连续型数据B)离散型数据C)连续型和离散型数据即可答案:A解析:[单选题]3.下列不属于数据预处理的操作是(__)。A)抽样B)特征子集选择C)特征变换D)训练答案:D解析:[单选题]4.下列说法错误的是?A)当目标函数是凸函数时,梯度下降算法的解一般就是全局最优解B)进行PCA降维时,需要计算协方差矩阵C)沿负梯度的方向一定是最优的方向D)利用拉格朗日函数能解带约束的优化问题答案:C解析:沿负梯度的方向是函数值减少最快的方向但不一定就是最优方向。[单选题]5.为了观察测试Y与X之间的线性关系,X是连续变量,使用下列哪种图形比较适合?A)散点图B)柱形图C)直方图D)以上都不对答案:A解析:散点图反映了两个变量之间的相互关系,在测试Y与X之间的线性关系时,使用散点图最为直观。[单选题]6.深度学习的实质是()A)推理机制B)映射机制C)识别机制D)模拟机制答案:B解析:[单选题]7.在机器学习算法中,选择具有最大间隔的分割线进行预测的算法是哪一个()A)线性回归B)支持向量机C)决策树D)K-Means答案:B解析:[单选题]8.EM算法是()A)有监督B)无监督C)半监督D)都不是答案:B解析:[单选题]9.KNN算法是基于()A)概率空间B)颜色空间C)距离空间D)线性空间答案:C解析:[单选题]10.线性判别分析(LDA)从贝叶斯决策理论阐释,当两类数据同先验且满足()时,LDA达到最优分类。A)高斯分布B)协方差相等C)高斯分布且协方差相等D)协方差不等答案:C解析:[单选题]11.以下不属于数据科学的研究目的的是()。A)大数据及其运动规律的揭示B)从数据到智慧的转化C)数据解释D)数据驱动型决策支持答案:C解析:[单选题]12.p尾法确定图像分割的阈值,适用于(__)的情况。A)已知阈值范围B)已知图像灰度范围C)已知目标所占全图象百分比D)图像类间方差最大化答案:C解析:[单选题]13.常见的分类算法不包括()A)线性回归B)逻辑回归C)贝叶斯算法D)K-近邻算法答案:A解析:[单选题]14.在这种架构中,对句子中所有词之间的关系进行建模,而与它们的位置无关。这是哪种架构?A)OpenAIGPTB)ELMoC)BERTD)ULMFit答案:C解析:[单选题]15.SVM(支持向量机)为什么会使用替代损失函数(如hinge损失,指数损失等)?A)替代损失函数可以扩大SVM的应用场景B)0/1损失函数非凸、不连续C)替代损失函数可以减少过拟合D)其余选项皆错答案:B解析:直接使用0/1损失函数的话其非凸、非连续,数学性质不好优化起来比较复杂,因此需要使用其他的数学性能较好的函数进行替换,替代损失函数一般有较好的数学性质。常用的三种替代函数:1、hinge损失;2、指数损失;3、对率损失。[单选题]16.关于过拟合的说法,正确的是(A)指模型学习不足B)会使得模型泛化能力高C)会强化欠拟合D)可以通过交叉验证改善答案:D解析:[单选题]17.在进行一元线性回归分析时,需要导入()包A)PandasB)matplotlib.pyplotC)pylabD)sklearn答案:D解析:[单选题]18.下列关于异方差(Heteroskedasticity)说法正确的是?A)线性回归具有不同的误差项B)线性回归具有相同的误差项C)线性回归误差项为零D)以上说法都不对答案:A解析:异方差性是相对于同方差(Homoskedasticity)而言的。所谓同方差,是为了保证回归参数估计量具有良好的统计性质,经典线性回归模型的一个重要假定:总体回归函数中的随机误差项满足同方差性,即它们都有相同的方差。如果这一假定不满足,即:随机误差项具有不同的方差,则称线性回归模型存在异方差性。通常来说,奇异值的出现会导致异方差性增大。[单选题]19.属于分类模型评测指标的是:A)MSEB)AUCC)MAED)RMSE答案:B解析:[单选题]20.()是交叉验证法的一种特例。A)自助法B)留一法C)交叉验证法D)错误率分析答案:B解析:[单选题]21.机器学习在自然语言处理领域的应用不包括()。A)问答系统B)信息收取C)病理分析D)实时翻译答案:C解析:[单选题]22.1特征分析,2影响分析,3原因分析,4数据审计,5忽略,6删除,7插值。以下顺序符合缺失数据处理过程的有(__)。A)416B)1236C)457D)2357答案:A解析:[单选题]23.以下方法不可以用于特征降维的有()A)LinearDiscriminantAnalysisB)PrincipalComponentAnalysisC)SingularValueDecompositionD)MonteCarlomethod答案:D解析:[单选题]24.下列关于线性回归说法错误的是()A)在现有模型上,加入新的变量,所得到的R^2的值总会增加B)线性回归的前提假设之一是残差必须服从独立正态分布C)残差的方差无偏估计是SSE/(n-p)D)自变量和残差不一定保持相互独立答案:D解析:R^2越大,拟合效果越好,因此A对。R^2=1-RSS/TSSRSS数残差平方和TSS是总的平方和[单选题]25.以下不属于线性分类器最佳准则的是()A)感知准则函数B)支持向量机C)贝叶斯分类D)Fisher准则答案:C解析:[单选题]26.代码selectceil(2.34)的结果是哪一个:A)2.3B)2C)3D)2.4答案:C解析:[单选题]27.TF-IDF与该词在整个语言中的出现次数成(__)。A)正比B)反比C)无关D)幂次答案:B解析:[单选题]28.数据预处理对机器学习是很重要的,下面说法正确的是()。A)数据预处理的效果直接决定了机器学习的结果质量B)数据噪声对神经网络的训练没什么影响C)对于有问题的数据都直接删除即可D)预处理不需要花费大量的时间答案:A解析:[单选题]29.集成学习中,每个基分类器的正确率的最低要求()A)50%以上B)60%以上C)70%以上D)80%以上答案:A解析:[单选题]30.找出其中的异类A)nltkB)scikitlearnC)SpaCyD)BERT答案:D解析:[单选题]31.Relief是为(__)问题设计的。A)二分类B)多分类C)回归D)降维答案:A解析:[单选题]32.下列有关支持向量机说法不正确的是:A)得到的是局部最优解B)具有很好的推广能力C)采用结构风险最小化原理D)是凸二次优化问题答案:A解析:[单选题]33.下列方法不受数据归一化影响的是()A)SVMB)神经网络C)Logistic回归D)决策树答案:D解析:[单选题]34.关于异常值的说法,下列选项中描述错误的是()。A)异常值是指样本中明显偏离其余观测值的个别值B)可以使用3σ原则检测异常值C)可以使用Pandas中的箱线图检测异常值D)异常值可以使用其它的值来替换答案:A解析:异常数据并不一定是数据错误,所以会根据实际情况下选择删除或保留。[单选题]35.在数据清理中,下面哪个不是处理缺失值的方法()A)估算B)整例删除C)变量删除D)成对删除答案:D解析:[单选题]36.(__)是将低层次数据转换为高层次数据的过程。A)数据化B)数据整理C)数据加工D)数据整齐化答案:C解析:[单选题]37.假如使用一个较复杂的回归模型来拟合样本数据,使用Ridge回归,调试正则化参数λ,来降低模型复杂度。若λ较大时,关于偏差(bias)和方差(variance),下列说法正确的是?A)若λ较大时,偏差减小,方差减小B)若λ较大时,偏差减小,方差增大C)若λ较大时,偏差增大,方差减小D)若λ较大时,偏差增大,方差增大答案:C解析:若λ较大时,意味着模型复杂度较低,这时候容易发生欠拟合,对应偏差增大,方差减小。做个简单总结:Λ较小:偏差减小,方差增大,容易发生过拟合Λ较大:偏差增大,方差减小,容易发生欠拟合[单选题]38.()是利用样本的实际资料计算统计量的取值,并引来以检验事先对总体某些数量特征的假设是否可信作为决策取舍依据的一种统计分析方法。A)假设检验B)逻辑分析C)方差分析D)回归分析答案:A解析:假设检验又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。[单选题]39.下图显示了训练过的3层卷积神经网络准确度,与参数数量(特征核的数量)的关系。从图中趋势可见,如果增加神经网络的宽度,精确度会增加到一个特定阈值后,便开始降低。造成这一现象的可能原因是什么?class="fr-ficfr-dibcursor-hover"A)即使增加卷积核的数量,只有少部分的核会被用作预测B)当卷积核数量增加时,神经网络的预测能力(Power)会降低C)当卷积核数量增加时,导致过拟合D)以上都不正确答案:C解析:[单选题]40.一元线性回归方程y=0.7+0.82x,判定系数等于0.64,则x与y的相关系数为()。A)0.82B)0.64C)0.8D)0.7答案:C解析:一元回归分析中,自变量和因变量的相关系数的平方等于回归模型的判定系数。所以,相关系数=sqrt(0.64)=0.8。[单选题]41.在模型评估与度量的方法中,(__)以自助采样法为基础。A)自助法B)留出法C)交叉验证法D)错误率分析答案:A解析:[单选题]42.下面是三个散点图(A,B,C,从左到右)和和手绘的逻辑回归决策边界。alt="">上图中哪一个显示了决策边界过度拟合训练数据?A)AB)BC)CD)这些都没有答案:C解析:由于在图3中,决策边界不平滑,表明其过度拟合数据。[单选题]43.在训练集上每学到一条规则,就将该规则覆盖的训练样例去除,然后以剩下的训练样例组成训练集重复上述过程的方法称为A)缺省规则B)序贯覆盖C)不放回学习D)一阶规则答案:B解析:[单选题]44.对于在原空间中线性不可分问题,支持向量机()。A)无法处理B)将数据映射到核空间中C)在原空间中寻找非线性函数的划分数据D)在原空间中寻找线性函数划分数据答案:B解析:[单选题]45.以下对结构化数据描述不正确的是()。A)结构化数据可以直接用传统关系数据库进行存储B)先有结构,后有数据C)语音数据是结构化数据D)XML不是结构化数据答案:C解析:[单选题]46.最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目,支持在日志系统中定制各类数据发送方,用于收集数据的工具是()A)FlumeB)ZookeeperC)StormD)Sparkstreaming答案:A解析:[单选题]47.RNN不同于其它神经网络的地方在于()。A)实现了记忆功能B)速度快C)精度高D)易于搭建答案:A解析:[单选题]48.查准率和查全率是一对__的度量。A)相容B)相等C)矛盾D)包含答案:C解析:[单选题]49.训练SVM的最小时间复杂度为O(n2),那么一下哪种数据集不适合用SVM?A)大数据集B)小数据集C)中等大小数据集D)和数据集大小无关答案:A解析:有明确分类边界的数据集最适合SVM[单选题]50.一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:A)一年级B)二年级C)三年级D)四年级答案:A解析:[单选题]51.关于集成学习算法的说法正确的是()A)一种并行的算法框架B)一种串行的算法框架C)一类全新的数据挖掘算法D)一类将已有算法进行整合的算法答案:D解析:[单选题]52.如下表是用户是否使用某产品的调查结果()请计算年龄、地区、学历、收入中对用户是否使用调查产品信息增益最大的属性。alt="">A)年龄B)地区C)学历D)收入答案:C解析:alt=""class="fr-ficfr-dii">[单选题]53.自然语言处理系统英文缩写是()A)LSB)LPC)SLD)PL答案:A解析:[单选题]54.混沌度(Perplexity)是一种常见的应用在使用深度学习处理NLP问题过程中的评估技术,关于混沌度,哪种说法是正确的?A)混沌度没什么影响B)混沌度越低越好C)混沌度越高越好D)混沌度对于结果的影响不一定答案:B解析:[单选题]55.多分类LDA将样本投影到N-1维空间,N-1通常远小于数据原有的属性数,可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的()技术。A)无监督特征选择B)无监督降维C)监督特征选择D)监督降维答案:D解析:[单选题]56.现有4个同时到达的作业J1,J2,J3和J4,它们的执行时间分别是1小时,3小时,5小时,7小时,系统按单道方式运行且采用短作业优先算法,则平均周转时间是()小时A)4B)5C)6D)7.5答案:D解析:[单选题]57.大数据产业全景图中包含以下选项(__):1.基础设施;2.企业应用;3.分析工具;4.行业行为;5.开源工具;6.数据资源;7.跨平台基础设施和分析工具;8.数据源和APPs。A)1234B)12345678C)2345678D)5678答案:B解析:[单选题]58.对参数进行L2正则,是机器学习常用的防止过拟合的方法。对参数做L2正则时,()是对参数本身做先验分布假设。A)高斯分布B)拉普拉斯分布C)泊松分布D)均匀分布答案:A解析:L2正则假设参数的先验分布是Gaussian分布,可以保证模型的稳定性,也就是参数的值不会太大或太小。第2部分:多项选择题,共21题,每题至少两个正确答案,多选或少选均不得分。[多选题]59.未标记样本学习分类为A)主动学习B)半监督SVMC)半监督聚类D)图半监督学习答案:BCD解析:[多选题]60.目前LSTM已经应用到()领域。A)自然语言处理B)语音识别C)图像标注D)发动机答案:ABC解析:[多选题]61.特征清洗一般包含()A)样本忽略B)缺失值和异常值处理C)处理D)聚类答案:ABC解析:[多选题]62.下列属于机器学习类型的是()A)有监督学习B)无监督学习C)半监督学习D)强化学习答案:ABCD解析:[多选题]63.下面关于最大熵模型的描述,正确的是()A)思想是在满足一定约束条件下,概率分布的熵最大B)是一种信息论模型C)在已知均值和方差的条件下,最大熵分布是高斯分布D)在已知均值和方差的条件下,最大熵分布是指数分布答案:ABC解析:[多选题]64.关于线性回归说法不正确的是()A)梯度下降在靠近极大值时速度减慢B)梯度下降学习率a的选择不合适不影响模型结果C)线性回归对异常值非常敏感D)适用于预测目标与特征之间线性关系强的数据集答案:AB解析:[多选题]65.深度学习中,以下哪些方法可以降低模型过拟合?()A)增加更多的样本B)DropoutC)增大模型复杂度,提高在训练集上的效果D)增加参数惩罚答案:ABD解析:[多选题]66.人工神经网络特点和优越性主要表现在()A)自学习功能B)自动识别功能C)高速寻找优化解的能力D)联想存储功能答案:ACD解析:[多选题]67.四种类型的数据节点ZnodeA)PERSISTENT-持久节点B)EPHEMERAL-临时节点C)PERSISTENT_SEQUENTIAL-持久顺序节点D)EPHEMERAL_SEQUENTIAL-临时顺序节点答案:ABCD解析:[多选题]68.信息增益即数据集的熵与在特征条件下的条件熵之差。关于信息增益,正确的说法是A)信息增益越小,具有更强的分类能力,作为确定切分特征的依据。B)信息增益越大,说明条件克服的不确定性越大,具有更强的分类能力。C)计算每个特征的信息增益,选择信息增益最大的特征作为切分特征。D)选择切分特征时,我们可以以信息增益作为指标。答案:BCD解析:[多选题]69.在用随机梯度算法训练回归模型前,要把各特征缩放到相同尺寸。把特征缩放到相同尺寸的常用方法有A)标准化B)向量化C)正则化D)归一化答案:AD解析:[多选题]70.在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是()A)将负样本重复10次,生成10w样本量,乱顺序参与分类B)直接进行分类,可以最大限度利用数据C)从10w正样本中随机抽取1w参与分类D)将负样本每个权重设置为10,正样本权重为1,参与训练过程答案:ACD解析:[多选题]71.在机器学习中,下列关于各算法对应的损失函数正确的是()A)最小二乘-SquarelossB)SVM-HingeLossC)LogisticRegression-交叉熵损失函数D)AdaBoost-指数损失函数答案:ABCD解析:[多选题]72.层次聚类试图在不同层次对数据集进行划分。这里数据集的划分可采用(__)或(__)策略。A)自顶向下B)自底向上C)自左至右D)自右至左答案:AB解析:[多选题]73.可以用f(x,y)来表示()A)一幅2-D数字图像B)一个在3-D空间中的客观景物的投影C)2-D空间XY中的一个坐标的点的位置D)在坐标点(X,Y)的某种性质F的数值答案:ABD解析:[多选题]74.以下可以有效解决过拟合的方法是:()A)增加样本数量B)通过特征选择减少特征数量C)训练更多的迭代次数D)采用正则化方法答案:ABD解析:[多选题]75.从机器学习预测目标数据的离散程度,可以将机器学习分类哪两类问题?A)回归问题B)分类问题C)识别问题D)判定问题答案:AB解析:第3部分:判断题,共12题,请判断题目是否正确。[判断题]76.从计算角度上,Sigmoid和tanh激活函数均需要计算指数,复杂度高,而ReLU只需要一个阈值即可得到激活值。()A)正确B)错误答案:对解析:[判断题]77.循环神经网络所使用的训练法则叫做时序反向传播,简称BPTTA)正确B)错误答案:对解析:[判断题]78.算法做出的价格往往比人做出的市场价格要合理A)正确B)错误答案:错解析:[判断题]79.机器学习是人工智能里面一个非常重要的技术,深度学习是机器学习里面的一种方法。A)正确B)错误答案:对解析:[判断题]80.训练算法的目的就是要让模型拟合训练数据A)正确B)错误答案:错解析:[判断题]81.对抗神经网络可以通过两个神经网络的博弈,达到更好的学习效果A)正确B)错误答案:对解析:[判断题]82.方差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力。__A)正确B)错误答案:错解析:[判断题]83.在箱形图中超出上界和下界的值称为异常值。A)正确B)错误答案:对解析:[判断题]84.使用concat()函数合并数据时,可以通过左连接和右连接这两种方式连接。A)正确B)错误答案:错解析:[判断题]85.BP算法?喜新厌旧?,在学习新样本后,会把旧样本逐渐遗忘。A)正确B)错误答案:对解析:[判断题]86.NumPy数组不需要循环遍历,即可对每个元素执行批量的算术运算操作。A)正确B)错误答案:对解析:[判断题]87.SVM中的泛化误差代表SVM对新数据的预测准确度A)正确B)错误答案:对解析:第4部分:问答题,共9题,请在空白处填写正确答案。[问答题]88.目前的集成学习大致分为两类:个体学习器间存在强依赖关系,必须串行生成的是(),个体学习器间不存在强依赖关系,可同时生成的是()。答案:序列化方法解析:[问答题]89.设s=?abcdefg?,则s[3]的值是(),s[2:4]的值是(),s[:5]的值是(),s[3:]的值是(),s[::-1]的值是(),s[::2]的值是()答案:d|cd|abcde|defg|gfedcba|aceg解析:[问答题]90.对3个32×32的特征图进行卷积层操作,卷积核10个5×5,Stride是1,pad为2,输出特征图的尺度是多少?卷积层的参数是多少?写出公式和结果。答案:输出尺度(32+2×2-5)/1+1=32卷积层的参数(5×5×3+1)×10=760解析:[问答题]91.仅仅
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 洪涝灾害卫生防疫工作方案(6篇)
- 新员工转正书(30篇)
- 2024年综合商场租赁协议标准2篇
- 广东省韶关市2023-2024学年四年级上学期语文期末试卷(含答案)
- 详尽招标文件测绘全解析
- 购销合同一汽车销售合同
- 购销合同百货商品质量
- 购销合同简化版详解
- 赛事正规性声明
- 足球场建设质量招标
- (正式版)HG∕T 21633-2024 玻璃钢管和管件选用规定
- 高等工程数学Ⅰ智慧树知到期末考试答案章节答案2024年南京理工大学
- 经营目标计划表
- 2020南昌中考满分作文赏析:不该丢失的孝心
- 中南大学物化课后习题答案 11章 表面化学与胶体化学
- 维生素D3可行性研究
- 计量年度工作总结范文5篇范文
- 各车间安全生产隐患自查清单
- 《一共有多少天》教学设计附反思[优制备课]
- 水库水面蒸发、水温分析计算大纲
- 贵州茅台酒全国经销商信息汇总
评论
0/150
提交评论