人工智能机器学习技术练习(习题卷25)_第1页
人工智能机器学习技术练习(习题卷25)_第2页
人工智能机器学习技术练习(习题卷25)_第3页
人工智能机器学习技术练习(习题卷25)_第4页
人工智能机器学习技术练习(习题卷25)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:人工智能机器学习技术练习人工智能机器学习技术练习(习题卷25)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能机器学习技术练习第1部分:单项选择题,共58题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.假设有n组数据集,每组数据集中,x的平均值都是9,x的方差都是11,y的平均值都是7.50,x与y的相关系数都是0.816,拟合的线性回归方程都是y=3.00+0.500x。那么这n组数据集()。A)一样B)不一样C)无法确定是否一样答案:C解析:只比较平均值、方差、相关系数和回归方程,无法确定数据集是否相同,还需比较Anscombe'squartet。[单选题]2.如果我们说线性回归模型完美地拟合了训练样本(训练样本误差为零),则下面说法正确的是()。A)测试样本误差始终为零B)测试样本误差不可能为零C)以上答案都不对答案:C解析:根据训练样本误差为零,无法推断测试样本误差是否为零。如果测试样本集很大,则很可能发生过拟合,导致模型不具备很好的泛化能力。[单选题]3.关于?回归(Regression)?和?相关(Correlation)?,下列说法正确的是?注意:x是自变量,y是因变量。A)回归和相关在x和y之间都是互为对称的B)回归和相关在x和y之间都是非对称的C)回归在x和y之间是非对称的,相关在x和y之间是互为对称的D)回归在x和y之间是对称的,相关在x和y之间是非对称的答案:C解析:相关(Correlation)是计算两个变量的线性相关程度,是对称的。也就是说,x与y的相关系数和y与x的相关系数是一样的,没有差别。回归(Regression)一般是利用特征x预测输出y,是单向的、非对称的。[单选题]4.从给定的特征集合中选择出相关特征子集的过程,称为A)特征抽取B)特征选择C)特征降维D)特征简化答案:B解析:[单选题]5.逻辑回归将输出概率限定在[0,1]之间。下列哪个函数起到这样的作用?A)Sigmoid函数B)tanh函数C)ReLU函数D)LeakyReLU函数答案:A解析:[单选题]6.下列属于无监督学习的是:A)k-meansB)SVMC)最大熵D)CRF答案:A解析:[单选题]7.集成学习采取投票的方式来综合多个简单模型的结果,按bagging投票思想,假设一共训练了5个简单模型,每个模型对分类结果预测如下图,则模型的最终预测结果为()类A)DB)CC)BD)A答案:C解析:[单选题]8.将源程序(高级语言编写)翻译成计算机可执行的目标程序,其处理方法是()A)编译B)连接C)汇编D)扫描答案:A解析:[单选题]9.朴素贝叶斯是一种典型的基于概率的机器学习方法,它利用了A)先验概率B)后验概率C)以上都是D)以上都不是答案:C解析:[单选题]10.数据科学是一门以?数据时代?,尤其是?大数据时代?面临的新挑战、新机会、新思维和新方法为核心内容的,包括新的理论、方法、模型、技术、平台、工具、应用和最佳实践在内的()。A)新兴科学B)交叉性学科C)独立学科D)一整套知识体系答案:D解析:[单选题]11.(__)是分类错误的样本数占样本总数的比例。A)精度B)错误率C)正确率D)误差答案:B解析:[单选题]12.信息熵是度量()最常用的一种指标。A)样本的个数B)样本的维度C)样本的纯度D)样本的冗余度答案:C解析:[单选题]13.下面哪个不是Python合法的标识符()。A)int32B)40XLC)selfD)__name__答案:B解析:[单选题]14.二分类任务中,有三个分类器h1,h2,h3,三个测试样本x1,x2,x3。假设1表示分类结果正确,0表示错误,h1在x1,x2,x3的结果分别(1,1,0),h2,h3分别为(0,1,1),(1,0,1),按投票法集成三个分类器,下列说法正确的是()A)集成提高了性能B)集成没有效果C)集成降低了性能D)集成效果不能确定答案:A解析:[单选题]15.Relief是为()问题设计的。A)二分类B)多分类C)回归D)降维答案:A解析:[单选题]16.从一个初始策略出发,不断迭代进行策略评估和改进,直到策略收敛、不再改变为止,这样的作法称为A)策略迭代B)值迭代C)策略改进D)最优值函数答案:A解析:[单选题]17.对以往数据分析结果表明,当机器调整得良好时,产品的合格率为98%,而当机器发生某种故障时,产品的合格率为55%。每天早上机器开动时,机器调整得良好的概率为95%。计算已知某日早上第一件产品是合格时,机器调整得良好的概率是多少A)0.94B)0.95C)0.96D)0.97答案:D解析:[单选题]18.下面不属于比较检验的方法是(__)。A)假设检验B)交叉验证t检验C)McNemar检验D)留出法答案:D解析:[单选题]19.调用sklearn中的train_test_split函数将数据集切分为训练集和测试集。训练集与测试集比例为6:4。最合适的代码为:A)X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.6)B)X_train,y_train,X_test,y_test=train_test_split(X,y,test_size=0.6)C)X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.4)D)y_train,y_test,X_train,X_test=train_test_split(X,y,test_size=0.4)答案:C解析:[单选题]20.OpenCV使用()语言实现。A)JavaB)C/C++C)PythonD)JavaScript答案:B解析:[单选题]21.下列选项不属于机器学习研究内容的是()A)学习机理B)自动控制C)学习方法D)计算机存储系统答案:B解析:[单选题]22.假设某商品需求函数为y1=B0+B1x1+u,为了考虑包装外观因素(黑,蓝,白,金四种不同的颜色),引入4个虚拟变量形式形成截距变动模型,则模型的参数估计量()A)是有偏估计量B)是非有效估计量C)是非一致估计量D)无法估计答案:D解析:[单选题]23.关于Series结构,下列描述正确的是()。A)Series是一个类似于二维数组的对象B)Series由一组数据和与之相关的索引两部分构成C)Series只能保存整数和字符串类型的数据D)Series的索引默认是从1开始答案:B解析:[单选题]24.下列不属于Spark中driver的作用的是()A)执行main方法B)把用户程序转化为taskC)协调任务的调度D)负责运行组成Spark应用的任务答案:D解析:[单选题]25.关于随机森林,说法错误的是:A)相对于Boosting系列的Adaboost和GBDT,RF实现比较简单。B)在训练后,可以给出各个特征对于输出的重要性C)训练高度串行化D)随机采样,训练出的模型的方差小,泛化能力强答案:C解析:[单选题]26.Python在2.5版本以后集成的数据库是()A)SQLiteB)OracleC)SQLServerD)MySQL答案:A解析:[单选题]27.(__)在完成某一类任务的性能能随经验而改进。A)学习系统B)学习任务C)机器学习D)数据科学系统答案:A解析:[单选题]28.list类型的内置方法pop()的作用是()。A)置顶指定元素B)给元素排序C)删除指定元素D)插入指定元素答案:C解析:[单选题]29.梯度爆炸问题是指在训练深度神经网络的时候,梯度变得过大而损失函数变为无穷。在RNN中,下面哪种方法可以较好地处理梯度爆炸问题()A)梯度裁剪B)所有方法都不行C)DropoutD)加入正则项答案:A解析:[单选题]30.在深度优先策略中,open表是()的数据结构A)先进先出B)先进后出C)根据估价函数值重排D)随机出答案:B解析:[单选题]31.不属于判别式模型的是()。A)决策树B)BP神经网络C)支持向量机D)贝叶斯答案:D解析:[单选题]32.半监督学习包括。A)主动学习B)回归学习C)聚类学习D)直推学习答案:D解析:[单选题]33.在创建ndarray对象时,可以使用()参数来指定元素类型。A)dtypeB)dtypesC)typeD)types答案:A解析:[单选题]34.成熟度等级1.已执行级,2.已定义级,3.已优化级,4.已测量级,5.已管理级,则由低到高排序为(__)。A)12345B)13524C)15243D)13542答案:C解析:[单选题]35.关于Logistic回归和SVM,以下说法错误的是?A)Logistic回归可用于预测事件发生概率的大小B)Logistic回归的目标函数是最小化后验概率C)SVM的目标的结构风险最小化D)SVM可以有效避免模型过拟合答案:B解析:Logit回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数,并没有最大化后验概率,更谈不上最小化后验概率。A错误Logit回归的输出就是样本属于正类别的几率,可以计算出概率,正确C.SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,应该属于结构风险最小化.D的SVM可以通过正则化系数控制模型的复杂度,避免过拟合。[单选题]36.一条规则形如:⊕←f1⋀f2⋀…⋀fL,其中?←"右边的部分称为A)规则长度B)规则头C)布尔表达式D)规则体答案:D解析:[单选题]37.下面关于SVM算法叙述不正确的是()A)SVM在解决小样本、非线性及高维模式识别问题中具有优势B)SVM是一种基于经验风险最小化准则的算法C)SVM求得的解为全局唯一最优解D)SVM最终分类结果只与少数支持向量有关答案:B解析:[单选题]38.下面不属于跨平台性基础设施和跨平台分析工具的有(__)。A)IBMB)MicrosoftC)AmazonD)redeo答案:D解析:[单选题]39.二项式分布的共轭分布是()A)正态分布B)Dirichlet分布C)Beta分布D)指数分布答案:C解析:[单选题]40.图像平滑从信号处理的角度看就是去除其中的(__)。A)高频信息B)低频信息C)噪声D)亮度信息答案:A解析:[单选题]41.下列关于半监督支持向量机说法错误的是(__)。A)半监督支持向量机是针对二分类问题的学习算法B)半监督支持向量机寻求一个在所有样本上间隔最小化的划分超平面C)半监督支持向量机采用局部搜索来迭代地寻找其优化问题的近似解D)半监督支持向量机试图考虑对未标记样本进行各种可能的标记指派答案:B解析:[单选题]42.主成分分析方法是一种什么方法()A)分类方法B)回归方法C)降维方法D)参数估计方法答案:C解析:[单选题]43.以下说法正确的是()A)Boosting和Bagging都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率决定其权重B)梯度下降有时会陷于局部极小值,但EM算法不会C)除了EM算法,梯度下降也可求混合高斯模型的参数D)基于最小二乘的线性回归问题中,增加L2正则项,总能降低在测试集上的MSE误差答案:C解析:[单选题]44.在HSV色彩空间中的H表示色调,则其取值范围在()。A)[0,255]B)[0,256]C)[0,180]D)[0,181]答案:C解析:[单选题]45.下列哪个不是专门用于可视化时间空间数据的技术:A)等高线图B)饼图C)曲面图D)矢量场图答案:B解析:[单选题]46.下面不属于对学习器的泛化误差进行评估的方法是(__)A)留出法B)交叉验证法C)自助法D)网格搜索法答案:D解析:[单选题]47.朴素贝叶斯分类器的朴素之处在于()A)只能处理低维属性B)只能处理离散型属性C)分类效果一般D)属性之间的条件独立性假设答案:D解析:[单选题]48.给定初始点x0=(1,1),用最速下降法求函数f(x)=4*x1+6*x2-2*x1^2-2*x1*x2-2*x2^2的极大值,则迭代一次后x1=?A)(-1/2,1)B)(1/2,1)C)(-1,1)D)(2,1)答案:B解析:[单选题]49.机器翻译属于下列哪个领域的应用?A)自然语言系统B)机器学习C)专家系统D)人类感官模拟答案:A解析:[单选题]50.对决策树进行剪枝处理的主要目的是什么A)避免欠拟合B)提高对训练集的学习能力C)避免过拟合,降低泛化能力D)避免过拟合,提升泛化能力答案:D解析:[单选题]51.长短时记忆神经网络被设计用来解决什么问题?()A)传统RNN存在的梯度消失/爆炸问题B)传统RNN计算量大的问题C)传统RNN速度较慢的问题D)传统RNN容易过过拟合的问题答案:A解析:[单选题]52.某单位运用随机森林算法思想建立抢修热点模型。该模型主要预测下期台区工单数量,构建抢修热点。模型构建步骤如下:①将历史数据进行随机自助法重抽样,生成N个训练样本集;②将N个训练样本集分别做决策树,生成N棵决策树;③将N棵决策树随机构成随机森林;④未来根据预测样本气候环境、设备属性、设备工况进行随机森林决策投票,得出针对该预测样本最优的决策树进行运算,并计算出最终结果。模型算法构建步骤合理的顺序是()。A)①②③④B)①③②④C)④①②③D)④②①③答案:A解析:[单选题]53.数据科学是一门以?数据?,尤其是?大数据?为研究对象,并以数据统计、机器学习、数据可视化等为理论基础,主要研究数据加工、数据管理、数据计算等活动的()。A)新兴科学B)交叉性学科C)独立学科D)一整套知识体系答案:B解析:[单选题]54.给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离,这说的是()算法。A)PCAB)SVMC)K-meansD)LDA答案:D解析:[单选题]55.划分聚类算法是一种简单的较为基本的重要聚类方法。它的主要思想是通过将数据点集分为()个划分,并使用重复的控制策略使某个准则最优化,以达到最终的结果A)DB)KC)ED)F答案:B解析:划分聚类算法K-Means将数据点集分为K个子集。[单选题]56.机器学习的经典定义是:()A)利用技术进步改善系统自身性能B)利用技术进步改善人的能力C)利用经验改善系统自身的性能D)利用经验改善人的能力答案:C解析:[单选题]57.以下模型中属于概率图模型的是()A)决策树B)感知机C)支持向量机D)受限玻尔兹曼机答案:D解析:[单选题]58.相同的词可以通过()来实现多个词嵌入?A)GloVeB)Word2VecC)ELMoD)Nltk答案:C解析:第2部分:多项选择题,共21题,每题至少两个正确答案,多选或少选均不得分。[多选题]59.以下描述正确的是(__)。A)对重复数据通常采用条件过滤方法B)对无关数据通常采用重复过滤方法C)噪声是指测量变量过程中的随机错误或误差D)数据清洗是指在数据审计活动基础上,将脏数据清洗成干净数据的过程答案:CD解析:[多选题]60.以下不是人工智能深度学习技术先寻找的是()A)概率B)数据C)梯度D)函数答案:ABC解析:[多选题]61.以下哪些属于免模型学习策略A)蒙特卡罗强化学习B)时序差分学习C)直接模仿学习D)没日没夜学习答案:AB解析:[多选题]62.(__)是图像降噪的方法。A)空间域合成法B)中值滤波器C)最小值滤波D)非线性小波变换答案:ABCD解析:[多选题]63.为大数据提供基础设施服务,有(__)和数据计算、数据管理与监控、集群服务、众包等。A)数据存储B)数据加工C)数据治理D)app开发答案:ABCD解析:[多选题]64.下列属于半监督学习方法的是(__)。A)半监督支持向量机B)图半监督学习C)生成式方法D)支持向量机答案:ABC解析:[多选题]65.许多功能更为强大的非线性模型可在线性模型基础上通过引入()而得。A)层级结构B)高维映射C)降维D)分类答案:AB解析:[多选题]66.做一个二分类预测问题,先设定阈值为0.5,概率不小于0.5的样本归入正例类(即1),小于0.5的样本归入反例类(即0)。然后,用阈值n(n>0.5)重新划分样本到正例类和反例类,下面说法正确的是()。A)增加阈值不会提高召回率B)增加阈值会提高召回率C)增加阈值不会降低查准率D)增加阈值会降低查准率答案:AC解析:召回率=TP/TP+FN,查准率=TP/TP+FP。当概率阈值增加时,TP、FP减少或者持平,TP+FN不变,所以召回率不会增加。[多选题]67.数据加工的主要动机往往来自(__)。A)实时要求B)质量要求C)计算要求D)数量要求答案:BC解析:[多选题]68.K近邻算法可应用于以下哪些场景?A)电影类型分析B)字符识别C)文本分类D)图像识别答案:ABCD解析:[多选题]69.特征选择方法有()。A)AIC赤池信息准则B)LARS嵌入式特征选择方法C)LVW包裹式特征选择方法D)Relief过滤式特征选择方法答案:BCD解析:AIC赤池信息准则是常用的模型选择方法。[多选题]70.K近邻算法实现的基本步骤有A)计算距离,并按距离排序B)选取距离最小的K个点C)确定k点中各分类的出现概率D)返回出现概率最高的分类答案:ABCD解析:[多选题]71.关于ELM神经网络的描述,下列选项中正确的是()A)通过梯度下降法,利用反向传播的方式来进行学习B)是一种泛化的单隐层前馈神经网络C)容易形成局部极小值而得不到全局最优值D)输入层和隐含层之间的权重和隐含层节点的阈值是通过随机初始化得到的答案:BD解析:[多选题]72.基于二次准则函数的H-K算法较之于感知器算法的优点是()?A)计算量小B)可以判别问题是否线性可分C)其解完全适用于非线性可分的情况D)其解的适应性更好答案:BD解析:[多选题]73.下列关于嵌入式选择描述错误的是(__)。A)嵌入式选择是将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成B)从最终学习器性能来看,嵌入式特征选择比过滤式特征选择更好C)嵌入式特征选择的计算开销通常比过滤式特征选择大得多D)嵌入式特征选择方法直接针对给定学习器进行优化答案:BCD解析:[多选题]74.下列属于聚类性能度量内部指标的是(__)。A)DB指数B)Dunn指数C)Jaccard系数D)FM系数答案:AB解析:[多选题]75.以下()可作为衡量线性回归的性能指标A)均方误差B)均方根误差C)平均绝对误差D)R-Square答案:ABCD解析:第3部分:判断题,共12题,请判断题目是否正确。[判断题]76.密度直达和密度可达满足对称性A)正确B)错误答案:错解析:[判断题]77.一般情形下,后剪枝决策树的欠拟合风险很小,泛化性能往往优于预剪枝决策树。A)正确B)错误答案:对解析:[判断题]78.NumPy的random模块比Python的random模块功能更多。A)正确B)错误答案:对解析:[判断题]79.大小相等的数组之间的任何算术运算都会将运算应用到元素级。A)正确B)错误答案:对解析:[判断题]80."过拟合是有监督学习的挑战,而不是无监督学习"A)正确B)错误答案:对解析:[判断题]81.逻辑回归分类的精度不够高,因此在业界很少用到这个算法A)正确B)错误答案:错解析:[判断题]82.Relief可以处理多分类问题A)正确B)错误答案:错解析:[判断题]83.Anconda是完全免费的A)正确B)错误答案:对解析:[判断题]84.循环神经网络可以捕捉序列化数据中的动态信息A)正确B)错误答案:对解析:[判断题]85.所有的机器学习分类算法都属于有监督方法A)正确B)错误答案:对解析:[判断题]86.KNN算法的基本思路是近朱者赤,近墨者黑A)正确B)错误答案:对解析:[判断题]87.关于特征选择的说法,选择的特征越多越好?A)正确B)错误答案:错解析:第4部分:问答题,共9题,请在空白处填写正确答案。[问答题]88.机器学习的一般流程包括获取数据、数据处理、特征工程、算法训练和()答案:模型评估解析:[问答题]89.两个异类支持向量到超平面的距离之和被称为??答案:间隔解析:[问答题]90.随机森林的训练效率常优于Bagging吗?为什么?答案:随机森林的训练效率常优于Bagging,因为在个体决策树的构建过程中,Bagging使用的是?确定型?决策树,在选择划分属性时要对结点的所有属性进行考察,而随机森林使用的?随机型?决策树则只需考察一个属性子集。解析:[问答题]91.试述为什么基于L1范数可以进行特征选择。答案:基于L1范数的特征选择:不能直接设置最终选择特征的个数k;通过设置正则化系数λ来隐式控制k;λ值越大,模型越关注稀疏性,得到的非零系数个数越少;反之,非零稀疏个数越多;可以设置一个选择特征个数的上限,通过设

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论