人工智能机器学习技术练习(习题卷5)_第1页
人工智能机器学习技术练习(习题卷5)_第2页
人工智能机器学习技术练习(习题卷5)_第3页
人工智能机器学习技术练习(习题卷5)_第4页
人工智能机器学习技术练习(习题卷5)_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:人工智能机器学习技术练习人工智能机器学习技术练习(习题卷5)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能机器学习技术练习第1部分:单项选择题,共62题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.基于划分的聚类,说法正确的是()A)对分区个数敏感B)无法区分互斥的簇C)有利于寻找非球形簇答案:A解析:[单选题]2.逻辑回归常用于解决()A)回归问题B)分类问题C)优化问题答案:B解析:[单选题]3.机器学习这个术语是由()定义的?A)ArthurSamuelB)GuidovanRossumC)JamesGoslingD)以上都不是答案:A解析:[单选题]4.spark是用以下哪种编程语言实现的A)cB)C++C)javaD)Scala答案:D解析:[单选题]5.在不考虑标记样本时,支持向量机试图找到()间隔划分超平面A)最大B)最小C)最长D)最短答案:A解析:[单选题]6.下面哪句话是正确的?A)机器学习模型的精准度越高,则模型的性能越好B)增加模型的复杂度,总能减小测试样本误差C)增加模型的复杂度,总能减小训练样本误差D)以上说法都不对答案:C解析:本题考查的是机器学习模型的评判指标。机器学习模型的精准度(Precision)越高,模型性能不一定越好,还要看模型的召回率(Recall),特别是在正负样本分布不均的情况下。一般使用F1score评判标准。增加模型复杂度,通常可能造成过拟合。过拟合的表现是训练样本误差减小,而测试样本误差增大。[单选题]7.训练集、验证集和测试集在使用过程中的顺序是A)测试集、训练集、验证集B)训练集、测试集、验证集C)验证集、训练集、测试集D)训练集、验证集、测试集答案:B解析:[单选题]8.TF-IDF模型中IDF是指(__)。A)词频数B)逆文档频率C)词频率D)逆文档频数答案:B解析:[单选题]9.下面算法属于局部处理的是()。A)灰度线性变换B)二值化C)傅里叶变换D)中值滤波答案:D解析:[单选题]10.关于Elman网络描述错误的是A)作为递归神经网络,允许出现环形结构;B)一些神经元的输出反馈回来会作为输入信号;C)用于处理静态模型,即无法处理与时间有关的动态变化;D)可利用BP算法来进行参数优化;答案:C解析:[单选题]11.生成式方法是直接基于()的方法?A)生成式学习B)生成式场景C)生成式数据D)生成式模型答案:D解析:[单选题]12.下列两个变量之间的关系中,那一个是线性关系A)学生的性别与他(她)的数学成绩B)人的工作环境与他的身体健康状况C)儿子的身高与父亲的身高D)正方形的边长与周长答案:D解析:[单选题]13.若1.数据加工、2.数据化、3.数据整齐化、4.数据分析,则在数据科学的基本流程顺序是(__)。A)1234B)2134C)2314D)3214答案:B解析:[单选题]14.如下逻辑回归图显示了3种不同学习速率值的代价函数和迭代次数之间的关系(不同的颜色在不同的学习速率下显示不同的曲线)。为了参考而保存图表后,忘记其中不同学习速率的值。现在需要曲线的倾斜率值之间的关系。以下哪一个是正确的?注:1蓝色的学习率是L12红色的学习率是L23绿色学习率为lL3alt="">A)L1>L2>L3B)L1=L2=L3C)L1D)都不是答案:C解析:如果学习速率低下,代价函数将缓慢下降,学习速度过高,则其代价函数会迅速下降。[单选题]15.对于图像识别问题(比如识别照片中的猫),()神经网络模型更适合解决这类问题。A)感知机B)循环神经网络C)卷积神经网络D)多层感知机答案:C解析:[单选题]16.在SVM中,margin的含义是()A)差额B)损失误差C)幅度D)间隔答案:D解析:[单选题]17.关于logistic回归和SVM不正确的是()A)Logistic回归目标函数是最小化后验概率B)Logistic回归可以用于预测事件发生概率的大小C)SVM目标是结构风险最小化D)SVM可以有效避免模型过拟合答案:A解析:[单选题]18.()是指机器学习算法对新鲜样本的适应能力。A)模型测试B)泛化能力C)过拟合D)模型训练答案:B解析:[单选题]19.近似推断不含有?A)采样B)变分推断C)确定性近似完成近似推断D)分类答案:D解析:[单选题]20.9.关于K-均值算法,以下说法不正确的是A)K-均值算法是一种划分方法。B)K-均值算法能发现任意形状的簇。C)K-均值算法不一定收敛于全局最优解。D)比起DBSCAN算法来,K更好答案:B解析:[单选题]21.在标准化公式z=中,使用e的目的是()A)为了加速收敛B)如果µC)使结果更准确D)防止分母为零答案:D解析:[单选题]22.下面说法正确的是?A)梯度下降有时会陷于局部极小值,但EM算法不会。B)SVM对噪声鲁棒。C)当训练数据较多时更容易发生过拟合。D)给定n个数据点,如果其中一半用于训练,另一半用于测试,则训练误差和测试误差之间的差别会随着n的增加而减小。答案:D解析:[单选题]23.关于Hadoop技术描述错误的是?()A)HDFS是一个分布式文件系统B)联盟链C)HDFS适合存储大量的小文件D)HDFS存储空间由数据节点数决定答案:C解析:[单选题]24.S市A,B共有两个区,人口比例为3:5,据历史统计A的犯罪率为0.01%,B区为0.015%,现有一起新案件发生在S市,那么案件发生在A区的可能性有多大?()A)37.5%B)32.5%C)28.6%D)26.1%答案:C解析:[单选题]25.二值图象中分支点的连接数为:A)0B)1C)2D)3答案:D解析:[单选题]26.变量消去的缺点有A)会造成冗余计算B)纯半监督学习C)主动学习D)图半监督学习答案:C解析:[单选题]27.在print函数的输出字符串中可以将()作为参数,代表后面指定要输出的字符串。A)%dB)%cC)%sD)%t答案:C解析:[单选题]28.点击率问题是这样一个预测问题,99%的人是不会点击的,而1%的人是会点击进去的,所以这是一个非常不平衡的数据集。假设,现在我们已经建了一个模型来分类,而且有了99%的预测准确率,我们可以下的结论是()。A)模型预测准确率已经很高了,我们不需要做什么了B)模型预测准确率不高,我们需要做点什么改进模型C)无法下结论D)以上答案都不正确答案:C解析:类别不均衡的情况下,不能用准确率做分类评估指标,因为全判断为不会点,准确率也是99%,此时分类器一点用都没有。[单选题]29.在线性模型y=w1x1+w2x2+…+wnxn中,[w1,w2,…,wn]值代表()A)预测值B)特征值C)输入值D)模型参数答案:D解析:[单选题]30.LSTM与RNN相比可以解决()。A)梯度消失B)训练结果发散C)需要激活函数D)无法处理长距离的依赖的问题答案:D解析:[单选题]31.K-摇臂赌博机属于(__)算法。A)机器学习B)深度学习C)强化学习D)有监督学习答案:C解析:[单选题]32.下列选项中,()是基于Web的交互式计算环境,可以编辑易于人们阅读的文档,用于展示数据分析的过程。A)JupyterNotebookB)AncondaNavigatorC)AncondaPromptD)Spyder答案:A解析:[单选题]33.以下哪个不是Python关键字()。A)fromB)assertC)notD)final答案:D解析:[单选题]34.关于Pandas中数据排序,下列说法正确的是()。A)即可以按照行索引排序,也可以按照列索引排序B)sort_index()方法表示按照值进行排序C)sort_values()方法表示按照索引进行排序D)默认情况下,sort_index()方法按照降序排列答案:A解析:[单选题]35.在支持向量机中,(__)允许支持向量机在一些样本上出错。A)硬间隔B)软间隔C)核函数D)拉格朗日乘子法答案:B解析:[单选题]36.LSTM中门的输出是()之间的实数向量。A)0到1B)1到-1C)0到-1D)1到2答案:A解析:[单选题]37.以下关于决策树的说法错误的是()。A)冗余属性不会对决策树的精确率造成不利的影响B)子树可能在决策树中重复多次C)决策树对于噪声的干扰非常敏感D)寻找最佳决策树是NP完全问题答案:C解析:[单选题]38.半监督学习包括__。A)纯半监督学习B)主动学习C)回归学习D)分类学习、答案:A解析:[单选题]39.所有预测模型在广义上都可称为一个或一组(__)。A)公式B)逻辑C)命题D)规则答案:D解析:[单选题]40.以下对Volume相关描述不正确的是()。A)Volume是指数据量大B)就目前而言,当数据量达到拍字节以上时,一般称为大数据C)大数据时间分布是均匀的D)数据量大是相对计算与存储能力而定的答案:C解析:[单选题]41.计算机初始状态能识别(__)上的基本信息。A)像素点B)每个物体C)背景D)前景答案:A解析:[单选题]42.下面对范数规则化描述错误的是(__)。A)L0是指向量中0的元素的个数B)L1范数是指向量中各个元素绝对值之和C)L2范数向量元素绝对值的平方和再开平方D)L0是指向量中非0的元素的个数答案:A解析:[单选题]43.在OpenCV中加载特征数据集的函数是()。A)read_csv()B)input()C)CascadeClassifier()D)imshow()答案:C解析:[单选题]44.下列函数中,用于计算整数的绝对值的是()。A)square()B)sqrt()C)abs()D)floor()答案:C解析:[单选题]45.以下场景中,属于机器学习的是?A)让机器检测地震活动B)电脑运行仿生程序C)电脑作为计算器使用D)通过对不同阶段的西瓜照片进行识别,让机器能辨别熟西瓜答案:D解析:[单选题]46.以下对信息描述不正确的是()。A)信息与能源、材料属于同一层次的概念B)信息是客观的存在C)信息是人类社会赖以生存和发展的三大资源之一D)信息是对数据进行计量形成的记录答案:D解析:[单选题]47.关于哑变量的说法中,下列选项描述错误的是()。A)哑变量是人为虚设的变量B)哑变量在转换成指标矩阵后,其值通常为0或1C)Pnadas中get_dummies()函数可以对类别进行哑变量处理D)哑变量的使用没有实际意义答案:D解析:[单选题]48.令N为数据集的大小[注:设训练样本(xi,yi),N即训练样本个数],d是输入空间的维数(注:d即向量xi的维数)。硬间隔SVM问题的原始形式[即在不等式约束(yi(wTxi+b)≥1)下最小化(1/2)wTw]在没有转化为拉格朗日对偶问题之前,是()。A)一个含N个变量的二次规划问题B)一个含N+1个变量的二次规划问题C)一个含d个变量的二次规划问题D)一个含d+1个变量的二次规划问题答案:D解析:欲找到具有最大间隔的划分超平面,也就是要找到能满足题中不等式约束的参数w和b,是一个含d+1个变量的二次规划问题。[单选题]49.强化学习()。A)也称为有教师学习B)需要经验数据C)数据要是成对的D)不需要预备知识答案:D解析:[单选题]50.假如使用一个较复杂的回归模型来拟合样本数据,使用Ridge回归,调试正则化参数λ,来降低模型复杂度。若λ较小时,关于偏差(bias)和方差(variance),下列说法正确的是?A)若λ较小时,偏差减小,方差减小B)若λ较小时,偏差减小,方差增大C)若λ较小时,偏差增大,方差减小D)若λ较小时,偏差增大,方差增大答案:B解析:[单选题]51.支持向量机的优化问题是最小化的平方,这实现了(__)。A)几何间隔为1/的最大间隔超平面B)几何间隔为的最大间隔超平面C)几何间隔为1/的最小间隔超平面D)几何间隔为的最小间隔超平面答案:A解析:[单选题]52.将闵可夫斯基距离和(__)结合即可处理混合属性。A)ValueDifferenceMectricB)k-meansC)k近邻D)SVM答案:A解析:[单选题]53.盲目搜索策略不包括下列那个()A)广度优先搜索B)深度优先搜索C)有界深度优先搜索D)全局择优搜索答案:D解析:[单选题]54.决策树中,同一路径上的所有属性之间是()关系。A)因果B)相关C)逻辑或D)逻辑与答案:D解析:[单选题]55.当(__)过高,会出现欠拟合现象A)偏差B)方差C)噪声D)泛化误差答案:A解析:[单选题]56.给定的数据集包括?胡佛塔?和其他一些塔的图像。现在要使用PCA(特征脸)和最近邻方法来构建一个分类器,可以预测新图像是否显示?胡佛塔?。该图给出了输入的训练图像样本alt="">为了从?特征脸?算法获得合理的性能,这些图像将需要什么预处理步骤?A)1B)2C)1和2D)都不是答案:C解析:[单选题]57.假设我们有一个使用ReLU激活函数(ReLUactivationfunction)的神经网络,假如我们把ReLU激活替换为线性激活,那么这个神经网络能够模拟出同或函数(XNORfunction)吗?A)可以B)不好说C)不一定D)不能答案:D解析:[单选题]58.对OpenCV中的rectangle()说法正确的是()。A)可以用来绘制三角形B)可以用来绘制圆形C)可以用来绘制多边形D)可以用来绘制矩形答案:D解析:第2部分:多项选择题,共17题,每题至少两个正确答案,多选或少选均不得分。[多选题]59.下列属于实现朴素贝叶斯使用方式的为A)若对预测速度要求较高,可采用朴素贝叶斯估计所有涉及Giallo;B)若任务数据更替频繁,结合懒惰学习采用;C)若数据不断增加,则可在估计值基础上,对新增样本的属性所涉及概率估计;D)属性相关事件上采用;答案:ABC解析:[多选题]60.集成学习中多样性的增强有哪些___A)数据样本扰动B)输入属性扰动C)输出表示扰动D)算法参数扰动答案:ABCD解析:[多选题]61.数据科学的(__)往往来自于统计学。A)理论B)方法C)技术D)工具答案:ABCD解析:[多选题]62.影响基本K-均值算法的主要因素有()A)样本输入顺序B)模式相似性测度C)聚类准则D)初始类中心的选取答案:ABD解析:关于A,具体推导详见《模式识别》的动态聚类算法,书中提到,这是一个局部搜索算法,不能保证得到全局最优解,算法结果受初始值和样本调整顺序的影响。也就是说如果在迭代的过程中,数据集不够随机,很容易陷入局部最优。[多选题]63.在当下比较流行的分布式数据处理平台Spark中,有一些常用的高阶算子,比如说flatMap,filter,groupByKey等等;它们中的某些算子会触发shuffle操作,所谓shuffle,粗略的可以理解为要处理的数据集的内部分区需要进行重排,而不是原地计算。下面哪个算子会引起shuffle?()A)mapB)countC)sortByKeyD)join答案:CD解析:[多选题]64.深度学习方法不适用于的场景有()。A)数据样本充足B)数据样本不足C)数据集具有局部相关特性D)数据集没有局部相关特性答案:BD解析:以下数据集不适合用深度学习:①数据集太小,数据样本不足时,深度学习相对其他机器学习算法没有明显优势。②数据集没有局部相关特性,目前深度学习表现比较好的领域主要是图像/语音/自然语言处理等领域,这些领域的一个共性是局部相关性。图像中像素组成物体,语音信号中音位组合成单词,文本数据中单词组合成句子,这些特征元素的组合一旦被打乱,表示的含义同时也被改变。对于没有这样的局部相关性的数据集,不适于使用深度学习算法进行处理。[多选题]65.以下属于聚类算法的是:A)K均值B)DBSCANC)AprioriD)朴素贝叶斯答案:AB解析:[多选题]66.从形式语言表达能力而言,规则可分为两类:(__)和(__)。A)命题规则B)一阶规则C)原子命题D)逻辑连接词答案:AB解析:[多选题]67.集成学习学习中多样性的度量(用于度量集成中个体分类器的多样性)有哪些___A)不合度量B)相关系数C)Q-统计量D)к-统计量答案:ABCD解析:[多选题]68.聚类旨在发现有用的对象簇,在现实中我们用到很多的簇的类型,使用不同的簇类型划分数据的结果是不同的,常见的簇类型有()A)明显分离的簇B)基于中心的簇C)基于邻近的簇D)基于密度的簇答案:ABCD解析:[多选题]69.纠错输出码编码越长__。A)纠错能力越强B)分类器越多C)计算开销增大D)存储开销增大答案:ABCD解析:[多选题]70.下列属于朴素贝叶斯分类器的特点的是(__)。A)算法逻辑简单,易于实现B)算法逻辑复杂,不易于实现C)分类过程中时空开销小D)分类过程中时空开销大答案:AC解析:[多选题]71.下列关于ROC曲线描述正确的是(__)。A)ROC曲线又叫等感受曲线B)ROC曲线离纯机遇线越远,表明被试的辨别力越强C)辨别力不同的被试的ROC曲线也不同。D)辨别力不同的被试的ROC曲线相同。答案:ABC解析:[多选题]72.以下关于正则化的描述正确的是()A)正则化可以防止过拟合B)L1正则化能得到稀疏解C)L2正则化约束了解空间D)Dropout也是一种正则化方法答案:ABCD解析:[多选题]73.有两种策略常用来缓解BP网络的过拟合,分别是(__)和(__)。A)晚停B)早停C)正则化D)加入损失函数答案:BC解析:[多选题]74.数据集成可以分为(__)。A)内容集成B)结构集成C)模式集成D)概念集成答案:AB解析:[多选题]75.下列关于Boosting算法说法正确的是(__)。A)Boosting算法要求基学习器能对特定的数据分布进行学习B)Boosting对无法接受带权样本的基学习算法,可通过重采样法进行处理C)Boosting算法在训练的每一轮都要检查当前生成的基学习器是否满足基本条件D)一旦当前生成的基学习器不满足条件,则当前基学习器被抛弃,且学习过程停止答案:ABCD解析:第3部分:判断题,共12题,请判断题目是否正确。[判断题]76.DataFrame的结构是由索引和数据组成的。A)正确B)错误答案:对解析:[判断题]77.Logistic回归和Softmax回归都只能处理二元分类问题A)正确B)错误答案:错解析:[判断题]78.K近邻学习没有显式的训练过程,属于?懒惰学习?。此类学习技术在训练阶段仅仅是把样本保存起来,训练时间开销为零,待收到测试样本后再进行处理A)正确B)错误答案:对解析:[判断题]79.神经网络算法不能用于数据降维A)正确B)错误答案:错解析:[判断题]80.监督学习的数据必须要带标签等人为标注信息A)正确B)错误答案:对解析:[判断题]81.在训练完SVM之后,我们可以只保留支持向量,而舍去所有非支持向量。仍然不会影响模型分类能力。这句话是否正确?A)正确B)错误答案:对解析:本题考查的是对支持向量机SVM的概念理解。[判断题]82.梯度下降算法中,学习率小会影响损失函数收敛于最小值的速度A)正确B)错误答案:对解析:[判断题]83.ID3依据信息增益比做特征选择,而C4.5依据基尼指数做特征选择A)正确B)错误答案:错解析:[判断题]84.岭回归是对线性回归的优化,在线性回归的基础上,对损失函数增加了一个L2正则项,目的是降低方差,提高模型泛化能力。A)正确B)错误答案:对解析:[判断题]85.深度学习通过深度神经网的多层处理,将初始的?低层?特征表示转化为?高层?特征表示,用?简单模型?即可完成复杂的分类等学习任务A)正确B)错误答案:对解析:[判断题]86.根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为监督学习A)正确B)错误答案:错解析:[判断题]87.监督学习是从标记的训练数据来推断一个功能的机器学习任务A)正确B)错误答案:对解析:第4部分:问答题,共9题,请在空白处填写正确答案。[问答题]88.反映事件或对象在某方面的表现或性质的事项,例如?色泽?等,称为?属性?(attribute)或?特征?(feature),属性上的取值,例如?青绿??乌黑?,称为()。答案:属性值解析:[问答题]89.三种常用的替代损失函数包括hinge损失,损失,损失答案:指数解析:[问答题]90.神经网络模型按照网络的结构可分为前馈型和()。答

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论