人工智能机器学习技术练习(习题卷11)_第1页
人工智能机器学习技术练习(习题卷11)_第2页
人工智能机器学习技术练习(习题卷11)_第3页
人工智能机器学习技术练习(习题卷11)_第4页
人工智能机器学习技术练习(习题卷11)_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:人工智能机器学习技术练习人工智能机器学习技术练习(习题卷11)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能机器学习技术练习第1部分:单项选择题,共61题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.回归问题的评价指标中MAE是指()A)均方根误差B)均方误差C)平均绝对误差答案:C解析:[单选题]2.SVM在()情况下表现糟糕。A)线性可分数据B)清洗过的数据C)含噪声数据与重叠数据点答案:C解析:[单选题]3.(__)是一种著名的过滤式特征选择方法。A)k-meansB)k近邻C)支持向量机D)Relief答案:D解析:[单选题]4.(__)对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性进行划分。A)AdaBoostB)RFC)BaggingD)传统决策树答案:B解析:[单选题]5.以下哪项方法不属于汉语分词方法?()A)双向扫描法B)正向最大匹配法C)逐词遍历法D)词向量匹配法答案:D解析:[单选题]6.下面哪项不是常用的自然语言处理技术:()A)词条化B)词性标注C)句法分析D)交叉验证答案:D解析:[单选题]7.在K-摇臂赌博机中,若尝试次数非常大,在一段时间后,摇臂的奖赏能很好的近似出来,不再需要探索,则可让ε随着尝试次数增加而A)增大B)置为无穷C)置为0D)减少答案:D解析:[单选题]8.在一个神经网络里,确定每一个神经元的权重和偏差是模型拟合训练样本的目标,比较有效的办法是什么()A)根据人工经验随机赋值B)搜索所有权重和偏差的组合,直到得到最佳值C)赋予一个初始值,然后迭代更新权重,直至代价函数取得极小D)以上都不正确答案:C解析:[单选题]9.采样分析的精确性随着采样随机性的增加而(),但与样本数量的增加关系不大。A)降低B)不变C)提高D)无关答案:C解析:采样分析的精确性随着采样随机性的增加而提高,但与样本数量的增加关系不大。当样本数量达到某个值后,我们从新个体上得到的信息会越来越少。[单选题]10.2.当训练集很多时,一种更为强大的结合策略是使用(),即通过另一个学习器来进行结合。A)学习法B)平均法C)投票法D)加权投票法答案:A解析:[单选题]11.下面不属于探索性统计中常用集中趋势统计量的是(__)。A)和B)方差C)平均数D)四分位数答案:B解析:[单选题]12.下图中判断未知绿圆的类别,体现了哪个机器学习算法的思想?()A)决策树B)贝叶斯分类器C)支持向量机D)K近邻算法答案:D解析:[单选题]13.下面关于决策树学习相关描述不正确的有(__)。A)决策树学习的本质是一种逼近离散值目标函数的过程B)决策树的根节点表示分类的开始C)中间节点表示某一个属性的属性值D)从根节点到叶节点的路径表示一个具体的实例答案:C解析:[单选题]14.有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是()A)2x+y=4B)x+2y=5C)x+2y=3D)以上都不对答案:C解析:[单选题]15.关于ndarray对象属性,下列描述错误的是()。A)ndim属性表示数组轴的个数B)shape属性表示每个维度上数组的大小C)size属性表示数组元素的总个数,等于shape属性元组元素的和D)dtype属性表示数组中元素类型的对象答案:C解析:size属性表示数组元素的总个数,等于shape属性元组元素的乘积[单选题]16.贝叶斯决策的最优分类面是(__)。A)线性的B)非线性的C)不可构造的D)不存在的答案:A解析:[单选题]17.交叉验证的目的是(__)。A)提高分类准确率B)得到更稳定的模型C)验证结果的准确性D)增大分类的误差答案:B解析:[单选题]18.下列方法中没有考虑先验分布的是()A)最大后验估计B)贝叶斯分类器C)贝叶斯学习D)最大似然估计答案:D解析:[单选题]19.下面那种2D变换有可能破坏平行性(平行的线变换后不再平行)的是()?A)刚性变换B)投影变换C)相似变换D)仿射变换答案:B解析:[单选题]20.贝叶斯网结构有效地表达了属性的(__)。A)相互制约性B)条件独立性C)取值D)含义答案:B解析:[单选题]21.以下关于感知器说法错误的是:()A)感知器中的偏置只改变决策边界的位置B)可为感知器的输出值设置阈值使其用于处理分类问题C)单层感知器可以用于处理非线性学习问题D)感知器是最简单的前馈式人工神经网络答案:C解析:[单选题]22.在支持向量机中,核函数的主要作用是(__)。A)将低维空间中线性不可分的数据映射到高维空间,使其线性可分B)将高维空间中线性不可分的数据映射到低维空间,使其线性可分C)将高维空间中线性可分的数据映射到低维空间,使其线性不可分D)将低维空间中线性可分的数据映射到高维空间,使其线性不可分答案:A解析:[单选题]23.以下描述中,能够使神经网络模型成为深度学习模型的处理是(A)设置很多层,使神经网络的深度增加B)处理一个图形识别的问题C)有维度更高的数据D)以上都不正确答案:A解析:[单选题]24.变量消去的缺点有A)会造成冗余计算B)精准率不高C)不能解决多边界分布问题D)不直观答案:A解析:[单选题]25.下面关于数据产品开发相关描述正确的有(__)。A)数据科学家的主要职责是?数据的管理?B)数据科学家一定是科学家C)?数据码农?可以胜任数据科学家D)数据科学家是为解决现实世界中问题提供直接指导、依据或参考的高级专家答案:D解析:[单选题]26.下面关于贝叶斯学习相关描述正确的有(__)。A)贝叶斯学习等价于频数概率B)频数概率引入先验知识和逻辑推理来处理不确定问题C)贝叶斯学习只从数据本身获得结论D)贝叶斯学习是一种以贝叶斯法则为基础的,并通过概率手段进行学习的方法答案:D解析:[单选题]27.下列关于bootstrap说法正确的是?A)从总的M个特征中,有放回地抽取m个特征(m<M)B)从总的M个特征中,无放回地抽取m个特征(m<M)C)从总的N个样本中,有放回地抽取n个样本(n<N)D)从总的N个样本中,无放回地抽取n个样本(n<N)答案:C解析:bootstrap的思想是从已有的数据集中模拟出类似但又不完全一样的数据集。主要是针对没有足够数据来训练多个模型的情况。Bootstrap的做法是,假设有N笔资料D,先从中选出一个样本,再放回去,再选择一个样本,再放回去,共重复n次。这样我们就得到了一个新的n笔资料D',这个新的数据集中可能包含原数据集里的重复样本点,也可能没有原数据集里的某些样本,D'与D类似但又不完全相同。值得一提的是,抽取-放回的操作次数不一定非要是N,次数可以任意设定。例如原始样本有10000个,我们可以抽取-放回3000次,得到包含3000个样本的D'也是完全可以的。[单选题]28.常用的本地文件格式不包括()A)TXT文件B)Excel文件C)CSV文件D)DOT文件答案:D解析:[单选题]29.下面不属于客户服务的有(__)。A)ravelB)medalliaC)gainsightD)frame.ai答案:A解析:[单选题]30.(__)就是把已知物体的模板与图像中所有未知物体进行比较,如果某一未知物体与该模板匹配,则该物体被检测出来,并被认为是与模板相同的物体。A)统计法B)句法识别法C)神经网络法D)模板匹配法答案:D解析:[单选题]31.(__)的学习目的是生成一颗泛化能力强,即处理未见示例能力强的决策树。A)线性回归B)贝叶斯分类器C)神经网络D)决策树答案:D解析:[单选题]32.假定有一个数据集S,但该数据集有很多误差,采用软间隔SVM训练,阈值为C,如果C的值很小,以下那种说法正确()A)会发生误分类现象B)数据将被正确分类C)不确定D)以上都不对答案:A解析:[单选题]33.解线性方程组时,若因变量过多,则会解出多组解都能使均方误差最小化,选择哪一个解,常见的做法是引入__。A)剪枝B)对数线性回归C)极大似然法D)正则化答案:D解析:[单选题]34.机器学习的流程包括:分析案例、数据获取、________和模型验证这四个过程。A)数据清洗B)数据分析C)模型训练D)模型搭建答案:C解析:[单选题]35.机器学习中L1正则化和L2正则化的区别是()。A)使用L1可以得到稀疏的权值,使用L2可以得到平滑的权值B)使用L1可以得到平滑的权值,使用L2可以得到平滑的权值C)使用L1可以得到平滑的权值,使用L2可以得到稀疏的权值D)使用L1可以得到稀疏的权值,使用L2可以得到稀疏的权值答案:A解析:使用L1可以得到稀疏的权值,使用L2可以得到平滑的权值。[单选题]36.关于累加器,下面哪个是错误的()。A)支持加法B)支持数值类型C)可并行D)不支持自定义类型答案:D解析:[单选题]37.决策树是基于(__)结构来进行决策的。A)树B)链C)队列D)栈答案:A解析:[单选题]38.支持向量机优化问题的形式是(__)。A)一个不含约束的二次规划问题B)一个含有等式约束的二次规划问题C)一个含有不等式约束的二次规划问题D)一个含有不等式约束的线性规划问题答案:C解析:[单选题]39.在NumPy通用函数中,用于计算元素级最大值的函数是()。A)maxB)maximumC)minD)maximal答案:B解析:[单选题]40.下列关于Pandas库的说法中正确的是()。A)Pandas中只有两种数据结构B)Pandas不支持读取文本数据C)Pandas是在NumPy基础上建立的新程序库D)Pandas中Series和DataFrame可以解决数据分析中一切的问题答案:C解析:除了书中介绍的两种常见数据结构,Pandas中还有另一种数据结构Panel[单选题]41.下列关于线性回归分析中的残差(Residuals)说法正确的是?A)残差均值总是为零B)残差均值总是小于零C)残差均值总是大于零D)以上说法都不对答案:A解析:线性回归分析中,目标是残差最小化。残差平方和是关于参数的函数,为了求残差极小值,令残差关于参数的偏导数为零,会得到残差和为零,即残差均值为零。[单选题]42.假设你需要调整超参数来最小化代价函数(costfunction),会使用下列哪项技术?A)穷举搜索B)随机搜索C)Bayesian优化D)都可以答案:D解析:[单选题]43.下列关于泛化误差与偏差、方差和噪音之间的关系,表述正确的是(__)。A)泛化误差=偏差+方差-噪音B)泛化误差=偏差-方差+噪音C)泛化误差=偏差-方差-噪音D)泛化误差=偏差+方差+噪音答案:D解析:[单选题]44.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:A)18.3B)22.6C)26.8D)27.9答案:A解析:[单选题]45.如右图所示有向图,以下陈述正确的有()A)B和G关于{C,F}条件独立B)B和C关于F条件独立C)B和G关于F条件独立D)B和G关于{C,F,H}条件独立答案:A解析:[单选题]46.下列关于过拟合现象的描述中,哪个是正确的()A)训练误差小,测试误差大B)训练误差小,测试误差小C)模型的泛化能力高D)其余选项都不对答案:A解析:[单选题]47.下面关于数据加工相关描述不正确的有(__)。A)数据加工是数据科学中关注的新问题之一B)数据加工是为了提升数据质量、降低数据计算复杂度C)数据科学中数据加工就是传统数据处理D)数据脱敏属于数据加工答案:C解析:[单选题]48.已知一个数据集,n为特征数,m为训练样本数,如果n较小,而且m大小中等(例如n为1~1000,而m为10~10000),则一般选择()。A)逻辑回归模型B)不带核的支持向量机C)高斯核的支持向量机D)多项式核的支持向量机答案:C解析:高斯核函数需要选择合适的sigma²参数,适用于少量特征,大量样本的情况,可以拟合出非常复杂的非线性决策边界。[单选题]49.(__)是指为最小化总体风险,只需在每个样本上选择能使特定条件风险最小的类别标记。A)支持向量机B)间隔最大化C)线性分类器D)贝叶斯判定准则答案:D解析:[单选题]50.设X={1,2,3}是频繁项集,则可由X产生()个关联规则A)4B)5C)6D)7答案:C解析:[单选题]51.BP算法总结错误的是()。A)当前层的连接权值梯度,取决于当前层神经元阈值梯度和上一层神经元输出B)算法只要知道上一层神经元的阈值梯度,就能计算当前层神经元的阈值梯度和连接权值梯度C)隐层的阈值梯度只跟本层的神经元输出值有关D)隐层阈值梯度取决于隐层神经元输出、输出层阈值梯度和隐层与输出层的连接权值答案:C解析:[单选题]52.关于OLAP的特性,下面正确的是:(1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性A)(2)(3)B)(3)(4)C)(2)(3)(4)D)(2)(3)(4)(5)答案:D解析:[单选题]53.一般而言,在个体学习器性能相差较大时宜使用(),而在个体学习器性能相近时宜使用()。A)简单平均法,加权平均法B)加权平均法,简单平均法C)简单平均法,简单平均法D)加权平均法,加权平均法答案:B解析:[单选题]54.算法性能显著不同时,需要进行__来进一步区分各算法。A)后续检验B)Friedman检验C)交叉验证t检验D)McNemar检验答案:A解析:[单选题]55.在二分类问题中,当测试集的正例和负例数量不均衡时,以下评价方案哪个是相对不合理的()(假设precision=TP/(TP+FP),recall=TP/(TP+FN)。)A)Accuracy:(TP+TN)/allB)F-value:2recallprecision/(recall+precision)C)G-mean:sqrt(precision*recall)D)AUC:ROC曲线下面积答案:A解析:对于分类器,主要的评价指标有precision,recall,F-score,以及ROC曲线等。在二分类问题中,我们主要关注的是测试集的正样本能否正确分类。当样本不均衡时,比如样本中负样本数量远远多于正样本,此时如果负样本能够全部正确分类,而正样本只能部分正确分类,那么(TP+TN)可以得到很高的值,也就是Accuracy是个较大的值,但是正样本并没有取得良好的分类效果。因此A选项是不合理的。在样本不均衡时,可以采用BCD选项方法来评价。[单选题]56.Transformer架构首先是由下列哪项引入的?A)GloVeB)BERTC)OpenAI?sGPTD)ULMFit答案:C解析:[单选题]57.对档案内容进行主题分析并将表达这种主题的自然语言转换成档案信息处理语言,使之成为()的过程叫?标引?A)文摘B)检索标识C)目录D)索引答案:B解析:[单选题]58.决策树中不包含以下哪种节点?()A)根节点B)内部节点C)外部节点D)叶节点答案:C解析:第2部分:多项选择题,共18题,每题至少两个正确答案,多选或少选均不得分。[多选题]59.人工神经元网络包括()A)输出层B)中间隐藏层C)映射层D)输入层答案:ABD解析:[多选题]60.以下关于L1和L2范数的描述,正确的是()。A)L1范数为x向量各个元素绝对值之和。B)L2范数为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或Frobenius范数C)L1范数可以使权值稀疏,方便特征提取D)L2范数可以防止过拟合,提升模型的泛化能力。答案:ABCD解析:L0是指向量中非0的元素的个数,L1范数是指向量中各个元素绝对值之和,L2范数向量元素绝对值的平方和再开平方。L1范数可以使权值稀疏,方便特征提取。L2范数可以防止过拟合,提升模型的泛化能力。[多选题]61.下面哪些是spark比Mapreduce计算快的原因()A)基于内存的计算B)基于DAG的调度框架C)基于Lineage的容错机制D)基于分布式计算的框架答案:ABC解析:[多选题]62.以下对数据描述正确的是()。A)数据只包含显性数据和隐性数据B)数值是数据的一种形式C)数据到智慧是人们认知提升的过程D)数据是现实世界的记录答案:BCD解析:[多选题]63.在统计模式识分类问题中,当先验概率未知时,可以使用()?A)最小损失准则B)N-P判决C)最小最大损失准则D)最小误判概率准则答案:BC解析:[多选题]64.当同一个示例被判别结果不同的多条规则覆盖时,称发生了冲突,解决冲突的办法称为冲突消解,常用的冲突消解策略有A)投票法B)排序法C)元规则法D)因式分解法答案:ABC解析:[多选题]65.数据挖掘的主要功能包括概念描述、趋势分析、孤立点分析及()等方面。A)关联分析B)分类和预测C)聚类分析D)偏差分析答案:ABCD解析:[多选题]66.特征选择的目的是()。A)减少特征数量、降维B)使模型泛化能力更强C)增强模型拟合能力D)减少过拟合。答案:ABD解析:特征选择的主要目的是减少特征的数量、降低特征维度、使模型泛化能力更强、减少过拟合。[多选题]67.数据科学的基本流程包含(__)。A)数据产品的提供B)数据应用C)结果展示D)数据可视化答案:AC解析:[多选题]68.在某神经网络的隐层输出中,包含-1.5,那么该神经网络采用的激活函数不可能是()A)SigmoidB)TanhC)ReluD)LeakyRelu答案:ABC解析:[多选题]69.下面属于数据加工的有(__)。A)数据审计B)数据清洗C)数据变换D)数据集成答案:ABCD解析:[多选题]70.深度学习可进一步分为(__)。A)无监督和生成式学习深度网络B)半监督深度神经网络C)监督学习深度网络D)混合深度网络答案:ACD解析:[多选题]71.从方法论角度,基于统计的数据分析方法可以分为(__)。A)基本分析方法B)自适应分析方法C)元分析方法D)判别模型分析方法答案:AC解析:[多选题]72.特征向量的缺失值处理:缺失值较多,直接将该特征舍弃掉,否则可能反倒会带入较大的noise,对结果造成不良影响;缺失值较少,其余的特征缺失值都在10%以内,我们可以采取的处理方式有()。A)把NaN直接作为一个特征,假设用0表示B)用均值填充C)用随机森林等算法预测填充D)以上答案都不正确答案:ABC解析:缺失值较少的处理方法;①把NAN直接作为一个特征,假设用0表示;②用均值填充;③用随机森林等算法预测填充;④用插值法填充。[多选题]73.以下可行的最近邻分类的加速方案()A)分层搜索B)训练样本缩减C)样本增加D)非线性投影答案:AB解析:[多选题]74.知识图谱在现代搜索引擎中有广泛应用,下面哪些可能是属于知识图谱构建过程中包含的内容?()**A)实体及关系抽取B)实体属性抽取C)半结构化信息抽取D)结构化数据融合答案:ABCD解析:[多选题]75.分类评估指标中的AUC()A)AUC=1,表示分类器是完美的B)AUC=0.5,表示分类器是可用的C)AUC<0.5,表示分类器不可用D)0.5<AUC<1,表示分类器优于随机猜测答案:ACD解析:第3部分:判断题,共12题,请判断题目是否正确。[判断题]76.ndarray对象中存储元素的类型必须是相同的。A)正确B)错误答案:对解析:[判断题]77.使用pip命令也可以查看Anconda安装的包。A)正确B)错误答案:对解析:[判断题]78.模型泛化能力与训练样本数量无关A)正确B)错误答案:错解析:[判断题]79.EM算法用于训练样本完整的情况下进行估计A)正确;B)错误;答案:错解析:[判断题]80.知识图谱中的三元组遵从一种三阶谓词逻辑的表达形式。()A)正确B)错误答案:错解析:[判断题]81.BP算法的正向传播是为获取训练误差。A)正确B)错误答案:对解析:[判断题]82.列表、元组和字符串属于有序序列,其中的元素有严格的先后顺序。A)正确B)错误答案:对解析:[判断题]83.在K近邻算法中,投票法是指选择k个距离最近的样本,将这K个样本中出现最多的类别标记作为预测结果A)正确B)错误答案:对解析:[判断题]84.回归方法是对离散型随机变量建模或预测的监督学习方法A)正确B)错误答案:错解析:[判断题]85.两个变量相关,它们的相关系数r可能为0。这句话()。A)正确B)错误答案:对解析:Pearson相关系数r=0,这表示两个变量间不存在线性相关关系。[判断题]86.寻找最优超参数费时费力,应该在模型训练之前就指定最优参数。A)正确B)错误答案:错解析:[判断题]87.输出变量为连续变量的预测问题是分类问题A)正确B)错误答案:错解析:第4部分:问答题,共9题,请在空白处填写正确答案。[问答题]88.若训练过程的目标是预测离散值,此类任务称为()。答案:分类解析:[问答题]89.简述标准BP算法和累计BP算法的缺点答案:累积BP算法与标准BP算法都很常用.一般来说,标准BP算法每次更新只针对单个样例?参数更新得非常频繁,而且对不同样例进行更新的效果可能出现"抵消"现象.因此,为了达到同样的累积误差极小点标准BP算法往往需进行更多次数的法代.累积BP算法直接针对累积误差最小化,它在卖取整个训练集一遍后才对参数进行更新,其参数更新的频率低得多.但在很多任务中,累积误差下降到一定程度之后,进一步下降会非常缓慢,这时标准BP往往会更快获得较好的解,尤其是在训练非常大时更明显.解析:[问答题]90.给定一定数量的红细胞、白细胞图像以及它们对应的标签,设计出一个红、白细胞分类器,这属于学习。答案:监督解析:[问答题]91.为什么需要对输入数据进行归一化处理,或者说,进行归一化处理有什么好处?答案:原因在于机器学习的本质就是为了学习数据分布,一旦训练数据与测试数据的分布不同,那么模型的泛化能力也会大大降低,所以需要对输入数据进行归一化处理,从而使训练数据与测试数据的分布相同。解析:[问答题]92.什么是神经网络的梯度消失问题,为什么会有梯度消失问题?有什么办法能缓解梯度消失问题?答案:在反向传播算法计算每一层的误差项的时候,需要乘以本层激活函数的导数值,如果导数值接近于0,则多次乘积之后误差项会趋向于0,而参数的梯度值通过误差项计算,这会导致参数的梯度值接近于0,无法用梯度下降法来有效的更新参数的值。改进激活函数,选用更不容易饱和的函数,如ReLU函数。解析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论