版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试卷科目:人工智能机器学习技术练习人工智能机器学习技术练习(习题卷16)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能机器学习技术练习第1部分:单项选择题,共58题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.以下哪个操作可能会产生大量小文件A)mapper数较多的map-only任务B)reduer数较多的任务C)从海量数据中过滤出符合条件的少量数据答案:C解析:[单选题]2.线性回归和逻辑回归中,关于损失函数对权重系数的偏导数,下列说法正确的是?A)两者不一样B)两者一样C)无法确定答案:B解析:[单选题]3.正常建立一条TCP连接需要()个步骤,正常关闭一个TCP连接需要()个步骤A)3,3B)3,4C)4,4D)4,3答案:B解析:[单选题]4.让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,就是(__)。A)有监督学习B)全监督学习C)无监督学习D)半监督学习答案:D解析:[单选题]5.关于OLAP和OLTP的说法,下列不正确的是:A)OLAP事务量大,但事务内容比较简单且重复率高.B)OLAP的最终数据来源与OLTP不一样.C)OLTP面对的是决策人员和高层管理人员.D)OLTP以应用为核心,是应用驱动的.答案:A解析:[单选题]6.关于基本数据的元数据是指:A)基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B)基本元数据包括与企业相关的管理方面的数据和信息;C)基本元数据包括日志文件和简历执行处理的时序调度信息;D)基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.答案:D解析:[单选题]7.Zookeeper-Stat结构体中dataLength是()A)znode数据变化号B)znode访问控制列表的变化号C)znode子节点数量D)znode的数据长度答案:D解析:[单选题]8.关于k折交叉验证,下列说法正确的是?A)k值并不是越大越好,k值过大,会降低运算速度B)选择更大的k值,会让偏差更小,因为k值越大,训练集越接近整个训练样本C)选择合适的k值,能减小验方差D)以上说法都正确答案:D解析:机器学习中,在样本量不充足的情况下,为了充分利用数据集对算法效果进行测试,将数据集随机分为k个包,每次将其中一个包作为测试集,剩下k-1个包作为训练集进行训练。K折交叉验证的的k值不能太大,也不能太小。k值过大,会降低运算速度。若k与样本数量N相同,则是留一法(Leave-One-Out)。k值较大,训练集越接近整个训练样本,有利于减小模型偏差(bias)。一般可以将k作为超参数调试,根据表现选择合适的k值。K折交叉验证能够有效提高模型的学习能力,类似于增加了训练样本数量,使得学习的模型更加稳健,鲁棒性更强。选择合适的k值能够有效避免过拟合。[单选题]9.()不可以直接来对文本分类。A)K-meansB)决策树C)支持向量机D)KNN答案:A解析:K-means是聚类方法,属于无监督学习。BCD都是常见的分类方法。[单选题]10.以下描述不正确的是()。A)文本是半结构化数据B)非结构化数据是数据科学与传统数据管理的主要区别C)视频是非结构化数据D)目前,非结构化数据占比最大答案:A解析:[单选题]11.Keras主要用于哪一方面A)神经网络B)非结构化数据存储C)数据可视化D)数据管理答案:A解析:[单选题]12.主成分分析的优化目标是一个(__)。A)不含约束条件的二次规划问题B)含有约束条件的二次规划问题C)不含约束条件的线性规划问题D)含有约束条件的线性规划问题答案:B解析:[单选题]13.已知数组trans_cnt[1,2,3,4],trans_cnt[2]代表的是哪一个元素:A)1B)2C)3D)4答案:C解析:[单选题]14.多项式分布的共轭分布是()A)正态分布B)Dirichlet分布C)Beta分布D)指数分布答案:B解析:[单选题]15.(__)假设聚类结构能通过一组原型刻画,在显示聚类任务中极为常用。A)原型聚类B)密度聚类C)层次聚类D)AGNES答案:A解析:[单选题]16.标准AdaBoost只适用于____任务A)多分类B)二分类C)回归D)分类答案:A解析:[单选题]17.以下哪一项给出了逻辑回归与LDA之间的差异?A)1B)2C)1和2D)都不是答案:C解析:[单选题]18.可用信息增益来进行决策树的()。A)树高B)叶子结点数C)总结点数D)划分属性选择答案:D解析:[单选题]19.GRU和LSTM的说法正确的是()A)GRU通过outputgate控制memory;B)LSTM对memory不做控制,直接传递给下一个unitC)GRU不对上一时刻的信息做任何控制;D)GRU的参数比LSTM的参数少;答案:D解析:[单选题]20.以下有关机器学习理解不正确的是()。A)查询大量的操作数据去发现新的信息B)从大量的业务数据中分析有兴趣的新颖知识辅助决策的过程C)机器学习的结果不一定能辅助决策D)需要借助统计学或机器学习的一些算法答案:A解析:[单选题]21.以下表达式书写错误的是A)year('2015-12-3112:21')B)month(2015-10-31)C)day('2015-12-11')D)date_sub('2015-12-01',3)答案:B解析:[单选题]22.如果我们现有一个安装2.6.5版本的hadoop集群,在不修改默认配置的情况下存储200个每个200M的文本文件,请问最终会在集群中产生多少个数据块(包括副本)?A)200B)40000C)400D)1200答案:D解析:[单选题]23.决策树中不包含以下哪种结点A)根节点B)内部结点C)叶节点D)外部结点答案:D解析:[单选题]24.未来房价的预测,这种属于数据挖掘的哪类问题?()A)分类B)聚类C)关联规则D)回归分析答案:D解析:[单选题]25.对于任意值?x?,考虑到Logistic(x):是任意值?x?的逻辑(Logistic)函数Logit(x):是任意值?x?的logit函数Logit_inv(x):是任意值?x?的逆逻辑函数以下哪一项是正确的?A)Logistic(x)=Logit(x)B)Logistic(x)=Logit_inv(x)C)Logit_inv(x)=Logit(x)D)都不是答案:B解析:[单选题]26.属于无监督学习的机器学习算法是()A)支持向量机B)Logistic回归C)层次聚类D)决策树答案:C解析:[单选题]27.线性回归是一种(),它分为简单线性回归和多元线性回归A)无监督学习算法B)有监督学习算法C)强化学习D)聚类算法答案:B解析:[单选题]28.如果需要训练的特征维度成千上万,在高维情形下出现的数据样本稀疏、距离计算困难。我们通过()可以缓解这个问题。A)K均值算法B)支持向量机C)降维D)以上答案都不正确答案:C解析:[单选题]29.哪些机器学习模型经过训练,能够根据其行为获得的奖励和反馈做出一系列决策?A)无监督学习B)监督学习C)强化学习D)以上全部答案:C解析:[单选题]30.假设你有以下数据:输入和输出都只有一个变量。使用线性回归模型(y=wx+b)来拟合数据。那么使用留一法(Leave-OneOut)交叉验证得到的均方误差是多少?X(independentvariable)023Y(dependentvariable)221A)10/27B)39/27C)49/27D)55/27答案:C解析:[单选题]31.假设使用逻辑回归进行n多类别分类,使用One-vs-rest分类法。下列说法正确的是?A)对于n类别,需要训练n个模型B)对于n类别,需要训练n-1个模型C)对于n类别,只需要训练1个模型D)以上说法都不对答案:A解析:One-vs-rest分类法中,假设有n个类别,那么就会建立n个二项分类器,每个分类器针对其中一个类别和剩余类别进行分类。进行预测时,利用这n个二项分类器进行分类,得到数据属于当前类的概率,选择其中概率最大的一个类别作为最终的预测结果。举个简单的例子,3分类,类别分别是{-1,0,1}。构建3个二分类器:-1与0,1与-1,11与-1,0若第1个二分类器得到-1的概率是0.7,第2个二分类器得到0的概率是0.2,第3个二分类器得到1的概率是0.4,则最终预测的类别是-1。[单选题]32.以下描述中,属于决策树策略的是()A)最优投影方向B)梯度下降方法C)最大特征值D)最大信息增益答案:D解析:[单选题]33.关于数据规范化,下列说法中错误的是()。A)标准化实际上是将数据在样本的标准差上做了等比例的缩放操作B)归一化利用了样本中的最大值和最小值C)包含标准化和归一化D)标准化在任何场景下受异常值的影响都很小答案:D解析:[单选题]34.下面哪些可能是一个文本语料库的特征()1一个文档中的词频统计2文档中单词的布尔特征3词向量4词性标记5基本语法依赖6整个文档A)123B)1234C)12345D)123456答案:C解析:[单选题]35.图像降噪的作用(__)。A)改变图像大小B)将图像分成多个小单位C)去除干扰信号D)使图像变得更加丰富答案:C解析:[单选题]36.已知一组数据的协方差矩阵P,下面关于主分量说法错误的是()。A)主分量分析的最佳准则是对一组数据进行按一组正交基分解,在只取相同数量分量的条件下,以均方误差计算截尾误差最小B)在经主分量分解后,协方差矩阵成为对角矩阵C)主分量分析就是K-L变换D)主分量是通过求协方差矩阵的特征值得到答案:C解析:主分量分析的变换矩阵是协方差矩阵,K-L变换的变换矩阵可以有很多种(二阶矩阵、协方差矩阵、总类内离散度矩阵等)。当K-L变换矩阵为协方差矩阵时,等同于PCA。[单选题]37.Fisher线性判别函数的求解过程是将N维特征矢量投影在()中进行求解?A)一维空间B)N-1维空间C)三维空间D)二维空间答案:A解析:[单选题]38.关于OLAP和OLTP的区别描述,不正确的是:A)OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.B)与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.C)OLAP的特点在于事务量大,但事务内容比较简单且重复率高.D)OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的.答案:D解析:[单选题]39.下列代码实现的功能是:>>>fromsklearn.naive_bayesimportGaussianNB>>>gnb=GaussianNB()>>>y_pred=gnb.fit(iris.data,iris.target).predict(iris.data)A)创建高斯朴素贝叶斯模型并对模型进行训练B)创建高斯朴素贝叶斯模型并对模型进行预测C)创建高斯朴素贝叶斯模型并对模型进行训练和预测D)创建高斯朴素贝叶斯模型并对模型进行训练和评测答案:C解析:[单选题]40.下面不属于云计算技术的有(__)。A)HadoopB)SparkC)YARND)集中式计算答案:D解析:[单选题]41.下图显示的机器学习使用的激活函数(Activationfunction)的图形,是下列哪一个函数的图形?()A)B)C)D)答案:C解析:[单选题]42.()是二维随机变量的分布。A)正态分布B)二项分布C)边缘分布D)指数分布答案:C解析:二维随机变量的分布有边缘分布和条件分布。[单选题]43.下列中为判别模型的是()A)高斯混合模型B)隐含马尔科夫模型C)GAN模型D)逻辑回归模型答案:D解析:[单选题]44.()在划分属性时是在当前结点的属性集合中选择一个最优属性。A)AdaBoostB)RFC)BaggingD)传统决策树答案:D解析:[单选题]45.在支持向量机中,?间隔?是指(__)。A)非支持向量到划分超平面间的距离之和B)支持向量之间的距离C)支持向量和非支持向量之间的距离D)支持向量到超平面的距离之和答案:D解析:[单选题]46.以下两种描述分别对应哪两种对分类算法的评价标准?(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。(b)描述有多少比例的小偷给警察抓了的标准。A)Precision,RecallB)Recall,PrecisionC)Precision,ROCD)Recall,ROC答案:A解析:[单选题]47.FOIL是()的学习算法A)命题规则B)剪枝优化C)一阶规则D)序贯覆盖答案:C解析:[单选题]48.以下哪项不属于知识发现的过程?()A)数据清理B)数据挖掘C)知识可视化表达D)数据测试答案:D解析:[单选题]49.下列激活函数中,能够实现将特征限制到区间[-1,1]的是哪一个A)TanhB)LogisticC)ReLUD)Sigmoid答案:A解析:[单选题]50.变量之间的关系可以分为()两大类。A)函数关系与相关关系B)线性相关关系和非线性相关关系C)正相关关系和负相关关系D)简单相关关系和复杂相关关系答案:A解析:[单选题]51.(__)是一门以可视化交互为基础,综合运用图形学、数据挖掘和人机交互等多个领域的知识,以实现人机协同完成可视化任务为主要目的的分析推理性学科。A)信息可视化B)科学可视化C)可视分析学D)数据可视化答案:C解析:[单选题]52.图像在opencv中的数据存储结构是()。A)tensorB)numpyC)linkD)Mat答案:D解析:[单选题]53.在测试一假设h时,发现在一包含n=1000个随机抽取样例的样本s上,它出现r=300个错误,计算Errors(h)的标准差()A)0.0145B)0.145C)1.45D)14.5答案:A解析:[单选题]54.下列表示Pandas类别统计函数的是()。A)value_Counts()B)Value_Counts()C)values_counts()D)value_counts()答案:D解析:[单选题]55.对于分类任务来说,在所有相关概率都已知的理想情形下,(__)考虑如何基于这些概率和误判损失来选择最优的类别标记。A)支持向量机B)间隔最大化C)线性分类器D)贝叶斯决策论答案:D解析:[单选题]56.下面的代码中,不是用来用来评价所训练模型的预测准确性的是:A)fromsklearn.metricsimportaccuracy_scoreB)fromsklearn.model_selectionimporttrain_test_splitC)fromsklearn.metricsimportmean_squared_errorD)fromsklearn.metricsimportmean_absolute_error答案:B解析:[单选题]57.以下描述正确的是()。A)非结构化数据是先有结构,后有数据B)XML是非结构化数据C)结构化数据是先有数据,后有结构D)非结构化数据是数据科学与传统数据管理的主要区别答案:D解析:[单选题]58.k-NN最近邻方法在什么情况下效果较好?A)样本较多但典型性不好B)样本较少但典型性好C)样本呈团状分布D)样本呈链状分布答案:B解析:K近邻算法主要依靠的是周围的点,因此如果样本过多,则难以区分,典型性好的容易区分。样本呈团状或链状都具有迷惑性,这样kNN就发挥不出其求近邻的优势了,整体样本应该具有典型性好,样本较少,比较适宜。第2部分:多项选择题,共21题,每题至少两个正确答案,多选或少选均不得分。[多选题]59.在决策树基本算法中,有三种情形会导致递归返回,这三种情形分别是(__)。A)当前结点包含的样本全属于同一类别,无需划分B)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分C)当前结点包含的样本集合为空,不能划分D)当前结点包含的样本不属于同一类别,不可划分答案:ABC解析:[多选题]60.可用于贝叶斯决策的函数()A)AB)BC)CD)D答案:ABC解析:[多选题]61.下面不属于探索性统计中常用数据分布统计量的是(__)。A)残差B)偏态C)峰态D)众数答案:AD解析:[多选题]62.KNN的主要优点是()A)理论成熟,思想简单,既可以用来做分类也可以用来做回归B)训练时间复杂度比支持向量机之类的算法低,仅为O(n)C)与朴素贝叶斯之类的算法比,对数据没有假设,准确度高,对异常点不敏感D)可用于非线性分类答案:ABCD解析:[多选题]63.()是卷积神经网络的池化层。A)convolutionB)maxpoolingC)averagepoolingD)fullconnection答案:BC解析:[多选题]64.在hive中下列哪些命令可以实现去重()A)distinctB)groupbyC)row_numberD)Having答案:ABC解析:[多选题]65.支持向量机中定义的间隔值为w的二范式的-2次方,这样看间隔貌似仅与权重w有关,这意味着偏置项b(__)。A)没有任何意义B)对间隔不会产生影响C)通过约束隐式地影响着w的取值D)对间隔会产生影响答案:CD解析:[多选题]66.Spark可以采用几种不同的部署方式A)SparkonYARNB)SparkonMesosC)onyarn模式D)Standalone答案:ABD解析:[多选题]67.机器学习算法按学习任务分类可分为A)分类B)回归C)聚类D)强化学习答案:ABC解析:[多选题]68.(__)是数据科学的主要理论基础之一。A)机器学习B)统计学C)数据D)黑客精神与技能答案:AB解析:[多选题]69.对单层感知机判别分类,描述正确的是()A)线性分类B)监督学习C)错误误差最小D)错误误差最大答案:ABC解析:[多选题]70.下列关于支持向量回归机说法正确的是(__)。A)支持向量回归机希望学得一个回归模型,使得预测值f(x)与真实值x尽可能接近B)在传统回归模型中,当且仅当预测值f(x)与真实值x完全相同时,损失才为0C)支持向量回归假设我们能够容忍预测值f(x)与真实值x之间最多有特定值的误差D)支持向量回归以决策函数为中心,构建了一个特定宽度的间隔带,若训练样本落入此间隔带,则认为是被预测正确的答案:ABCD解析:[多选题]71.假设你有一个非常大的训练集合,如下机器学习算法中,你觉着有哪些是能够使用map-reduce框架并能将训练集划分到多台机器上进行并行训练()A)逻辑斯特回归(LR),以及随机梯度下降(SGD)B)线性回归及批量梯度下降(BGD)C)神经网络及批量梯度下降(BGD)D)针对单条样本进行训练的在线学习答案:BC解析:LR,SVM,NN,KNN,KMeans,DT,NB都可以用mapreduce并行。[多选题]72.聚类性能度量大致有两类,一类是(__),另一类是(__)。A)外部指标B)内部指标C)簇内相似度D)簇间相似度答案:AB解析:[多选题]73.以下关于Zookeeper的Leader选举说法正确的是?()A)当实例n为奇数时,假定n=2x+1,则成为leader节点需要x+1票B)Zookeeper选举leader时,需要半数以上的票数C)当实例数为8时,则成为leader节点需要5票,容灾能力为4D)当实例数n为奇数时,假定n=2x+1,则成为leader节点需要x票答案:AB解析:[多选题]74.数据科学的基本流程包含(__)。A)数据化B)探索性分析C)数据分析D)数据存储答案:ABC解析:[多选题]75.哪些项不属于使用池化层相比于相同步长的卷积层的优势?()A)参数更少B)可以获得更大下采样C)速度更快D)有助于提升精度答案:BCD解析:第3部分:判断题,共12题,请判断题目是否正确。[判断题]76.硬投票计算出每个类别的平均估算概率,然后选出概率最高的类别。A)正确B)错误答案:错解析:[判断题]77.决策树通过预剪枝和后剪枝提升模型的泛化能力。()A)正确B)错误答案:对解析:[判断题]78.Bagging是一个低效的集成学习算法A)正确B)错误答案:错解析:[判断题]79.准确率是所有正确识别的样本占样本总量的比例。当所有类别都同等重要时,采用准确率最为简单直观。A)正确B)错误答案:对解析:[判断题]80.机器学习的核心是?使用算法解析数据,从中学习,然后对世界上的某件事情做出决定或预测A)正确B)错误答案:对解析:[判断题]81.极大似然法估计参数的核心思想是:选择参数,使得当前已经观测到的数据(训练集中的m个样本)最有可能出现(概率最大)。A)正确B)错误答案:对解析:[判断题]82.Boosting的训练过程是有序的。A)正确B)错误答案:对解析:[判断题]83.卷积操作的本质特性包括稀疏交互和参数共享。()A)正确B)错误答案:对解析:[判断题]84.决策树是基于树结构来进行决策的,决策树学习的目的是为了产生一棵泛化能力强的决策树。A)正确B)错误答案:对解析:[判断题]85.两个变量相关,它们的相关系数r可能为0。这句话是否正确?A)正确B)错误答案:对解析:一般来说,相关系数r=0是两变量相互独立的必要不充分条件。也就是说,如果两个变量相互独立,那么相关系数r一定为0,如果相关系数r=0,则不一定相互独立。相关系数r=0只能说明两个变量之间不存在线性关系,仍然可能存在非线性关系。那么,若两个变量相关,存在非线性关系,那么它们的相关系数r就为0。[判断题]86.逆归结的一大特点是能自动发明新谓词,这些谓词可能对应于样例属性和背景知识中不存在的新知识A)正确B)错误答案:对解析:[判断题]87.LabelEncoder是将原为0或1的布尔值转换为字符串(str)A)正确B)错误答案:错解析:第4部分:问答题,共9题,请在空白处填写正确答案。[问答题]88.如果训练集有100万个实例,训练决策树(无约束)大致的深度是多少?答案:答:一个包含m个叶节点的均衡二叉树的深度等于log2(m)的四舍五入。通常来说,二
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 房子建造改装合同范例
- 庭院经济养殖合同范例
- 软件研发外包劳务合同范例
- 四年级上册数学教案-2.3 减法的运算性质-西师大版
- 三年级上册数学教案-2.2.认识克-苏教版
- 茶叶产品代销合同范例
- 网签非居间合同范例
- 第二十一章 信息的传递 复习课教案 2024-2025学年学年人教版九年级物理
- 小区沥青铺设合同范例
- 出租老房子合同范例
- 《大学生兼职利弊》课件
- 临床输血与检验课件
- 2024年鲁信科技股份有限公司招聘笔试参考题库含答案解析
- 平潭港区进港航道及港池维护性疏浚工程环境影响报告
- 2023年江财计量经济学大作业
- 山东工业技师学院招聘真题
- 设备维修报价单
- 经销商申请表
- 上海民办杨浦凯慧初级中学历史七年级上册期末试卷含答案
- 2023-2024学年广东省深圳市六上数学期末统考试题含答案
- 全国主要城市气象参数
评论
0/150
提交评论