人工智能机器学习技术练习(习题卷22)_第1页
人工智能机器学习技术练习(习题卷22)_第2页
人工智能机器学习技术练习(习题卷22)_第3页
人工智能机器学习技术练习(习题卷22)_第4页
人工智能机器学习技术练习(习题卷22)_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:人工智能机器学习技术练习人工智能机器学习技术练习(习题卷22)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能机器学习技术练习第1部分:单项选择题,共58题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.逻辑回归拟合的函数是()A)sigmoidB)tanhC)relu答案:A解析:[单选题]2.我们常用()版。A)apache版B)cdh版C)Hortonworks版本答案:B解析:[单选题]3.下列有关核函数不正确的是:A)可以采用cross-va1idalion方法选择最佳核函数B)满足Mercer条件的函数不一定能作为支持向量机的核函数C)极大地提高了学习机器的非线性处理能力D)函数与非线性映射并不是一一对应的关系答案:B解析:[单选题]4.假如你在训练一个线性回归模型,有下面两句话:1、如果数据量较少,容易发生过拟合。2、如果假设空间较小,容易发生过拟合。关于这两句话,下列说法正确的是?A)1和2都错误B)1正确,2错误C)1错误,2正确D)1和2都正确答案:B解析:先来看第1句话,如果数据量较少,容易在假设空间找到一个模型对训练样本的拟合度很好,容易造成过拟合,该模型不具备良好的泛化能力。再来看第2句话,如果假设空间较小,包含的可能的模型就比较少,也就不太可能找到一个模型能够对样本拟合得很好,容易造成高偏差、低方差,即欠拟合。[单选题]5.在猫狗图像分类任务中,如果100个样本,其中50张猫,50张狗,但图像混在一起,无法区分他们是猫是狗,也就是每个图像无对应的类别标签。如果将这100张样本作为训练集,使用机器学习算法训练学习如何分类猫和狗,此时的训练方法是A)无监督学习B)半监督学习C)监督学习D)混合学习答案:A解析:[单选题]6.关于Pandas数据读写的说法中,下列描述错误的是()。A)read_csv()能够读取所有文本数据B)read_sql()可以读取数据库中的数据C)to_csv()能够将结构化数据写入到csv文件中D)to_excel()能够将结构化数据写入到excel文件中答案:A解析:[单选题]7.Relief的时间开销随采样次数以及原始特征数(__)。A)线性增长B)指数型增长C)快速增长D)负增长答案:A解析:[单选题]8.以下描述中,属于集合特点的是A)集合中的数据是无序的B)集合中的数据是可以重复的C)集合中的数据是严格有序的D)集合中必须嵌套一个子集合答案:A解析:[单选题]9.构建一个神经网络,将前一层的输出和它自身作为输入。下列哪一种架构有反馈连接?class="fr-ficfr-dibcursor-hover"A)循环神经网络B)卷积神经网络C)限制玻尔兹曼机D)都不是答案:A解析:[单选题]10.(__)是将?现实生活中的问题?转换为?数据世界中的问题?,然后采用数据科学的理念、原则、方法、技术、工具,通过将数据、尤其的大数据,转换为知识和智慧。A)数据工程师B)数据码农C)数据科学家D)科学家答案:C解析:[单选题]11.下列对于精度的描述,解释正确的是(__)。A)统计分类器预测出来的结果与真实结果不相同的个数,然后除以总的样例集D的个数。B)先统计分类正确的样本数,然后除以总的样例集D的个数。C)预测为正的样例中有多少是真正的正样例D)样本中的正例有多少被预测正确答案:B解析:[单选题]12.随机变量X~N(1,2),Y~N(3,5),则X+Y~()A)N(4,7)B)N(4,+)C)N(1+,7)D)不确定答案:D解析:主要看两个变量是否独立。独立条件下,正态加正态还是正态。Z=X+Y。均值加均值,方差加方差.[单选题]13.散点图矩阵通过()坐标系中的一组点来展示变量之间的关系。A)一维B)二维C)三维D)多维答案:B解析:[单选题]14.在深度学习中,涉及到大量矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m*n,n*p,p*q,且m<n<p<q,以下计算顺序效率最高的是:()A)A(BC)B)(AB)CC)(AC)BD)所有效率都相同答案:B解析:[单选题]15.关于梯度下降算法,正确的说法是:A)小批量梯度下降同时具备批量梯度下降和随机梯度下降二者的优缺点。B)相对随机梯度下降算法,批量梯度下降运行速度很快C)相对随机梯度下降算法,批量梯度下降的一个优势是:当损失函数很不规则时(存在多个局部最小值),它更有可能跳过局部最小值,最终接近全局最小值。D)随机梯度下降同时具备批量梯度下降和小批量梯度下降二者的优缺点。答案:A解析:[单选题]16.自然语言处理是用()技术的一种应用A)语音识别B)虚拟现实C)人工智能D)自然语言答案:C解析:[单选题]17.以下对非结构化数据描述不正确的是()。A)不能用关系数据库存储和管理的数据B)没有统一的结构C)图像是非结构化数据D)HTML是非结构化数据答案:D解析:[单选题]18.机器学习算法在学习过程中对某种类型假设的偏好称为()。A)训练偏好B)归纳偏好C)分析偏好D)假设偏好答案:B解析:[单选题]19.以下不是开源工具特点的是A)免费B)可以直接获取源代码C)用户可以修改源代码并不加说明用于自己的软件中D)开源工具一样具有版权答案:C解析:[单选题]20.以下对半结构化数据描述不正确的是()。A)先有数据,后有结构B)先有结构,后有数据C)HTML是半结构化数据D)经过一定转换后可以用传统关系数据库存储答案:B解析:[单选题]21.以下关于人工智能的说法中,错误的是A)人工智能是研究世界运行规律的科学B)人工智能涵盖多个学科领域C)人工智能包括自动推理,专家系统,机器学习等技术D)现阶段的人工智能核心是机器学习答案:A解析:[单选题]22.关于创建ndarray对象。下列描述错误的是()。A)使用list()函数可以创建一个ndarray对象B)通过ones()函数创建元素值都为1的数组C)ndarray对象可以使用array()函数创建D)通过zeros()函数创建元素值都是0的数组答案:A解析:list()函数不可以创建一个ndarry对象,不过可以将一个列表做为参数传入array()函数中创建一个ndarray对象[单选题]23.多层前馈神经网络描述错误的是A)输出层与输入层之间包含隐含层,且隐含层和输出层都拥有激活函数的神经元;B)神经元之间存在这同层连接以及跨层连接;C)输入层仅仅是接收输入,不进行函数处理;D)每层神经元上一层与下一层全互连;答案:B解析:[单选题]24.NaveBayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:()A)各类别的先验概率P(C)是相等的B)以0为均值,sqr(2)/2为标准差的正态分布C)特征变量X的各个维度是类别条件独立随机变量D)P(X|C)是高斯分布答案:C解析:[单选题]25.信息增益即数据集的熵与在某特征条件下的条件熵之差。关于信息增益,正确的说法是:(2.0分)2.0分A)信息增益越大,说明此特征分类能力越弱B)信息增益越小,说明此特征克服的不确定性越大,具有更强的分类能力C)信息增益越大,说明此特征克服的不确定性越大,具有更强的分类能力D)信息增益越小,说明此特征分类能力越强答案:C解析:[单选题]26.下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测A)AR模型B)MA模型C)ARMA模型D)GARCH模型答案:D解析:[单选题]27.拆分和合并图像通道的方法为()。A)Split()和merge()B)split()和merge()C)split()和Merge()D)Split()和merge()答案:B解析:[单选题]28.下面哪个不是RDD的特点()。A)可分区B)可序列化C)可修改D)可持久化答案:C解析:[单选题]29.假设我们对西瓜的色泽、根蒂和纹理等特征一无所知,按照常理来说,西瓜是好瓜的概率是60%。那么这个好瓜的概率P就被称为()A)先验概率B)后验概率C)条件概率D)联合概率答案:A解析:[单选题]30.关于Attention-basedModel,下列说法正确的是()A)相似度度量模型B)是一种新的深度学习网络C)是一种输入对输出的比例模型D)都不对答案:A解析:[单选题]31.关于欠拟合(under-fitting),下面哪个说法是正确的?()A)训练误差较大,测试误差较小B)训练误差较小,测试误差较大C)训练误差较大,测试误差较大D)训练误差不变,测试误差较大答案:C解析:[单选题]32.哪一个是机器学习的合理定义?A)机器学习是计算机编程的科学B)机器学习从标记的数据中学习C)机器学习是允许机器人智能行动的领域D)机器学习能使计算机能够在没有明确编程的情况下学习答案:D解析:[单选题]33.以下关于Zookeeper的Leader节点在收到数据变更请求后的读写流程说法正确的是?()A)仅写入内存B)同时写入磁盘和内存C)先写入内存再写入磁盘D)先写磁盘再写内存答案:D解析:[单选题]34.数据清洗的方法不包括()。A)缺失值处理B)噪声数据清除C)一致性检查D)重复数据记录处理答案:D解析:[单选题]35.ID3决策树算法以()为准则来选择划分属性A)信息增益B)信息熵C)基尼系数D)信息增益率答案:A解析:[单选题]36.数据管理成熟度模型将机构数据管理能力定义为(__)个不同成熟度等级,并给出了(__)类关键过程域,共(__)个关键活动。A)3,7,21B)4,6,24C)5,6,25D)6,7,28答案:C解析:[单选题]37.设线性规划的约束条件为:则基本可行解为()A)(0,0,4,3)B)(3,4,0,0)C)(2,0,1,0)D)(3,0,4,0)答案:C解析:[单选题]38.对抗学习中两个网络互相竞争,一个负责生成样本,另一个负责()A)判别样本B)计算样本C)统计样本D)生成样本答案:A解析:[单选题]39.字符串"//^▽^//\n"的长度是A)6B)7C)8D)9答案:C解析:[单选题]40.图像中虚假轮廓的出现就其本质而言是由于?A)图像的灰度级数不够多造成的;B)图像的空间分辨率不够高造成;C)图像的灰度级数过多造成的;D)图像的空间分辨率过高造成;答案:A解析:[单选题]41.当不知道数据所带的标签时,可以使用()技术促使带同类标签的数据与带其他标签的数据相分离。A)分类B)聚类C)关联分析D)隐马尔可夫链答案:B解析:[单选题]42.研究某超市销售记录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的那类问题()A)关联规则发现B)聚类C)分类D)自然语言处理答案:A解析:[单选题]43.我们建立一个5000个特征,100万数据的机器学习模型。我们怎么有效地应对这样的大数据训练()。A)我们随机抽取一些样本,在这些少量样本之上训练B)我们可以试用在线机器学习算法C)我们应用PCA算法降维,减少特征数D)以上答案都正确答案:D解析:样本数过多或者特征数过多,而不能单机完成训练,可以用小批量样本训练,或者在线累计式训练,或者主成分PCA降维方式减少特征数量再进行训练。[单选题]44.(__)在划分属性时是在当前结点的属性集合中选择一个最优属性。A)AdaBoostB)RFC)BaggingD)传统决策树答案:D解析:[单选题]45.LasVegasWrapper是一种典型的(__)算法。A)过滤式选择B)嵌入式选择C)包裹式选择D)正则化答案:C解析:[单选题]46.变量的不确定性越大,相对应信息熵的变化是()。A)熵变小B)熵变大C)不变D)以上答案都不正确答案:B解析:信息熵(informationentropy)是度量样本集合纯度最常用的一种指标,信息熵越大,变量的不确定性越大。[单选题]47.关于K均值和DBSCAN的比较,以下说法不正确的是()。A)K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象B)K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念C)K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇D)K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇答案:A解析:DBSCAN和K均值都是将每个对象指派到单个簇的划分聚类算法,但K均值一般聚类所有对象,而DBSCAN丢弃被它识别为噪声的对象。[单选题]48.神经网络是由()演化而来A)符号主义B)认知主义C)联结主义D)行为主义答案:C解析:[单选题]49.机器学习中发生过拟合的主要原因不包括()。A)使用过于复杂的模型B)数据噪声较大C)训练数据少D)训练数据充足答案:D解析:训练数据充足可以降低过拟合。[单选题]50.hive的元数据存储在derby和mysql中有什么区别()。A)没区别B)多会话C)支持网络环境D)数据库的区别答案:B解析:[单选题]51.常用的聚合函数不包括()A)max()B)count()C)sum()D)sex()答案:D解析:[单选题]52.()算法是分类算法。A)DBSCANB)C4.5C)K-MeanD)EM答案:B解析:C4.5是分类算法;DBSCAN、K-Mean、EM是聚类算法。[单选题]53.随着集成中个体分类器(相互独立)数目T的增大,集成的错误率将呈___下降,最终趋向于零A)指数级B)对数级C)线性级D)平方级答案:A解析:[单选题]54.抖动技术可以()A)改善图像的空间分辨率B)改善图像的幅度分辨率C)利用半输出技术实现D)消除虚假轮廓现象答案:D解析:[单选题]55.如右图所示无向图,节点G的马尔可夫毯为()A){D,E}B){I,J}C){D,E,I,J}D){D,E,F,H,I,J}答案:C解析:[单选题]56.下面符合特征选择标准的是()A)越少越好B)越多越好C)选择能够反映不同事物差异的特征D)以上均不对答案:C解析:[单选题]57.已知均值和方差,下面哪种分布的熵最大()A)几何分布B)指数分布C)高斯分布D)均匀分布答案:C解析:[单选题]58.在训练神经网络时,损失函数(loss)在最初的几个epochs时没有下降,可能的原因是?class="fr-ficfr-dibcursor-hover"A)学习率(learningrate)太低B)正则参数太高C)陷入局部最小值D)以上都有可能答案:D解析:第2部分:多项选择题,共21题,每题至少两个正确答案,多选或少选均不得分。[多选题]59.数据柔术强调的基本问题有(__)。A)设计思维问题B)产品开发要有较高的艺术性C)以目标用户为中心的产品开发D)支持人机交互问题答案:BC解析:[多选题]60.在分析句子结构时,句子的内部组织结构用树来表示,组成的结构具有显著的特点是()A)递归B)中心词C)循环D)修饰语答案:ABD解析:[多选题]61.关于决策树的CART分类树构造算法和ID3算法,下列说法正确的是?A)选择切分特征时,CART算法使用信息熵B)选择切分特征时,CART算法使用基尼指数来度量一个数据集的混乱程度C)选择切分特征时,ID3算法使用基尼指数D)选择切分特征时,ID3算法使用信息熵答案:BD解析:[多选题]62.以下提法中正确的是()。A)数据学科中的?数据?并不仅仅是?数值?,也不等同于?数值?;B)数据科学中的?计算?并不仅仅是加、减、乘、除等?数学计算?,还包括数据的查询、挖掘、洞见、分析、可视化等更多类型;C)数据科学关注的是?单一学科?的问题;D)数据科学强调的是?理论研究?,一般不涉及?领域实务知识?;答案:AB解析:[多选题]63.某服务请求经负载均衡设备分配到集群A、B、C、D进行处理响应的概率分别是10%、20%、30%和40%。已知测试集群所得的稳定性指标分别是90%、95%、99%和99.9%。现在该服务器请求处理失败,且已排除稳定性以外的问题,那么最有可能在处理该服务请求的集群是________。A)AB)BC)CD)D答案:AB解析:[多选题]64.指出下面正确的说法?A)基于像素的图像增强方法是一种线性灰度变换;B)基于像素的图像增强方法是基于像素领域的图像增强方法的一种;C)基于频域的图像增强方法由于常用到傅里叶变换和傅里叶反变换,所以总比基于图像域的方法计算复杂较高;D)基于频域的图像增强方法可以获得和基于空域的图像增强方法同样的图像增强效果;答案:BD解析:[多选题]65.泛化误差可分解为__之和。A)方差B)偏差C)协方差D)噪声答案:ABD解析:[多选题]66.根据输出结果,数据科学中机器学习可分为(__)。A)概念学习B)归纳学习C)决策树学习D)分析学习答案:ABCD解析:[多选题]67.关于梯度下降算法中,超参数学习率的说法正确的是?A)学习率越小越好B)学习率控制参数调整的步长C)学习率越大越好D)学习率小会影响损失函数收敛于最小值的速度答案:BD解析:[多选题]68.下面哪几项属于神经网络的范畴?A)深度学习B)机器学习C)感知器D)CNN答案:ACD解析:[多选题]69.数据产品的主要特征有(__)。A)数据为中心B)多样性C)层次性D)增值性答案:ABCD解析:[多选题]70.Hadoop组件的核心功能包括()A)分布式数据存储B)分析C)挖掘D)分布式计算答案:AD解析:[多选题]71.k-means初始簇心的选择的合理方式是()A)随机k个簇心B)设定一个尝试次数值,在这个值的范围内进行最远簇心寻找C)计算所有样本的两两距离,随机给定一个样本作为第1个簇心,使用距离排序确定k个簇心D)多次进行随机初始簇心,聚类完成后,具体分析簇与簇之间的互斥性,然后进行优化答案:AB解析:[多选题]72.半监督学习四大范型有A)基于分歧的方法B)半监督SVMC)半监督聚类D)图半监督学习答案:ABD解析:[多选题]73.关于决策树的CART分类树构造算法和ID3算法,下列说法正确的是?A)选择切分特征时,ID3算法使用信息熵B)选择切分特征时,CART算法使用基尼指数来度量一个数据集的混乱程度C)选择切分特征时,ID3算法使用基尼指数D)选择切分特征时,CART算法使用信息熵答案:AB解析:[多选题]74.根据波士顿郊区房屋信息,预测房屋价格。适合采用的方法有?A)CART回归决策树B)CART分类决策树C)线性回归D)朴素贝叶斯答案:AC解析:[多选题]75.解决欠拟合的方法有__。A)决策树扩展分支B)增加训练轮数C)正则化D)剪枝答案:AB解析:第3部分:判断题,共12题,请判断题目是否正确。[判断题]76.监督学习需要有大量标注好的数据集来对模型进行训练A)正确B)错误答案:对解析:[判断题]77.回归预测的目标函数是离散值,分类预测的目标函数是连续值。A)正确B)错误答案:错解析:[判断题]78.核函数可以将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分A)正确;B)错误;答案:对解析:[判断题]79.把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,会导致泛化性能下降。__A)正确B)错误答案:对解析:[判断题]80.决策树基本流程遵循简单且直观的分而治之策略。__A)正确B)错误答案:对解析:[判断题]81.Pandas是一个基于NumPy的数据分析包,它是为了解决数据分析任务而创建的。A)正确B)错误答案:对解析:[判断题]82.最小二乘法是基于预测值和真实值的均方差最小化的方法来估计线性回归学习器的参数w和b。A)正确B)错误答案:对解析:[判断题]83.Series对象可以具有多层索引结构。A)正确B)错误答案:错解析:[判断题]84.Seaborn是Python中基于Matplotlib的数据可视化工具,它提供了很多高层封装的函数。A)正确B)错误答案:对解析:[判断题]85.查全率越高,意味着模型漏掉的样本越少,当假阴性的成本很高时,查全率指标有助于衡量模型的好坏。A)正确B)错误答案:对解析:[判断题]86.训练一个支持向量机,除去不支持的向量后仍能分类。A)正确B)错误答案:对解析:只有支持向量会影响边界[判断题]87.与bagging不同,boosting采用的是一个串行训练的方法A)正确B)错误答案:对解析:第4部分:问答题,共9题,请在空白处填写正确答案。[问答题]88.对于一个复杂的学习任务,首先构造多个简单的学习模型,然后再把这些简单模型组合成一个高效的学习模型,这是()的基本思想答案:集成学习解析:[问答题]89.层次聚类试图在()对数据集进行划分,从而形成()的聚类结构。答案:不同层次解析:[问答题]90.如果两个变量相关,它们()线性关系。A)一定是B)不一定是答案:B解析:相关不一定是线性关系,也有可能是非线性相关。[问答题]91.随机变量X的支撑集(也就是非零值域)定义为[a,b],没有别的限制加在X上,该随机变量的最大熵分布是什么。答案:最大熵分布为在[a,b]区间上的均匀分布。根据最大熵模型,推导出X概率密度函数是一个常函数,所以最大熵分布为均匀分布。解析:[问答题]92.假设变量Var1和Var2是正相关的,那么下面那张图是正确的?图中,横坐标是Var1,纵坐标是Var2,且对Var1和Var2都做了标准化处理。A)Plot1B)Plot2答案:B解析:显然,Plot2显示出Var2与Var1是正相关的,例如Var2=Var1。Plot1显示出Var2与Var1是负相关的,例如Var2=-Var1。[问答题]93.写出距离函数的四个基本性质。答案:1)非负性:dist(xi,xj)³02)同一性:dist(xi,xj)=0当且仅当xi=xj3)对称性:dist(xi,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论