大数据和人工智能知识考试题库600题(含答案)_第1页
大数据和人工智能知识考试题库600题(含答案)_第2页
大数据和人工智能知识考试题库600题(含答案)_第3页
大数据和人工智能知识考试题库600题(含答案)_第4页
大数据和人工智能知识考试题库600题(含答案)_第5页
已阅读5页,还剩196页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEPAGE201大数据和人工智能知识考试题库600题(含答案)一、单选题1.下面不属于大数据4V特性有(____)。A、容量大B、类型多C、速度快D、应用价值高答案:D解析:数据科学理论与实践2.线性模型试图学得一个属性的(__)来进行预测的函数。A、线性组合B、非线性组合C、取值D、维度答案:A解析:机器学习3.给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个样本的信息来进行预测。这种学习算法称为(__)。A、k-meansB、k近邻学习C、随机森林D、决策树答案:B解析:机器学习4.马尔可夫随机场是典型的马尔可夫网,这是一种著名的(__)模型。A、无向图B、有向图C、树形图D、环形图答案:A解析:机器学习5.(__)算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。A、AprioriB、EMC、PCAD、PAC答案:A解析:https://baike.baidu./item/APRIORI/20007466.(__)是根据数据采样来估计概率分布参数的经典方法。A、贝叶斯判定准则B、贝叶斯决策论C、贝叶斯分类器D、极大似然估计答案:D解析:机器学习P1497.让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,就是(__)。A、有监督学习B、全监督学习C、无监督学习D、半监督学习答案:D解析:机器学习P2948.支持向量机优化问题的形式是(__)。A、一个不含约束的二次规划问题B、一个含有等式约束的二次规划问题C、一个含有不等式约束的二次规划问题D、一个含有不等式约束的线性规划问题答案:C解析:机器学习P121-1229.贝叶斯网借助(__)来刻画属性之间的依赖关系。A、有向图B、无环图C、有向无环图D、欧拉图答案:C解析:机器学习P15610.下列哪项具体任务不属于情感分析?()A、情感分类B、观点抽取C、观点问答D、段落匹配答案:D解析:统计自然语言处理文本分类与情感分类P66011.以下内容符合物体识别任务的是()。A、不能对图像进行压缩或剪裁B、遵守误差最小准则和最佳近似准则C、可以不指定分类的类别数量D、事先给定样本的分布特征答案:B解析:图像处理、分析与机器视觉物体识别P27712.在支持向量机中,软间隔支持向量机的目标函数比硬间隔支持向量机多了一个(__)。A、偏置项bB、系数C、松弛变量D、两种情况的目标函数相同答案:C解析:机器学习P13113.LasVegasWrapper在拉斯维加斯方法框架下使用(__)策略来进行子集搜索。A、贪心B、最优化C、随机D、顺序答案:C解析:机器学习14.中值滤波对(__)的表现较差。A、泊松噪声B、高斯噪声C、乘性噪声D、椒盐噪声答案:B解析:https://.cnblogs./vincentcheng/p/9261557.html15.下面对线性模型中偏置值b的说法正确的是(__)。A、无任何意义B、决定超平面的位置C、决定的超平面的方向D、是样本点到超平面上的映射答案:B解析:模式识别16.(__)的基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。A、贝叶斯判定准则B、贝叶斯决策论C、朴素贝叶斯分类器D、半朴素贝叶斯分类器答案:D解析:机器学习P15417.下面不属于数据科学家的主要职责有(__)。A、设计和评价数据工程师的工作B、定义和验证“研究假设”C、进行“探索型数据分析”D、实现“数据算法”答案:D解析:数据科学理论与实践18.概率密度函数服从正态分布的噪声,叫做(__)。A、泊松噪声B、高斯噪声C、乘性噪声D、椒盐噪声答案:B解析:/lk3030/article/details/84175871#_519.下面关于数据加工相关描述不正确的有(__)。A、数据加工是数据科学中关注的新问题之一B、数据加工是为了提升数据质量、降低数据计算复杂度C、数据科学中数据加工就是传统数据处理D、数据脱敏属于数据加工答案:C解析:数据科学理论与实践20.以下可以用于处理决策树归纳中的过拟合的方法(__)。A、先剪枝B、使用确认集C、结合模型复杂度D、使用再代入估计答案:A解析:数据挖掘导论P11321.LSTM中门的输出是()之间的实数向量。A、0到1B、1到-1C、0到-1D、1到2答案:A解析:/m0epnwstyk4/article/details/7912480022.以下描述不正确的是(__)。A、平滑处理是为了去掉噪声B、聚集是进行粗粒度计算C、标准化是用区间或概念标签表示数据D、特征构造是构造出新的特征答案:C解析:数据科学理论与实践23.下面对范数规则化描述错误的是(__)。A、L0是指向量中0的元素的个数B、L1范数是指向量中各个元素绝对值之和C、L2范数向量元素绝对值的平方和再开平方D、L0是指向量中非0的元素的个数答案:A解析:/oTengYue/article/details/8964417024.Dave于2012年发布(__)首次全面地刻画了当时快速发展的大数据技术体系。A、大数据产业网络B、大数据产业全景图C、大数据产业D、大数据网络答案:B解析:数据科学理论与实践25.当往往一本书中其实通常使用到的词汇表是非常小的,这就会导致一本书的表示向量中存在大量的0.这样的向量称为()。A、零向量B、满秩向量C、稀疏向量D、普通向量答案:C解析:/u011630575/article/details/8289412026.Keras主要用于哪一方面A、神经网络B、非结构化数据存储C、数据可视化D、数据管理答案:A解析:数据科学理论与实践P10627.以下哪个不属于数据治理的内容A、理解自己的数据B、行为规范的制定C、岗位职责的定义D、获得更多的数据答案:D解析:数据科学理论与实践P18328.下列对于查准率的描述,解释正确的是(__)。A、统计分类器预测出来的结果与真实结果不相同的个数,然后除以总的样例集D的个数。B、先统计分类正确的样本数,然后除以总的样例集D的个数。C、预测为正的样例中有多少是真正的正样例D、样本中的正例有多少被预测正确答案:C解析:/program_developer/article/details/7993729129.数据战略的目标是(__)。A、数据本身的管理B、培育数据驱动组织或文化C、增强组织机构的敏捷性D、提高组织机构的核心竞争力答案:B解析:数据科学理论与实践30.(__)不是常用的噪声处理方法。A、聚类B、回归C、分类D、分箱答案:C解析:数据科学理论与实践31.词袋模型是在自然语言处理和信息检索中的一种简单假设。在这种模型中,文本(段落或者文档)被看作是()的词汇集合,忽略语法甚至是单词的顺序。A、无序B、有序C、无意义D、规范答案:A解析:/u011630575/article/details/8289412032.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?A、探索性数据分析B、建模描述C、预测建模D、寻找模式和规则答案:A解析:数据科学理论与实践P8633.L表示模糊分类器的特征关键词,由T推导出模糊集F,以下哪个算法可以计算不同F之间的关联度?()A、SVMB、EWCC、SRD、EM答案:C解析:统计自然语言处理模糊分类器P67834.下列关于数据标准化的说法中,不正确的是()A、Z-Score标准化适用于特征最大值和最小值未知,数据较分散的情况B、聚类算法要求数据集无量纲化C、Logistic标准化函数σ(x)满足σ(0)=1D、Min-Max标准化易受离群值影响答案:C解析:数据挖掘:概念与技术(第三版)P7435.双边滤波能够较好的保留图像的(__)。A、边缘信息B、色彩信息C、亮度信息D、高频信息答案:A解析:https://.cnblogs./vincentcheng/p/9261557.html36.考察一个由三个卷积层组成的CNN:kernel=3×3,stride=2,padding=SAME。最低层输出100个特征映射(featuremap),中间层200个特征映射,最高层400个特征映射。输入是200×300的RGB图片,总参数的数量是多少?()A、903400B、2800C、180200D、720400答案:A解析:深度学习201卷积网络37.1特征分析,2影响分析,3原因分析,4数据审计,5忽略,6删除,7插值。以下顺序符合缺失数据处理过程的有(__)。A、416B、1236C、457D、2357答案:A解析:数据科学理论与实践38.以下对信息描述不正确的是(____)。A、信息与能源、材料属于同一层次的概念B、信息是客观的存在C、信息是人类社会赖以生存和发展的三大资源之一D、信息是对数据进行计量形成的记录答案:D解析:数据科学理论与实践39.贝叶斯网结构有效地表达了属性的(__)。A、相互制约性B、条件独立性C、取值D、含义答案:B解析:机器学习P15740.最早被提出的循环神经网络门控算法是什么。()A、长短期记忆网络B、门控循环单元网络C、堆叠循环神经网络D、双向循环神经网络答案:A解析:深度学习LSTMP24841.Relief的时间开销随采样次数以及原始特征数(__)。A、线性增长B、指数型增长C、快速增长D、负增长答案:A解析:机器学习42.(__)是一种著名的密度聚类算法,它基于一组“邻域”参数来刻画样本的紧密程度。A、DBSCANB、原型聚类C、密度聚类D、层次聚类答案:A解析:机器学习43.(__)试图学得一个线性模型以尽可能准确地预测实值输出标记。A、决策树B、线性回归C、贝叶斯分类器D、神经网络答案:B解析:机器学习44.以下描述中不正确的是(___)。A、整个数据集可以称作一个样本B、样本不可以是单个示例C、一个样本可以称为一个“特征向量”D、样本中反映事件或对象在某方面的表现或性质的事项,可以称为“特征”答案:B解析:机器学习P245.以下描述不正确的是(____)。A、信息是客观的存在B、数据等于数值C、显性知识能够清晰的表述和有效的转移D、智慧是人类超出知识的那一部分能力答案:B解析:数据科学理论与实践46.TF-IDF与该词在整个语言中的出现次数成(__)。A、正比B、反比C、无关D、幂次答案:B解析:/zhaomengszu/article/details/8145290747.卷积神经网络调整参数时信息的传播方向是()。A、后向传播B、前向传播C、双向传播D、跳跃传播答案:B解析:https://.cnblogs./neo-T/p/6445227.html48.下面不属于探索性统计中常用集中趋势统计量的是(__)。A、和B、方差C、平均数D、四分位数答案:B解析:数据科学理论与实践49.当闵可夫斯基距离公式中的系数p值为2时,可得到(__)的公式。A、欧氏距离B、曼哈顿距离C、街区距离D、切比雪夫距离答案:A解析:机器学习P20050.中心极限定理是噪声抑制的中的统计原理,其内容是:均值分布总会收敛于一个()。A、正态分布B、泊松分布C、多项式分布D、均值分布答案:A解析:图像处理、分析与机器视觉噪声抑制统计原理P9751.下列哪项方法不属于图像分割方法()。A、边缘检测法B、阈值分割法C、区域分割法D、特征提取法答案:D解析:图像处理、分析与机器视觉分割基础知识P12552.以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线,简称(__)。A、双曲线B、P-R曲线C、科克曲线D、共轭曲线答案:B解析:机器学习P3153.(__)是广义线性模型在g(·)=ln(·)时的特例。A、线性模型B、线性回归C、线性判别分析D、对数线性回归答案:D解析:机器学习54.(__)表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。A、偏差B、方差C、噪声D、泛化误差答案:C解析:机器学习P4655.tensorflow中的tf.nn.conv2d()的函数,其作用是()。A、图像输入B、进行卷积C、进行池化D、图像输出答案:B解析:/qq_35370018/article/details/7951979156.F1参数(__),说明模型越稳定。A、越小B、越大C、越趋近于某一特定值D、F1参数和模型稳定性没有关系答案:B解析:https://zhidao.baidu./question/1500844852433214179.html57.以下关于数据科学相关描述不正确的是(____)。A、数据科学是数据,尤其是大数据背后的科学B、“数据”是一门科学,答案就在“大数据”手中C、在数据科学出现之前,我们关注的是数据主动的一面,而在数据科学中我们更加重视的是被动作用。D、数据科学的最终研究目标是实现数据、物质和能量之间的转换。答案:C解析:数据科学理论与实践58.下面不属于维归约方法的是(__)。A、PCAB、SVDC、DWTD、KNN答案:D解析:数据科学理论与实践59.(__)不是遗传算法基本算子。A、选择B、感染C、突变D、交叉答案:B解析:数据科学理论与实践60.(__)是指为最小化总体风险,只需在每个样本上选择能使特定条件风险最小的类别标记。A、支持向量机B、间隔最大化C、线性分类器D、贝叶斯判定准则答案:D解析:机器学习61.隐马尔可夫模型是一种著名的(__)模型。A、无向图B、有向图C、树形图D、环形图答案:B解析:机器学习P31962.K-摇臂赌博机属于(__)算法。A、机器学习B、深度学习C、强化学习D、有监督学习答案:C解析:机器学习63.以下不属于数据治理工作的主要内容的有(__)。A、理解自己的数据B、数据部门的建立C、有效监督与动态优化D、岗位工资的定义答案:D解析:数据科学理论与实践64.池化层的作用是()。A、标准化处理输入特征B、对特征图进行特征选择和信息过滤C、对提取的特征进行非线性组合以得到输出D、直接输出每个像素的分类结果答案:B解析:深度学习卷积网络P20265.(__)可以理解为对数据管理的管理。A、数据治理B、数据统治C、数据宰相D、数据战略答案:A解析:数据科学理论与实践66.关于EDA与统计学中验证性分析的相关描述不正确的有(__)。A、EDA无需事先假设,验证性分析需要事先假设B、探索分析在后,验证性分析在前C、EDA中采取的方法往往比验证分析简单D、基于EDA是数据计算工作可以分为2个部分:探索性分析和验证性分析答案:B解析:数据科学理论与实践67.IDF采用了IWF的几次平方?()A、一次B、二次C、三次D、四次答案:A解析:统计自然语言处理语言模型自适应方法P190,特征权重计算方法P67368.英文如何分词?()A、利用空格对句子分词B、利用逗号分词C、根据英文短语分词D、根据词性分词答案:A解析:统计自然语言处理自动分词、命名实体识别与词性标注P23669.以下描述正确的是(____)。A、非结构化数据是先有结构,后有数据B、XML是非结构化数据C、结构化数据是先有数据,后有结构D、非结构化数据是数据科学与传统数据管理的主要区别答案:D解析:数据科学理论与实践70.若1.数据加工、2.数据化、3.数据整齐化、4.数据分析,则在数据科学的基本流程顺序是(__)。A、1234B、2134C、2314D、3214答案:B解析:数据科学理论与实践71.下列有关KNN算法的流程顺序,描述正确的是()①确定K的大小,和距离的计算方法②根据K个样本的所属类别,投票决定测试样本的类别归属③计算训练集样本与测试样本的距离,选出K个与测试样本最相似的样本A、①②③B、③②①C、①③②D、②①③答案:C解析:数据科学理论与实践P4272.数据科学是一门以“数据”,尤其是“大数据”为研究对象,并以数据统计、机器学习、数据可视化等为理论基础,主要研究数据加工、数据管理、数据计算等活动的(____)。A、新兴科学B、交叉性学科C、独立学科D、一整套知识体系答案:B解析:数据科学理论与实践73.核主成分分析是一种(__)方法。A、非线性降维B、线性降维C、分类D、回归答案:A解析:机器学习P23274.数据科学是一门以实现“从数据到信息”“从数据到知识”“从数据到智慧”的转化为主要研究目的,以“数据驱动”“数据业务化”“数据洞见”“数据产品研发”为主要研究任务的(____)。A、新兴科学B、交叉性学科C、独立学科D、一整套知识体系答案:C解析:数据科学理论与实践75.LSTM与RNN相比可以解决()。A、梯度消失B、训练结果发散C、需要激活函数D、无法处理长距离的依赖的问题答案:D解析:/m0epnwstyk4/article/details/7912480076.(__)先将数据集中的每个样本看做一个初始聚类簇,然后在算法运行的每一步找到距离最近的两个聚类簇进行合并,该过程不端重复,直至达到预设的聚类簇个数。A、原型聚类B、密度聚类C、层次聚类D、AGNES答案:D解析:机器学习77.卷积神经网络中池化层的作用是()。A、寻找图像中的细节特征B、输入图片C、减少下一层的计算,防止过拟合D、输出图片答案:C解析:/xiaodong_11/article/details/8198570078.下列关于线性模型的描述错误的是(__)。A、支持向量机的判别函数一定属于线性函数B、在样本为某些分布情况时,线性判别函数可以成为最小错误率或最小风险意义下的最优分类器C、在一般情况下,线性分类器只能是次优分类器D、线性分类器简单而且在很多期情况下效果接近最优,所以应用比较广泛答案:A解析:模式识别79.下列图像边缘检测算子中抗噪性能最好的是()。A、梯度算子B、Prewitt算子C、Roberts算子D、Laplacian算子答案:B解析:图像处理、分析与机器视觉边缘检测算子P9580.下面关于数据产品开发相关描述正确的有(__)。A、数据科学家的主要职责是“数据的管理”B、数据科学家一定是科学家C、“数据码农”可以胜任数据科学家D、数据科学家是为解决现实世界中问题提供直接指导、依据或参考的高级专家答案:D解析:数据科学理论与实践81.下面不属于云计算技术的有(__)。A、HadoopB、SparkC、YARND、集中式计算答案:D解析:数据科学理论与实践82.以下对Value相关描述不正确的是(____)。A、Value是指应用价值高B、Value是指我们淹没在知识海洋,却忍受着知识的饥渴C、如何从海量数据中洞见出有价值的数据是数据科学的重要课题之一D、大数据中,数据价值与数据量之间不一定存在线性关系答案:A解析:数据科学理论与实践83.当原始数据的存在形式不符合目标算法的要求时,需要对原始数据进行(__)。A、数据变换B、数据加工C、数据清洗D、数据集成答案:A解析:数据科学理论与实践84.长短时记忆神经网络通过什么来缓解梯度消失问题?()A、增加网络深度B、减少网络神经元C、使用双向的网络结构D、增加一个用来保存长期状态的单元答案:D解析:深度学习LSTMP24885.以下对Variety相关描述不正确的是(____)。A、Variety是指类型多B、结构化数据在各类数据中占比最多C、类型多是指大数据涉及多种数据D、大数据种类包括结构化数据、非结构化数据、半结构化数据答案:B解析:数据科学理论与实践86.以下关于机器学习的发展历程描述错误的是(___)。A、要使机器具有智能,就必须设法使机器拥有知识B、从二十世纪七十年代中期开始,人工智能研究进入了“知识期”C、二十世纪五十年代中后期,基于神经网络的“符号主义”学习开始出现D、二十世纪八十年代是机器学习称为一个独立的学科领域、各种机器学习技术百花初绽的时期答案:C解析:机器学习P10,1187.(__)中基学习器的多样性不仅来自样本扰动,还来自属性扰动。A、AdaBoostB、RFC、BaggingD、传统决策树答案:B解析:机器学习P18088.处理文本数据,循环神经网络与前馈神经网络相比有()的优点。A、不会梯度消失B、训练结果不会发散C、不需要激活函数D、可以接受有序的输入序列答案:D解析:https://.jianshu./p/554b420c9e6489.根据DIKW信息、数据、知识、智慧模型,以下说法错误的是A、数据是记录下来可以被鉴别的符号,它是最原始的素材,未被加工解释,没有回答特定的问题,没有任何意义B、信息是已经被处理、具有逻辑关系的数据,是对数据的解释,这种信息对其接收者具有意义C、知识是从相关信息中过滤、提炼及加工而得到的有用资料,不能从知识中产生新的知识D、智慧是人类所表现出来的一种独有的能力,主要表现为收集、加工、应用、传播知识的能力,以及对事物发展的前瞻性看法答案:C解析:数据科学理论与实践P290.在支持向量机中,(__)允许支持向量机在一些样本上出错。A、硬间隔B、软间隔C、核函数D、拉格朗日乘子法答案:B解析:机器学习P12991.主成分分析的优化目标是一个(__)。A、不含约束条件的二次规划问题B、含有约束条件的二次规划问题C、不含约束条件的线性规划问题D、含有约束条件的线性规划问题答案:B解析:机器学习P23092.下面不属于数据科学平台的有(__)。A、dataikuB、endorC、knimeD、alpine答案:B解析:数据科学理论与实践93.以下哪项不属于图像分割的目的。()A、把不同类标分开。B、提取不同区域的特征。C、识别图像内容,或对图像进行分类。D、对未处理噪声的图像进行平滑。答案:D解析:图像处理、分析与机器视觉分割P12594.以下对大数据“涌现”描述不正确的是(____)。A、安全涌现是大数据涌现现象B、小数据可能没价值,但是小数据组成的大数据却很有价值,这叫做价值涌现C、小数据可能质量没问题,但是大数据质量会出现问题这叫质量涌现D、小数据可能不涉及隐私,但是大数据可能严重威胁个人隐私,这叫隐私涌现答案:C解析:数据科学理论与实践95.一个输入为(32,32,3)的数据集,通过一个大小为2×2的不重叠最大池化层,输出()。A、(28,28,8)B、(16,16,8)C、(28,28,3)D、(16,16,3)答案:D解析:/xiaodong_11/article/details/8198570096.可用信息增益来进行决策树的(__)。A、树高B、叶子结点数C、总结点数D、划分属性选择答案:D解析:机器学习P7597.(__)度量了学习算法的期望预测与真实结果的偏离程度。A、偏差B、方差C、均方差D、泛化误差答案:A解析:机器学习P4598.TF-IDF与一个词在文档中的出现次数成(__)。A、正比B、反比C、无关D、幂次答案:A解析:/zhaomengszu/article/details/8145290799.下列关于支持向量回归说法错误的是(__)。A、支持向量回归是将支持向量的方法应用到回归问题中B、支持向量回归同样可以应用核函数求解线性不可分的问题C、同分类算法不同的是,支持向量回归要最小化一个凹函数D、支持向量回归的解是稀疏的答案:C解析:支持向量机导论100.预剪枝是指在决策树生成过程中,对每个结点在划分(__)进行估计。A、前B、中C、后D、不估计答案:A解析:机器学习P79101.(__)对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性进行划分。A、AdaBoostB、RFC、BaggingD、传统决策树答案:B解析:机器学习102.下面关于参数估计相关描述不正确的有(__)。A、参数估计是根据样本的统计量来估计总体的参数B、相关分析是参数估计C、点估计是参数估计D、利用样本均值估计总体均值是参数估计答案:B解析:数据科学理论与实践103.以下描述不正确的是(__)。A、描述性分析主要采用描述性统计分析方法B、诊断性分析主要采用关联分析C、预测性分析主要采用因果分析D、规范性分析主要采用运筹学,模拟与仿真技术答案:C解析:数据科学理论与实践104.图像识别常用softmax函数接在模型的输出上,其作用为:()。A、增加不同类别之间的区分度B、突出输出向量中类标的对应的维度C、对输出归一化,同时以概率的更好解释输出向量D、过滤无用的环境信息答案:C解析:深度学习深度前馈网络P105105.做卷积运算的缺点是,卷积图像的大小会不断缩小,另外图像的左上角的元素只被一个输出所使用,所以在图像边缘的像素在输出中采用较少,也就意味着你丢掉了很多图像边缘的信息。为了解决这个问题,在卷积过程中引入了()。A、poolingB、paddingC、convolutionD、FC答案:B解析:/ice_actor/article/details/78648780106.边界跟踪技术技术属于哪一类分割方法。()A、阈值分割法B、边缘分割法C、区域分割法D、特征分区法答案:B解析:图像处理、分析与机器视觉分割P35107.支持向量机的优化问题是最小化<w·w>的平方,这实现了(__)。A、几何间隔为1/<w·w>的最大间隔超平面B、几何间隔为<w·w>的最大间隔超平面C、几何间隔为1/<w·w>的最小间隔超平面D、几何间隔为<w·w>的最小间隔超平面答案:A解析:支持向量机导论108.一个输入为(32,32,3)的数据集,通过一个卷积核个数为8,大小为5*5,步长为1的卷积层,输出()。A、(28,28,8)B、(27,27,8)C、(28,28,3)D、(27,27,3)答案:A解析:/ice_actor/article/details/78648780109.与卷积神经网络相比,循环神经网络可以学习()。A、细节信息B、文章长度C、单词之间的长距离依赖关系D、歧义答案:C解析:https://.jianshu./p/554b420c9e64110.下面不属于NoSQL的有(__)。A、ORACLEB、RedislabsC、couchbaseD、paradigm4答案:D解析:数据科学理论与实践111.(__)是指对已有数据在尽量少的先验假设条件下进行探索,并通过作图,制表等手段探索数据结构和规律的一种方法。A、统计分析B、验证性分析C、数据洞见D、探索性数据分析答案:D解析:数据科学理论与实践112.LasVegasWrapper是一种典型的(__)算法。A、过滤式选择B、嵌入式选择C、包裹式选择D、正则化答案:C解析:机器学习P251113.下面不属于数据科学中常用的开源技术框架的有(__)。A、hadoopmapreduceB、mapillaryC、hiveD、scipy答案:B解析:数据科学理论与实践114.(__)不属于相关分析。A、正相关B、负相关C、线性相关D、误差相关答案:D解析:数据科学理论与实践115.剪枝是决策树学习算法对付(__)的主要手段。A、欠拟合B、过拟合C、样本数过多D、特征数过多答案:B解析:机器学习P79116.下面关于数据科学中机器学习思路相关描述不正确的有(__)。A、测试集为输入B、机器学习算法来学习C、用函数比较算法估计目标函数D、现有或部分数据为训练集答案:A解析:数据科学理论与实践117.以下名称中不属于“属性张成的空间”的是(___)。A、属性空间B、样本空间C、输入空间D、对偶空间答案:D解析:机器学习P2118.线性模型中的权重w值可以看做各个属性x的(__)。A、正则化系数B、对最终决策结果的“贡献度”C、高维映射D、取值答案:B解析:机器学习P53119.tf.nn.rnn_cell.BasicLSTMCell(n_hidden,forget_bias=1.0,state_is_tuple=True)函数中的参数forget_bias的含义是()。A、神经元个数B、遗忘系数C、返回状态D、神经元类型答案:B解析:/kyang624823/article/details/79037495120.以下对智慧描述不正确的是(____)。A、智慧是人类超出知识的那一部分能力B、智慧是人类的创造性设计、批判性思考和好奇性提问的结果C、智慧是从信息中发现的共性规律、模型、模式、理论、方法等D、智慧运用知识并结合经验创造性的预测、解释和发现答案:C解析:数据科学理论与实践121.后剪枝是先从训练集生成一颗完整的决策树,然后(__)地对非叶结点进行考察。A、自上至下B、自左至右C、自右至左D、自底向上答案:D解析:机器学习122.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则答案:C解析:数据挖掘:概念与技术(第三版)P69123.TF-IDF模型中IDF是指(__)。A、词频数B、逆文档频率C、词频率D、逆文档频数答案:B解析:/zhaomengszu/article/details/81452907124.tensorflow中的tf.nn.max_pool()函数中的padding参数,作用是()。A、池化方法B、是否要在边缘补零C、是否要排序D、该层的名称答案:B解析:/qq_35370018/article/details/79519791125.在训练集上每学到一条规则,就将该规则覆盖的训练样例去除,然后以剩下的训练样例组成训练集重复上述步骤。这个过程称为(__)。A、规则学习B、直推学习C、强化学习D、序贯覆盖答案:D解析:机器学习P349126.下面不属于数据科学家的主要职责有(__)。A、制定“数据战略”B、研发“数据产品”C、模拟“数据学习”D、构建“数据生态系统”答案:C解析:数据科学理论与实践127.下列关于半监督支持向量机说法错误的是(__)。A、半监督支持向量机是针对二分类问题的学习算法B、半监督支持向量机寻求一个在所有样本上间隔最小化的划分超平面C、半监督支持向量机采用局部搜索来迭代地寻找其优化问题的近似解D、半监督支持向量机试图考虑对未标记样本进行各种可能的标记指派答案:B解析:机器学习P298128.以下对非结构化数据描述不正确的是(____)。A、不能用关系数据库存储和管理的数据B、没有统一的结构C、图像是非结构化数据D、HTML是非结构化数据答案:D解析:数据科学理论与实践129.现实中往往会遇到“不完整”的训练样本,在这种存在属性变量值未知的情形下,可用(__)。A、边际似然B、EM算法C、贝叶斯决策D、贝叶斯分类器答案:B解析:机器学习130.下列不属于聚类性能度量外部指标的是(__)。A、Jaccard系数B、FM系数C、Rand指数D、DB指数答案:D解析:机器学习P198131.下面关于假设检验相关描述不正确的有(__)。A、先对总体均值进行假设,然后利用样本来检验假设是否成立这属于假设检验B、区间估计不是假设检验C、非参数假设检验是假设检验D、点估计是假设检验答案:D解析:数据科学理论与实践132.(__)不仅可用于多层前馈神经网络,还可用于其他类型的神经网络。A、感知机B、神经元C、神经系统D、误差逆传播答案:D解析:机器学习133.(__)是具有适应性的简单单元组成的广泛并行互联的网络。A、神经系统B、神经网络C、神经元D、感知机答案:B解析:机器学习P97134.(__)是指样本空间中具有代表性的点。A、样本点B、原点C、原型D、实例答案:C解析:机器学习135.概率模型的训练过程就是(__)过程。A、分类B、聚类C、参数估计D、参数选择答案:C解析:机器学习136.若对于数据分布D和概率密度函数p(∙),错误率与精度可分别描述为(__)。A、若测试数据集的精度高或错误率小,则模型的泛化能力强;反之,则泛化能力弱。B、若测试数据集的精度低或错误率小,则模型的泛化能力强;反之,则泛化能力弱。C、若测试数据集的精度高或错误率高,则模型的泛化能力强;反之,则泛化能力弱。D、若测试数据集的精度小或错误率高,则模型的泛化能力强;反之,则泛化能力弱。答案:A解析:https://cloud.tencent./developer/news/319385137.(__)是事先将训练样本存储下来,然后每当遇到一个新增样本,学习系统分析此样本与以前存储样本之间的关系,并据此把一个目标函数值赋给新增样本。A、基于实例学习B、遗传算法C、人工神经网络D、归纳学习答案:A解析:数据科学理论与实践138.下列关于特征编码的叙述中,不正确的是()A、特征编码是将非数值型特征转换成数值型特征的方法B、数字编码与特征的排序无关C、One-Hot编码中,原始特征有n种取值,转换后就会产生n列新特征D、哑变量编码解决了One-Hot编码中存在线性关系的问题答案:B解析:数据科学理论与实践P70139.下面哪个不属于卷积神经网络的一部分()。A、输入层B、过滤层C、池化层D、全连接层答案:B解析:深度学习卷积网络P201140.线性判别分析是一种经典的(__)学习方法。A、线性B、非线性C、聚类D、降维答案:A解析:机器学习141.下列关于数据转换,正确的是()A、json内的取值只能有统一格式B、pdf文件在不同平台上打开显示不同C、可以通过python将csv文件转换成Excel格式D、excel存储数据的量无限制答案:C解析:数据科学理论与实践P107142.嵌入式选择是一种(__)算法。A、聚类B、特征选择C、分类D、回归答案:B解析:机器学习143.(__)主要包括数据科学中的新理念、理论、方法、技术和工具以及数据科学的研究目的、研究内容、基本流程、主要原则等。A、理论基础B、数据管理C、基础理论D、数据产品答案:C解析:数据科学理论与实践144.贝叶斯模型平均基于后验概率来为不同的模型赋予权重,可视为(__)的一种特殊实现。A、加权平均法B、投票法C、排序法D、学习法答案:A解析:机器学习P185145.卷积神经网络中说的梯度下降,是指()的梯度。A、参数本身B、激活函数C、损失函数D、图像大小答案:C解析:https://.cnblogs./neo-T/p/6445227.html146.(__)度量了同样大小的训练集的变动所导致的学习性能的变化。A、偏差B、方差C、均方差D、泛化误差答案:B解析:机器学习147.大数据产业全景图中包含以下选项(__):1.基础设施;2.企业应用;3.分析工具;4.行业行为;5.开源工具;6.数据资源;7.跨平台基础设施和分析工具;8.数据源和APPs。A、1234B、12345678C、2345678D、5678答案:B解析:数据科学理论与实践148.(__)是指捕获人们的生活、业务或社会活动,并将其转换为数据的过程。A、数据化B、数据可视化C、数据存储D、数据加工答案:A解析:数据科学理论与实践149.以下哪一个不是长短时记忆神经网络三个门中中的一个门?()A、输入门B、输出门C、遗忘门D、进化门答案:D解析:深度学习LSTMP248150.下面不属于对学习器的泛化误差进行评估的方法是(__)A、留出法B、交叉验证法C、自助法D、网格搜索法答案:D解析:机器学习151.一般地,”人“与”马“分别与”人马“相似,但”人“与”马“很不相似;要达到这个目的,可以令”人“”马“与”人马“之间的距离都比较小,但”人“与”马“之间的距离很大,此时该距离不满足(__)。A、非负性B、同一性C、对称性D、直递性答案:D解析:机器学习P199-201152.卷积神经网络中的dropout模块的作用是()。A、防止结果发散B、防止梯度消失C、防止报错D、防止过拟合答案:D解析:/qq_35370018/article/details/79519791153.主成分分析是一种常用的(__)方法。A、降维B、分类C、回归D、聚类答案:A解析:机器学习154.分词中的正向最大匹配算法是(__)扫描字符串。A、从左到右B、从右到左C、两边同时进行D、从一个指定的字符发散答案:A解析:https://baike.baidu./item/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D/371496155.(__)是交叉验证法的一种特例。A、自助法B、留一法C、交叉验证法D、错误率分析答案:B解析:机器学习P26156.下面关于决策树学习相关描述不正确的有(__)。A、决策树学习的本质是一种逼近离散值目标函数的过程B、决策树的根节点表示分类的开始C、中间节点表示某一个属性的属性值D、从根节点到叶节点的路径表示一个具体的实例答案:C解析:数据科学理论与实践157.(__)是指能够通过数据来帮助用户实现其某一个目标的产品。A、数据产品B、电子产品C、数据系统D、电子系统答案:A解析:数据科学理论与实践158.(__)不是描述统计的基本类型。A、集中趋势分析B、无关分析C、相关分析D、离中趋势分析答案:B解析:数据科学理论与实践159.根据某个词所连接所有词汇的权重,重新计算该词汇的权重,然后把重新计算的权重传递下去。直到这种变化达到均衡态,权重数值不再发生改变。这种关键词提取算法叫做()。A、TF-IDFB、TextRankC、LDAD、PCA答案:B解析:/qq_29573871/article/details/81390109160.以下不属于数据科学的研究目的的是(____)。A、大数据及其运动规律的揭示B、从数据到智慧的转化C、数据解释D、数据驱动型决策支持答案:C解析:数据科学理论与实践161.tensorflow中的tf.nn.max_pool()的函数,其作用是()。A、图像输入B、进行卷积C、进行池化D、图像输出答案:C解析:/qq_35370018/article/details/79519791162.下面不属于NewSQL的有(__)。A、memsqlB、trafodionC、mariaDBD、objectivity答案:D解析:数据科学理论与实践163.聚类算法的性能度量可称为(__)。A、密度估计B、异常检测C、有效性指标D、分布结构答案:C解析:机器学习164.多次“采样”,然后求取平均累积奖赏来作为期望积累奖赏的近似,这称为(__)。A、免模型学习B、机器学习C、深度学习D、蒙特卡罗强化学习答案:D解析:机器学习P383165.常用的图像分割方法是把图像(__)分成不同等级。A、颜色B、灰度C、大小D、亮度信息答案:B解析:数字图像处理166.在同一个问题中,错误率和精度的关系是(__)。A、错误率等于精度值加1B、错误率加精度等于1C、精度减错误率等于1D、两者之间没有关系答案:B解析:机器学习P29167.(__)就是把已知物体的模板与图像中所有未知物体进行比较,如果某一未知物体与该模板匹配,则该物体被检测出来,并被认为是与模板相同的物体。A、统计法B、句法识别法C、神经网络法D、模板匹配法答案:D解析:/wcl0617/article/details/79034683168.从加工程度看,数据产品可以包含的选项有(__);1.内容,2.情感,3.服务,4.应用,5.决策,6.智慧。A、1234B、1356C、1345D、3456答案:B解析:数据科学理论与实践169.下列不属于大数据4V特性的是().A、大量B、多样C、高速D、快捷答案:D解析:数据科学理论与实践P35170.维纳滤波器的作用通常是()。A、去噪B、减小图像动态范围C、复原图像D、图像模糊答案:C解析:图像处理、分析与机器视觉图像复原技术P115171.(__)不属于基本分析方法。A、回归分析B、分类分析C、聚类分析D、元分析答案:D解析:数据科学理论与实践172.当训练数据很多时,一种更为强大的结合策略是使用(__),通过另一个学习器来进行结合。A、投票法B、平均法C、学习法D、排序法答案:C解析:机器学习173.(__)是将低层次数据转换为高层次数据的过程。A、数据化B、数据整理C、数据加工D、数据整齐化答案:C解析:数据科学理论与实践174.(__)的学习目的是生成一颗泛化能力强,即处理未见示例能力强的决策树。A、线性回归B、贝叶斯分类器C、神经网络D、决策树答案:D解析:机器学习175.从学科定位来看,数据科学处于(__)三大领域的重叠之处。A、统计学B、黑客精神与技能C、数学与统计知识D、领域务实知识答案:A解析:数据科学理论与实践176.文本向量的每个元素表示该词的()。A、顺序B、频率C、含义D、语义关系答案:B解析:/u010213393/article/details/40987945177.计算机初始状态能识别(__)上的基本信息。A、像素点B、每个物体C、背景D、前景答案:A解析:/andylanzhiyong/article/details/73555259178.下面不属于位置智能的有(__)。A、foursquareB、placeIQC、MapillaryD、bloomberg答案:D解析:数据科学理论与实践179.与科学可视化相比,(__)更关注抽象且应用层次的可视化问题。A、信息可视化B、可视化理论C、可视分析学D、数据可视化答案:A解析:数据科学理论与实践180.(__)是决策树学习算法对付过拟合的主要手段。A、剪枝B、连续值处理C、信息增益D、数据预处理答案:A解析:机器学习P79181.(__)是将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动地进行了特征选择。A、过滤式选择B、包裹式选择C、嵌入式选择D、正则化答案:C解析:机器学习P252182.线性模型有很好的(__)。A、可描述性B、分类结果C、可解释性D、聚类结果答案:C解析:机器学习P53183.当决策树很小时,训练和检验误差都很大,这种情况称作(___)。A、模型拟合不足B、模型过拟合C、泛化能力好D、模型拟合适当答案:A解析:数据挖掘导论184.(__)是M-P神经元,也称为“阈值逻辑单元”。A、输入层B、输出层C、第一层D、第二层答案:B解析:机器学习185.任何一个核函数都隐式地定义了一个(__)空间。A、希尔伯特空间B、再生希尔伯特空间C、再生核希尔伯特空间D、欧式空间答案:C解析:机器学习P128186.多元线性回归的训练样本由(__)个属性描述。A、一B、二C、三D、多答案:D解析:机器学习187.在IBM提出的企业管理范畴中,企业数据不包含(__)。A、元数据B、主数据C、关系数据D、业务数据答案:D解析:数据科学理论与实践188.长短时记忆神经网络被设计用来解决什么问题?()A、传统RNN存在的梯度消失/爆炸问题B、传统RNN计算量大的问题C、传统RNN速度较慢的问题D、传统RNN容易过过拟合的问题答案:A解析:深度学习LSTMP249189.以下关于机器学习描述错误的是(__)。A、机器学习的目标是使学得的模型能很好地适用于“新样本”B、学得模型适用于新样本的能力,称为“泛化”能力C、具有强泛化能力的模型不能很好地适用于整个样本空间D、一般认为,数据样本越多,获得的模型的泛化能力越强答案:C解析:机器学习P3190.(__)是指抽取情感文本中有价值的情感信息,其要判断一个单词或词组在情感表达中扮演的角色,包括情感表达者识别,评价对象识别,情感观点词识别等任务。A、情感分类B、情感检索C、情感抽取D、情感分析答案:C解析:/weixin_42398658/article/details/85222547191.下面哪种不属于池化操作()。A、连接池化B、一般池化C、重叠池化D、金字塔池化答案:A解析:深度学习卷积网络P203192.(__)由两层神经元组成。A、神经系统B、神经网络C、神经元D、感知机答案:D解析:机器学习193.从训练数据中学习出一组能用于对未见示例进行判别的规则,这个过程称为(__)。A、机器学习B、规则学习C、直推学习D、主动学习答案:B解析:机器学习194.RNN不同于其它神经网络的地方在于()。A、实现了记忆功能B、速度快C、精度高D、易于搭建答案:A解析:深度学习序列建模P227195.(__)的目的是为给定学习器选择最有利于其性能、“量身定做”的特征子集。A、过滤式选择B、包裹式选择C、嵌入式选择D、正则化答案:B解析:机器学习196.下面不属于商业的有(__)。A、howgoodB、stitchfixC、instacartD、cyence答案:D解析:数据科学理论与实践197.将闵可夫斯基距离和(__)结合即可处理混合属性。A、ValueDifferenceMectricB、k-meansC、k近邻D、SVM答案:A解析:机器学习198.给定词汇表如下:{"Bob","ok","like","football","car"}。则下面句子“Botlikesfootball"的词袋模型表示为:A、[11100]B、[10110]C、[10010]D、[01101]答案:B解析:统计自然语言处理语言模型P162,命名实体翻译P585199.数据科学是一门将“现实世界”映射到“数据世界”,在“数据层次”上研究“现实世界”的问题,并根据“数据世界”的分析结果,对“现实世界”进行预测、解释或决策的(____)。A、新兴科学B、交叉性学科C、独立学科D、一整套知识体系答案:A解析:数据科学理论与实践200.下面关于贝叶斯学习相关描述正确的有(__)。A、贝叶斯学习等价于频数概率B、频数概率引入先验知识和逻辑推理来处理不确定问题C、贝叶斯学习只从数据本身获得结论D、贝叶斯学习是一种以贝叶斯法则为基础的,并通过概率手段进行学习的方法答案:D解析:数据科学理论与实践201.k近邻学习是一种(__)。A、监督学习方法B、半监督学习方法C、无监督学习方法D、测试方法答案:A解析:机器学习P225202.下列关于TF-IDF说法正确的是?A、该值与特征项在文档中出现的频率成反比B、该值与特征项在文档中出现的频率成正比C、该值与在整个语料库中出现该特征项的文档库成正比D、该值与特征项在文档中出现的频率无关答案:B解析:统计自然语言处理语言模型自适应方法P190,特征权重计算方法P673203.下面关于“领域务实知识”相关描述不正确的有(__)。A、“领域务实知识”是对数据科学家的特殊要求B、领域务实知识具有显著的面向领域性C、领域务实知识是数据科学的理论基础D、在组建团队时,不需重视领域专家的参与答案:D解析:数据科学理论与实践204.下列对于精度的描述,解释正确的是(__)。A、统计分类器预测出来的结果与真实结果不相同的个数,然后除以总的样例集D的个数。B、先统计分类正确的样本数,然后除以总的样例集D的个数。C、预测为正的样例中有多少是真正的正样例D、样本中的正例有多少被预测正确答案:B解析:/program_developer/article/details/79937291205.(__)不属于基于实例学习方法。A、KNNB、局部加权回归算法C、基于案例的推理D、决策树算法答案:D解析:数据科学理论与实践206.(__)用于将非线性引入神经网络。它会将值缩小到较小的范围内。A、损失函数B、优化函数C、激活函数D、目标函数答案:C解析:/jinyuan7708/article/details/82466653207.(__)直接把最终将要使用的学习器的性能作为特征子集的评价标准。A、过滤式选择B、包裹式选择C、嵌入式选择D、正则化答案:B解析:机器学习208.决策树中的叶结点对应于(__)。A、属性B、样本C、决策结果D、标签值答案:C解析:机器学习P74209.若学习算法不依赖于环境建模,则称为(__)A、免模型学习B、机器学习C、深度学习D、蒙特卡罗强化学习答案:A解析:机器学习210.下列哪个方法不属于情感分析的评测?A、COAE评测B、cifar10数据集评测C、CCFTCCI评测D、TAC评测答案:B解析:统计自然语言处理情感分析技术评测P737211.一切以数据作为驱动或者核心的产品叫做()A、创新性产品B、数据产品C、风控产品D、核心产品答案:B解析:数据科学理论与实践P157212.核矩阵是(__)的。A、没有规律B、半正定C、正定D、样本矩阵答案:B解析:机器学习213.在马尔科夫随机场中,(__)个变量之间的联合概率分布能基于团分解为多个因子的乘积。A、2B、3C、4D、多答案:D解析:机器学习P322214.以下对结构化数据描述不正确的是(____)。A、结构化数据可以直接用传统关系数据库进行存储B、先有结构,后有数据C、语音数据是结构化数据D、XML不是结构化数据答案:C解析:数据科学理论与实践215.事件A在另外一个事件B已经发生条件下的发生概率,称为(__)。A、先验概率B、后验概率C、条件概率D、统计概率答案:C解析:/qq_17073497/article/details/81076250216.以下选项不包含在DIKW金字塔中的是(____)。A、信息B、数值C、知识D、智慧答案:B解析:数据科学理论与实践217.决策树的生成是一个(__)过程。A、循环B、迭代C、递归D、排序答案:C解析:机器学习218.信息熵是度量(__)最常用的一种指标。A、样本的个数B、样本的维度C、样本的纯度D、样本的冗余度答案:C解析:机器学习P75219.输入图像为32x32,经过步长为1,不进行padding,卷积核为5x5的卷积层后,得到的特征图尺寸是多少?()A、28x28B、27x27C、29x29D、32x32答案:A解析:深度学习201卷积网络220.下面不属于农业的有(__)。A、farmersB、farmlogsC、prosperaD、uber答案:D解析:数据科学理论与实践221.(__)主要面向自然科学,尤其是地理、物理、化学、医学等领域。A、信息可视化B、科学可视化C、可视分析学D、数据可视化答案:B解析:数据科学理论与实践222.Relief的扩展变体Relief-F能够处理(__)问题。A、二分类B、多分类C、回归D、降维答案:B解析:机器学习223.(__)是神经网络的基本单位。A、神经系统B、神经网络C、神经元D、感知机答案:C解析:机器学习P97224.“给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离”,这说的是(__)算法。A、PCAB、SVMC、K-meansD、LDA答案:D解析:机器学习P60225.所有预测模型在广义上都可称为一个或一组(__)。A、公式B、逻辑C、命题D、规则答案:D解析:机器学习P348226.(__)在划分属性时是在当前结点的属性集合中选择一个最优属性。A、AdaBoostB、RFC、BaggingD、传统决策树答案:D解析:机器学习P179227.(__)不属于离中趋势分析。A、极差B、平均差C、误差D、标准差答案:C解析:数据科学理论与实践228.在模型评估与度量的方法中,(__)直接将数据集划分为两个互斥的集合,一个作为训练集,另一个作为测试集。A、自助法B、留出法C、交叉验证法D、错误率分析答案:B解析:机器学习P25229.()是一门以可视交互为基础,综合运用图形学、数据挖掘和人机交互等技术等多个学科领域的知识,以实现人机协同完成可视化任务为主要目的分析推理性学科。A、科学可视化B、可视分析学C、数据可视化D、信息可视化答案:B解析:数据挖掘:概念与技术(第三版)P37230.下面不属于探索性统计中常用离散程度统计量的是(__)。A、平均数B、方差C、标准差D、极大值答案:A解析:数据科学理论与实践231.遗忘门的作用是()。A、保留重要信息B、去除不重要信息C、信息增加D、输出答案:B解析:/qq_32241189/article/details/80461635232.数据治理任务通常有三个部分不包含(__)。A、主动定义或序化规则B、接触数据的业务流程C、为数据利益相关者提供持续D、跨界的保护、服务和应对并解决因不遵守规则而产生的问题答案:B解析:数据科学理论与实践233.图像平滑从信号处理的角度看就是去除其中的(__)。A、高频信息B、低频信息C、噪声D、亮度信息答案:A解析:https://.cnblogs./vincentcheng/p/9261557.html234.感知机只有(__)神经元进行激活函数处理,即只拥有一层功能神经元。A、输入层B、输出层C、第一层D、第二层答案:B解析:机器学习P99235.决策论中,将“期望损失”称为(__)。A、均值B、方差C、风险D、概率答案:C解析:机器学习236.下列关于泛化误差与偏差、方差和噪音之间的关系,表述正确的是(__)。A、泛化误差=偏差+方差-噪音B、泛化误差=偏差-方差+噪音C、泛化误差=偏差-方差-噪音D、泛化误差=偏差+方差+噪音答案:D解析:机器学习237.在k均值算法中,假定聚类簇数k=3,则在算法开始时随机选取(__)个样本作为初始均值向量A、1B、2C、3D、任意答案:C解析:机器学习P203238.(__)代表的是生成数据的机构。A、数据资源B、数据源C、数据端D、数据站答案:A解析:数据科学理论与实践239.(__)是从海量文本中查询到观点信息,根据主题相关度和观点倾向性对结果排序。A、情感分类B、情感检索C、情感抽取D、情感分析答案:B解析:/weixin_42398658/article/details/85222547240.(__)是一类用图来表达变量相关关系的概率模型。A、神经元模型B、感知机模型C、概率图模型D、SVM答案:C解析:机器学习241.信息熵的值越小,则该样本集合的纯度(__)。A、越低B、越高C、没有影响D、自由变化答案:B解析:机器学习242.下面对属性进行离散化的方法为()A、preprocessing.scale()B、pd.qcut()C、pd.shapeD、pgroupby()答案:B解析:数据科学理论与实践P106243.下列对于查全率的描述,解释正确的是(__)。A、统计分类器预测出来的结果与真实结果不相同的个数,然后除以总的样例集D的个数。B、先统计分类正确的样本数,然后除以总的样例集D的个数。C、预测为正的样例中有多少是真正的正样例D、样本中的正例有多少被预测正确答案:D解析:/program_developer/article/details/79937291244.(__)又称情感倾向性分析,是指对给定的文本,识别其中主观性文本的倾向是肯定还是否定的,或者说是正面还是负面的,是情感分析领域研究最多的A、情感分类B、情感检索C、情感抽取D、情感分析答案:A解析:/weixin_42398658/article/details/85222547245.下面不属于数据科学家应具备的能力有(__)。A、掌握机器学习B、数量掌握数据科学中常用的技术与工具C、有良好的身体素质D、有丰富的编程经验答案:C解析:数据科学理论与实践246.以下对半结构化数据描述不正确的是(____)。A、先有数据,后有结构B、先有结构,后有数据C、HTML是半结构化数据D、经过一定转换后可以用传统关系数据库存储答案:B解析:数据科学理论与实践247.下列不属于数据预处理的操作是(__)。A、抽样B、特征子集选择C、特征变换D、训练答案:D解析:数据挖掘导论P27248.LSTM的全称是()。A、卷积神经网络B、长短时记忆C、区域神经网络D、循环神经网络答案:B解析:/qq_32241189/article/details/80461635249.(__)试图学得一个属性的线性组合来进行预测的函数。A、决策树B、贝叶斯分类器C、神经网络D、线性模型答案:D解析:机器学习P53250.下面不属于数据科学中常用的开源技术统计工具的有(__)。A、scipyB、numpyC、scalalabD、sentry答案:D解析:数据科学理论与实践251.(__)是将“现实生活中的问题”转换为“数据世界中的问题”,然后采用数据科学的理念、原则、方法、技术、工具,通过将数据、尤其的大数据,转换为知识和智慧。A、数据工程师B、数据码农C、数据科学家D、科学家答案:C解析:数据科学理论与实践252.(__)采用概率模型来表达聚类原型。A、k均值算法B、学习向量量化C、高斯混合聚类密度聚类D、密度聚类答案:C解析:机器学习P206253.()是基于TopicModel的关键词抽取。A、TF-IDFB、TextRankC、LDAD、PCA答案:C解析:/albertyzy/article/details/80534246254.随机森林是在(__)上的一个扩展变体。A、BoostingB、AdaBoostC、RFD、Bagging答案:D解析:机器学习255.真负率是指(__)。A、正样本预测结果数/正样本实际数B、被预测为负的正样本结果数/正样本实际数C、被预测为正的负样本结果数/负样本实际数D、负样本预测结果数/负样本实际数答案:D解析:/s/blog_710435680100oca1.html256.TF-IDF模型中TF是指(__)。A、词频数B、逆文档频率C、词频率D、逆文档频数答案:C解析:/zhaomengszu/article/details/81452907257.马尔可夫随机场有一组(__),这是定义在变量子集上的非负实函数,主要用于定义概率分布函数。A、损失函数B、优化函数C、激活函数D、势函数答案:D解析:机器学习258.把词典中的词按照由长到短递减的顺序逐字搜索整个待处理的材料,一直到把全部的词切分出来为止。不论分词词典多大,被处理的材料多么小,都得把这个分词词典匹配一遍。这种方法叫(__)。A、正向最大匹配法B、逆向最大匹配法C、逐词遍历法D、隐马尔科夫模型答案:C解析:/devcloud/article/details/94554190259.假设一共有10篇文档,其中某个词A在其中10篇文章中都出现过,另一个词B只在其中3篇出现。根据逆文档频率,()比较关键。A、无B、AC、BD、A和B答案:C解析:http://.sohu./a/209627800_750788260.假正率是指(__)。A、正样本预测结果数/正样本实际数B、被预测为负的正样本结果数/正样本实际数C、被预测为正的负样本结果数/负样本实际数D、负样本预测结果数/负样本实际数答案:C解析:/s/blog_710435680100oca1.html261.下列哪个不是专门用于可视化时间空间数据的技术:A、等高线图B、饼图C、曲面图D、矢量场图答案:B解析:数据科学理论与实践P86262.循环神经网络适合处理什么数据。()A、节点数据B、序列数据C、结构化数据D、图像数据答案:B解析:深度学习序列建模P227263.下列关于软支持向量机的说法正确的是(__)。A、软间隔支持向量机不可应用拉格朗日乘子法求解B、软间隔支持向量机和硬间隔支持向量机完全相同C、软间隔支持向量机只能使用Hinge损失函数D、软间隔支持向量机的目标函数仍是一个二次规划问题答案:D解析:机器学习264.F1参数的大小反映了模型的(__)。A、准确度B、误差C、稳定性D、偏差答案:C解析:https://zhidao.baidu./question/1500844852433214179.html265.下面不属于数据加工的有(__)。A、数据脱敏B、数据脱质C、数据规约D、数据标注答案:B解析:数据科学理论与实践266.如果LASSO模型中的惩罚项变大,下列说法正确的是()A、部分回归系数会变为0B、部分回归系数会趋近于0,但不会取值为0C、A和B的表述都正确D、以上说法都不正确答案:A解析:数据科学理论与实践P42267.下面不属于数据科学中特有的管理方法有(__)。A、关系数据库B、NewSQLC、NoSQLD、关系云答案:A解析:数据科学理论与实践268.(__)训练好之后可以通过一些属性变量的观测值来推测其他属性变量的取值。A、贝叶斯决策B、贝叶斯分类器C、贝叶斯网D、结构答案:C解析:机器学习269.由于不同类别的关键词对排序的贡献不同,检索算法一般把查询关键词分为几类,以下哪一类不属于此关键词类型的是()。A、引用词B、普通关键词C、高频词汇D、扩展关键词答案:C解析:统计自然语言处理问答系统P714270.以下对Velocity相关描述不正确的是(____)。A、Velocity是指速度快B、实时分析数据处理要求速度快C、大数据中所说的“速度”包括两种:增长速度和处理速度D、通常而言,处理速度比增长速度快答案:D解析:数据科学理论与实践271.下面算法属于局部处理的是()。A、灰度线性变换B、二值化C、傅里叶变换D、中值滤波答案:D解析:图像处理、分析与机器视觉图像平滑P90272.若设1.启动,2.诊断,3.建立,4.行动,5.学习,则DMM模型中的顺序为(__)。A、12345B、12354C、13254D、13245答案:A解析:数据科学理论与实践273.(__)是一门以可视化交互为基础,综合运用图形学、数据挖掘和人机交互等多个领域的知识,以实现人机协同完成可视化任务为主要目的的分析推理性学科。A、信息可视化B、科学可视化C、可视分析学D、数据可视化答案:C解析:数据科学理论与实践274.CART决策树使用“基尼指数”来选择划分属性时,使划分后基尼指数()的属性为最优划分属性。A、最大B、最小C、随机选择D、按序选择答案:B解析:机器学习P75275.(__)主要为数据科学和大数据产业链提供大数据分析类的技术支持。A、分析工具B、基础设施C、数据科学平台D、机器学习答案:A解析:数据科学理论与实践276.(__)通过构建并结合多个学习器来完成学习任务。A、支持向量机B、贝叶斯分类器C、神经网络D、集成学习答案:D解析:机器学习P171277.图像降噪的作用(__)。A、改变图像大小B、将图像分成多个小单位C、去除干扰信号D、使图像变得更加丰富答案:C解析:https://wenku.baidu./view/cd5619586d85ec3a87c24028915f804d2b1687ec.html278.下面不属于脏数据的是(__)。A、有缺失值B、冗余数据C、噪声数据D、无序数据答案:D解析:数据科学理论与实践279.以下描述中不正确的是(___)。A、若欲预测的是离散值,则此学习任务称为分类B、若预测的是连续值,则此类学习任务称为回归C、学得的模型适用于新样本的能力,称训练能力D、从数据中学得模型的过程称为学习答案:C解析:机器学习P2,3280.下列对于错误率的公式,解释正确的是(__)。A、统计分类器预测出来的结果与真实结果不相同的个数,然后除以总的样例集D的个数。B、先统计分类正确的样本数,然后除以总的样例集D的个数。C、预测为正的样例中有多少是真正的正样例D、样本中的正例有多少被预测正确答案:A解析:/program_developer/article/details/79937291281.以下关于归纳偏好描述错误的是(___)。A、不是每一个有效的机器学习算法必有其归纳偏好B、归纳偏好可看做学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”C、归纳偏好对应了学习算法本身所做出的的关于“什么样的模型更好”的假设D、如果没有归纳偏好,学习算法在每次进行预测时将随机抽选训练集上的等效假设答案:A解析:机器学习P6,7282.(__)是在不影响数据分析结果准确性的前提下,对原始数据进行一定的变换操作,对其中的个人(组织)敏感数据进行替换或删除操作。A、数据加工B、数据保护C、数据脱敏D、数据清洗答案:C解析:数据科学理论与实践283.下面不属于数据归约方法有(__)。A、维归约B、度归约C、值归约D、数据压缩答案:B解析:数据科学理论与实践284.以下描述不正确的是(__)。A、耐抗性是指对于数据局部不良反应的非敏感性B、残差是指一个总括统计量或模型拟合值减去数据C、重新表达是指找到合适的尺度或数据表达方式进行一定的转换,使得有利于数据分析D、启示是指通过探索性分析,发现新的瑰丽,问题和启迪,进而满足数据加工和数据分析的需要答案:B解析:数据科学理论与实践285.决策树的基本流程遵循(__)的策略。A、贪心B、最优化C、分而治之D、顺序答案:C解析:机器学习P74286.Relief是为(__)问题设计的。A、二分类B、多分类C、回归D、降维答案:A解析:机器学习287.(__)采用图表或数学方法描述数据的统计特征。A、描述统计B、洞见统计C、推断统计D、归纳统计答案:A解析:数据科学理论与实践288.数据战略的侧重点是(__)。A、数据密集型问题B、计算密集型问题C、人才密集型问题D、模型密集型问题答案:A解析:数据科学理论与实践289.规则生成本质上是一个(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论