大数据题库-综合练习试题(一)_第1页
大数据题库-综合练习试题(一)_第2页
大数据题库-综合练习试题(一)_第3页
大数据题库-综合练习试题(一)_第4页
大数据题库-综合练习试题(一)_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第页大数据题库-综合练习试题1.()是一个组织机构的数据管理的愿景、目标以及功能蓝图的统一管理。A、数据治理B、数据战略C、数据加工D、数据能力【正确答案】:B解析:

数据战略(DataStrategy)是一个机构的数据管理的愿景、目标以及功能蓝图的统一管理。从DMM模型可看出,数据战略是组织机构的数据管理工作的重要前提。2.HBase依靠()提供强大的计算能力。A、ZooKeeperB、ChubbyC、RPCD、MapReduce【正确答案】:D解析:

Chubby是分布式协调系统,类似于ZooKecper。RPC(RemoteProcedureCall)是远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。HBase依靠MapReduce提供强大的计算能力。3.已知一组数据的协方差矩阵,下列关于主分量说法的错误的是()。A、主分量分析的最佳准则是对一组数据按一组正交基分解,在只取相同数量分量的条件下,以均方误差计算截尾误差最小B、在经主分量分解后,协方差矩阵成为对角矩阵C、主分量分析就是K-L变换D、主分量是通过求协方差矩阵的特征值得到【正确答案】:C解析:

K-L变换与PCA变换是不同的概念,PCA的变换矩阵是协方差矩阵,K-L变换的变换矩阵可以有很多种。如二阶矩阵、协方差矩阵、总类内离散度矩阵等。当K-L变换矩阵为协方差矩阵时,等同于PCA。4.在其他条件不变的前提下,()容易引起机器学习中的过拟合问题。A、增加训练集量B、减少神经网络隐藏层节点数C、删除稀疏的特征D、SVM算法中使用高斯核/RBF核代替线性核【正确答案】:D解析:

神经网络减少隐藏层节点,就是在减少参数,只会将训练误差变高,不会导致过拟合。D选项中SVM高斯核函数比线性核函数模型更复杂,容易过拟合。5.下列不属于Transformation操作的是()。A、mapB、filterC、sampleD、count【正确答案】:D解析:

Transformation常用函数为map、filter、flatMap、sample、union、join等。6.基于统计的分词方法为()A、正向最大匹配法B、逆向最大匹配法C、最少切分法D、条件随机场【正确答案】:D解析:

第一类是基于语法和规则的分词法。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来进行词性标注,以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂,基于语法和规则的分词法所能达到的精确度远远还不能令人满意,目前这种分词系统还处在试验阶段。

第二类是机械式分词法(即基于词典)。机械分词的原理是将文档中的字符串与词典中的词条进行逐一匹配,如果词典中找到某个字符串,则匹配成功,可以切分,否则不予切分。基于词典的机械分词法,实现简单,实用性强,但机械分词法的最大的缺点就是词典的完备性不能得到保证。据统计,用一个含有70000个词的词典去切分含有15000个词的语料库,仍然有30%以上的词条没有被分出来,也就是说有4500个词没有在词典中登录。

第三类是基于统计的方法。基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好地反映它们成为词的可信度。

最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描,这是基于词典分词的方法。最大匹配法有正向最大匹配法、逆向最大匹配法、最少切分法。其中,最少切分法使每一句中切出的词数最小,这也是基于词典分词的方法。7.表示数据分布是否为对称性的统计量是()。A、方差B、中位数C、偏态D、峰态【正确答案】:C解析:

偏态(Skewness)描述数据分布的对称性,当偏态系数等于0时,对应数据的分布为对称;否则分布为非对称。峰态(Kurtosis)描述数据分布的平峰或尖峰程度,当峰态系数等于0时,数据分布为标准正态分布;否则比正态分布更平或更尖。8.()是窄依赖操作。A、joinB、filterC、groupD、sort【正确答案】:B解析:

spark中常见的窄依赖操作包括map、filer、union、sample等,宽依赖的操作包括reduceByKey、groupByKey、join等。9.图像分割方法主要可以分为哪几类()A、基于阈值的分割方法B、基于区域的分割方法C、基于边缘的分割方法D、以上答案都正确【正确答案】:D解析:

现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。10.下列关于基本元数据描述正确的是()。A、基本元数据是与数据源、数据仓库、数据集市和应用程序等结构相关的信息B、基本元数据包括与企业相关的管理方面的数据和信息C、基本元数据包括日志文件和简历执行处理的时序调度信息D、基本元数据包括关于装载和更新处理、分析处理以及管理方面的信息【正确答案】:D解析:

基本元数据(Metadata)又称中介数据、中继数据,为描述数据的数据(dataaboutdata)。11.假如使用一个较复杂的回归模型来拟合样本数据,使用Ridge回归,调试正则化参数入,来降低模型复杂度。在入较大时,下列关于偏差(bias)和方差(variance)关系的说法正确的是()。A、偏差减小,方差减小B、偏差减小,方差增大C、偏差增大,方差减小D、偏差增大,方差增大【正确答案】:C解析:

入较小,偏差减小,方差增大,容易发生过拟合;入较大,偏差增大,方差减小,容易发生欠拟合。12.Spark比MapReduce快的原因不包括()。A、Spark基于内存迭代,而MapReduce基于磁盘迭代B、DAG计算模型比MapReduce更有效率C、Spark是粗粒度的资源调度,而MapReduce是细粒度的资源调度D、Spark支持交互式处理,MapReduce善于处理流计算【正确答案】:D解析:

A、B、C是Spark比MapReduce快的原因。MapReduce不善于处理除批处理算模式之外的其他计算模式,如流计算、交互式计算和图计算等。13.以下关于图像识别任务的叙述,错误的是()A、目标在于检测出图像中的对象是什么B、在识别前往往需要对图像进行预处理CNN是一种常用的图像识别网络D、图像的采集和传输方式对于图像识别结果没有影响【正确答案】:D14.下列关于多层前馈神经网络的描述错误的是()A、输出层与输入层之间包含隐含层,且隐含层和输出层都拥有激活函数的神经元B、神经元之间存在同层连接以及跨层连接C、输入层仅仅是接收输入,不进行函数处理D、每层神经元上一层与下一层全互连【正确答案】:B解析:

解析:多层前馈神经网络的特点:①每层神经元与下一层神经元之间完全互连;②神经元之间不存在同层连接;③神经元之间不存在跨层连接。15.下列描述中不属于规整数据(TidyData)三个基本原则的是()。A、每一类观察单元构成一个关系(表)B、每个观察占且仅占一行C、每个变量占且仅占一列D、每个观察占且仅占一个关系(表)【正确答案】:D解析:

tidyData原则为每列代表一个单独变量、每行代表单个观察值、每种观察形成一个表格。16.数据探索是指针对目标可变、持续、多角度的搜索或分析任务,下列不是其搜索过程特点的是()。A、有选择B、有策略C、有目标D、反复进行的【正确答案】:C解析:

数据探索是指针对目标可变、持续、多角度的搜索或分析任务,其搜索过程是有选择、有策略和反复进行的。17.下列关于数据交易市场的说法错误的是()。A、数据交易市场是大数据产业发展到一定程度的产物B、商业化的数据交易活动催生了多方参与的第三方数据交易市场C、数据交易市场通过生产、研发和分析数据,为数据交易提供帮助D、数据交易市场是大数据资源化的必然产物【正确答案】:C解析:

数据交易市场不生产数据。18.线性模型中的权重w可以看做各个属性x的()。A、正则化系数B、对最终决策结果的贡献度C、高维映射D、取值【正确答案】:B19.数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的(不可恢复,如数据销毁软件、硬盘消磁机、硬盘粉碎机等。A、暂时隔离B、暂时删除C、永久删除D、不做处理【正确答案】:C解析:

数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的永删除、不可恢复,如数据销毁软件、硬盘消磁机、硬盘粉碎机等。20.TF-IDF中的TF是指()A、某个词在文档中出现的次数B、文章的总次数C、某个词在文档中出现的次数/文章的总次数D、以上答案都不正确【正确答案】:C解析:

TF是词频(TermFrequency),表示某个词出现的频率,也就是某个词在文档中出现的次数/文章的总次数。21.()是交叉验证法的一种特例。A、自助法B、留一法C、交叉验证法D、错误率分析【正确答案】:B22.核矩阵是()的。A、没有规律B、半正定C、正定D、样本矩阵【正确答案】:B解析:

只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用。23.下列关于欠拟合(under-fitting)的说法正确的是()。A、训练误差较大,测试误差较小B、训练误差较小,测试误差较大C、训练误差较大,测试误差较大D、训练误差较小,测试误差较小【正确答案】:C解析:

欠拟合是指对训练样本的一般性质尚未学好,因此训练误差和测试误差均较大。24.SparkJob默认的调度模式是()。A、FIFOB、FAIRC、无D、运行时指定【正确答案】:A解析:

默认情况下Spark的调度模式是FIFO(先进先出)。25.多分类图像识别任务常采用()作为输出的编码方式A、二进制编码B、one-hot编码C、霍夫曼编码D、曼切斯特编码【正确答案】:B解析:

分类任务一般用独热(one-hot)编码表示最终输出,也就是00000010000这样的,码段中1出现的位置就是预测的类别。26.可用信息增益来进行决策树的()。A、树高B、叶子结点数C、总结点数D、划分属性选择【正确答案】:D27.长短时记忆网络属于一种()。A、全连接神经网络B、门控RNNC、BP神经网络D、双向RNN【正确答案】:B解析:

解析:长短时记忆网络(LSTM)是一种改进后的RNN,其增加了三个门用来控制信息传递和最后的结果计算,三个门分别为遗忘门、输入门、输出门。28.KNN近邻算法在()的情况下效果较好。A、样本较多但典型性不好B、样本较少但典型性好C、样本呈团状分布D、样本呈链状分布【正确答案】:B解析:

KNN算法主要依靠的是周围的点,因此如果样本过多,则难以区分,典型性好的容易区分。样本都是呈团状分布,KNN就发挥不出其求近邻的优势了,整体样本应该具有典型性好,样本较少,比较适宜。29.有研究发现“页面的显示速度每延迟1s,网站访问量就会降低11%,从而导致营业额或者注册量减少7%,顾客满意度下降16%”。该项研究表明了在数据产品开发中更加重要的是()。A、查全率B、用户体验C、数据可视化D、查准率【正确答案】:B解析:

在大数据时代,用户体验更加重要。30.情感信息抽取不包括以下哪些方法()A、基于命名实体识别的抽取方法B、基于重复段落的识别方法C、基于语义角色标注的抽取方法D、基于监督学习抽取的学习方法【正确答案】:B解析:

方法可以分为如下几种类型:①基于命名实体识别的抽取方法:一般情况下,评论中的观点持有者是由命名实体(如人名或机构名)组成的,因此,可以借助于命名实体识别技术来获取观点持有者;②基于语义角色标注的抽取方法:该方法利用语义角色标注的结果,寻找谓词的施事者作为候选的观点持有者和基于监督学习的抽取方法。31.()算法要求基学习器能对特定的数据分布进行学习,在训练过程的每一轮中,根据样本分布为每个训练样本重新赋予一个权重。A、BoostingB、支持向量机C、贝叶斯分类器D、神经网络【正确答案】:A32.假设有5个大小为7x7、边界值为0的卷积核,同时卷积神经网络第一层的深度为1。此时如果向这一层传入一个维度为224x224x3的数据,那么神经网络下一层所接收到的数据维度是()。A、218x218x218x5B、217217x217x8C、217x217x3D、220x220x5【正确答案】:A解析:

解析:(224-7)/1+1=218,因为是5个卷积核,所以输出通道肯定是5,选A。224-7)/1+1=21833.在逻辑回归输出与目标对比的情况下,下列评估指标不适用的是()。AUC-ROCB、准确度C、LoglossD、均方误差【正确答案】:D解析:

LogisticRegression是一个分类算法,所以它的输出不能是实时值,所以均方误差不能用于评估它。34.()用于对RDD中的数据进行计算。A、分区B、算子C、日志D、数据块【正确答案】:B解析:

算子是Spark中定义的函数,用于对RDD中的数据进行操作、转换和计算。35.在MapReduce中,下列描述错误的是()。A、经过map()函数的计算可以得出一个中间数据集B、map()函数是确定的,用户不可自定义C、对map()函数的返回值,进行--定的处理后才进入下个阶段D、map()函数的输入输出都是同一数据结构【正确答案】:B解析:

map()函数是由用户所自定义的。36.信息增益、增益率分别对可取值数目()的属性有所偏好。A、较高,较高B、较高,较低C、较低,较高D、较低,较低【正确答案】:B37.卷积的过程是让过滤器在图像上进行()A、缩放B、剪切C、窗口滑动D、镜像对称【正确答案】:C38.在Hadoop生态系统中,()建立在MapReduce之上,主要用来弥补MapReduce编程的复杂性。A、HbaseB、FlumeC、PigD、Sqoop【正确答案】:C解析:

Pig是对MapReduce编程复杂性的抽象,Pig平台包含用于分析Hadoop数据集的执行环境和脚本语言(PigLatin)。39.数据集成的基本类型是()。A、内容集成、结构集成B、内容集成、规约集成C、规约集成、结构集成D、模式集成、结构集成【正确答案】:A解析:

数据集成是指通过应用间的数据交换从而达到集成,主要解决数据的分布性和异构性的问题,其前提是被集成应用必须公开数据结构,即必须公开表间结构、表间关系、编码的含义等。40.构造了一个词表:{1.小明2.喜欢3.踢4.看5.足球6.篮球7.电影},利用上述词表的索引号,文档{小明喜欢踢足球}可以用一个7维向量表示为()A、[1101001]B、[1111111]C、[1111100]D、[1110100]【正确答案】:D解析:

统计文档中每个词的数量,根据词表的位置,将各个词的数量拼接成一个向量即可。41.BASE原则的含义不包括()。A、基本可用B、柔性状态C、最终一致D、基础条件【正确答案】:D解析:

BASE原则是BasicallyAvailable(基本可用)、SoftState(柔性状态)和EventallyConsistent(最终--致)的缩写。BasicallyAvailable是指可以容忍系统的短期不可用,并不追求全天候服务;SoftState是指不要求一直保持强一致状态;EventuallyConsistent是指最终数据一致,而不是严格的实时一致,系统在某一个时刻后达到一致性要求即可。42.属于卷积神经网络应用方向的是()A、图像分类B、目标检测C、图像语义分割D、以上答案都正确【正确答案】:D解析:

解析:卷积神经网络应用于图像分类、目标检测及图像语义分割。43.采用幂次变换进行灰度变换时,当幂次大于1时,该变换是针对()的图像进行增强。A、图像整体偏暗B、图像整体偏亮C、图像细节淹没在暗背景中D、图像同时存在过亮和过暗背景【正确答案】:B解析:

幂次变换的基本表达式为:y=cxr+b。当r>1时,变换函数曲线在正比函数下方,此时扩展高灰度级,压缩低灰度级,使图像变暗;当r44.下列关于数据的描述错误的是()。A、数据化与数字化是两个不同概念B、数据与数值是一个概念C、大数据与海量数据是两个不同的概念D、数据和信息是两个不同的概念【正确答案】:B解析:

除了数值,数据科学中的数据还包括文字、图形、图像、动画、文本、语音、视频、多媒体和富媒体等多种类型。45.PagcRank是一个函数,它对Web中的每个网页赋予一个实数值。它的意图在于网页的PageRank越高,那么它就()。A、相关性越高B、越不重要C、相关性越低D、越重要【正确答案】:D解析:

PageRank认为,如果A页面有一个链接指向B页面,那就可以看作是A页面对B页面的一种信任或推荐。所以,如果一个页面的反向链接越多,根据这些链接的价值加权越高,那搜索引擎就会判断这样的页面更为重要。46.留出法直接将数据集划分为()个互斥的集合。A、一B、二C、三D、四【正确答案】:B解析:

留出法(hold-out)直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集,另一个作为测试集T。47.下列关于缺失值的说法错误的是()。A、可以利用统计量对缺失值进行填补B、可以利用K近邻值对缺失值进行填补C、只要有缺失值就必须把对应记录删除D、对于缺失值较多的属性可以考虑删除【正确答案】:C解析:

缺失值可以通过删除、填补等方法进行处理。48.对于一个图像识别问题(在一张照片里找出一只猫),()可以更好地解决这个问题A、循环神经网络B、感知机C、多层感知机D、卷积神经网络【正确答案】:D解析:

解析:卷积神经网络可以提取图像特征,且具有平移不变性。循环神经网络适合语言类数据。49.神经网络感知机只有()神经元进行激活函数处理,即只拥有一层功能神经元A、输出层B、输入层C、感知层D、网络层【正确答案】:A解析:

解析:神经网络感知机由两层神经元组成,输入层接收外界输入信号以后传递给输出层,其中,仅输出层进行激活函数处理。50.下列关于缺失值填补的说法不正确的是()。A、填补数据可以用中位数或者众数等B、Pandas.dropna可以用来填补缺失值C、用平均值填补会引入相关D、哑变量填补是将缺失值当做一类新特征处理【正确答案】:B解析:

Pandas.dropna可以用来删除缺失值。51.下列不属于数据科学项目主要角色的是()。A、项目发起人B、项目经理C、操作员D、验收人员【正确答案】:D解析:

数据科学项目涉及的主要角色有项目发起人(ProjectSponsor)、项目经理(ProjecManager)、客户(Client)、数据科学家(DataScientist)、数据工程师(DataEngineer)、操作员(Operations)等。52.下列关于降维的表述错误的是()。A、降维过程中可以保留原始数据的所有信息B、多维缩放的目标是要保证降维后样本之间的距离不变C、线性降维方法目标是要保证降维到的超平面能更好地表示原始数据D、核线性降维方法目标是通过核函数和核方法来避免采样空间投影到高维空间再降维之后的低维结构丢失【正确答案】:A解析:

降维过程中尽量保留原始数据的信息,但不能保留原始数据的全部信息。53.下列不是开源工具特点的是()。A、免费B、可以直接获取源代码C、用户可以修改源代码并不加说明用于自己的软件中D、开源工具一样具有版权【正确答案】:C解析:

延伸的代码中(修改和有源代码衍生的代码中)需要带有原来代码中的协议、商标、专利声明和其他原来作者规定需要包含的说明。如果再发布的产品中包含一个Notice文件,则在Notice文件中需要带有开源工具的Licence。你可以在Notice中增加自己的许可,但不可以表现为对开源工具Licence构成更改。54.大数据参考架构的水平轴和垂直轴分别为()。A、信息(活动)价值链和信息技术价值链B、信息技术价值链和信息(活动)价值链C、信息交互价值链和信息技术价值链D、信息(活动)价值链和信息交互价值链【正确答案】:A解析:

大数据参考架构围绕代表大数据价值链的信息价值链(水平轴)和信息技术价值链(垂直轴)两个维度组织展开。55.图灵奖获得者JimGray提出的科学研究第四范式的全称为()。A、数据密集型科学发现B、以数据为中心的科学发现C、数据驱动型的科学发现D、大数据科学研究【正确答案】:A解析:

2007年,图灵奖获得者JimGray提出了科学研究的第四范式-数据密集型科学发现(Data-intensiveScientificDiscovery)。在他看来,人类科学研究活动已经历过三种不同范式的演变过程(原始社会的实验科学范式、以模型和归纳为特征的理论科学范式和以模拟仿真为特征的计算科学范式),目前正在从计算科学范式转向数据密集型科学发现范式。56.如果一个SVM模型出现欠拟合,那么()能解决这一问题。A、增大惩罚参数CB、减小惩罚参数CC、减小核系数(gamma参数)D、增大核系数(gamma参数)【正确答案】:A解析:

SVM模型出现欠拟合,表明模型过于简单,需要提高模型复杂度。C越大,相应的模型越复杂。57.下列算法中:①KNN;②线性回归;③对数几率回归。可以用神经网络去构造的()。A、①②B、②③C、①②③D、以上答案都不正确【正确答案】:B解析:

解析:KNN算法不需要训练参数,而所有神经网络都需要训练参数,因此神经网络帮不上忙。最简单的神经网络-感知器,其实就是线性回归的训练。我们可以用一层的神经网络构造对数几率回归。58.下列关于等距离散化和等频离散化的叙述不正确的是()。A、等距离散化是将连续型特征的取值区间均匀地划分成多个区间段B、等距离散化对数据离群值不敏感C、等频离散化考虑了区间段中的样本个数,使每个区间段的样本数相同D、等频离散化会将相似的样本划分到不同的区间【正确答案】:B解析:

等距离散化对数据离群值敏感。59.长短时记忆神经网络被设计用来解决的问题是()。A、传统RNN存在的梯度消失/爆炸问题B、传统RNN计算量大的问题C、传统RNN速度较慢的问题D、传统RNN容易过过拟合的问题【正确答案】:A60.划分聚类算法是一种简单的较为基本的重要聚类方法。它的主要思想是通过将数据点集分为()个划分,并使用重复的控制策略使某个准则最优化,以达到最终的结果。A、DB、KC、ED、F【正确答案】:B解析:

划分聚类算法K-Means将数据点集分为K个子集。61..卷积神经网络(convolutionalneuralnetwork,CNN)是一种专门用来处理具有类似()的数据的神经网络。A、网格结构B、数组结构C、序列结构D、表格结构【正确答案】:A62.下列关于L1、L2正则化的说法正确的是()。A、L2正则化能防止过拟合,提升模型的泛化能力,但L1做不到这点B、L2正则化技术又称为LassoRegularizationC、L1正则化得到的解更加稀疏D、L2正则化得到的解更加稀疏【正确答案】:C解析:

L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择;L2正则化可以防止模型过拟合,一定程度上L1也可以防止过拟合,L1正则化又称LassoRegression。63.下列关于HDFS特征的说法错误的是()。A、支持超大文件B、基于商用硬件C、流式数据访问D、低吞吐量【正确答案】:D解析:

HDFS设计中重视数据的高吞吐量,因此其数据吞吐量高,但也造成了其数据延迟访问的特征。64.下列关于人工神经网络(ANN)的描述错误的是()A、神经网络对训练数据中的噪声非常鲁棒B、可以处理冗余特征C、训练ANN是一个很耗时的过程D、至少含有一个隐藏层的多层神经网络【正确答案】:A解析:

解析:未经正则化的神经网络对可能对噪声很敏感。65.下列关于集成学习模型中弱学习者的描述错误的是()。A、经常不会过拟合B、通常带有高偏差,所以其并不能解决复杂学习问题C、通常会过拟合D、通常拥有低方差【正确答案】:C解析:

弱学习者是问题的特定部分。所以他们通常不会过拟合,这也就意味着弱学习者通常拥有低方差和高偏差。66.下面方法中,属于映射数据到新的空间的方法是哪个()A、傅立叶变换B、特征加权C、渐进抽样D、维归约【正确答案】:A解析:

傅立叶变换是将时间域映射到频率域。67.下列关于HDFS的描述正确的是()。A、如果NameNode宕机,SecondaryNamcNode会接替它使集群继续工作B、HDFS集群支持数据的随机读写C、NameNode磁盘元数据不保存Block的位置信息DataNode通过长连接与NameNode保持通信【正确答案】:C解析:

SccondaryNameNode并不是NameNode节点的备份,所以A错;存储在HD集群上的数据是不支持随机修改和删除的,只支持追加,所以B错;NanNode和DataNo之间的通信是基于一种心跳机制,该机制不是长连接是短连接形式,每次发送一个数据(自身状态信息+数据块信息)即可,所以D错。68.下列特征选择算法中,不属于常用的文本分类的特征选择算法是哪个()A、卡方检验B、互信息C、信息增益D、主成分分析【正确答案】:D解析:

以文档频率为基础的特征选择算法有文档频次方法(直接依据文档频率大小排序的方法)、卡方检验、信息增益、互信息等,不包括主成分分析法。69.()算法是决策树学习的基本算法,其他多数决策树学习方法都是它的变体。A、Find-SB、KNNC、概念D、ID3【正确答案】:D70.下列关于数据创新的说法正确的是()。A、多个数据集的总和价值等于单个数据集价值相加B、由于数据的再利用,数据应该永久保存下去C、相同数据多次用于相同或类似用途,其有效性会降低D、数据只有开放价值才可以得到真正释放【正确答案】:D解析:

略。71.下列算法中:①KNN算法;②线性回归;③逻辑回归。可以用神经网络构建的算法是()。A、①②B、②③C、①②③D、以上都不是【正确答案】:B解析:

解析:KNN算法是关于距离的学习算法,没有任何参数,所以无法用神经网络构建。72.下列关于Apriori算法原理的叙述错误的是()。Apriori算法通常使用先验知识或者假设B、如果某个项集是频繁的,那么它的所有子集也是频繁的C、如果一个项集是非频繁集,那么它的所有超集也是非频繁的D、Apriori算法不可以用来发现频繁集【正确答案】:D解析:

Apriori算法可以用来发现频繁集。73.如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规则为()。A、无序规则B、穷举规则C、互斥规则D、有序规则【正确答案】:C74.在深度学习中,我们经常会遇到收敛到localminimum,下列不属于解决localminimum问题的方法是()。A、随机梯度下降B、设置MomentumC、设置不同初始值D、增大batchsize【正确答案】:D解析:

解析:增大batchsize无法解决localminimum问题。75.下列关于Logistic回归和SVM的描述不正确的是()。A、Logistic回归本质上是一种根据样本对权值进行极大似然估计的方法,用先验概率的乘积代替后验概率B、Logistic回归的输出就是样本属于正类别的概率C、SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,属于结构风险最小化D、SVM可以通过正则化系数控制模型的复杂度,避免过拟合【正确答案】:A解析:

Logistic回归目标函数是最小化后验概率,Logistic回归可以用于预测事件发生概率的大小,SVM目标是结构风险最小化,SVM可以有效避免模型过拟合。76.平滑图像处理可以采用RGB彩色()。A、直方图均衡化模型B、直方图均衡化模型C、加权均值滤波模型D、中值滤波模型【正确答案】:C解析:

平滑图像处理可以采用RGB彩色加权均值滤波模型。77.在Apriori算法中,候选项集划分为不同的桶,存放在()中。A、字典B、集合C、Hash树D、列表【正确答案】:C78.如果训练一个RNN网络时发现权重与激活值都是NaN,则导致这个问题最有可能的原因是()A、梯度消失B、梯度爆炸C、ReLU函数作为激活函数g),在计算g(z)时,z的数值过大了D、Sigmoid函数作为激活函数g),在计算g(z)时,z的数值过大了【正确答案】:B解析:

解析:训练过程中出现梯度爆炸会伴随一些细微的信号,如:①模型无法从训练数据中获得更新(如低损失);②模型不稳定,导致更新过程中的损失出现显著变化;③训练过程中,模型损失变成NaN。79.大数据平台构建分布式文件系统、分布式数据仓库、非关系型数据库、关系型数据库,实现各类数据的集中存储与统一管理,满足()存储需求。A、历史数据B、离线数据C、实时数据D、多样化数据【正确答案】:D解析:

大数据平台构建分布式文件系统、分布式数据仓库、非关系型数据库、关系型数据库、实现各类数据的集中存储与统一管理,满足多样化数据存储需求。80.以下关于情感分析说法错误的是()A、情感分类是一个领域相关的问题B、情感分类往往牵涉样本的正负类别分布不平衡的问题C、情感分析属于nlp范围D、以上答案都不正确【正确答案】:D解析:

情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,情感分类不属于邻域相关的问题,不涉及样本的正负类别分布不平衡的问题,不属于nlp范围。81.输人图像已被转换为大小为28x28的矩阵和大小为7x7的步幅为1的核心/滤波器,则卷积矩阵的大小是()A、22x22B、21x21C、28x28D、7x7【正确答案】:A解析:

解析:28-7+1=22。82.对连续图像的离散化采样决定了图像的()A、空间分辨率B、时间分辨率C、地面分辨率D、灰度值【正确答案】:A解析:

连续图像变为离散图像需要每隔一定距离取一次样,这里的一定距离就是采样距离,采样距离越大,而像素点越少,图像越模糊,反之亦然。83.下列关于关键词提取的说法错误的是()A、关键词提取是指借用自然语言处理方法提取文章关键词B、TF-IDF模型是关键词提取的经典方法C、文本中出现次数最多的词最能代表文本的主题D、这个问题设计数据挖掘,文本处理,信息检索等领域【正确答案】:C解析:

只依靠文本中出现次数即词频所得到的关键词有很大的不确定性,对于长度比较长的文本,这个方法会有很大的噪音,虽然它在文本中出现的次数最多,但它很可能在语料库中出现的次数也很高,所以单凭文本中出现次数最多这一个特性并不能准确的代表文本的主题,所以C错误,选C。84.具有体量大、来源多样、生成极快和多变等特征并且难以用传统数据体系机构有效处理的包含大量数据集的数据是()。A、海量数据B、大数据C、厚数据D、异构数据【正确答案】:B解析:

GB/T35295-2017《信息技术/大数据/术语》认为,大数据是具有体量大、来源多样、生成极快、多变等特征,并且难以用传统数据体系机构有效处理的包含大量数据集的数据。85.假设在庞大的数据集上使用Logistic回归模型,可能遇到一个问题,Logistic回归需要很长时间才能训练,如果对相同的数据进行逻辑回归,则花费更少的时间,并给出比较相似的精度的方法是()。A、降低学习率,减少迭代次数B、降低学习率,增加迭代次数C、提高学习率,增加迭代次数D、增加学习率,减少迭代次数【正确答案】:D解析:

如果在训练时减少迭代次数,就能花费更少的时间获得相同的精度,但需要增加学习率。86.下列关于数据产品开发关键环节的描述正确的是()。A、数据收集B、数据预处理C、数据学习D、数据加工【正确答案】:D解析:

数据加工(DataWrangling或DataMunging)是数据产品开发的关键环节。87.下面色彩空间中,最接近人的视觉系统的特点的是哪个()A、RGB空间B、CMY空间CMYK空间D、HSI空间【正确答案】:D解析:

HSI反映了人的视觉系统感知彩色的方式,以色调、饱和度和亮度三种基本特征量来感知颜色,最接近人的视觉系统特征。88.与生成方法、半监督SVM、图半监督学习等基于单学习机器利用未标记数据不同,基于分歧的方法(disagreement-basedmethods)使用多学习器,而学习器之间的分歧(disagreement)对未标记数据的利用至关重要。()是此类方法的重要代表。A、协同训练B、组合训练C、配合训练D、陪同训练【正确答案】:A解析:

协同训练是此类方法的重要代表,它很好地利用了多视图的相容互补性。89.()反映数据的精细化程度,越细化的数据,价值越高。A、规模B、灵活性C、关联度D、颗粒度【正确答案】:D解析:

颗粒度反映的是数据的精细化程度。90.一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归直线方程J=7.19x+73.93,据此可以预测这个孩子10岁时的身高,则下列叙述正确的是(A、身高一定是145.83cmB、身高一定超过146.00cmC、身高一定高于145.00cmD、身高在145.83cm左右【正确答案】:D解析:

回归直线方程预测时,出现的误差方向不能确定。91.DBSCAN算法的MinPts参数的意义是()。A、数据点的邻域半径B、密度阈值C、高密度点距离阈值D、低密度点距离阈值【正确答案】:B92.自然语言处理、语音识别、股票交易、气象预测等应用适合采用()处理。A、循环神经网络B、卷积神经网络C、多层神经网络D、单层神经网络【正确答案】:A解析:

解析:循环神经网络具有记忆性、参数共享并且图灵完备,因此在对序列的非线性特征进行学习时具有一定优势。循环神经网络在自然语言处理,例如语音识别、语言建模、机器翻译等领域有应用,也被用于各类时间序列预报,如股票交易和气象预测。卷积神经网络主要用于图像处理。多层神经网络主要用于分类任务,单层神经网络只能实现简单的逻辑,如与、或、非,若不加激活函数甚至无法实现异或。93.下列关于Hive说法正确的是()。A、一种数据仓库工具B、一种数据处理工具C、一种可视化工具D、一种分析算法【正确答案】:A解析:

Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。94.下列关于深度学习框架的描述正确的是()A、Tensorfow是一款使用C++语言开发的开源数学计算软件B、Caffe对于卷积网络的支持特别好,同时提供C++接口、matlab接口和python接口C、PyTorch的前身便是Torch,其底层和Torch框架一样,但是使用Python重新写了很多内容D、以上答案都正确【正确答案】:D95.下列不适合使用机器学习方法解决的是()。A、判断电子邮件是否是垃圾邮件B、判断给定的图中是否有环C、判断是否给指定用户办理信用卡D、对滴滴拼车乘客分簇【正确答案】:B解析:

判断给定的图中是否有环采用深度学习。96.DIKW金字塔模型中,顶层与底层的名称分别为()。A、智慧与数据B、知识与数据C、智慧与数值D、知识与数值【正确答案】:A解析:

DIKW金字塔(DIKWPyramid)模型揭示了数据(Data)与信息(Information)、知识(Knowledge)、智慧(Wisdom)之间的区别与联系,自底向上分别为数据、信息、知识、智慧。97.著名的C4.5决策树算法使用()来选择最优划分属性。A、信息增益B、增益率C、基尼指数D、均值【正确答案】:B98.机器学习算法在学习过程中对某种类型假设的偏好称为()。A、训练偏好B、归纳偏好C、分析偏好D、假设偏好【正确答案】:B99.()算法是分类算法。A、DBSCANB、C4.5C、K-meansD、EM【正确答案】:B解析:

C4.5是分类算法;DBSCAN、K-means、EM是聚类算法。100.属于深度学习框架的是()A、TensorflowB、CaffeC、PyTorchD、以上答案都正确【正确答案】:D解析:

解析:Tensorflow、Caffe、PyTorch都是流行的深度学习框架。1.在Spark中,弹性分布式数据集的特点包括()。A、可分区B、可序列化C、可直接修改D、可持久化【正确答案】:ABD解析:

RDD不可修改。2.可视分析学的特点包含()。A、强调数据到知识的转换过程B、强调可视化分析与自动化建模之间的相互作用C、强调数据映射和数据挖掘的重要性D、强调数据加工(DataWrangling或DataMunging)工作的必要性E、强调人机交互的重要性【正确答案】:ABCDE解析:

从可视分析学模型可以看出,可视分析学的流程具有如下特点:①强调数据到知识的转换过程。可视化分析学中对数据可视化工作的理解发生了根本性变化-数据可视化的本质是将数据转换为知识,而不能仅仅停留在数据的可视化呈现层次之上。从数据到知识的转换途径有可视化分析和自动化建模两种。②强调可视化分析与自动化建模之间的相互作用。二者的相互作用主要体现在:一方面,可视化技术可用于数据建模中的参数改进的依据;另一方面,数据建模也可以支持数据可视化活动,为更好地实现用户交互提供参考。③强调数据映射和数据挖掘的重要性。从数据到知识转换的两种途径-可视化分析与自动化建模分别通过数据映射和数据挖掘两种不同方法实现。因此,数据映射和数据挖掘技术是数据可视化的两个重要支撑技术。用户可以通过两种方法的配合使用实现模型参数调整和可视化映射方式的改变,尽早发现中间步骤中的错误,进而提升可视化操作的信度与效度。④强调数据加工工作的必要性。数据可视化处理之前一般需要对数据进行预处理(转换)工作,且预处理活动的质量将影响数据可视化效果。⑤强调人机交互的重要性。可视化过程往往涉及人机交互操作,需要重视人与计算机在数据可视化工作中的互补性优势。因此,人机交互以及人机协同工作也将成为未来数据可视化研究与实践的重要手段。3.数据增值存在的过程有()。A、数据对象的封装B、数据系统的研发C、数据的集成应用D、基于数据的创新【正确答案】:ABCD解析:

数据对象的封装、数据系统的研发、数据的集成应用、基于数据的创新均需要进行数据增值。4.下列关于分析学习和归纳学习的比较的说法正确的有()。A、归纳学习拟合数据假设,分析学习拟合领域理论的假设B、归纳学习论证方式为统计推理,分析学习为演绎推理C、归纳学习不需要先验知识D、训练数据不足时归纳学习可能会失败【正确答案】:ABCD解析:

分析学习是相对于归纳学习的一种提法,其特点是使用先验知识来分析或解释每个训练样本,以推理出样本的哪些特征与目标函数相关或不相关。因此,这些解释能使机器学习系统比单独依靠数据进行泛化有更高的精度。分析学习使用先验知识来减小待搜索假设空间的复杂度,减小了样本复杂度并提高了机器学习系统的泛化精度。可见,分析学习与归纳学习的优缺点在一定程度上具有互补性,分析学习方法的优点在于可用先验知识从较少的数据中更精确地泛化以引导学习。但是,当先验知识不正确或不足时,分析学习的缺点也会被突显;归纳学习具有的优点是不需要显式的先验知识,并且主要基于训练数据学习到规律。然而,若训练数据不足时它能会失败,并且会被其中隐式的归纳偏置所误导,而归纳偏置是从观察数据中泛化所必需的过程。因此,我们可以考虑如何将二者结合成一个单独的算法,以获得它们各自的优点。5.在监督式学习中使用聚类算法的方法有()。A、首先可以创建聚类,然后分别在不同的集群上应用监督式学习算法B、在应用监督式学习算法之前,可以将其类别ID作为特征空间中的一个额外的特征C、在应用监督式学习之前,不能创建聚类D、在应用监督式学习算法之前,不能将其类别ID作为特征空间中的一个额外的特征【正确答案】:AB解析:

我们可以为不同的集群构建独立的机器学习模型,并且可以提高预测精度。将每个类别的ID作为特征空间中的一个额外的特征可能会提高的精度结果。6.与全连接的DNN,CNN的优势有()A、参数更少B、泛化更好C、训练更快D、更容易搭建【正确答案】:ABC解析:

解析:DNN直接对数据做加权线性连接,CNN则是移动卷积核,并对图像中的各区域做卷积操作。因此,DNN更容易搭建,D错误。7.基于核的机器学习算法有()A、最大期望算法B、径向基核函数C、线性判别分析法D、支持向量机【正确答案】:BCD8.关于TF-IDF模型描述正确的有()A、TF是词频B、IDF是逆文本频率C、该模型基于统计方法D、在信息检索中应用较少【正确答案】:ABC解析:

TF-IDF算法应用较为广泛,在信息检索中也常用。9.影响聚类算法效果的主要原因有()。A、特征选取B、模式相似性测度C、分类准则D、已知类别的样本质量【正确答案】:ABC解析:

聚类算法是无监督的学习算法,训练样本的标记信息是未知的。10.下列关于Hive的说法正确的有()。A、Hive是基于Hadoop的数据仓库工具B、Hive可以将结构化的数据文件映射为一张数据库表C、最初,Hive由Google开源,用于解决海量结构化日志数据统计问题D、Hive的主要应用场景是离线分析【正确答案】:ABD解析:

Hive不是由谷歌提出和开源的,谷歌提出的三大核心技术是GFS、BigTable、MapReduce。11.Spark组件包含()两个算子。A、MapB、ActionC、TransformationD、Reduce【正确答案】:BC解析:

Spark针对RDD提供了多种基础操作,可以大致分为Action和Transformation两种。12.特征选择在子集生成与搜索方面引入了人工智能搜索技术和子集评价方法。其中人工智能搜索技术有()。A、分支界限法B、浮动搜索法C、信息熵D、AIC【正确答案】:ABCD解析:

特征选择在子集生成与搜索方面引入了很多人工智能搜索技术,如分支界限法、浮动搜索法等;在子集评价方法则采用了很多源于信息论的准则,如信息熵、AIC等。13.HadoopMapReduce是MapReduce的具体实现之一。HadoopMapReduce数据处理过程涉及四个独立的实体,包括()。A、ClientB、JobTrackerC、TaskTrackerD、HDFS【正确答案】:ABCD解析:

可以将MapReducc的工作流程概括为4个独立的实体。4个实体分别为:①Client,用来提交MapRcduce的作业。编写MapRcducc程序,配置作业,提交作业,即需程序员完成的工作。②JobTracker,用来协调作业的运行。与TaskTracker通信,协调整个作业的执行。③TaskTracker,用来处理作业划分后的任务。保持与JobTracker的通信,在分配的数据片段上执行Map或Reduce任务,TaskTracker和JobTracker的不同有个很重要方面,就是在执行任务的时候TaskTracker可以有n个,JobTracker则只会有一个。④HDFS,用来在其他实体间共享作业文件。保存作业的数据、配置信息等,最后的结果也是保存在HDFS上面。14.下列关于中心极限定理的说法正确的有()。A、中心极限定理说明,对于大量相互独立的随机变量,其均值的分布以正态分布为极限B、中心极限定理说明,对于大量相互独立的随机变量,其均值的分布以t分布为极限C、中心极限定理为Z检验提供了理论支持D、中心极限定理是数理统计学和误差分析的基础【正确答案】:ACD解析:

中心极限定理说明,对于大量相互独立的随机变量,其均值的分布以正态分布为极限。15.下列关于Zookecper的描述正确的有()。A、Zookccper维护着一个树形的层次结构B、Zookeeper的数据访问具有原子性C、Zookecper被设计用来实现协调服务D、Zookceper被设计用来实现大容量数据存储【正确答案】:ABC解析:

Zookeeper无法用来存储数据。16.常用的冲突消解策略包括()。A、投票法B、排序法C、元规则法D、调研法【正确答案】:ABC17.以下图像技术中属于图像处理技术的是()A、图像编码B、图像合成C、图像增强D、图像分类【正确答案】:AC解析:

图像合成输入是数据,图像分类输出是类别数据。18.机器学习的三个关键组成要素包含()。A、任务TB、性能指标PC、目标函数VD、经验来源E【正确答案】:ABD19.相对于HadoopMapReduce,Spark的特点有()。A、通用性B、易用性C、速度快D、容错性【正确答案】:ABC解析:

相对于HadoopMapReduce,Spark的特点包括速度快、通用性和易用性。20.如果希望减少数据集中的特征数量,则可以采取的措施有()。A、使用正向选择法(ForwardSelection)B、使用反向消除法(BackwardElimination)C、逐步选择消除法(Stepwise)D、计算不同特征之间的相关系数,删去相关系数高的特征之一【正确答案】:ABCD解析:

正向选择法(ForwardSelection)是首先选择一个特征,每个特征都试一遍,选择对模型准确率提升最高的那个特征;然后再在这个特征基础上添加另外一个特征,方法类似,直到模型准确率不再提示为止。反向消除法(BackwardElimination)是首先包含了所有的特征,然后尝试删除每个特征,最终删掉对模型准确率提升最高的一个特征(如果删除这个特征模型准确率反而增加了,则说明这个特征是无用特征)。以此类推,直到删除特征并不能提升模型为止。相对于正向选择法,反向消除法的优点在于其允许-些低贡献值的特征能够进到模型中去(有时候低贡献值的特征能在组合中有更大的贡献值,而正向选择法忽略了这种组合的可能性),因此反向消除法能够避免受一两个占主导地位的特征的干扰。另外还有一种特征选择方法是逐步选择消除法(Stepwise),该方法结合上述两者的方法,新加入一个特征之后,再尝试删去一个特征,直至达到某个预设的标准。这种方法的缺点是预设的标准不好定,而且容易陷入到过拟合当中。除此之外,也可以使用基于相关性的特征选择,可以去除多重线性特征。21.一个监督观测值集合会被划分为()。A、训练集B、验证集C、测试集D、预处理集【正确答案】:ABC解析:

一个监督观测值集合会被划分为训练集、测试集、预测集。其中测试集来测试学习器对新样本的判别能力,然后以测试集上的测试误差(testingerror)作为泛化误差的近似。22.决策树递归返回的条件有()。A、训练数据集使用完B、所有的类标签完全相同C、特征用完D、遇到丢失值【正确答案】:BC解析:

决策树的生成是一个递归过程。在决策树基本算法中,有三种情形会导致递归返回:①节点包含的样本全属于同一类别,无须划分;②当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;③当前节点包含的样本集合为空,不能划分。23.可视化高维展示技术在展示数据之间的关系以及数据分析结果方面能够()。A、直观反映成对数据之间的空间关系B、直观反映多维数据之间的空间关系C、静态演化事物的变化及变化的规律D、动态演化事物的变化及变化的规律E、提供高性能并行计算技术的强力支撑【正确答案】:BD解析:

可视化高维展示技术在展示数据之间的关系以及数据分析结果方面能够直观反映多维数据之间的空间关系,以及能够动态演化事物的变化及变化的规律。24.常用来缓解BP网络的过拟合的两种策略是()。A、晚停B、早停C、正则化D、加入损失函数【正确答案】:BC解析:

解析:通常有两种策略来缓解BP网络的过拟合。第一种策略是早停(earlystopping)、即将数据分成训练集合验证集,训练集用来计算梯度、更新连接权和阈值,验证集用来估计误差,若训练集误差降低但验证集误差升高,则停止训练,同时返回具有最小验证集误差的连接权和阈值。第二种策略是正则化(regularization),其基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分,例如连接权和阈值的平方和。25.决策树的划分选择有()。A、增益系数B、信息增益C、增益率D、基尼系数【正确答案】:BCD26.对于主成分分析方法,确定降维后低维空间的维数d的方法有()。A、由用户事先指定B、通过在d不同的低维空间中对开销较小的学习器进行交叉验证来选取C、可从重构的角度设置一个重构阈值,选取使得特定公式成立的最小值D、随机设置【正确答案】:ABC解析:

降维后低维空间的维数通常是由用户事先指定,或通过在d不同的低维空间中对k近邻分类器(或其他开销较小的学习器)进行交叉验证来选取较好的d。还可从重构的角度设置一个重构阈值,选取使得特定公式成立的最小值。27.Spark2.0提供的应用库包括()。A、SparkSQLB、SparkStreamingC、MLibD、GraphX【正确答案】:ABCD解析:

Spark2.0提供的应用库包括SparkSQL、SparkStreaming、MLib、GraphX。28.ETL技术主要涉及操作有()。A、抽取B、转换C、加载D、分析【正确答案】:ABC解析:

ETL技术主要涉及抽取(extract)、转换(transform)、加载(load)。29.在数据缺失严重时,会对分析结果造成较大的影响,因此对于剔除的异常值和缺失值,要采用合理的方法进行填补。常用的填补方法有()。A、平均值填充B、K最近邻距离法C、回归法D、极大似然估计E、多重插补法【正确答案】:ABCDE解析:

在数据缺失严重时,会对分析结果造成较大的影响,因此对于剔除的异常值和缺失值,要采用合理的方法进行填补。常用的填补方法有平均值填充、K最近邻距离法、回归法、极大似然估计、多重插补法。30.噪声数据的产生原因主要有()。A、数据采集设备有问题B、在数据录入过程中发生了人为或计算机错误C、数据传输过程中发生错误D、由于命名规则或数据代码不同而引起的不一致【正确答案】:ABCD解析:

噪声数据的产生原因主要有数据采集设备有问题、在数据录入过程中发生了人为或计算机错误、数据传输过程中发生错误、由于命名规则或数据代码不同而引起的不一致。31.下列不属于聚类性能度量内部指标的有()。A、DB指数B、Dunn指数C、Jaccard系数D、FM系数【正确答案】:CD解析:

聚类常用的外部指标包括Jaccard系数、FM系数、Rand指数;聚类常用的内部指标包括DB指数、Dunn指数。32.以下方法是tf-idf的变种的有哪些()A、TFCB、EWCC、ITCD、IG【正确答案】:AC解析:

TFC:对文本长度进行归一化处理后的TF-IDF。ITC:在TFC基础上,用tf的对数值取代tf。33.数据科学项目主要涉及的活动包括()。A、模式/模型的应用及维护B、模式/模型的洞见C、结果的可视化与文档化D、模式/模型的验证和优化【正确答案】:ABCD解析:

数据科学项目是由从项目目标的定义到模式/模型的应用及维护的一系列双向互联的互动链条组成的循序渐进的过程,主要涉及的活动包括项目目标的定义、数据的获得与管理、模式/模型34.图像分割中常使用的领域有()A、0邻域B、4邻域C、8邻域D、24邻域【正确答案】:BC解析:

图像分割中常见的邻域为4邻域与8邻域,即某像素的上下左右、某像素周围的一圈像素。35.大数据平台的计算组件主要有()。A、StormB、SparkC、MapReduceD、Sqoop【正确答案】:ABC解析:

Storm是Twitter开源的分布式实时大数据处理框架;Spark是专为大规模数据处理而设计的快速通用的计算引擎;MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算;Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库间进行数据的传递;因此A、B、C正确。36.常见的原型聚类算法包括()。A、K均值算法B、学习向量量化C、高斯混合聚类D、密度聚类【正确答案】:ABC37.以下网络结构中可以应用于图像识别任务的是()A、LeNet-5B、AlexNetCNND、VGG-net【正确答案】:ABCD解析:

四者均为经典的卷积神经网络。38.下列描述中正确的有()。A、统计学是数据科学的理论基础之一B、Python语言是统计学家发明的语言C、机器学习是数据科学的理论基础之一D、数据科学是统计学的一个分支领域(子学科)【正确答案】:AC解析:

Python发明者是GuidoVanRossum,并非为统计学家;数据科学是一门独立学科,已经超出了统计学一个学科的研究范畴,并非为统计学的一个分支。39.可作为决策树选择划分属性的参数有()。A、信息增益B、信息增益率C、基尼指数D、密度函数【正确答案】:ABC解析:

特征选择的准则主要有信息增益、信息增益率、基尼指数三种。40.下列关于数据维度的描述正确的有()。A、采用列表表示一维数据,不同数据类型的元素是可以的B、JSON格式可以表示比二维数据还复杂的高维数据C、二维数据可以看成是一维数据的组合形式D、字典不可以表示二维以上的高维数据【正确答案】:ABC解析:

字典可以表示二维以上的高维数据。41.以下方法中可用于图像分割的有()A、霍夫曼编码B、分水岭算法C、K-meansD、区域增长法【正确答案】:BCD解析:

分水岭、K-means算法、区域生长都是常见的分割算法,而霍夫曼编码不属于分割算法。42.以下属于图像平滑算法的是()A、中值滤波B、均值滤波C、邻域平均法D、高斯滤波【正确答案】:ABCD43.Hadoop的HDFS是一种分布式文件系统,其适合()的数据存储和管理。A、大量小文件存储B、高容错、高吞吐量C、低延迟读取D、流式数据访问【正确答案】:BD解析:

HDFS不适合小文件存储,HDFS的读取操作相比于传统的数据库延迟较高,不适合低延迟读取。44.传统关系数据库的优点包括()。A、数据一致性高B、数据冗余度低C、简单处理的效率高D、产品成熟度高【正确答案】:ABD解析:

略。45.在选择高斯函数作为核函数的支持向量机中,参数的选取会影响拟合的结果,如果出现过拟合的现象,则可能导致该结果的原因有()。A、其他参数保持不变,C过大B、其他参数保持不变,C较小C、其他参数保持不变,σ较大D、其他参数保持不变,σ较小【正确答案】:AD解析:

解析:SVM模型中,C是惩罚系数,即对误判的宽容度,若C越高,说明越不能容恐出现误差,容易拟合;σ是高斯函数自带的一个参数,若σ无穷小,理论上高斯核的SVN可以拟合任何非线性数据,但容易过拟合。46.主要用来实现实时计算类应用的组件有()。A、流计算组件B、内存计算组件C、MPP数据库D、Hadoop的后台定时分析计算任务【正确答案】:AB解析:

实时计算类应用主要通过流计算组件、内存计算组件来实现。47.下列关于PCA的说法正确的有()。A、在使用PCA之前,我们必须标准化数据B、应该选择具有最大方差的主成分C、应该选择具有最小方差的主成分D、可以使用PCA在低维空间中可视化数据【正确答案】:ABD解析:

PCA对数据中变量的尺度非常敏感,因此需要对各个变量进行标准化。方差越大,说明在该特征上分布越广泛,说明该特征越有用,影响越大。PCA有时在较低维度上绘制数据是非常有用的,可以提取前2个主要组成部分,在二维平面上使用散点图可视化数据。48.以数据为中心是数据产品区别于其他类型产品的本质特征,表现方面有()。A、数据驱动B、数据密集型C、数据范式D、数据可视化【正确答案】:ABC解析:

以数据为中心是数据产品区别于其他类型产品的本质特征。数据产品的以数据中心的特征不仅体现在以数据为核心生产要素,而且还主要表现在数据驱动、数据密集和数据范式。49.常用分词方法下列哪些是()A、基于Binarytree的分词方法B、基于HMM的分词方法C、基于CRF的分词方法D、基于K-means的分词方法【正确答案】:BC解析:

K-means一般用于聚类,Binarytree(二叉树)也不用于分词。50.RDD的特征有()。A、可容错性B、简洁性C、并行数据结构D、结构化【正确答案】:AC解析:

RDD是一个容错的、并行的数据结构。51.下列关于Spark中RDD的描述正确的有()。A、RDD(ResilientDistributedDataset)叫作弹性分布式数据集,是Spark中最基本的数据抽象B、Resilient:表示弹性的C、Destributed:分布式,可以并行在集群计算Dataset:就是一个集合,用于存放数据【正确答案】:ABCD解析:

A、B、C、D全部正确。52.数据再利用的意义有()。A、挖掘数据的潜在价值B、提高社会效益,优化社会管理C、实现数据重组的创新价值D、优化存储设备,降低设备成本【正确答案】:ACD解析:

数据的再利用可以挖掘数据的潜在价值、实现数据组重组的创新价值,并且可以利用数据的可拓展性拓展业务领域53.常见的图像降噪方式包括()A、中值滤波B、均值滤波C、平均滤波D、加权平均滤波【正确答案】:ABCD54.下列属于TF-IDF的应用有哪些()A、搜索引擎B、关键词提取C、文本相似性D、数据降维【正确答案】:ABC解析:

TF-IDF只用来提取关键词,不做降维。55.情感分析的途径下列哪些是()A、关键词识别B、数据增强C、统计方法D、概念级技术【正确答案】:ABCD解析:

现有的文本情感分析的途径大致可以集合成关键词识别、词汇关联、统计方法和概念级技术四类。56.数据挖掘的主要功能包括概念描述、趋势分析、孤立点分析、()等方面。A、关联分析B、分类和预测分析C、聚类分析D、偏差分析【正确答案】:ABCD57.针对维数灾难,主要采用的降维方法有()。A、多维缩放B、主成分分析C、核化线性降维D、流形学习【正确答案】:ABCD58.下列属于数据挖掘与分析工具的有()。A、TableauB、PythonC、SPSSD、Alteyx【正确答案】:ABCD解析:

常用的数据挖掘工具有RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的数据分析工具有Tableau、Alteyx、R&Python语言、FineReport、PowerBI。三、(共33题)59.假设一个随机变量服从正态分布,则与随机变量的概率分布有关的有()。A、众数B、频数C、平均值D、方差【正确答案】:CD解析:

正态分布一般用均值和方差来刻画。60.下面属于可视化高维数据技术的是哪些()A、矩阵B、平行坐标系C、星形坐标系D、散布图【正确答案】:ABC解析:

矩阵、平行坐标系和星形坐标系都属于可视化高维数据的常用技术,而散布图又叫相关图,只能处理二维数据。61.以下可用于处理由于光照不均带来的影响的图像处理方法有()A、同态滤波B、顶帽变换C、基于移动平均的局部阈值处理D、拉普拉斯算子【正确答案】:ABC解析:

拉普拉斯算子属于锐化滤波器,并不能处理光照不均匀带来的影响。62.下列关于特征的稀疏性的说法正确的有()。A、稀疏性指的是矩阵中有许多列与当前学习任务无关B、稀疏样本可减少学习任务的计算开销C、学习任务难度可能有所降低D、稀疏矩阵没有高效的存储方法【正确答案】:ABC解析:

在一个矩阵中,若非零元素的个数远远小于零元素的个数,且非零元素的分布没有规律,则称之为稀疏矩阵。为了节省存储空间并且加快并行程序处理速度,可对稀疏矩阵进行压缩存储。63.下列关于机器学习的理解正确的有()。A、非监督学习的样本数据是要求带标签的B、监督学习和非监督学习的区别在于是否要求样本数据带标签C、强化学习以输入数据作为对模型的反馈D、卷积神经网络一般用于图像处理等局部特征相关的数据【正确答案】:BCD解析:

非监督学习的样本数据是不要求带标签的,监督学习的样本数据是要求带标签的。64.下列关于HDFS文件写人的描述正确的有()。A、不支持多用户对同一文件的写操作B、用户不可以在文件任意位置进行修改C、默认将文件复制成三份存放D、复制的文件块默认不存在同一机架上【正确答案】:ABCD解析:

根据HDFS定义。65.深度学习方法不适用的数据集有()。A、数据样本充足B、数据样本不足C、数据集具有局部相关特性D、数据集没有局部相关特性【正确答案】:BD解析:

以下数据集不适用于深度学习:①数据集太小,数据样本不足时,深度学习相对其他机器学习算法没有明显优势;②数据集没有局部相关特性,目前深度学习表现比较好的领域主要是图像、语音、自然语言处理等领域,这些领域的一个共性是局部相关性。图像中像素组成物体,语音信号中音位组合成单词,文本数据中单词组合成句子,这些特征元素的组合一旦被打乱,表示的含义同时也被改变。对于没有这样的局部相关性的数据集,不适用于使用深度学习算法进行处理。66.下列关于集成学习的说法正确的有()。A、随机森林是减少模型的方差,而GBDT是减少模型的偏差B、组成随机森林的树可以并行生成,而GBDT是串行生成C、随机森林的结果是多数表决的,而GBDT则是多棵树累加之和D、随机森林对异常值不敏感,而GBDT对异常值比较敏感【正确答案】:ABCD解析:

随机森林与GBDT之间的区别:①组成随机森林的树可以是分类树也可以是回归树,而GBDT只由回归树组成;②组成随机森林的树可以并行生成,而GBDT是串行生成;③随机森林的结果是多数表决的,而GBDT则是多棵树累加之和;④随机森林对异常值不敏感,而GBDT对异常值比较敏感;⑤随机森林是通过减少模型的方差来提高性能,而GBDT是减少模型的偏差来提高性能的;⑥随机森林不需要进行数据预处理即特征归一心而GBDT则需要进行特征归一化。67.HBase中KeyValue数据的存储格式是()。A、HFileB、HLogFileC、SequenceFileD、TXT【正确答案】:A解析:

HBase中KeyValue数据的存储格式是HFile。68.鉴别多元共线特征后,下一步可能的操作有()。A、移除两个共线变量B、不移除两个变量,而是移除一个C、移除相关变量可能会导致信息损失,可以使用惩罚线性回归模型(如ridge或lassoregression)【正确答案】:BC解析:

移除两个变量会损失一切信息,所以只能移除一个特征,或者也可以使用正则化算法。69.下列有关MapReduce计算框架的描述正确的有()。A、MapReduce可以计算任务的划分和调度B、MapReduce可完成数据的分布存储和划分C、MapReduce可以实现处理系统节点出错检测和失效恢复D、MapReduce可实现处理数据与计算任务的同步【正确答案】:ABCD解析:

根据MapReduce定义可得,A、B、C、D都可以实现。70.下列关于Pig的说法正确的有()。A、弥补MapReduce编程复杂性B、封装MapReduce处理过程C、PigLatin是一种数据分析语言D、适用于并行处理【正确答案】:ABCD解析:

Pig建立在MapRcduce之上,主要目的是弥补MapRcduce编程的复杂性;Pig较好地封装了MapReduce的处理过程;PigLatin是数据分析的描述语言;Pig的结构适用于并行处理。71.聚类性能度量的指标主要分为外部指标和内部指标,其中属于内部指标的是()。A、Jaccard指数B、FM指数C、DB指数Dunn指数【正确答案】:CD解析:

AB为外部指标。72.随机森林的随机性主要体现在()。A、决策树选择的随机性B、数据集的随机性C、待选特征的随机性D、参数选择的随机性【正确答案】:BC解析:

随机森林算法的随机性主要体现在两个方面,即子模型的训练样本是随机抽取的、子模型的特征变量也是随机抽取的。73.在词袋模型中使用单个的单词来构建词向量这样的序列被称为()A、1元组(1-gram)B、单元组(unigram)模型C、列表D、字典【正确答案】:AB解析:

列表和字典一般包含多个单词74.关于特征向量的缺失值处理方式如下:缺失值较多,直接将该特征舍弃掉,否则可能会带入较大的noise,对结果造成不良影响;缺失值较少,其余的特征缺失值都在10%以内,可以采取的处理方式有()。A、把NaN直接作为一个特征,假设用0表示B、用均值填充C、用随机森林等算法预测填充D、以上选项都不正确【正确答案】:ABC解析:

缺失值较少的处理方式:①把NAN直接作为一个特征,假设用0表示;②用均值填充;③用随机森林等算法预测填充;④用插值法填充。75.下列为RDBMS中事务遵循原则的有()。A、原子性(Atomicity)B、一致性(Consistency)C、隔离性(Isolation)D、持久性(Durability)【正确答案】:ABCD解析:

关系数据库中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论