数据挖掘竞赛复习试题有答案_第1页
数据挖掘竞赛复习试题有答案_第2页
数据挖掘竞赛复习试题有答案_第3页
数据挖掘竞赛复习试题有答案_第4页
数据挖掘竞赛复习试题有答案_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第页数据挖掘竞赛复习试题有答案1.RDD中的数据被()在集群中,使得任务可以并行执行。A、顺序存储B、连续存储C、分块存储D、分区存储【正确答案】:D解析:

RDD为分区存储。2.()的主要目标是提供可扩展的机器学习算法及其实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。A、MahoutB、FlumeC、SqoopD、HBase【正确答案】:A解析:

Mahout是ApacheSoftwareFoundation(ASF)旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,如聚类、分类、推荐过滤、频繁子项挖掘等。3.支持向量回归与传统回归模型的差别是()。A、模型输出与真实值相同B、模型输出与真实值存在ε偏差C、模型输出大于真实值D、模型输出小于真实值【正确答案】:B解析:

以线性回归为例,通过模型输出的f(x)与真实输出的y之间的差别来计算损失。而SVR假设模型输出f(x)与真实的y之间可以容忍有eps大小的偏差,也就意味只要样本的预测值落在f(x)两侧在y轴方向上绝对值之差小于eps的间隔带就是预测正确的。4.增加卷积核的大小对于改进卷积神经网络的效果是必要的吗()A、是的,增加卷积核尺寸一定能提高性能B、不是,增加核函数的大小不一定会提高性能C、-D、-【正确答案】:B解析:

增加核函数的大小不一定会提高性能。这个问题在很大程度上取决于数据集。5.下列选项中,用于触发异常的是()。A、tryB、catchC、raiseD、except【正确答案】:C解析:

--6.数据科学是一门以()为主要研究任务的独立学科。A、“数据驱动”“数据业务化”“数据洞见”“数据产品研发”和(或)“数据生态系统的建设”B、数据研发C、数据处理D、数据洞见【正确答案】:A解析:

数据科学是一门以实现“从数据到信息”“从数据到知识”和(或)“从数据到智慧”的转化为主要研究目的的,以“数据驱动”“数据业务化”“数据洞见”“数据产品研发”和(或)“数据生态系统的建设”为主要研究任务的独立学科。7.以下叙述正确的是()。A、continue语句的作用是结束整个循环的执行B、只能在循环体内使用break语句C、在循环体内使用break语句或continue语句的作用相同D、从多层循环嵌套中退出时,只能使用goto语句【正确答案】:B解析:

continue语句可以跳过循环的当前一步,故AC错;python没有goto语句。8.矩阵相减使用以下哪种的函数是()。A、np.add)B、np.subtract)C、np.multiply)D、np.divide)【正确答案】:B解析:

ABCD选项分别对应矩阵计算的加减乘除法。9.以下描述中错误的是()。A、数据化与数字化是两个不同概念B、数据与数值是一个概念C、大数据与海量数据是两个不同的概念D、数据和信息是两个不同的概念【正确答案】:B解析:

除了“数值”,数据科学中的“数据”还包括文字、图形、图像、动画、文本、语音、视频、多媒体和富媒体等多种类型10.在Apriori算法中,候选项集划分为不同的桶,存放在()中。A、字典B、集合C、Hash树D、列表【正确答案】:C解析:

--11.对于PCA(主成分分析)转化过的特征,朴素贝叶斯的不依赖假设总是成立,因为所有主要成分是正交的,这个说法是()。A、正确的B、错误的C、-D、-【正确答案】:B解析:

说法错误。首先,不依赖和不相关是两回事;其次,转化过的特征也可能是相关的。12.卷积神经网络能通过卷积以及池化等操作将不同种类的鸟归为一类。关于卷积神经网络能达到该效果的原因,下列说法不正确的是()。A、同样模式的内容(如鸟嘴)在图像不同位置可能出现B、池化之后的图像主体内容基本不变C、不同种类鸟的相同部位(如鸟嘴)形状相似D、池化作用能使不同种类鸟变得相似【正确答案】:D解析:

特征维数的减少并不会让之前的特征丢失。13.下列关于神经网络的说法中:①增加神经网络层数,可能会增加测试数据集的分类错误率;②减少神经网络层数,总是能减小测试数据集的分类错误率;③增加神经网络层数,总是能减小训练数据集的分类错误率,正确的是()。A、①B、①③C、①②D、②【正确答案】:A解析:

深度神经网络的成功已经证明,增加神经网络层数,可以增加模型范化能力,即训练数据集和测试数据集都表现得更好。但更多的层数也不一定能保证有更好的表。所以,不能绝对地说层数多的好坏,只能选A。14.考虑值集{12243324556826},其四分位数极差是:()。A、21B、24C、55D、3【正确答案】:A解析:

四分位差,也称为内距或四分间距,它是上四分位数(QU,即位于75%)与下四分位数(QL,即位于25%)的差。计算公式为:QD=QU-QL。将数据从小到大排序,可得到QU=33,QL=12,因此QD=QU-QL=2115.能使图像亮度得到平缓渐变,减小突变梯度,改善图像质量的是()。A、图像平滑B、图像分类C、图像识别D、图像分割【正确答案】:A解析:

图像平滑是指用于突出图像的宽大区域、低频成分、主干部分或抑制图像噪声和干扰高频成分的图像处理方法,目的是使图像亮度平缓渐变,减小突变梯度,改善图像质量。16.以下哪个模块()不是Scipy库中的()模块。A、clusterB、randomC、signalD、misc【正确答案】:B解析:

cluster、signal、misc都是Scipy库中的模块,random是Numpy中的模块,Python本身也带有random库。17.HTML的表格中,如果需要定义表格的单元格内文字和边缘的空间,需要通过哪个属性()来实现()。A、cellspacing属性B、colspan属性C、cellpadding属性D、rowspan属性【正确答案】:C解析:

cellspacing属性用来指定表格各单元格之间的空隙;colspan属性规定单元格可横跨的列数;cellpadding属性用来指定单元格内容与单元格边界之间的空白距离的大小;rowspan属性规定单元格可横跨的行数。18.如果要将读写位置移动到文件开头,需要使用的命令是()。A、closeB、seek(0)C、truncateD、write('stuff')【正确答案】:B解析:

seek(0)指移动指针到0位置即开头。19.matplotlib中设置x轴数值显示范围的函数是什么()。A、xrange)B、xspan)C、xlabel)D、xlim)【正确答案】:D解析:

xlim用于设置x轴的显示范围。20.在支持向量机中,核函数的主要作用是()。A、将低维空间中线性不可分的数据映射到高维空间,使其线性可分B、将高维空间中线性不可分的数据映射到低维空间,使其线性可分C、将高维空间中线性可分的数据映射到低维空间,使其线性不可分D、将低维空间中线性可分的数据映射到高维空间,使其线性不可分【正确答案】:A解析:

--21.关于HDFS的特征,下列说法错误的是()。A、支持超大文件B、基于商用硬件C、流式数据访问D、低吞吐量【正确答案】:D解析:

HDFS设计中重视“数据的高吞吐量”,因此其数据吞吐量高,但也造成了其数据延迟访问的特征。22.下列关于模型能力(modelcapacity指神经网络模型能拟合复杂函数的能力)的描述,正确的是()。A、隐藏层层数增加,模型能力增加B、Dropout的比例增加,模型能力增加C、学习率增加,模型能力增加D、都不正确【正确答案】:A解析:

Dropout比例增加,可能会丢失过多参数影响模型能力;学习率过大,梯度下降可能会越过最低点,无法收敛。23.random库的seed(a)函数的作用是()。A、生成一个[0.0,1.0)之间的随机小数B、生成一个k比特长度的随机整数C、设置初始化随机数种子aD、生成一个随机整数【正确答案】:C解析:

本题考查随机种子数函数seed)。24.下列不属于数据科学开源工具的是()。A、MapReduceB、ERPC、HadoopD、Spark【正确答案】:B解析:

ERP系统是企业资源计划(EnterpriseResourcePlanning)的简称,是指建立在信息技术基础上,集信息技术与先进管理思想于一身,以系统化的管理思想,为企业员工及决策层提供决策手段的管理平台。25.数据安全不只是技术问题,还涉及()。A、人员问题B、管理问题C、行政问题D、领导问题【正确答案】:B解析:

数据安全不只是技术问题,还涉及管理问题。26.()是表现数据分布对称性的指标。A、斜率B、偏斜度C、偏度D、偏离度【正确答案】:B解析:

偏斜度是对统计数据分布偏斜方向及程度的度量。在偏态分布中,当偏斜度为正值时,分布正偏,即众数位于算术平均数的左侧;当偏斜度为负值时,分布负偏,即众数位于算术平均数的右侧。27.()对应于决策树结果,其他节点对应于()。A、叶节点,属性测试B、根结点,学习测试C、内部节点,学习测试D、叶节点,分类测试【正确答案】:A解析:

决策树包含一个根节点、若干内部节点和若干叶节点。叶节点对应于决策结果,其他每个节点则对应于一个属性测试。28.下列关于支持向量回归说法,错误的是()。A、支持向量回归是将支持向量的方法应用到回归问题中B、支持向量回归同样可以应用核函数求解线性不可分的问题C、同分类算法不同的是,支持向量回归要最小化一个凹函数D、支持向量回归的解是稀疏的【正确答案】:C解析:

支持向量机最大间隔模型是一个凸二次规划问题。29.以下不属于Python内置模块的是()。A、sysB、jsonC、osD、image【正确答案】:D解析:

image属于第三方库。30.以下属于考虑词语位置关系的模型有()。A、词向量模型B、词袋模型C、词的分布式表示D、TF-IDF【正确答案】:A解析:

词向量模型考虑通过中间词预测邻近词,需要考虑词语顺序位置。31.为了提高系统性能,Spark采取“惰性计算模式”,具体为()。A、执行Transformation操作时不会提交,只有执行Action操作时才会被提交到集群中开始被执行B、执行Action操作时不会提交,只有执行Transformation操作时才会被提交到集群中开始被执行C、只有执行完Action操作和Transformation操作时,所有操作才会被提交到集群中开始被执行D、执行完Action操作或Transformation操作时都不会提交到集群【正确答案】:A解析:

Spark“惰性计算模式”定义。32.()是指理解挖掘项目的目标业务需求。A、业务理解B、数据理解C、数据准备D、数据建模【正确答案】:A解析:

根据CRISP-DM(cross-industrystandardprocessfordatamining,跨行业数据挖掘标准流程)模型,业务理解是指从业务的角度了解项目的要求和最终目的,并将这些目的与数据挖掘的定义以及结果结合起来。33.常用的灰度内插值法不包括有()。A、最近邻内插法B、三次内插法C、双线性内插值法D、三次样条插值法【正确答案】:D解析:

常用的灰度内插值法有最近邻内插法、三次内插法、双线性内插值法。34.在Python中,调用open)时需要将内容附加到文件末尾,而不是覆盖文件原来内容,则第二个实参应该使用()。A、’a'B、'g'C、'm'D、'w'【正确答案】:A解析:

'r'读模式、'w'写模式、'a'追加模式、'b'二进制模式、'+'读/写模式。35.k近邻算法在()的情况下效果较好。A、样本较多但典型性不好B、样本较少但典型性好C、样本呈团状分布D、样本呈链状分布【正确答案】:B解析:

k近邻算法主要依靠的是周围的点,因此如果样本过多,则难以区分,典型性好的容易区分。样本都是呈团状分布,KNN就发挥不出其求近邻的优势了,整体样本应该具有典型性好,样本较少,比较适宜。36.Python语句print(0xA+0xB)的输出结果是()。A、0xA+0xBB、A+BC、0xA0xBD、21【正确答案】:D解析:

0x是16进制运算,0xA+0xB换为十进制为10+11=21。37.以下选项中,执行后可以查看Python的版本的是()。A、importsystemB、C、Print(sys.version)D、importsystem【正确答案】:B解析:

查看Python版本可以通过调用操作系统模块sys,语句print(sys.version)实现。38.线性回归算法主要在sklearn中的哪个()模块中()。A、baseB、clusterC、linear_modelD、kernel_impute【正确答案】:C解析:

sklearn中linear_model是广义线性模型模块。39.下列关于支持向量机优化性问题的形式,说法正确的是()。A、它是一个凸二次规划问题B、它是一个凸一次规划问题C、它是一个凹二次规划问题D、它是一个凹一次规划问题【正确答案】:A解析:

支持向量机优化性问题的一个凸二次规划问题。40.缓解过拟合的一个办法是允许支持向量机在一些样本上出错,()形式适合这种方法。A、硬间隔支持向量机B、软间隔支持向量机C、线性核函数支持向量机D、多项式核函数支持向量机【正确答案】:B解析:

软间隔允许某些样本不满足约束,可缓解过拟合。41.以下哪种参数须以正确的顺序传入函数,调用时的数量必须和声明时的一样的参数是()。A、位置参数B、默认值参数C、可变参数D、关键字参数【正确答案】:A解析:

位置参数须以正确的顺序传入函数,调用时的数量必须和声明时的一样。42.下列哪个语句中,在Python中是非法的是()。A、x=y=z=1B、x=(y=z+1)C、x,y=y,xD、x+=y【正确答案】:B解析:

赋值语句不能用于赋值。43.下列数据类型中,Numpy不支持以下哪种数据类型的是()。A、float32B、uint64C、boolD、byte【正确答案】:D解析:

Numpy支持的数据类型包括bool、int(8,16,32,64)、unit(16,32,64)、float(16,32,64)、complex(64,128)等类型,不支持byte、short等类型。44.关于PythonNumpy,、Scipy,、Pandas这些库的区别,描述不对的是()。A、Numpy是以矩阵为基础的数学计算模块,纯数学B、Scipy基于Numpy,科学计算库,有一些高阶抽象和物理模型C、Pandas提供了一套名为DataFrame的数据结构D、三个模块分别独立【正确答案】:D解析:

模块之间不是相互独立的,例如Pandas和Scipy都基于Numpy。45.数组允许批量计算而无须任何for循环,这种特性叫()。A、矩阵化B、便捷化C、批量化D、矢失量化【正确答案】:D解析:

矢量化指Numpy可以直接面向数组进行批量计算,不需要对每个元素进行循环计算。46.Numpy包中meshgrid函数实现的功能是()。A、数组拆分B、数组乘法C、数组除法D、数组融合【正确答案】:D解析:

np.meshgrid)用于数组融合,在画等高线图时常用。47.在留出法、交叉验证法和自助法三种评估方法中,()更适用于数据集较小、难以划分训练集和测试集的情况。A、留出法B、交叉验证法C、自助法D、留一法【正确答案】:C解析:

--48.关于数据创新,下列说法正确的是()。A、个数据集的总和价值等于单个数据集价值相加B、于数据的再利用,数据应该永久保存下去C、同数据多次用于相同或类似用途,其有效性会降低D、数据开放价值可以得到真正释放【正确答案】:D解析:

略。49.scipy的stats包中提供了产生连续性分布的函数,其中用于均匀分布的函数是()。A、normB、uniformC、betaD、geom【正确答案】:B解析:

均匀分布是uniform。50.绘图是如何通过()为项目设置matplotlib参数()。A、rc)B、sci)C、axes)D、sca)【正确答案】:A解析:

matplotlib.rc)设置当前的matplotlib参数。51.scipyScipy通常与下列哪个库()同时使用()。A、pandasB、scikit-learnC、NumpyD、jieba【正确答案】:C解析:

SciPyScipy是另一种使用Numpy来做高等数学、信号处理、优化、统计和许多其他它科学任务的语言扩展,通常与Numpy搭配使用。52.阶跃函数与sigmoid函数均为典型激活函数,该说法()。A、正确B、错误C、-D、-【正确答案】:A解析:

--53.机器学习中,基于样本分布的距离是()。A、马氏距离B、欧式距离C、曼哈顿距离D、闵可夫斯基距离【正确答案】:A解析:

马氏距离是基于样本分布的一种距离。54.()不适合使用机器学习方法解决。A、判断电子邮件是否是垃圾邮件B、判断给定的图中是否有环C、判断是否给指定用户办理信用卡D、对滴滴拼车乘客分簇【正确答案】:B解析:

判断给定的图中是否有环采用深度学习。55.np.linalg.svd)函数可以实现()功能。A、计算协方差矩阵B、实现奇异值分解C、计算方差D、计算均值;【正确答案】:B解析:

svd实现奇异值分解。56.matplotlib中的调用堆积折线图的函数是什么()。A、step)B、stackplot)C、plusplot)D、hist)【正确答案】:B解析:

stackplot用于绘制堆叠折线图。57.Numpy.linspace(0,3,3)的结果为()。A、[0,1,2]B、[1,2,3]C、[0,1.5,3]D、[0,3,6]【正确答案】:C解析:

np.linspace)指定开始值、结束值和值的个数,默认包含结束值,注意与arange的区别。58.以下算法中不属于基于深度学习的图像分割算法是()。A、FCNB、DeeplabC、Mask-RCNND、KNN【正确答案】:D解析:

KNN为传统机器学习方法并非深度学习方法。59.Hive的数据最终存储在()。A、HDFSB、HBaseC、RDBMSD、MetaStore【正确答案】:A解析:

Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统HDFS中。60.在matplotlib中,以下关于绘图标准流程说法错误的是()。A、绘制最简单的图形可以不用创建画布B、添加图例可以在绘制图形之前C、添加x轴、y轴的标签可以在绘制图形之前D、修改x轴标签、y轴标签和绘制图形没有先后【正确答案】:B解析:

绘制图例需要在绘制图形之后。61.假设有列表a=['name','age','sex']和b=['Dong',38,'Male'],请使用一个语句将这两个列表的内容转换为字典,并且以列表a中的元素为“键”,以列表b中的元素为“值”,这个语句可以写为()。A、c=dict(cross(a,b)B、c=dict(zip(a,b)C、c=map(zip(a,b)D、c=b【正确答案】:B解析:

zip)将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后用dict生成器生成字典。62.下列关于Python函数调用的说法,错误的是()。A、函数的递归调用必须有一个明确的结束条件B、函数的递归调用每次进入更深一层递归时,问题规模相比上次递归都应有所减少C、函数的递归调用效率不高,递归层次过多会导致栈溢出([在计算机中,函数调用是通过栈(stack)这种数据结构实现的,每当进入一个函数调用,栈就会加一层栈帧,每当函数返回,栈就会减一层栈)]D、函数的递归调用由于栈的大小是无限的,所以,递归调用的次数过多,也不会导致栈溢出【正确答案】:D解析:

由于栈的大小不是无限的,所以,递归调用的次数过多,会导致栈溢出。63.以下关于异常处理的描述,正确的是()。A、try语句中有except子句就不能有finally子句B、Python中,可以用异常处理捕获程序中的所有错误C、引发一个不存在索引的列表元素会引发NameError错误D、Python中允许利用raise语句由程序主动引发异常【正确答案】:D解析:

try语句中有except子句可以有finally子句,,不用异常处理捕获程序中的所有错误,引发一个不存在索引的列表元素会引发lisindeoutError。64.基本元数据是指()。A、基本元数据是与数据源、数据仓库、数据集市和应用程序等结构相关的信息B、基本元数据包括与企业相关的管理方面的数据和信息C、基本元数据包括日志文件和简历执行处理的时序调度信息D、基本元数据包括关于装载和更新处理、分析处理以及管理方面的信息【正确答案】:D解析:

基本元数据(Metadata)又称中介数据、中继数据,为描述数据的数据(dataaboutdata)。65.二值图像中的分支点的连接数为()。A、0B、1C、2D、3【正确答案】:D解析:

二值图像中连接数为0的像素为孤立点或内点。连接数为1的像素为端点或边界点。连接数为2的像素为连接点。连接数为3的像素为分支点。66.以下代码的输出结果为()。A、TRUEB、FALSEC、[Ture,False,Ture]D、([Ture,Ture,Ture])【正确答案】:C解析:

数组进行逻辑运算生成逻辑数组。67.相对于HadoopMapReduce1.0,Spark的特点不包括()。A、速度快B、并发多C、通用性D、易用性【正确答案】:B解析:

相较于HadoopMapReduce,Spark的特点为速度快、通用性和易用性。68.一组数据中出现最多的变量值叫作做()。A、最大值B、平均值C、中位数D、众数【正确答案】:D解析:

众数是样本观测值在频数分布表中频数最多的那一组的组中值。69.对文本数据处理,通常采用()核函数。A、多项式B、SigmoidC、线性D、拉普拉斯【正确答案】:C解析:

--70.Numpy数组输出的原则是()。A、从左到右,从下到上B、从左到右,从上到下C、从右到左,从下到上D、从右到左,从上到下【正确答案】:B解析:

Numpy数组输出时遵循以下原则:从左到右,从上到下,71.下列算法中:①K-NN最近邻算法;②线性回归;③逻辑回归,可以用神经网络构建的算法是()。A、①②B、②③C、①②③D、以上都不是【正确答案】:B解析:

KNN是关于距离的学习算法,没有任何参数,所以无法用神经网络构建。72.()是数据库管理系统运行的基本工作单位。A、事务B、数据仓库C、数据单元D、数据分析【正确答案】:A解析:

在关系数据库中,事务(Transaction)是保证数据一致性的重要手段,可以帮助用户维护数据的一致性。事务是用户定义的一个数据库操作序列,这些操作要么全做,要么全不做,是一个不可分割的工作单位。73.“数据的故事化描述”是指为了提升数据的(),将数据还原成关联至特定的情景的过程。A、可理解性、可记忆性、可体验性B、可接受性、可记忆性、可体验性C、可接受性、可记忆性、可呈现性D、可理解性、可记忆性、可呈线性【正确答案】:A解析:

“数据的故事化描述(Storytelling)”是指为了提升数据的可理解性、可记忆性及可体验性,将“数据”还原成关联至特定的“情景”的过程。74.以下代码的输出结果为()。A、[0123][0123]B、[1934][1234]C、[0923][0923]D、[0923][0123]【正确答案】:C解析:

ndarrray的切片操作为深复制,a改变数值会影响到b。75.两个变量相关,它们的相关系数r可能为0。这句话()。A、正确B、错误C、-D、-【正确答案】:A解析:

Pearson相关系数r=0,这表示两个变量间不存在线性相关关系。76.数据的原始内容及其备份数据,是数据产品的研发的哪个阶段()。A、零次数据B、一次数据C、二次数据D、采集数据【正确答案】:A解析:

零次数据是数据的原始内容及其备份数据,如各种感知仪器设备中直接生成的数据。零次数据中往往存在缺失值、噪声、错误或虚假数据等质量问题。77.下列描述中不属于情感分析的具体任务是()。A、情感分类B、观点抽取C、观点问答D、段落匹配【正确答案】:D解析:

情感分析又称意见挖掘、倾向性分析等,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,包括情感分类、观点抽取、观点问答等,没有段落匹配。78.由于不同类别的关键词对排序的贡献不同,检索算法一般把查询关键词分为几类,以下不属于此关键词类型的是()。A、引用词B、普通关键词C、高频词汇D、扩展关键词【正确答案】:C解析:

高频词汇信息量较少不能充当关键词,多数为无用词。79.关于Spark的说法中,()是错误的。A、采用内存计算模式B、可利用多种语言编程C、主要用于批处理D、可进行map()操作【正确答案】:C解析:

HadoopMapReduce主要用于批处理,与Hadoop不同的是,Spark更为通用一些,可以很好地支持流计算、交互式处理、图计算等多种计算模式。80.训练完SVM模型后,不是支持向量的那些样本我们可以丢掉,也可以继续分类。该说法()。A、正确B、错误C、-D、-【正确答案】:A解析:

--81.以下关于图像的平滑处理错误的说法是()。A、图像的平滑处理是指在尽量保留原有信息的情况下,过滤掉图像内部的噪音B、图像平滑处理会对图像中与周围像素点的像素值差异较大的像素点进行处理,将其值调整为周围像素点像素值的近似值C、经过平滑处理后图像质量会下降D、以上答案都正确【正确答案】:C解析:

图像的平滑处理不会损坏图像的轮廓及边缘等重要信息,使得图像清晰视觉效果好。82.下列哪个函数中可以计算字典元素个数的是()。A、cmpB、lenC、strD、type【正确答案】:B解析:

cmp用于比较;len用于计算元素个数;str用于将对象转换为字符串;type求对象类型。83.Spark中引入RDD概念的目的是()。A、数据存储B、数据查重C、提升容错能力D、增强数据一致性【正确答案】:C解析:

在Spark中引入RDD概念的目的是实现Spark的并行操作和灵活的容错能力。84.关于bagging下列说法错误的是()。A、各基分类器之间有较强依赖,不可以进行并行训练B、最著名的算法之一是基于决策树基分类器的随机森林C、当训练样本数量较少时,子集之间可能有重叠D、为了让基分类器之间互相独立,需要将训练集分为若干子集【正确答案】:A解析:

Bagging方法在训练过程中,各基分类器之间无强依赖,可以进行并行训练,随机森林就是一种典型的例子。85.不属于数据脱敏的要求的是()。A、双向性B、单向性C、无残留D、易于实现【正确答案】:A解析:

数据脱敏操作不能停留在简单地将敏感信息屏蔽掉或匿名处理。数据脱敏操作必须满足以下3个要求:单向性、无残留、易于实现。86.决策树中,同一路径上的所有属性之间是()关系。A、因果B、相关C、逻辑或D、逻辑与【正确答案】:D解析:

--87.相对于HadoopMapReduce1.0,Spark的特点不包括()。A、速度快B、并发多C、通用性D、易用性【正确答案】:B解析:

相较于HadoopMapReduce,Spark的特点为速度快、通用性和易用性。88.关于模块下列说法不正确的是()。A、Python模块(Module),是一个Python文件,以.py结尾,包含了Python对象定义和Python语句。B、模块让你能够有逻辑地组织你的Python代码段。C、把相关的代码分配到一个模块里能让你的代码更好用,更易懂。D、模块不能定义类【正确答案】:D解析:

模块中可以定义类。89.Spark的集群管理模式不包含()。A、Standalone模式B、Message模式C、YARN模式D、Mesos模式【正确答案】:B解析:

Spark的集群管理主要有Standalone模式、YARN模式和Mesos模式三种。90.将Python中的.py文件转换为.pyc文件的组件为()。A、编辑器B、编译器C、虚拟机D、解释器【正确答案】:B解析:

将Python中的.py文件转换为.pyc文件的组件为编译器。91.设置图的标题的命令是()。A、plt.text('标题')B、plt.legend('标题')C、plt.xticks('标题')D、plt.title('标题')【正确答案】:D解析:

A选项是添加文字说明命令,B选项是添加标识命令,C选项是添加X轴坐标轴标识命令。92.SparkJob默认的调度模式是()。A、FIFOB、FAIRC、无D、运行时指定【正确答案】:A解析:

默认情况下Spark的调度模式是FIFO(先进先出)。93.HBase的一个典型应用是webtable,它是一个以网页()为主键的表。A、标题B、URLC、内容D、类别【正确答案】:B解析:

webtable中,以网页URL为主键。94.()的基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。A、贝叶斯判定准则B、贝叶斯决策论C、朴素贝叶斯分类器D、半朴素贝叶斯分类器【正确答案】:D解析:

--95.建立在相关关系分析法基础上的预测是大数据的()。A、基础B、前提C、核心D、条件【正确答案】:C解析:

略。96.在神经网络中引入了非线性的是()。A、随机梯度下降B、修正线性单元(ReLU)C、卷积函数D、以上答案都不正确【正确答案】:B解析:

ReLU是目前最常用的激励函数,增加了神经网络模型的非线性。97.scipy.stats.cdf函数的作用是()。A、计算随机变量的期望和方差B、随机变量的生存函数C、随机变量的累积分布函数D、随机变量的概率密度函数【正确答案】:C解析:

cdf是随机变量的累积分布函数,是概率密度函数的积分。98.已知一组数据的协方差矩阵,下面关于主分量说法错误的是()。A、主分量分析的最佳准则是对一组数据按一组正交基分解,在只取相同数量分量的条件下,以均方误差计算截尾误差最小B、在经主分量分解后,协方差矩阵成为对角矩阵C、主分量分析就是K-L变换D、主分量是通过求协方差矩阵的特征值得到【正确答案】:C解析:

K-L变换与PCA变换是不同的概念,PCA的变换矩阵是协方差矩阵,K-L变换的变换矩阵可以有很多种。如二阶矩阵、协方差矩阵、总类内离散度矩阵等。当K-L变换矩阵为协方差矩阵时,等同于PCA。99.txt=open(filename)返回的是()。A、变量B、常数C、文件内容D、文件对象【正确答案】:D解析:

txt=open(filename)返回的是文件对象。100.np.floor([-1.7,1.5,-0.2,0.6,10])的输出结果是()。A、[-1,1,0,0,10]B、[-2.,1.,-1.,0.,10.]C、[-1.,1.,-1.,0.,10.]D、[-2.,1.,0.,0.,10.]【正确答案】:B解析:

floor函数定义取的是不超过这个数的最大整数。1.以下属于图像分割的算法的是()。A、阈值分割方法(thresholdsegmentationmethod)B、区域增长细分(regionalgrowthsegmentation)C、边缘检测分割方法(edgedetectionsegmentationmethod)D、基于聚类的分割(segmentationbasedonclustering)E、基于能量的分割【正确答案】:ABCDE解析:

--2.以下关于降维方法的叙述,正确的是()。A、主成分分析是一种常用的非线性降维方法B、核化线性降维是一种常用的线性降维方法C、流形学习是一种借鉴拓扑流形概念的降维方法D、度量学习绕过降维的过程,将学习目标转化为对距离度量计算的权重矩阵的学习【正确答案】:CD解析:

本质上讲,主成分分析是一种线性降维方法,在处理非线性问题时,效果不太理想。核化线性降维是一种非线性降维方法。3.“以数据为中心”是数据产品区别于其他类型产品的本质特征,表现在()方面。A、数据驱动B、数据密集型C、数据范式D、数据可视化【正确答案】:ABC解析:

“以数据为中心”是数据产品区别于其他类型产品的本质特征。数据产品的“以数据中心”的特征不仅体现在“以数据为核心生产要素”,而且还主要表现在数据驱动、数据密集和数据范式。4.图像分割中常使用的领域有()。A、0邻域B、4邻域C、8邻域D、24邻域【正确答案】:BC解析:

图像分割中常见的邻域为4邻域与8邻域,即某像素的上下左右、某像素周围的一圈像素。5.K均值聚类和层次聚类在一些方面有重大差异。以下说法正确的是()。A、在K均值聚类中,必须在运行算法前选定想要的簇的个数B、在K均值聚类中,可以在运行算法后选定想要的簇的个数C、在层次聚类中,可以在运行算法后选定想要的簇的个数D、K均值聚类算法所需的计算量比层次聚类算法小得多【正确答案】:ACD解析:

在K均值聚类中,需要在运行算法前确定想要的簇的个数K。6.循环神经网络的输出模式包含()。A、多输出B、单输出C、同步多输出D、异步多输出【正确答案】:ABD解析:

循环神经网络是递归的,不可能同步多输出。7.下列属于描述gensim库的特性的是()。A、训练语料的预处理B、主题向量的变换C、文档相似度的计算D、文章切分词语统计计算【正确答案】:ABC解析:

gensim不用于分词。8.下面是Python注释语句的是()。A、'hello'B、'''hello'''C、"hello"D、#【正确答案】:BD解析:

python语句单行注释使用单个#号,多行注释使用三个单引号。9.影响聚类算法效果的主要原因有()。A、特征选取B、模式相似性测度C、分类准则D、已知类别的样本质量【正确答案】:ABC解析:

聚类算法是无监督的学习算法,训练样本的标记信息是未知的。10.Spark容错性的方式有哪些()。A、数据检查点B、存储原始数据C、记录数据的更新D、自建数据版本【正确答案】:AC解析:

Spark容错性有数据检查点和记录数据的更新两种方式。11.以下关于HBase说法正确的是()。A、面向列的数据库B、非结构化的数据库C、支持大规模的随机、实时读写D、采用松散数据模型【正确答案】:ABCD解析:

HBase是非结构化的、多版本的、面向列和开源的数据库;HBase提供了对大规模数据的随机、实时读写访问;从存储模型看,HBase采用的是松散数据模型。12.语音识别的方法包括()。A、声道模型方法B、模板匹配的方法C、利用人工神经网络的方法D、语音知识方法【正确答案】:ABCD解析:

一般来说,语音识别的方法有基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。13.在网络爬虫的爬行策略中,应用最为常见的是()。A、深度优先遍历策略B、广度优先遍历策略C、高度优先遍历策略D、反向链接策略【正确答案】:AB解析:

在网络爬虫的爬行策略中,应用最为常见的是深度优先遍历策略、广度优先遍历策略。14.特征工程一般需要做哪些工作()。A、正则化B、标准化C、特征处理D、特征选择【正确答案】:CD解析:

特征工程包括特征选择、特征处理、特征变换、特征衍生等。15.Python的优点有()。A、变量不用预定义类型B、数据结构功能强大C、语言可解释性强D、变量类型固定【正确答案】:ABC解析:

Python变量在使用前不必定义变量类型。16.下列关于EM算法描述正确的是()。A、EM算法是常用的估计参数隐变量的利器B、EM算法即是期望最大化算法C、EM算法常被用来学习高斯混合模型的参数D、EM算法是一种迭代式的方法【正确答案】:ABCD解析:

--17.在假设检验中,当原假设为“伪”,但数据分析人员没有拒绝它时犯的错误叫()。A、α错误B、β错误C、取伪错误D、弃真错误【正确答案】:BC解析:

α错误(弃真错误):当原假设为真时,但我们错误地认为“原假设是不成立的”,进而导致拒绝这个正确假设;β错误(取伪错误):当原假设为假时,但我们错误地认为“原假设是成立的”,进而导致接受此错误假设18.下列方法中,可以用于特征降维的方法包括()。A、主成分分析PCAB、线性判别分析LDAC、深度学习SparseAutoEncoderD、矩阵奇异值分解SVD【正确答案】:ABD解析:

--19.常见的原型聚类算法包括()。A、K均值算法B、学习向量量化C、高斯混合聚类D、密度聚类【正确答案】:ABC解析:

--20.下列哪些是RDBMS中事务遵循的原则()。A、原子性(Atomicity)B、一致性(Connsistency)C、隔离性(Isolation)D、持久性(Durability)【正确答案】:ABCD解析:

关系数据库中的事务需要具备一定的规则——ACID特征。ACID是指数据库事务正确执行的4个基本要素的缩写:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。21.情感分析的应用场景有()。A、数据挖掘B、信息检索C、文本分词D、市场营销【正确答案】:ABD解析:

情感分析常用于数据挖掘、信息检索、市场营销等,而文本分词属于文本处理的应用场景。22.类的特点有()。A、封装B、继承C、多态D、重复【正确答案】:ABC解析:

类的特点:封装、继承、多态。23.神经网络的拓扑结构可以分为()和随机型网络等。A、前向型B、后向型C、反馈型D、自组织竞争型【正确答案】:ACD解析:

--24.决策树的划分选择有()。A、增益系数B、信息增益C、增益率D、基尼系数【正确答案】:BCD解析:

--25.SparkRDD的依赖机制包括()。A、宽依赖B、深度依赖C、广度依赖D、窄依赖【正确答案】:AD解析:

RDD之间的依赖关系可以分为窄依赖和宽依赖两种。26.ETL技术主要涉及()操作。A、抽取B、转换C、加载D、分析【正确答案】:ABC解析:

ETL技术主要涉及抽取(extract)、转换(transform)、加载(load)。27.Spark的技术架构可以分为哪几层()。A、资源管理层B、Spark核心层C、应用层D、服务层【正确答案】:ABD解析:

Spark的技术架构可以分为资源管理层、Spark核心层和服务层三层。28.下列关于特征的稀疏性说法,正确的是()。A、稀疏性指的是矩阵中有许多列与当前学习任务无关B、稀疏样本可减少学习任务的计算开销C、学习任务难度可能有所降低D、稀疏矩阵没有高效的存储方法【正确答案】:ABC解析:

在一个矩阵中,若非零元素的个数远远小于零元素的个数,且非零元素的分布没有规律,则称之为稀疏矩阵。为了节省存储空间并且加快并行程序处理速度,可对稀疏矩阵进行压缩存储。29.以下关于数据维度的描述,正确的是()。A、采用列表表示一维数据,不同数据类型的元素是可以的B、JSON格式可以表示比二维数据还复杂的高维数据C、二维数据可以看成是一维数据的组合形式D、字典不可以表示二维以上的高维数据【正确答案】:ABC解析:

字典可以表示二维以上的高维数据。30.可作为决策树选择划分属性的参数是()。A、信息增益B、增益率C、基尼指数D、密度函数【正确答案】:ABC解析:

特征选择的准则主要有信息增益,信息增益率,基尼指数三种。31.()是Spark比MapReduce计算快的原因。A、基于内存的计算B、基于DAG的调度框架C、基于Lineage的容错机制D、基于分布式计算的框架【正确答案】:ABC解析:

Spark比MapReduce计算快的原因包括基于内存计算、使用基于Lineage的容错机制和基于DAG的调度框架。32.下面关于单样本t检验的说法,错误的是()。A、当单样本t检验的自由度越来越大时,正态分布越来越趋向于t分布B、单样本t检验适用于样本量比较多(n>30)的情况C、t分布的不确定性比正态分布小,其原因是样本数量比较小D、单样本t检验通常也被叫作学生t检验【正确答案】:ABC解析:

t检验,亦称studentt检验(Student'sttest),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。33.Pig说法正确的是()。A、弥补MapReduce编程复杂性B、封装MapReduce处理过程C、PigLatin是一种数据分析语言D、适用于并行处理【正确答案】:ABCD解析:

Pig建立在MapReduce之上,主要目的是弥补MapReduce编程的复杂性;Pig较好地封装了MapReduce的处理过程;PigLatin是数据分析的描述语言;Pig程序的结构适合于并行处理。34.下列有关MapReduce计算框架的描述正确的是()。A、MapReduce可以计算任务的划分和调度B、MapReduce可完成数据的分布存储和划分C、MapReduce可以实现处理系统节点出错检测和失效恢复D、MapReduce可实现处理数据与计算任务的同步【正确答案】:ABCD解析:

根据MapReduce定义可得,A、B、C、D都可以实现。35.以下说法正确的是()。A、负梯度方向是使函数值下降最快的方向B、当目标函数是凸函数时,梯度下降法的解是全局最优解C、梯度下降法比牛顿法收敛速度快D、牛顿法不需要计算Hesse矩阵【正确答案】:ABD解析:

牛顿法是二阶收敛,梯度下降是一阶收敛,所以牛顿法就更快。36.下面关于reduce函数功能描述正确的是()。A、合并value值,形成较小集合B、采用迭代器将中间值提供给reduce函数C、map)函数处理后结果才会传输给reduce)D、内存中不会存储大量的value值【正确答案】:ABCD解析:

略。37.数据科学基本原则中,三世界原则指的是()A、精神世界B、数据世界C、物理世界D、数字世界【正确答案】:ABC解析:

大数据时代的到来,在我们的“精神世界”和“物理世界”之间出现了一种新的世界——“数据世界”。因此,在数据科学中,通常需要研究如何运用“数据世界”中已存在的“痕迹数据”的方式解决“物理世界”中的具体问题,而不是直接到“物理世界”,采用问卷和访谈等方法亲自收集“采访数据”。相对于“采访数据”,“痕迹数据”更具有客观性。图灵奖获得者JimGray提出的科学研究第四范式——数据密集型科学发现(Data-intensiveScientificDiscovery)是“三世界原则”的代表性理论之一。38.在Hive架构中支持对数据的操作有()。A、插入B、查询C、删除D、分析【正确答案】:BD解析:

Hive提供简单的HiveQL查询功能,可以较好地满足基于数据仓库的统计分析需要。39.下列关于情感分析的说法正确的是()。A、简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程B、情感分析的发展得益于社交媒体的兴起C、按照处理文本的粒度不同,情感分析大致可分为词语级、句子级、篇章级三个D、情感分析可以应用于文本挖掘【正确答案】:ABCD解析:

情感分析的定义即对带有感情色彩的主观性文本进行分析、处理、归纳和推理的过程,它得益于社交媒体的兴起,从而能收集大量信息进行分析。其分析力度包括词语级、句子级和篇章级。情感分析可用于文本挖掘。40.以下属于频率域图像滤波的方法有()。A、中值滤波B、均值滤波C、布特沃斯滤波D、高斯滤波【正确答案】:CD解析:

频率域图像滤波包括理想低通滤波器、布特沃斯低通滤波器、高斯低通滤波器、梯形低通滤波器。中值滤波和均值滤波属于空间滤波。41.以下图像技术中属于图像处理技术的是()。A、图像编码B、图像合成C、图像增强D、图像分类【正确答案】:AC解析:

图像合成输入是数据,图像分类输出是类别数据。42.以下属于关键词提取算法的有()。A、TF-IDF算法B、TextRank算法C、LSA(潜在语义分析)D、LDA【正确答案】:ABCD解析:

关键词提取算法包括TF-IDF算法、TextRank算法、LSA(潜在语义分析)orLSI(潜在语义索引)、LDA等。43.Spark的部署模式包括()。A、本地模式B、Standalone模式C、SparkOnYARND、SparkOnMesos【正确答案】:ABCD解析:

Spark支持上述四种运行模式,在实验中为了充分利用资源,一般配置Standalone模式运行。44.Python逻辑表达式中,()会导致逻辑短路,即不会继续向下推算而直接返回结果。A、False开头的and语句B、False开头的or语句C、True开头的and语句D、True开头的or语句【正确答案】:AD解析:

两种情况:False开头的and语句,True开头的or语句。45.下面导入模块正确的是()。A、importnumpyB、importnumpyasnpC、frommatplotlibimportpyplotD、frommatplotlibimportpyplotasplt【正确答案】:ABCD解析:

本题考查模块导入方法。46.数据挖掘的挖掘方法包括()。A、聚类B、回归分析C、神经网络D、决策树算法【正确答案】:ABCD解析:

利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等.47.下面选项是python标准库的是()。A、osB、sysC、numpyD、re【正确答案】:ABD解析:

numpy属于第三方库。48.以下属于规则的分词方法的是()。A、正向最大匹配法B、逆向最大匹配法C、双向最大匹配法D、条件随机场【正确答案】:ABC解析:

条件随机场是一种鉴别式机率模型,常用于标注或分析序列资料。49.数据科学项目主要涉及的活动包括()。A、模式/模型的应用及维护B、模式/模型的洞见C、结果的可视化与文档化D、模式/模型的验证和优化【正确答案】:ABCD解析:

数据科学项目是由从“项目目标的定义”到“模式/模型的应用及维护”的一系列双向互联的互动链条组成的循序渐进的过程,主要涉及的活动包括项目目标的定义、数据的获得与管理、模式/模型的洞见、模式/模型的验证和优化、模式/模型的应用及维护和结果的可视化与文档化。50.统计模式分类问题中,当先验概率未知时,可以使用()。A、最小最大损失准则B、最小误判概率准则C、最小损失准则D、N-P判决【正确答案】:AD解析:

--51.图像数字化应该包括哪些过程()。A、采样B、模糊C、量化D、统计【正确答案】:AC解析:

自然界的图像转化为数字图像首先包括连续空间到离散空间的采样,其次是色彩域的数值化处理。52.以下选项中,不是Python语言保留字的是()。A、doB、passC、exceptD、until【正确答案】:AD解析:

详见Python关键字列表。53.我们想要减少数据集中的特征数即降维,以下方案合适的是()。A、使用前向特征选择方法B、使用后向特征排除方法C、我们先把所有特征都使用,去训练一个模型,得到测试集上的表现。然后我们去掉一个特征,再去训练,用交叉验证看看测试集上的表现。如果表现比原来还要好,我们可以去除这个特征D、查看相关性表,去除相关性最高的一些特征【正确答案】:ABCD解析:

前向特征选择方法和后向特征排除方法是特征选择的常用方法。如果前向特征选择方法和后向特征排除方法在大数据上不适用,可以用这里C中方法。用相关性的度量去删除多余特征也是一个可行的方法。54.神经网络模型(NeuralNetwork)因受人类大脑的启发而得名。神经网络由许多神经元(Neuron)组成,每个神经元接受一个输入,对输入进行处理后给出一个输出。下列关于神经元的描述中,正确的是()。A、每个神经元有一个输入和一个输出B、每个神经元有多个输入和一个输出C、每个神经元有一个输入和多个输出D、每个神经元有多个输入和多个输出【正确答案】:ABCD解析:

每个神经元可以有一个或多个输入,和一个或多个输出。55.我们想要训练一个ML模型,样本数量有100万个,特征维度是5000,面对如此大数据,有效地训练模型可以采取的措施是()A、对训练集随机采样,在随机采样的数据上建立模型B、尝试使用在线机器学习算法C、使用PCA算法减少特征维度D、-【正确答案】:ABC解析:

大数据可以采用对训练集随机采样,在随机采样的数据上建立模型,尝试使用在线机器学习算法,使用PCA算法减少特征维度。56.DGI定义的数据治理任务包括()。A、数据质量的评估B、主动定义或序化规则C、为数据利益相关者提供持续跨职能的保护与服务D、应对并解决因不遵守规则而产生的问题【正确答案】:BCD解析:

DGI(TheDataGovermanceInstitute)认为数据治理是对数据相关的决策及数据使用权限控制的活动。它是一个信息处理过程中根据模型来执行的决策权和承担责任的系统,规定了谁可以在什么情况下对哪些信息做怎样的处理。57.以下描述中正确的是()。A、统计学是数据科学的理论基础之一B、Python语言是统计学家发明的语言C、机器学习是数据科学的理论基础之一D、数据科学是统计学的一个分支领域(子学科)【正确答案】:AC解析:

Python发明者是GuidoVanRossum,并非为统计学家;数据科学是一门独立学科,已经超出了统计学一个学科的研究范畴,并非为统计学的一个分支。58.下列属于CNN关键层的是()。A、输入层B、卷积层C、激活层D、池化层【正确答案】:ABCD解析:

CNN关键层有:①输入层,对数据去均值,做dataaugmentation等工作;②卷积层,局部关联抽取feature;③激活层,非线性变化;④池化层,下采样;⑤全连接层,增加模型非线性;⑥高速通道,快速连接;⑦BN层,缓解梯度弥散。59.在正则化公式中,λ为正则化参数,关于λ的描述正确的是()。A、若正则化参数λ过大,可能会导致出现欠拟合现象B、若λ的值太大,则梯度下降可能不收敛C、取一个合理的λ值,可以更好地应用正则化D、如果令λ的值很大的话,为了使CostFunction尽可能的小,所有θ的值(不包括θ0)都会在一定程度上减小【正确答案】:ABCD解析:

正则化参数太小容易产生过拟合,太大容易产生欠拟合。60.Pandas中删除列的方式是()。A、df.drop(["列名"],axis=1)B、df.drop(columns=["列名"])C、df.drop([0,1])D、df.drop([0])【正确答案】:AB解析:

--61.HighBias(高偏差)的解决方案有()。A、BoostingB、复杂模型(非线性模型、增加神经网络中的层)C、更多特征D、-【正确答案】:ABC解析:

偏差刻画了学习算法本身的拟合能力,高偏差意味着欠拟合,可通过Boosting、复杂模型(非线性模型、增加神经网络中的层)、更多特征等方式解决。62.常用的冲突消解策略包括()。A、投票法B、排序法C、元规则法D、调研法【正确答案】:ABC解析:

--63.在词袋模型中使用单个的单词来构建词向量这样的序列被称为()。A、1元组(1-gram)B、单元组(unigram)模型C、列表D、字典【正确答案】:AB解析:

列表和字典一般包含多个单词64.随机森林在做数据处理方面的优势是()。A、不需要做缺失值处理B、不需要处理噪音C、不需要做特征选择D、不需要平衡数据集【正确答案】:ACD解析:

理论上随机森林不会产生过拟合现象,但噪声是不能忽略的,增加树虽然能够减小过拟合,但树的数目不可能无限增加,没有办法完全消除过拟合。65.列式数据库(如BigTable和HBase)以表的形式存储数据,表结构包括()等元素。A、关键字B、时间戳C、列簇D、数据类型【正确答案】:ABC解析:

BigTable和HBase的索引由行关键字、列簇和时间戳组成。66.下列场景适合使用Python的是()。A、可作为脚本语言,快速编写小型程序、脚本等B、可应用在数据科学、交互式计算及可视化领域C、可作为胶水语言,整合如C++等语言代码D、Python适用于低延时、高利用率的应用场景【正确答案】:ABC解析:

Python作为脚本语言,以解释方式逐条执行语句,相比C++等语言运行速度较慢,不适用于低延时场景。67.下列关于PCA的说法,正确的是()。A、在使用PCA之前,我们必须标准化数据B、应该选择具有最大方差的主成分C、应该选择具有最小方差的主成分D、可以使用PCA在低维空间中可视化数据【正确答案】:ABD解析:

PCA对数据中变量的尺度非常敏感,因此需要对各个变量进行标准化。方差越大,说明在该特征上分布越广泛,说明该特征越有用,影响越大。PCA有时在较低维度上绘制数据是非常有用,可以提取前2个主要组成部分,在二维平面上使用散点图可视化数据。68.下面关于单样本Z检验的说法,正确的是()。A、在Python中,单样本Z检验可以使用scipy.stats.ttest_1samp()实现B、单样本Z检验适用于样本量较大的情况C、单样本Z检验假设要检验的统计量(近似)满足正态分布D、单样本Z检验常用于检验总体平均值是否等于某个常量【正确答案】:BCD解析:

在Python中,单样本Z检验可以使用statsmodels.stats.weightstats.ztest实现。69.在Spark中,弹性分布式数据集的特点包括()。A、可分区B、可序列化C、可直接修改D、可持久化【正确答案】:ABD解析:

RDD不可修改。70.在选择高斯函数作为核函数的支持向量机中,参数的选取会影响拟合的结果,如果出现过拟合的现象,则导致该结果的原因有可能是()。A、其他参数保持不变,C值过大B、其他参数保持不变,C值较小C、其他参数保持不变,σ较大D、其他参数保持不变,σ较小【正确答案】:AD解析:

SVM模型中,C值是惩罚系数,即对误判的宽容度,若C值越高,说明越不能容忍出现误差,容易拟合;σ是高斯函数自带的一个参数,若σ无穷小,理论上,高斯核的SVM可以拟合任何非线性数据,但容易过拟合。71.NoSQL数据库常用的数据模型包括()。A、Key-ValueB、Key-DocumentC、Key-ColumnD、图存储【正确答案】:ABCD解析:

NoSQL数据库常用的数据模型包括Key-Value、Key-Document、Key-Column、图存储。72.字符串的格式化可以使用()。A、%B、formatC、inputD、+【正确答案】:AB解析:

input是输入,+是加法运算符。73.常用的数据审计方法可以分为()。A、预定义审计B、自定义审计C、可视化审计D、结构化审计【正确答案】:ABC解析:

常用的数据审计方法有预定义审计、自定义审计和可视化审计三种。74.针对维数灾难,我们主要采用的降维方法有()。A、多维缩放B、主成分分析C、核化线性降维D、流形学习E、度量学习【正确答案】:ABCDE解析:

--75.LSTM应用场景有()。A、翻译语言B、语音识别C、图像识别D、股票预测【正确答案】:ABD解析:

CNN应用于图像识别,因此C错误。76.下列对字符串函数或方法说法正确的有()。A、istitle)如果字符串是标题化的(见title)则返回True,否则返回FalseB、max(str)返回字符串str中最大的字母。C、replace(old,new,max)把将字符串中的str1替换成str2,如果max指定,则替换不超过max次D、upper)转换字符串中所有大写字符为小写【正确答案】:ABC解析:

upper)转换字符串中所有小写字符为大写。77.Python变量命名规则包含()。A、变量名只能包含字母、数字和下划线。变量名可以字母或下划线开头,但不能以数字开头,。例如,可将变量命名为message_1,但不能将其命名为1_message。B、变量名不能包含空格,但可使用下划线来分隔其中的单词。例如,变量名greeting_message可行,但变量名greetingmessage会引发错误。C、不要将Python关键字和函数名用作变量名,即不要使用Python保留用于特殊用途的单词,如print。D、变量名应既简短又具有描述性。例如,name比n好,student_name比s_n好,name_length比length_of_persons_name好。【正确答案】:ABCD解析:

Python变量名只能包含字母、数字和下划线,但不能以数字开头,避免使用关键字,变量名应既简短又具有描述性。78.以下选项中是正确的字符串有()。A、‘abc”ab”B、‘abc”ab’C、“abc”ab”D、“abc\”ab”【正确答案】:BD解析:

需要两端引号符号相同。79.以下关于MapReduce1.0版本说法正确的是()。A、扩展性差B、可靠性差C、资源利用率低D、无法支持多种计算框架【正确答案】:ABCD解析:

MapReduce1.0存在的局限性包括扩展性差、可靠性差、资源利用率低、无法支持多种计算框架。80.常用的代价函数有()。A、均方误差B、均方根误差C、平均绝对误差D、交叉熵【正确答案】:ABCD解析:

--81.对于决策树的优点描述,正确的是()。A、可读性强B、分类速度快C、只用于回归问题D、是无监督学习【正确答案】:AB解析:

决策树也可用于回归,属于有监督的机器学习算法。82.下列关于AUC面积的描述,正确的是()。AUC被定义为ROC曲线下与坐标轴围成的面积B、AUC面积的值大于1C、AUC等于0.5时,则真实性最低,无应用价值D、AUC越接近1.0,检测方法真实性越高【正确答案】:ACD解析:

AUC面积的值小于等于1。83.假设目标遍历的类别非常不平衡,即主要类别占据了训练数据的99%,现在你的模型在训练集上表现为99%的准确度,那么下面说法正确的是()。A、准确度并不适合衡量不平衡类别问题B、准确度适合衡量不平衡类别问题C、精确度和召回率适合于衡量不平衡类别问题D、精确度和召回率不适合衡量不平衡类别问题【正确答案】:AC解析:

精确度和召回率适合于衡量不平衡类别问题,准确度并不适合衡量不平衡类别问题。84.关于CAP理论说法正确的是()。A、一个分布式系统不能同时满足一致性、可用性和分区容错性等需求B、一致性主要指强一致性C、一致性、可用性和分区容错性中的任何两个特征的保证(争取)可能导致另一个特征的损失(放弃)D、可用性指每个操作总是在“给定时间”之内得到返回“所需要的结果”【正确答案】:ABCD解析:

CAP理论认为,一个分布式系统不能同时满足一致性(Consistency)、可用性(Availability)和分区容错性(PartitionTolerance)等需求,而最多只能同时满足其中的两个特征。CAP理论告诉我们,数据管理不一定是理想的——一致性、可用性和分区容错性中的任何两个特征的保证(争取)可能导致另一个特征的损失(放弃)。85.下列不属于聚类性能度量内部指标的是()。A、DB指数B、Dunn指数C、Jaccard系数D、FM系数【正确答案】:CD解析:

聚类常用的外部指标包括Jaccard系数、FM系数、Rand指数;聚类常用的内部指标包括DB指数、Dunn指数。86.下列模型属于机器学习生成式模型的是()。A、朴素贝叶斯B、隐马尔科夫模型C、线性回归模型D、深度信念网络【正确答案】:ABD解析:

机器学习生成式模型包括朴素贝叶斯、隐马尔科夫模型和深度信念网络等。线性回归属于判别式模型。87.Python中jieba库的基本实现原理是什么()。A、分析汉字与汉字之间的关联几率概率B、分析汉字词组的关联几率概率C、根据用户自定义的词组进行分析D、还可以分析汉字与英文之间关联几率概率【正确答案】:ABC解析:

D选项,jieba用于中文分词,无法分析汉字与英文之间的关联几率概率。88.以下算法中可以应用于图像分割的是()。A、边缘检测技术B、阈值分割技术C、基于区域的分割技术D、区域生长方法【正确答案】:ABCD解析:

边缘检测技术、阈值分割技术、基于区域的分割技术、区域生长方法均是图像分割技术。89.训练CNN时,GPU显存溢出,此时可以采取的办法有()。A、减少mini_batch大小B、移除一些卷积层C、减少图片输入大小D、增加激活函数【正确答案】:ABC解析:

增加激活函数反而会加重负担,D选项错误。90.随机森林的随机性主要体现在()。A、决策树选择的随机性B、数据集的随机性C、待选特征的随机性D、参数选择的随机性【正确答案】:BC解析:

随机森林算法的随机性主要体现在两个方面:子模型的训练样本是随机抽取的、子模型的特征变量也是随机抽取的。91.下列关于深度学习的实质及其与浅层学习的说法,正确的是()。A、深度学习强调模型深度B、深度学习突出特征学习的重要性:特征变换+非人工C、没有区别D、以上答案都不正确【正确答案】:AB解析:

深度模型是手段,特征学习是目的。92.使用极大似然估计的前提条件有()。A、数据服从某种已知的特定数据分布型B、已经得到了一部分数据集C、提前已知某先验概率D、数据集各个属性相对独立【正确答案】:AB解析:

极大似然估计要求样本独立同分布,否则无法用概率密度函数乘积的形式。假设的分布与真实的分布要一致,否则会南辕北辙。如果对总体分布一无所知是无法使用MLE的。93.关于卷积神经网络的叙述中,正确的是()。A、可用于处理时间序列数据B、可用于处理图像数据C、卷积网络中使用的卷积运算就是数学中的卷积计算D、至少在网络的一层中使用卷积【正确答案】:ABD解析:

--94.以下属于数据挖掘与分析工具的有()。A、TableauB、PythonC、SPSSD、Alteyx【正确答案】:ABCD解析:

常用的数据挖掘工具有RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的数据分析工具有Tableau、Alteyx、R&Python语言、FineReport、PowerBI。95.Python函数包括下述哪些内容()。A、函数名称B、参数C、执行语句D、返回值【正确答案】:ABCD解析:

Python函数包括下述哪些内容函数名称、参数、执行语句、返回值。96.许多功能更为强大的非线性模型可在线性模型基础上通过引入()而得。A、层级结构B、高维映射C、降维D、分类【正确答案】:AB解析:

--97.关于Python分隔代码块,描述错误的是()。A、内嵌代码的每一行,都比外面的if语句的缩进更多B、代码以“begin”开头,“end”结尾C、每行代码的缩进都一致D、代码块被封装在花括号中【正确答案】:BCD解析:

python代码没有开头与结尾标识;不同级别的语句缩进不同;python代码用缩进区分代码块,不用{}。98.属于特征选择的优点有()。A、解决模型自身的缺陷B、减少过拟合C、提升模型的性能D、增强模型的泛化能力【正确答案】:BCD解析:

特征选择无法克服模型自身的缺陷,二者是独立的。99.HadoopMapReduce是MapReduce的具体实现之一。HadoopMapReduce数据处理过程涉及四个独立的实体,包括()。A、ClientB、JobTrackerC、TaskTrackerD、HDFS【正确答案】:ABCD解析:

可以将MapReduce的工作流程概括为4个独立的实体。4个实体分别为:①客户端,用来提交MapReduce的作业。编写MapReduce程序,配置作业,提交作业,即需程序员完成的工作。②JobTracker,用来协调作业的运行。与TaskTracker通信,协调整个作业的执行。③TaskTracker,用来处理作业划分后的任务。保持与JobTracker的通信,在分配的数据片段上执行Map或Reduce任务,TaskTracker和JobTracker的不同有个很重要方面,就是在执行任务的时候TaskTracker可以有n个,JobTracker则只会有一个。④HDFS,用来在其他实体间共享作业文件。保存作业的数据、配置信息等,最后的结果也是保存在HDFS上面。100.下列说法中正确的是()。A、云计算的主要特点是非常昂贵B、大数据是多源

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论