数据挖掘竞赛复习试题及答案_第1页
数据挖掘竞赛复习试题及答案_第2页
数据挖掘竞赛复习试题及答案_第3页
数据挖掘竞赛复习试题及答案_第4页
数据挖掘竞赛复习试题及答案_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第页数据挖掘竞赛复习试题及答案1.主成分分析的优化目标是一个()。A、不含约束条件的二次规划问题B、含有约束条件的二次规划问题C、不含约束条件的线性规划问题D、含有约束条件的线性规划问题【正确答案】:B解析:

--2.图像平滑会造成()。A、图像边缘模糊化B、图像边缘清晰化C、无影响D、以上答案都不正确【正确答案】:A解析:

为了抑制噪声,使图像亮度趋于平缓的处理方法就是图像平滑。图像平滑实际上是低通滤波,平滑过程会导致图像边缘模糊化。3.以下哪个统计量可以描述数据的集中程度的是()。A、极差B、标准差C、极大值D、众数【正确答案】:D解析:

最常见的几种集中趋势包括算数平均数、中位数及众数,极差、标准差、离散程度等属于描述离中程度的指标。4.下列关于支持向量的说法,正确的是()。A、到分类超平面的距离最近的且满足一定条件的几个训练样本点是支持向量B、训练集中的所有样本点都是支持向量C、每一类样本集中都分别只有一个支持向量D、支持向量的个数越多越好【正确答案】:A解析:

在支持向量机中,距离超平面最近的且满足一定条件的几个训练样本点被称为支持向量。一般情况下,支持向量的个数等于训练样本数目,并不是越多越好。5.采用幂次变换进行灰度变换时,当幂次大于1时,该变换是针对()的图像进行增强。A、图像整体偏暗B、图像整体偏亮C、图像细节淹没在暗背景中D、图像同时存在过亮和过暗背景【正确答案】:B解析:

幂次变换的基本表达式为:y=cxr+b。当r>1时,变换函数曲线在正比函数下方,此时扩展高灰度级,压缩低灰度级,使图像变暗;当r<1时,变换函数曲线在正比函数上方,此时扩展低灰度级,压缩高灰度级,使图像变亮。这一点与对数变换十分相似。6.Adaboost的核心思想是()。A、给定一个弱学习算法和一个训练集,将该学习算法使用多次,得出预测函数序列,进行投票B、针对同一个训练集训练不同的弱分类器集合起来,构成一个强分类器C、利用多棵树对样本进行训练并预测的一种分类器D、基于前向策略的加法模型,每阶段使用一个基模型去拟合上一阶段基模型的残差【正确答案】:B解析:

--7.已知一个数据集,n为特征数,m为训练样本数,如果n较小,而且m大小中等(例如n为1~1000,而m为10~10000),则一般选择()。A、逻辑回归模型B、不带核的支持向量机C、高斯核的支持向量机D、多项式核的支持向量机【正确答案】:C解析:

高斯核函数需要选择合适的sigma2参数,适用于少量特征,大量样本的情况,可以拟合出非常复杂的非线性决策边界。8.下列哪个()不是scipy.stats模块中的功能()。A、连续性分布B、线性方程求解C、离散型分布D、核密度估计【正确答案】:B解析:

stats模块包含了随机变量样本抽取、84个连续性分布、12个离散型分布、分布的密度分布函数、核密度估计、分布构造、分布检验等功能,但不包括线性方程求解。9.在linux下预装了Python2,、Python3且默认Python版本为Python3,下列描述可以正确启动Python有的是()。A、在linux应用程序Terminal,打开一个终端窗口。输入whichPythonB、在linux应用程序Terminal,打开一个终端窗口。输入Python2或Python3C、在linux应用程序Terminal,打开一个终端窗口。输入whichPython3D、在linux应用程序Terminal,打开一个终端窗口。输入输入whichPython2【正确答案】:B解析:

Windows系统下通过在命令行直接输入python2或者python3启动Python,;Linux系统下通过在Terminal输入python2或者python3启动Python。10.关于Python赋值语句,以下选项中不合法的是()。A、x=1;y=1B、x=y=1C、x=(y=1)D、x,y=y,x【正确答案】:C解析:

赋值语句不能用于赋值。11.以下不属于大数据重要意义的是()。A、大数据成为推动经济转型发展的新动力B、大数据成为重塑国家竞争优势的新机遇C、大数据成为提升政府治理能力的新途径D、大数据会增加经济发展的成本【正确答案】:D解析:

大数据可以促进经济的发展,催生新的业态,在辅助商业决策、降低运营成本、精准市场的营销方面都能发挥作用,进一步提升企业竞争力。12.解决Master故障的方法是设置检查点,当Master失效时,从()检查点开始启动另一个Master进程。A、第一个B、中间一个C、最后一个D、随机选择一个【正确答案】:C解析:

从最后一个检查点开始启动另一Master进程使得因故障产生的影响更小。13.在Apriori算法中,候选项集划分为不同的桶,存放在()中。A、字典B、集合C、Hash树D、列表【正确答案】:C解析:

--14.关于HDFS的特征,下列说法错误的是()。A、支持超大文件B、基于商用硬件C、流式数据访问D、低吞吐量【正确答案】:D解析:

HDFS设计中重视“数据的高吞吐量”,因此其数据吞吐量高,但也造成了其数据延迟访问的特征。15.scipy中,线性模块是以下哪个()模块()。A、fftpackB、signalC、linalgD、ndimage【正确答案】:C解析:

fftpack米快是傅里叶变换模块,signal是信号处理模块,linalg是线性代数模块,ndimage是多维图像处理模块,16.()是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。A、边界点B、质心C、离群点D、核心点【正确答案】:C解析:

离群点(outlier)是指数值中远离数值的一般水平的极端大值和极端小值。17.Python语句print(0xA+0xB)的输出结果是()。A、0xA+0xBB、A+BC、0xA0xBD、21【正确答案】:D解析:

0x是16进制运算,0xA+0xB换为十进制为10+11=21。18.对参数进行L2正则,是机器学习常用的防止过拟合的方法。对参数做L2正则时,()是对参数本身做先验分布假设。A、高斯分布B、拉普拉斯分布C、泊松分布D、均匀分布【正确答案】:A解析:

L2正则假设参数的先验分布是Gaussian分布,可以保证模型的稳定性,也就是参数的值不会太大或太小。19.要弥补缺失值,可以使用均值,、中位数,、众数等等,preprocessing模块中那个方法()可以实现()。A、preprocessing.Imputer)B、preprocessing.PolynomialFeatures)C、preprocessing.FunctionTransformer)D、preprocessing.Binarizer)【正确答案】:A解析:

要弥补缺失值,可以使用均值,、中位数,、众数等等,preprocessing中Imputer方法可以实现。20.基于统计的分词方法为()。A、正向最大匹配法B、逆向最大匹配法C、最少切分法D、条件随机场【正确答案】:D解析:

第一类是基于语法和规则的分词法。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来进行词性标注,以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂,基于语法和规则的分词法所能达到的精确度远远还不能令人满意,目前这种分词系统还处在试验阶段。21.以下选项中哪个不属于数据预处理的方法()。A、数据清洗B、数据集成C、数据变换D、数据统计【正确答案】:D解析:

数据统计并非为数据预处理的常见内容。22.数据可视化的方法论基础是()。A、统计图表B、视觉编码C、图论D、图形符号学【正确答案】:B解析:

数据可视化的方法体系的方法论基础主要是指“视觉编码”。“视觉编码”为其他数据可视化方法提供了方法论基础,奠定了数据可视化方法体系的根基。23.下列不属于Transformation操作的是()。A、mapB、filterC、sampleD、count【正确答案】:D解析:

Transformation常用函数为map、filter、flatMap、sample、union、join等。24.arr=np.arange(9).reshape(3,3),如何使数组arr交换列1和列2的操作是()。A、arr[:,[1,0,2]]B、arr[:,[1,0,3]]C、arr[:,[1,0,1]]D、arr[:,[1,0]]【正确答案】:A解析:

交换前两列相当于依次选取2,1,3列。25.关于正态分布,下列说法错误的是()。A、正态分布具有集中性和对称性B、正态分布的均值和方差能够决定正态分布的位置和形态C、正态分布的偏度为0,峰度为1D、标准正态分布的均值为0,方差为1【正确答案】:C解析:

正态分布的均值决定正态分布的位置,正态分布的方差决定正态分布的形态,正态分布具有对称性,其偏度为0,但峰度不一定为1,只有标准正态分布的偏度为0,峰度为1。26.在神经网络中引入了非线性的是()。A、随机梯度下降B、修正线性单元(ReLU)C、卷积函数D、以上答案都不正确【正确答案】:B解析:

ReLU是目前最常用的激励函数,增加了神经网络模型的非线性。27.以下关于异常处理的描述,正确的是()。A、try语句中有except子句就不能有finally子句B、Python中,可以用异常处理捕获程序中的所有错误C、引发一个不存在索引的列表元素会引发NameError错误D、Python中允许利用raise语句由程序主动引发异常【正确答案】:D解析:

try语句中有except子句可以有finally子句,,不用异常处理捕获程序中的所有错误,引发一个不存在索引的列表元素会引发lisindeoutError。28.下面哪个功能不是大数据平台安全管理组件提供的功能()。A、接口代理B、接口认证C、接口授权D、路由代理【正确答案】:D解析:

接口可以对用户的身份和请求的参数进行验证,以保证接口的安全。通过添加身份验证和数字签名的方法提高接口安全性,防止数据被篡改和信息泄露。29.bootstrap是指()。A、有放回地从总共M个特征中抽样m个特征B、无放回地从总共M个特征中抽样m个特征C、有放回地从总共N个样本中抽样n个样本D、无放回地从总共N个样本中抽样n个样本【正确答案】:C解析:

自助采样法(bootstrapsampling):给定包含N个样本的数据集,我们先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中,这样经过n次随机采样操作,我们得到含n个样本的采样集。30.GatedRecurrentunits的出现可以帮助防止在RNN中的梯度消失问题。()A、可以这么理解B、不可以这么理解C、-D、-【正确答案】:A解析:

--31.词袋模型中的文本向量每个元素表示该词的()。A、频率B、顺序C、含义D、语义关系【正确答案】:A解析:

词袋模型是最基础的文本表示模型,就是把每一篇文章看成一袋子单词,并忽略每个词出现的顺序。每篇文章可以表示成一个长向量,向量中的每一维代表一个单词,而该维对应的权重代表这个词在文章中的重要程度,重要程度是由频率来衡量的。32.[i**iforiinrange(3)]的运行结果是()。A、[1,1,4]B、[0,1,4]C、[1,2,3]D、(0,1,4)【正确答案】:B解析:**表示乘方运算,该列表表达式指为[0,1**1,2**2]即为[0,1,4]33.生成多项式和交互特征使用preprocessing模块中的()函数。A、preprocessing.binarize)B、preprocessing.Normalizer)C、preprocessing.LabelEncoder)D、preprocessing.PolynomialFeatures)【正确答案】:D解析:

preprocessing.PolynomialFeatures用于生成多项式和交互特征,可以将线性回归模型应用于多项式回归中。34.对于一个分类任务,如果开始时神经网络的权重不是随机赋值的,而是都设成0,下面叙述正确的是()。A、没啥问题,神经网络会正常开始训练B、神经网络可以训练,但是所有的神经元最后都会变成识别同样的东西C、神经网络不会开始训练,因为没有梯度改变D、以上选项都不对【正确答案】:B解析:

--35.以下代码的输出结果为()。A、[[123][345][456]]B、3.6666666666667C、[2.666666673.666666674.66666667]D、[2.4.5.]【正确答案】:C解析:

对每列求均值。36.协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度(),并将这些用户喜欢的项推荐给有相似兴趣的用户。A、相似B、相同C、推荐D、预测【正确答案】:D解析:

协同过滤简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息。37.如果要清空文件,需要使用的命令是()。A、close)B、seek(0)C、truncate(0)Dwrite('stuff')【正确答案】:C解析:

truncate(size)方法将截断文件,大小为size,size为0即清空38.使用pip工具查看当前已安装的Python扩展库的完整命令是()。A、pipupdateB、piplistC、pipinstallD、pipshowall【正确答案】:B解析:

使用pip工具查看当前已安装的Python扩展库的完整命令piplist。39.留出法直接将数据集划分为()个互斥的集合。A、一B、二C、三D、四【正确答案】:B解析:

留出法(hold-out)直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集,另一个作为测试集T。40.()网络是一种竞争学习型的无监督神经网络,它能将高维输入数据映射到低维空间,同时保持输入数据在高维空间的拓扑结构,即将高维空间中相似的样本点映射到网络输出层中的邻近神经元。A、SOMB、RBFC、ARTD、ELman【正确答案】:A解析:

自组织映射(Self-OrganizingMap,SOM)网络[Kohonen,1982]是一种竞争学习型的无监督神经网络,它能将高维输入数据映射到低维空间(通常为二维),同时保持输入数据在高维空间的拓扑结构,即将高维空间中相似的样本点映射到网络输出层中的邻近神经元。41.如果要将读写位置移动到文件开头,需要使用的命令是()。A、closeB、seek(0)C、truncateD、write('stuff')【正确答案】:B解析:

seek(0)指移动指针到0位置即开头。42.对Numpy的数组Ndarray对象属性的描述,错误的是()。A、Ndarray.dtypeNdarray对象中每个元素的大小,以字节为单位B、Ndarray.flagsNdarray对象的内存信息C、Ndarray.realNdarray元素的实部D、Ndarray.imagNdarray元素的虚部【正确答案】:A解析:

dtype是数组元素的类型。43.正态分布的两个参数μ与σ,()对应的正态曲线愈趋扁平。A、μ愈大B、μ愈小C、σ愈大D、σ愈小【正确答案】:C解析:

σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,;σ越小,数据分布越集中。σ也称为是正态分布的形状参数,σ越大,曲线越扁平,;反之,σ越小,曲线越瘦高。44.Scikit-Learn中,()可以实现整数分类值转化为独热向量。A、OridinalEncoderB、OneHotEncoderC、LableEncoderD、AutoEncoder【正确答案】:B解析:

onehot编码是将整数分类值转化为独热向量。45.()适合连续特征,它假设每个特征对于每个类都符合正态分布。A、GaussianNBBernoulliNBC、MultinomialNBD、BaseDiscreteNB【正确答案】:A解析:

贝叶斯分类中GaussianNBB用于连续特征。46.HBase中KeyValue数据的存储格式是()。A、HFileB、HLogFileC、SequenceFileD、TXT【正确答案】:A解析:

HBase中KeyValue数据的存储格式是HFile。47.关于抛出异常的说法中,描述错误的是()。A、当raise指定异常的类名时,会隐式地创建异常类的实例B、显式地创建异常类实例,可以使用raise直接引发C、不带参数的raise语句,只能引发刚刚发生过的异常D、使用raise抛出异常时,无法指定描述信息【正确答案】:D解析:

raise语句的第一个参数指定要产生的例外的名字;可选的第二参数指定例外的参数。48.以下描述中错误的是()。A、数据化与数字化是两个不同概念B、数据与数值是一个概念C、大数据与海量数据是两个不同的概念D、数据和信息是两个不同的概念【正确答案】:B解析:

除了“数值”,数据科学中的“数据”还包括文字、图形、图像、动画、文本、语音、视频、多媒体和富媒体等多种类型49.运行下面的代码,输出结果是()。A、[0,10,2,30,4]B、[10,2,30,4]C、[0,10,2,30,4,50]D、[0,1,20,3,40]【正确答案】:A解析:

该列表推导式意为在0-~4中偶数不变,奇数乘10,因此A正确。50.数据可视化的基本类型是()。A、科学可视化、信息可视化、可视分析学B、物理可视化、数字可视化、化学可视化C、科学可视化、数字可视化、可视分析学D、科学可视化、信息可视化、文本可视化【正确答案】:A解析:

大数据可视化可以说是传统数据可视化的一个继承和延伸,它是指将大规模海量数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。大数据可视化是大数据整个过程的最后环节,也是非常重要的一个环节。51.在机器学习中,不属于常用的冲突消解策略是()。A、投票法B、排序法C、元规则法D、加权法【正确答案】:D解析:

常用的冲突消解策略有投票法、排序法、元规则法等。52.以下代码的输出结果为()。A、[101001000]B、[100100001000000]C、[123]D、[10100001000000000]【正确答案】:B解析:

np.power)取乘方。53.Relief是为()问题设计的。A、二分类B、多分类C、回归D、降维【正确答案】:A解析:

--54.线性模型中的权重w值可以看做各个属性x的()。A、正则化系数B、对最终决策结果的贡献度C、高维映射D、取值【正确答案】:B解析:

--55.建立一个词典[Alex,wants,to,go,play,football,shopping],下面的句子:Alexwantstogotoplayfootball可以用向量表示为()。A、[1,1,2,1,1,1,0]B、[1,1,2,1,1,1]C、[1,1,1,1,1,1,0]D、[1,1,1,1,1,1,1]【正确答案】:A解析:

向量中每个元素代表该词在句中出现的次数,比如to在句中出现两次,所以第3个元素应为2。56.绘图是如何通过()为项目设置matplotlib参数()。A、rc)B、sci)C、axes)D、sca)【正确答案】:A解析:

matplotlib.rc)设置当前的matplotlib参数。57.在以下那个选项是在局部生效的,出了这个变量的作用域,这个变量就失效了的变量是()。A、局部变量B、全局变量C、字典D、集合【正确答案】:A解析:

局部变量是在局部生效的,出了这个变量的作用域,这个变量就失效了。58.Hadoop中partition()函数代表的是()。A、分区函数B、特征函数C、算法函数D、排序函数【正确答案】:A解析:

partition()代表分区函数。59.以下代码哪个中能够打印出138-9922-0202这个电话号码(注意格式需要完全一致)的是,注意格式需要完全一致()。A、print(“138”)print(“9922”)print(“0202”)B、print(“138”,end=“”)print(“9922”,end=“”)print(“0202”,end=“”)C、print(“138”,sep=“-”)print(“9922”,sep=“-”)print(“0202”,sep=“-”)D、print(“138”,end=“-”)print(“9922”,end=“-”)print(“0202”)【正确答案】:D解析:

A打印出来是回车分割;B打印出来是空格分隔;C关键词写了分隔符,所以打印出来任是回车分割;D打印出来就是-分隔。60.以下代码的输出结果为()。A、[022345]B、[543220]C、[[230][542]]D、[[235][024]]【正确答案】:A解析:

默认按最后一个轴进行排序,轴参数设置为None时先展平再进行排序。61.matplotlib中的legend函数作用是什么()。A、设置标签文本B、绘制网格线C、标示不同图形的文本标签图例D、设置x轴的数值显示范围【正确答案】:C解析:

legend用于添加图例。62.Hadoop中,Reducer的三个阶段是()。A、Shuffle-Sort-ReduceB、Shuffle-Reduce-SortC、Reduce-Shuffle-SortD、Sort-Shuffle-Reduce【正确答案】:A解析:

Reducer主要分为Shuffle洗牌、Sort排序和Reduce三个步骤。63.线性判别分析在二分类问题上也称为()。A、线性回归B、对数几率回归C、Fisher判别分析D、主成分分析【正确答案】:C解析:

线性判别分析在二分类问题上也称为Fisher判别分析。64.不属于循环神经网络的输出模式是()。A、单输出B、多输出C、同步多输出D、异步多输出【正确答案】:C解析:

--65.关于DataNode的描述错误的是()。A、DataNode负责处理文件系统客户端的文件读写请求B、DataNode进行数据块的创建、删除和复制工作C、集群中的DataNode一般是一个节点一个D、文件的副本系数由DataNode储存【正确答案】:D解析:

文件副本的数目称为文件的副本系数,这个信息是由NameNode保存的。66.()负责HDFS数据存储。A、NameNodeB、JobtrackerC、DataNodeD、SecondaryNameNode【正确答案】:C解析:

Hadoop中NameNode节点作为Master节点,对集群进行管理;SecondaryNameNode节点在于分担NameNode的压力而设置;JobTracker是为了跟踪作业运行的情况而设置的节点。67.Numpy包中meshgrid函数实现的功能是()。A、数组拆分B、数组乘法C、数组除法D、数组融合【正确答案】:D解析:

np.meshgrid)用于数组融合,在画等高线图时常用。68.如果python程序中包括零运算,解释器将在运行时抛出)()错误信息()。A、NameErrorB、FileNotFoundErrorC、SyntaxErrorD、Zero【正确答案】:D解析:

NameError为找不到变量名报错;FileNotFoundError为文件不存在报错;SyntaxError为语法报错;ZeroDivisionError为数学除零运算报错。69.关于Hive说法正确的是()。A、一种数据仓库B、一种数据处理工具C、一种可视化工具D、一种分析算法【正确答案】:A解析:

Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。70.TF-IDF中的TF是指()。A、某个词在文档中出现的次数B、文章的总次数C、某个词在文档中出现的次数/文章的总次数D、以上答案都不正确【正确答案】:C解析:

TF是词频(TermFrequency),表示某个词出现的频率,也就是某个词在文档中出现的次数/文章的总次数。71.一元线性回归方程y=0.7+0.82x,判定系数等于0.64,则x与y的相关系数为()。A、0.82B、0.64C、0.8D、0.7【正确答案】:C解析:

一元回归分析中,自变量和因变量的相关系数的平方等于回归模型的判定系数。所以,相关系数=sqrt(0.64)=0.8。72.中文同义词替换时,常用到Word2Vec,以下说法错误的是()。A、Word2Vec基于概率统计B、Word2Vec结果符合当前预料环境C、Word2Vec得到的都是语义上的同义词D、Word2Vec受限于训练语料的数量和质量【正确答案】:C解析:

Word2Vec只会输出词向量,并不关心是否为同义词。73.下列方法中,能够让所有单词的首字母变成大写的方法是()。A、capitalizeB、titleC、upperD、Ijust【正确答案】:B解析:

capitalize)将字符串的第一个字母变成大写,其他字母变小写;upper)方法将字符串中的小写字母转为大写字母;Iljust左对齐。74.若a=np.array([5,1,2,3]),a.sort(),则数组a的结果是()。A、[5,1,2,3]B、[1,2,3,5]C、[3,2,1,5]D、11【正确答案】:B解析:

Ndarray.sort)默认在原地按最后一个轴从小到大排序。75.Python中定义私有属性的方法是()。A、使用private关键字B、使用public关键字C、使用__XX__定义属性名D、使用__XX定义属性名【正确答案】:D解析:

使用__XX定义属性名是定义私有属性的方法。76.对于PCA(主成分分析)转化过的特征,朴素贝叶斯的不依赖假设总是成立,因为所有主要成分是正交的,这个说法是()。A、正确的B、错误的C、-D、-【正确答案】:B解析:

说法错误。首先,不依赖和不相关是两回事;其次,转化过的特征也可能是相关的。77.下列不属于Action操作的是()。A、collectB、filterC、reduceD、count【正确答案】:B解析:

Action常用的函数为reduce、collect、count、take、first、foreach等。78.PageRank是一个函数,它对Web中的每个网页赋予一个实数值。它的意图在于网页的PageRank越高,那么它就()。A、相关性越高B、越不重要C、相关性越低D、越重要【正确答案】:D解析:

PageRank认为,如果A页面有一个链接指向B页面,那就可以看作是A页面对B页面的一种信任或推荐。所以,如果一个页面的反向链接越多,根据这些链接的价值加权越高,那搜索引擎就会判断这样的页面更为重要。79.数据产品的定义是()。A、数据产品是指能够供给市场,被人们使用和消费,并能满足人们某种需求的任何东西B、数据产品是可以发挥数据价值去辅助用户更优地做决策(甚至行动)的一种产品形式C、数据产品是指为了满足自身的需要,通过科技发明或经验总结而形成的技术D、数据产品是数据科学的结果,创造了新的实物形态和使用价值的产品。【正确答案】:B解析:

数据产品是可以发挥数据价值去辅助用户更优的做决策(甚至行动)的一种产品形式。80.下列关于数据重组的说法中,错误的是()。A、数据重组是数据的重新生产和重新采集B、数据重组能够使数据焕发新的光芒C、数据重组实现的关键在于多源数据融合和数据集成D、数据重组有利于实现新颖的数据模式创新【正确答案】:A解析:

数据重组将数据库内各数据的相关信息重新组织。81.scipy.stats中,()表示泊松分布。A、gammaB、poissonC、binomD、uniform【正确答案】:B解析:

poission表示泊松分布。82.pyplot.pie)所画的图像是()。A、箱线图B、折线图C、直方图D、饼图【正确答案】:D解析:

pyplot.pie)的作用是绘制饼图。83.增加卷积核的大小对于改进卷积神经网络的效果是必要的吗()A、是的,增加卷积核尺寸一定能提高性能B、不是,增加核函数的大小不一定会提高性能C、-D、-【正确答案】:B解析:

增加核函数的大小不一定会提高性能。这个问题在很大程度上取决于数据集。84.在一些算法中,为了进行属性之间的比较或运算,需要把不同属性的不同变量取值范围变换成同一范围,以免使得结果发生扭曲,偏向取值范围大的变量。这一过程称为()。A、合并B、数据聚合C、归一化D、数据处理【正确答案】:C解析:

归一化是一种无量纲处理手段,使物理系统数值的绝对值变成某种相对值关系,是简化计算、缩小量值的有效办法。85.CART决策树通常采用()剪枝方法。A、REP(错误率降低)B、CCP(代价复杂度)C、PEP(悲观剪枝)D、预剪枝【正确答案】:B解析:

--86.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。A、统计方法B、邻近度C、密度D、机器学习技术【正确答案】:A解析:

略。87.下列关于线性回归分析中的残差说法正确的是()。A、残差均值总是为零B、残差均值总是约等于零C、残差均值总是大于零D、以上答案都不正确【正确答案】:A解析:

线性回归分析中,目标是残差最小化。残差平方和是关于参数的函数,为了求残差极小值,令残差关于参数的偏导数为零,会得到残差和为零,即残差均值为零。88.()操作属于预剪枝。A、信息增益B、计算最好的特征切分点C、限制树模型的深度D、可视化树模型【正确答案】:C解析:

预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点。限制树模型的深度属于预剪枝。89.下列关于可视化方法体系说法不正确的是()。A、通常采用视觉图形元素和视觉通道两个维度进行视觉编码B、常用的共性方法有统计图表、图论方法、视觉隐喻和图形符号学等C、领域方法在所属领域内其可视化的信度和效果往往低于基础方法的直接应用D、视觉编码为其他数据可视化方法提供了方法学基础【正确答案】:C解析:

领域方法在所属领域内其可视化的信度和效果高于基础方法的直接应用。90.matplotlib中的legend函数作用是什么()。A、设置标签文本B、绘制网格线C、标示不同图形的文本标签图例D、设置x轴的数值显示范围【正确答案】:C解析:

legend用于添加图例。91.你正在训练一个RNN网络,你发现你的权重与激活值都是NaN,下列选项中导致这个问题的最有可能的原因是()。A、梯度消失B、梯度爆炸C、ReLU函数作为激活函数g(.),在计算g(z)时,z的数值过大了D、Sigmoid函数作为激活函数g(.),在计算g(z)时,z的数值过大了【正确答案】:B解析:

训练过程中出现梯度爆炸会伴随一些细微的信号,如:①模型无法从训练数据中获得更新(如低损失);②模型不稳定,导致更新过程中的损失出现显著变化;③训练过程中,模型损失变成NaN。92.下列关于文本分类的说法不正确的是()。A、文本分类是指按照预先定义的主题类别,由计算机自动地为文档集合中的每个文档确定一个类别B、文本分类大致可分为基于知识工程的分类系统和基于机器学习的分类系统C、文本的向量形式一般基于词袋模型构建,该模型考虑了文本词语的行文顺序D、构建文本的向量形式可以归结为文本的特征选择与特征权重计算两个步骤【正确答案】:C解析:

词袋模型是指将所有词语装进一个袋子里,不考虑其词法和语序的问题,即每个词语都是独立的,所以该模型没有考虑文本词语的行文顺序,C错误,选C。93.下面算法属于局部处理的是()。A、灰度线性变换B、二值化C、傅里叶变换D、中值滤波【正确答案】:D解析:

中值滤波是将每一像素点的灰度值设置为该点某邻域窗口内的所有像素点灰度值的中值,在图像处理中常用于保护边缘信息,是一种局部处理方法。94.平滑图像处理可以采用RGB彩色()模型。A、直方图均衡化B、直方图均衡化C、加权均值滤波D、中值滤波【正确答案】:C解析:

平滑图像处理可以采用RGB彩色加权均值滤波模型。95.sklearn.decomposition.PCA)方法的作用是()。A、因子分析B、主成分分析C、稀疏编码D、唯一编码【正确答案】:B解析:

PCA)方法是一种常用的降维方法,在数据维度较高时使用。96.在k近邻学习算法中,随着k的增加,上界将逐渐降低,当k区域无穷大时,上界和下界碰到一起,k近邻法就达到了()。A、贝叶斯错误率B、渐进错误率C、最优值D、上界【正确答案】:A解析:

--97.在回归模型中,()在权衡欠拟合(under-fitting)和过拟合(over-fitting)中影响最大。A、多项式阶数B、更新权重w时,使用的是矩阵求逆C、使用常数项D、使用梯度下降法【正确答案】:A解析:

选择合适的多项式阶数非常重要。如果阶数过大,模型就会更加复杂,容易发生过拟合;如果阶数较小,模型就会过于简单,容易发生欠拟合。98.下列关于BP网络的说法,不正确的是()。A、标准BP算法每次仅针对一个训练样例更新连接权和阈值BP神经网络经常遭遇过拟合C、早停策略可用来缓解BP网络的过拟合问题D、晚停策略可用来缓解BP网络的欠拟合问题【正确答案】:D解析:

早停和正则化是解决BP网络过拟合的两种方法,欠拟合的网络需继续训练,并没有晚停这一说法。99.如果x=5.5,则表达式x>0andx==int(x)的运算结果为;表达式x>0orx==int(x)的运算结果为()。A、TrueFalseB、FalseTrueC、TrueTrueD、FalseFalse【正确答案】:B解析:

5.5恒大于0,且5.5不等于int(5)。100.聚类是一种典型的无监督学习任务,然而在现实聚类任务中我们往往能获得一些额外的监督信息,于是可通过()来利用监督信息以获得更好的聚类效果。A、监督聚类B、半监督聚类C、聚类D、直推聚类【正确答案】:B解析:

--1.关于Python组合数据类型,以下选项中描述正确的是()。A、Python的str、tuple和list类型都属于序列类型B、Python组合数据类型能够将多个同类型或不同类型的数据组织起来,通过单一的表示使数据操作更有序更容易C、组合数据类型可以分为3类:序列类型、集合类型和映射类型3类D、序列类型是二维元素向量,元素之间存在先后关系,通过序号访问【正确答案】:ABC解析:

序列类型是一维元素向量。2.数据再利用的意义在于()A、挖掘数据的潜在价值B、提高社会效益,优化社会管理C、实现数据重组的创新价值D、优化存储设备,降低设备成本E、利用数据的可拓展性拓展业务领域【正确答案】:ACE解析:

数据的再利用可以挖掘数据的潜在价值,实现数据组重组的创新价值,并且可以利用数据的可拓展性拓展业务领域3.聚类性能度量外部指标包括()。A、Jaccard系数B、FM指数C、Dunn指数D、Rand指数【正确答案】:ABD解析:

常用的聚类性能度量外部指标有Jaccard系数,FM指数,Rand指数。4.在数据科学中,计算模式发生了根本性的变化——从集中式计算、分布式计算、网格计算等传统计算过渡至云计算,有一定的代表性的是Google云计算三大技术,这三大技术包括()。A、HadoopYRN资源管理器B、GFS分布式存储系统C、MapRedue分布式处理技术D、BigTable分布式数据库【正确答案】:BCD解析:

Goolge于2003~2008年间发表的3篇论文在云计算和大数据技术领域产生了深远影响,被称为Google三大技术或三大论文:①GFS论文——GhemawatS,Gobioff5.下列方法中,可以用于特征降维的方法包括()。A、主成分分析PCAB、线性判别分析LDAC、深度学习SparseAutoEncoderD、矩阵奇异值分解SVD【正确答案】:ABD解析:

--6.关于Dropout说法,正确的是()。A、Dropout背后的思想其实就是把DNN当作一个集成模型来训练,之后取所有值的平均值,而不只是训练单个DNNB、DNN网络将Dropout率设置为p,也就是说,一个神经元被保留的概率是1-p。当一个神经元被丢弃时,无论输入或者相关的参数是什么,它的输出值就会被设置为0C、丢弃的神经元在训练阶段,对BP算法的前向和后向阶段都没有贡献。由于这个原因,每一次训练它都像是在训练一个新的网络Dropout方法通常和L2正则化或者其他参数约束技术(比如MaxNorm)一起使用,来防止神经网络的过拟合【正确答案】:ABCD解析:

dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。注意是暂时,对于随机梯度下降来说,由于是随机丢弃,故而每一个mini-batch都在训练不同的网络。防止过拟合的方法:提前终止(当验证集上的效果变差的时候);L1和L2正则化加权;softweightsharingdropout。dropout率的选择:经过交叉验证,隐含节点dropout率等于0.5的时候效果最好,原因是0.5的时候dropout随机生成的网络结构最多。dropout也可以被用作一种添加噪声的方法,直接对input进行操作。输入层设为更接近1的数。使得输入变化不会太大(0.8)。7.已定义级(DefinedLevel)的主要特点包括()。A、组织机构已明确给出了关键过程的“标准定义”,并定期对其进行改进B、已提供了关键过程的测量与预测方法C、关键过程的执行过程并不是简单或死板地执行组织机构给出的“标准定义”,而是根据具体业务进行了一定的“裁剪”工作D、数据的重要性已成为组织机构层次的共识,将数据当作成功实现组织机构使命的关键因素之一【正确答案】:ABCD解析:

DMM的已定义级(DefinedLevel):组织机构已经定义了自己的“标准关键过程”。其主要特点如下:①组织机构已明确给出了关键过程的“标准定义”,并定期对其进行改进;②已提供了关键过程的测量与预测方法;③关键过程的执行过程并不是简单或死板地执行组织机构给出的“标准定义”,而是根据具体业务进行了一定的“裁剪”工作;④数据的重要性已成为组织机构层次的共识,将数据当作成功实现组织机构使命的关键因素之一。8.回归分析有很多种类,常见的有()。A、线性回归B、系数回归C、逻辑回归D、曲线回归【正确答案】:ACD解析:

--9.对以下代码说法正确的是()。A、该图表是一个蓝绿色的散点图B、图表中有红色实线的网格线C、图表中有图例D、该图画的是sin曲线【正确答案】:CD解析:

该图画的是点虚线形式的折线图,红色点线网格,带有图例。10.参数估计可以分为()。A、点估计B、一致估计C、区间估计D、无偏估计【正确答案】:AC解析:

参数估计可以分为点估计、区间估计。11.EDA(探索性数据分析)方法与传统统计学的验证性分析方法的区别有()。A、EDA需要事先提出假设,而验证性分析不需要B、EDA中采用的方法往往比验证性分析简单C、在一般数据科学项目中,探索性分析在先,验证性分析在后D、EDA更为简单、易学和易用【正确答案】:BCD解析:

在一般数据科学项目中,探索性分析在先,验证性分析在后,EDA中采用的方法往往比验证性分析简单。12.下面对范数规则化描述,正确的是()。A、L0是指向量中0的元素的个数B、L1范数是指向量中各个元素绝对值之和C、L2范数向量元素绝对值的平方和再开平方D、L0是指向量中非0的元素的个数【正确答案】:BCD解析:

L0是指向量中非0的元素的个数,L1范数是指向量中各个元素绝对值之和,L2范数向量元素绝对值的平方和再开平方。13.HadoopMapReduce是MapReduce的具体实现之一。HadoopMapReduce数据处理过程涉及四个独立的实体,包括()。A、ClientB、JobTrackerC、TaskTrackerD、HDFS【正确答案】:ABCD解析:

可以将MapReduce的工作流程概括为4个独立的实体。4个实体分别为:①客户端,用来提交MapReduce的作业。编写MapReduce程序,配置作业,提交作业,即需程序员完成的工作。②JobTracker,用来协调作业的运行。与TaskTracker通信,协调整个作业的执行。③TaskTracker,用来处理作业划分后的任务。保持与JobTracker的通信,在分配的数据片段上执行Map或Reduce任务,TaskTracker和JobTracker的不同有个很重要方面,就是在执行任务的时候TaskTracker可以有n个,JobTracker则只会有一个。④HDFS,用来在其他实体间共享作业文件。保存作业的数据、配置信息等,最后的结果也是保存在HDFS上面。14.以下关于降维方法的叙述,正确的是()。A、主成分分析是一种常用的非线性降维方法B、核化线性降维是一种常用的线性降维方法C、流形学习是一种借鉴拓扑流形概念的降维方法D、度量学习绕过降维的过程,将学习目标转化为对距离度量计算的权重矩阵的学习【正确答案】:CD解析:

本质上讲,主成分分析是一种线性降维方法,在处理非线性问题时,效果不太理想。核化线性降维是一种非线性降维方法。15.HighBias(高偏差)的解决方案有()。A、BoostingB、复杂模型(非线性模型、增加神经网络中的层)C、更多特征D、-【正确答案】:ABC解析:

偏差刻画了学习算法本身的拟合能力,高偏差意味着欠拟合,可通过Boosting、复杂模型(非线性模型、增加神经网络中的层)、更多特征等方式解决。16.CNN相比于全连接的DNN,具有的优势是()。A、参数更少B、泛化更好C、训练更快D、更容易搭建【正确答案】:ABC解析:

DNN直接对数据做加权线性连接,而CNN则是移动卷积核,并对图像中的各区域做卷积操作。因此,DNN更容易搭建,D错误。17.线性模型的基本形式有()。A、线性回归B、对数几率回归(二分类问题)C、线性判别分析(Fisher判别分析)D、多分类学习【正确答案】:ABCD解析:

--18.属于特征选择的优点有()。A、解决模型自身的缺陷B、减少过拟合C、提升模型的性能D、增强模型的泛化能力【正确答案】:BCD解析:

特征选择无法克服模型自身的缺陷,二者是独立的。19.“噪声”是指测量变量中的随机错误或偏差,噪声数据的主要表现有哪几种形式()A、错误数据B、假数据C、异常数据D、僵尸数据【正确答案】:ABC解析:

错误数据、假数据、异常数据在测量变量中多被定义为噪声。20.Numpy数组中将一个数组分割成多个小数组数组的分割函数包括()。A、hsplitBB、vsplitCC、splitDD、dsplit【正确答案】:ABCD解析:

以上都是分割函数,分别为水平分割,、数值分割,、通用分割,、深度分割。21.Python逻辑表达式中,()会导致逻辑短路,即不会继续向下推算而直接返回结果。A、False开头的and语句B、False开头的or语句C、True开头的and语句D、True开头的or语句【正确答案】:AD解析:

两种情况:False开头的and语句,True开头的or语句。22.以下关于神经网络模型描述正确的是()。A、神经网络模型是许多逻辑单元按照不同层级组织起来的网络,每一层的输出变量都是下一层的输入变量B、神经网络模型建立在多神经元之上C、神经网络模型中,无中间层的神经元模型的计算可用来表示逻辑运算D、神经网络模型一定可以解决所有分类问题【正确答案】:ABC解析:

现在很多分类问题的准确率都很低尤其是医学图像方面,而且容易受环境,如光照影响。23.下列选项中基于核的机器学习算法有()。A、最大期望算法B、径向基核函数C、线性判别分析法D、支持向量机【正确答案】:BCD解析:

--24.关于HDFS的文件写入,正确的是()。A、不支持多用户对同一文件的写操作B、用户不可以在文件任意位置进行修改C、默认将文件复制成三份存放D、复制的文件块默认不存在同一机架上【正确答案】:ABCD解析:

根据HDFS定义,以上答案都为正确选项。25.MapReduce对map()函数的返回值处理后才传给reduce()函数,其中涉及哪些操作()。A、合并B、排序C、分区D、抽样【正确答案】:ABC解析:

分别涉及Shuffle(排序)、Combiner(合并)和Partition(分区)操作。26.集成学习中增强多样性的常见做法有()。A、数据样本扰动B、输入属性扰动C、输出表示扰动D、算法参数扰动【正确答案】:ABCD解析:

集成学习中增强多样性的常见做法主要是是对数据样本、输入属性、输出表示、算法参数进行扰动。27.图像分割中常使用的领域有()。A、0邻域B、4邻域C、8邻域D、24邻域【正确答案】:BC解析:

图像分割中常见的邻域为4邻域与8邻域,即某像素的上下左右、某像素周围的一圈像素。28.下列哪些是RDBMS中事务遵循的原则()。A、原子性(Atomicity)B、一致性(Connsistency)C、隔离性(Isolation)D、持久性(Durability)【正确答案】:ABCD解析:

关系数据库中的事务需要具备一定的规则——ACID特征。ACID是指数据库事务正确执行的4个基本要素的缩写:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。29.以下有关特征数据归一化的说法,正确的是()。A、特征数据归一化加速梯度下降优化的速度B、特征数据归一化有可能提高模型的精度C、线性归一化适用于特征数值分化比较大的情况D、概率模型不需要做归一化处理【正确答案】:ABD解析:

归一化方法比较适用在数值比较集中的情况。这种方法的缺陷是如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定。实际使用中可以用经验常量值来替代max和min。非线性归一化经常用在数据分化比较大的场景,有些数值很大,有些很小。30.数据故事化描述应遵循的基本原则是()。A、忠于原始数据原则B、设定共同场景原则C、有效性利用原则D、3C精神原则【正确答案】:ABCD解析:

数据的故事化描述应遵循的基本原则包括忠于原始数据原则、设定共同情景原则、体验式讲述原则、个性化定制原则、有效性利用原则、3C精神原则。31.模块可以分为以下的通用类别包含()。A、使用python编写的.py文件B、已被编译为共享库或DLL的C或C++扩展C、把一系列模块组织到一起的文件夹D、使用C编写并链接到python解释器的内置模块【正确答案】:ABCD解析:

python的模块定义是一组包含了一组功能的python文件,比如test.py,模块名为test,可以通过importtest进行调用。模块可以分为以下四个通用类别:使用python编写的.py文件;已被编译为共享库或DLL的C或C++扩展;把一系列模块组织到一起的文件夹;使用C编写并链接到python解释器的内置模块。32.下列方法中,属于词语情感分析的方法有()。A、基于网络的分析方法B、基于word-embedding的分析方法C、基于词典的分析方法D、基于词频的分析方法【正确答案】:AC解析:

其余两种为分词方法。33.RDD具有()特征。A、可容错性B、简洁性C、并行数据结构D、结构化【正确答案】:AC解析:

RDD是一个容错的、并行的数据结构。34.下面导入模块正确的是()。A、importnumpyB、importnumpyasnpC、frommatplotlibimportpyplotD、frommatplotlibimportpyplotasplt【正确答案】:ABCD解析:

本题考查模块导入方法。35.当我们构造线性模型时,我们注意变量间的相关性。在相关矩阵中搜索相关系数时,如果我们发现3对变量的相关系数是(Var1和Var2,Var2和Var3,Var3和Var1),相关系数分别是-0.98、0.45、1.23。我们可以得出的结论是()。A、Var1和Var2是非常相关的B、因为Va1r和Var2是非常相关的,可以去除其中一个C、Var3和Var1的1.23相关系数是不可能的D、-【正确答案】:ABC解析:

Var1和Var2之间的相关性非常高,并且是负的,可视为多重共线性的情况,可以去掉一个。一般来说,如果相关大于0.7或小于-0.7,则认为特征之间有很高的相关性。相关系数范围为[-1,1],C选项中1.23明显有误。36.MapReduce中运行程序副本程序的机器为()。A、Map服务器B、Master服务器C、Worker服务器D、Reduce服务器【正确答案】:BC解析:

MapReduce中,运行程序副本程序的机器分为Master服务器和若干个Worker服务器两类。37.大数据的资产属性体现在()。A、具有劳动增值B、涉及法律权属C、具有财务价值D、涉及道德与伦理【正确答案】:ABCD解析:

大数据的资产属性体现在具有劳动增值、涉及法律权属、具有财务价值、涉及道德与伦理。38.影响聚类算法效果的主要原因有()。A、特征选取B、模式相似性测度C、分类准则D、已知类别的样本质量【正确答案】:ABC解析:

聚类算法是无监督的学习算法,训练样本的标记信息是未知的。39.下列关于AUC面积的描述,正确的是()。AUC被定义为ROC曲线下与坐标轴围成的面积B、AUC面积的值大于1C、AUC等于0.5时,则真实性最低,无应用价值D、AUC越接近1.0,检测方法真实性越高【正确答案】:ACD解析:

AUC面积的值小于等于1。40.常见的核函数主要包括()。A、多项式核B、高斯核C、线性核D、拉普拉斯核E、径向基核函数【正确答案】:ABCDE解析:

--41.以下关于数据维度的描述,正确的是()。A、采用列表表示一维数据,不同数据类型的元素是可以的B、JSON格式可以表示比二维数据还复杂的高维数据C、二维数据可以看成是一维数据的组合形式D、字典不可以表示二维以上的高维数据【正确答案】:ABC解析:

字典可以表示二维以上的高维数据。42.TF-IDF的缺点包含()。A、字词的重要性随它在文件中出现的次数成正比B、将一些生僻字误当作文档关键词C、只考虑特征词和文本之间的关系,忽略了一个特征项在不同类别间的分布情况D、没有考虑特征词的位置因素对文本的区分度【正确答案】:BCD解析:

低频词汇的重要性和出现次数成正比。43.下列哪些是面向对象技术的特征包含()。A、封装B、继承C、多态D、分布性【正确答案】:ABC解析:

面向对象技术的特征有封装、继承、多态。44.以下属于频率域图像滤波的方法有()。A、中值滤波B、均值滤波C、布特沃斯滤波D、高斯滤波【正确答案】:CD解析:

频率域图像滤波包括理想低通滤波器、布特沃斯低通滤波器、高斯低通滤波器、梯形低通滤波器。中值滤波和均值滤波属于空间滤波。45.Spark的部署模式包括()。A、本地模式B、Standalone模式C、SparkOnYARND、SparkOnMesos【正确答案】:ABCD解析:

Spark支持上述四种运行模式,在实验中为了充分利用资源,一般配置Standalone模式运行。46.可视化高维展示技术在展示数据之间的关系以及数据分析结果方面()。A、能够直观反映成对数据之间的空间关系B、能够直观反映多维数据之间的空间关系C、能够静态演化事物的变化及变化的规律D、能够动态演化事物的变化及变化的规律【正确答案】:BD解析:

可视化高维展示技术在展示数据之间的关系以及数据分析结果方面能够直观反映多维数据之间的空间关系,以及能够动态演化事物的变化及变化的规律。47.机器学习的三个关键组成要素是()。A、任务TB、性能指标PC、目标函数VD、经验来源E【正确答案】:ABD解析:

--48.以下()是一元通用函数。A、np.add)B、np.maximum)C、np.exp)D、np.sqrt)【正确答案】:CD解析:

--49.常见的聚类性能度量外部指标有()。A、Jaccard系数B、DB指数C、FM指数D、以上答案都正确【正确答案】:AC解析:

聚类常用的外部指标包括Jaccard系数、FM指数、Rand指数;聚类常用的内部指标包括DB指数、Dunn指数。50.以下选项中,属于MapReduce特征的有()。A、以主从结构的形式运行B、容错机制的复杂性C、任务备份机制的必要性D、数据存储位置固定【正确答案】:ABC解析:

数据存储位置具有多样性,并非固定,所以D错。51.能在卷积窗口的边界上使卷积掩膜中心像素和它的4-邻接点的系数降至0附近的滤波器有()。A、同态滤波B、高斯滤波C、巴特沃斯滤波D、中值滤波【正确答案】:BC解析:

--52.下面关于随机变量及其概率分布的说法,正确的是()。A、随机变量可以分为离散型随机变量和连续型随机变量B、随机变量的概率分布指的是一个随机变量所有取值的可能性C、扔5次硬币,正面朝上次数的可能取值是0、1、2、3、4、5,其中正面朝上次数为0与正面朝上次数为5的概率是一样的D、扔5次硬币,正面朝上次数的可能取值是0、1、2、3、4、5,其中正面朝上次数为5的概率是最大的【正确答案】:ABC解析:

扔5次硬币,正面朝上次数的可能取值是0、1、2、3、4、5,其中正面朝上次数为5的概率不是最大的。53.以下选项中,不是Python语言保留字的是()。A、doB、passC、exceptD、until【正确答案】:AD解析:

详见Python关键字列表。54.决策树的划分选择有()。A、增益系数B、信息增益C、增益率D、基尼系数【正确答案】:BCD解析:

--55.以下图像技术中属于图像处理技术的是()。A、图像编码B、图像合成C、图像增强D、图像分类【正确答案】:AC解析:

图像合成输入是数据,图像分类输出是类别数据。56.数据可视化是利用计算机图形学和图像处理技术,将数据转换成()或()在屏幕上显示出来,并进行交互处理的理论、方法和技术。A、文字B、图形C、图像D、视频【正确答案】:BC解析:

数据可视化是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,再进行交互处理的理论、方法和技术。57.下列关于Ridge回归的说法,正确的是()。A、若λ=0,则等价于一般的线性回归B、若λ=0,则不等价于一般的线性回归C、若λ=+∞,则得到的权重系数很小,接近于零D、若λ=+∞,则得到的权重系数很大,接近与无穷大【正确答案】:AC解析:

Ridge回归中,若λ=0,则等价于一般的线性回归;若λ=+∞,则得到的权重系数很小,接近于零。58.以下算法中可以应用于图像分割的是()。A、边缘检测技术B、阈值分割技术C、基于区域的分割技术D、区域生长方法【正确答案】:ABCD解析:

边缘检测技术、阈值分割技术、基于区域的分割技术、区域生长方法均是图像分割技术。59.以下方法是tf-idf的变种的有()。A、TFCB、EWCC、ITCD、IG【正确答案】:AC解析:

TFC:对文本长度进行归一化处理后的TF-IDF。ITC:在TFC基础上,用tf的对数值取代tf。60.以下属于图像分割的算法的是()。A、阈值分割方法(thresholdsegmentationmethod)B、区域增长细分(regionalgrowthsegmentation)C、边缘检测分割方法(edgedetectionsegmentationmethod)D、基于聚类的分割(segmentationbasedonclustering)E、基于能量的分割【正确答案】:ABCDE解析:

--61.下列模型属于机器学习生成式模型的是()。A、朴素贝叶斯B、隐马尔科夫模型C、线性回归模型D、深度信念网络【正确答案】:ABD解析:

机器学习生成式模型包括朴素贝叶斯、隐马尔科夫模型和深度信念网络等。线性回归属于判别式模型。62.以下说法正确的是()。A、负梯度方向是使函数值下降最快的方向B、当目标函数是凸函数时,梯度下降法的解是全局最优解C、梯度下降法比牛顿法收敛速度快D、牛顿法不需要计算Hesse矩阵【正确答案】:ABD解析:

牛顿法是二阶收敛,梯度下降是一阶收敛,所以牛顿法就更快。63.下面关于随机变量及其概率分布的说法,正确的是()。A、随机变量可以分为离散型随机变量和连续型随机变量B、随机变量的概率分布指的是一个随机变量所有取值的可能性C、扔5次硬币,正面朝上次数的可能取值是0、1、2、3、4、5,其中正面朝上次数为0与正面朝上次数为5的概率是一样的D、扔5次硬币,正面朝上次数的可能取值是0、1、2、3、4、5,其中正面朝上次数为5的概率是最大的【正确答案】:ABC解析:

扔5次硬币,正面朝上次数的可能取值是0、1、2、3、4、5,其中正面朝上次数为5的概率不是最大的。64.下面选项是python标准库的是()。A、osB、sysC、numpyD、re【正确答案】:ABD解析:

numpy属于第三方库。65.以下属于关键词提取算法的有()。A、TF-IDF算法B、TextRank算法C、LSA(潜在语义分析)D、LDA【正确答案】:ABCD解析:

关键词提取算法包括TF-IDF算法、TextRank算法、LSA(潜在语义分析)orLSI(潜在语义索引)、LDA等。66.在Spark中,弹性分布式数据集的特点包括()。A、可分区B、可序列化C、可直接修改D、可持久化【正确答案】:ABD解析:

RDD不可修改。67.数据安全不仅包括数据保密性,还包括()。A、完整性B、可用性C、不可否认性D、可审计性【正确答案】:ABCD解析:

数据安全不等同于数据保密。通常,除了数据保密——数据的机密性(Confidentiality)之外,数据安全还包括完整性(Integrity)、可用性(Availability)、不可否认性(Non-repudiation)、鉴别(Authentication)、可审计性(Accountability)和可靠性(Reliability)等多个维度68.决策树递归停止的条件为()。A、训练数据集使用完B、所有的类标签完全相同C、特征用完D、遇到丢失值【正确答案】:BC解析:

决策树的生成是一个递归过程。在决策树基本算法中,有三种情形会导致递归返回:①结点包含的样本全属于同一类别,无须划分;②当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;③当前结点包含的样本集合为空,不能划分。69.下列关于RNN、LSTM、GRU说法正确的是()。A、RNN引入了循环的概念B、LSTM可以防止梯度消失或者爆炸C、GRU是LSTM的变体D、RNN、LSTM、GRU是同一神经网络的不同说法,没有区别【正确答案】:ABC解析:RNN:循环神经网络,是非线性动态系统,将序列映射到序列。LSTM通过刻意的设计来避免长期依赖问题,记住长期的信息在实践中是LSTM的默认行为,而非需要付出很大代价才能获得的能力。GRU:LSTM有很多变体,其中较大改动的是GatedRecurrentUnit(GRU),它将忘记门和输入门合成了一个单一的更新门,同样还混合了细胞状态和隐藏状态,和其他一些改动。最终的模型比标准的LSTM模型要简单。效果和LSTM差不多,但是参数少了1/3,不容易过拟合。70.数据科学基本原则中,三世界原则指的是()A、精神世界B、数据世界C、物理世界D、数字世界【正确答案】:ABC解析:

大数据时代的到来,在我们的“精神世界”和“物理世界”之间出现了一种新的世界——“数据世界”。因此,在数据科学中,通常需要研究如何运用“数据世界”中已存在的“痕迹数据”的方式解决“物理世界”中的具体问题,而不是直接到“物理世界”,采用问卷和访谈等方法亲自收集“采访数据”。相对于“采访数据”,“痕迹数据”更具有客观性。图灵奖获得者JimGray提出的科学研究第四范式——数据密集型科学发现(Data-intensiveScientificDiscovery)是“三世界原则”的代表性理论之一。71.Python函数包括下述哪些内容()。A、函数名称B、参数C、执行语句D、返回值【正确答案】:ABCD解析:

Python函数包括下述哪些内容函数名称、参数、执行语句、返回值。72.语音识别的方法包括()。A、声道模型方法B、模板匹配的方法C、利用人工神经网络的方法D、语音知识方法【正确答案】:ABCD解析:

一般来说,语音识别的方法有基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。73.从可视化处理视角看,可以将数据分为四个类型()四个类型并采用不同的视觉映射方法。A、定类数据B、定序数据C、定距离数据D、定比暑假【正确答案】:ABCD解析:

一般可以将数据类型的度量分为四种:定类,定序,定距,和定比四种,这四种类型是从低到高的递进关系,高级的类型可以用低级类型的分析方法来分析,而反过来却不行。74.在假设检验中,当原假设为“伪”,但数据分析人员没有拒绝它时犯的错误叫()。A、α错误B、β错误C、取伪错误D、弃真错误【正确答案】:BC解析:

α错误(弃真错误):当原假设为真时,但我们错误地认为“原假设是不成立的”,进而导致拒绝这个正确假设;β错误(取伪错误):当原假设为假时,但我们错误地认为“原假设是成立的”,进而导致接受此错误假设75.随机森林的随机性主要体现在()。A、决策树选择的随机性B、数据集的随机性C、待选特征的随机性D、参数选择的随机性【正确答案】:BC解析:

随机森林算法的随机性主要体现在两个方面:子模型的训练样本是随机抽取的、子模型的特征变量也是随机抽取的。76.常用来缓解BP网络的过拟合的两种策略是()。A、晚停B、早停C、正则化D、加入损失函数【正确答案】:BC解析:

通常有两种策略来缓解BP网络的过拟合。第一种策略是早停(earlystopping),即将数据分成训练集合验证集,训练集用来计算梯度、更新连接权和阈值,验证集用来估计误差,若训练集误差降低但验证集误差升高,则停止训练,同时返回具有最小验证集误差的连接权和阈值。第二种策略是正则化(regularization),其基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分,例如连接权和阈值的平方和。77.常用的冲突消解策略包括()。A、投票法B、排序法C、元规则法D、调研法【正确答案】:ABC解析:

--78.下列关于Spark中的RDD描述正确的有()。A、RDD(ResilientDistributedDataset)叫作弹性分布式数据集,是Spark中最基本的数据抽象B、Resilient:表示弹性的C、Destributed:分布式,可以并行在集群计算Dataset:就是一个集合,用于存放数据【正确答案】:ABCD解析:

A、B、C、D全部正确。79.图像识别的一般步骤包括()。A、预处理B、特征提取C、超像素生成D、识别分类【正确答案】:ABD解析:

图像识别中的一般步骤包括预处理、特征提取和识别分类。超像素生成并非必要步骤。80.在Windows系统中通过Geany编写Python程序,运行Python程序的常用步骤是()。A、菜单Build>ExecuteB、菜单Execute>BuildC、按F5D、按F10【正确答案】:AC解析:

在Windows系统中通过Geany编写Python程序,运行Python程序的常用步骤是菜单Build>Execute或按F5。81.“以数据为中心”是数据产品区别于其他类型产品的本质特征,表现在()方面。A、数据驱动B、数据密集型C、数据范式D、数据可视化【正确答案】:ABC解析:

“以数据为中心”是数据产品区别于其他类型产品的本质特征。数据产品的“以数据中心”的特征不仅体现在“以数据为核心生产要素”,而且还主要表现在数据驱动、数据密集和数据范式。82.情感分析的应用场景有()。A、数据挖掘B、信息检索C、文本分词D、市场营销【正确答案】:ABD解析:

情感分析常用于数据挖掘、信息检索、市场营销等,而文本分词属于文本处理的应用场景。83.()是Spark比MapReduce计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论