大数据理论考试练习题及答案3-2023-背题版

上传人：灯*** IP属地：河北上传时间：2024-01-12 格式：PDF 页数：107 大小：16.65MB 积分：12 举报 版权申诉

已阅读5页，还剩102页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试题说明

本套试题共包括1套试卷

每题均显示答案和解析

大数据理论考试练习题及答案3(500题)

大数据理论考试练习题及答案3

L［单选题］以下说法正确的是：Oo

A)一个机器学习模型，如果有较高准确率，总是说明这个分类器是好的

B)如果增加模型复杂度，那么模型的测试错误率总是会降低

C)如果增加模型复杂度，那么模型的训练错误率总是会降

答案:C

解析：对于不平衡的数据集进行预测时，正确率不能反映模型的性能。模型越复杂，在训练集上越容

易表现好，在测试集上越容易表现的不好。

2.［单选题］第一数字定律中使用概率最大的数字是()o

A)0

B)1

C)2

答案:B

解析：第一数字定律表示，数字“1”的使用最多接近三分之一，“2”为17.6虬“3”为12.5虬依

次递减，“9”的频率是4.6%。

3.［单选题］在回归模型中，下列哪一项在权衡欠拟合(under-fitting)和过拟合(over

fitting)中影响最大()

A)多项式阶数

B)更新权重w时，使用的是矩阵求逆

C)使用常数项D.使用梯度下降

答案:A

解析：选择合适的多项式阶数非常重要。如果阶数过大，模型就会更加复杂，容易发生过拟合；如果

阶数较小，模型就会过于简单，容易发生欠拟合。

4.［单选题］SVM在下列哪种情况下表现糟糕：()。

A)线性可分数据

B)清洗过的数据

C)含噪声数据与重叠数据

答案:C

解析:SVM含噪声数据与重叠数据点下表现糟糕。

5.［单选题］留出法直接将数据集划分为()个互斥的集合。

A)一

B)二

C)三

答案:B

解析：留出法(hold-out)直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集，另一

个作为测试集T。

6.［单选题］下面对集成学习模型中的弱学习者描述错误的是()o

A)他们经常不会过拟合

B)他们通常带有高偏差，所以其并不能解决复杂学习问题

C)他们通常会过拟

答案:C

解析:弱学习者是问题的特定部分。所以他们通常不会过拟合，这也就意味着弱学习者通常拥有低方

差和高偏差。

7.［单选题］如果你的数据有许多异常值，那么使用数据的均值与方差去做标准化就不行了，在

preprocessing模块中定义了哪个方法可以解决这个问题()。

A)normalizer()

B)robust_scale()

Omaxabsscale()

D)scale()

答案:B

解析:robust_scale()和RobustScalerO这两个方法，解决了上述问题，它会根据中位数或者四分位

数去中心化数据。

8.［单选题］在SQL语言分类中，以下属于DQL的是：

A)update

B)select

C)insert

D)delet

答案:B

解析：

9.［单选题］一幅图像在采样时，行、列的采样点与量化级数()o

A)既影响数字图像的质量，也影响到该数字图像数据量的大小

B)不影响数字图像的质量，只影响到该数字图像数据量的大小

C)只影响数字图像的质量，不影响到该数字图像数据量的大小

D)既不影响数字图像的质量，也不影响到数字图像数据量的大

答案:A

解析：图像在空间上的离散化称为采样，也就是用空间上部分点的灰度值代表图像，这些点称为采样

点。图像在采样时，行、列的采样点与量化时每个像素量化的级数，既影响数字图像的质量，也影

响到该数字图像数据量的大小。

10.［单选题］读代码，请写出程序正确的答案（）。

#!/usr/bin/envpython3

N=100

Sum=0

Counter=1

Whilecounter<=n：

Sum+counter

Counter+=1

Print（"1到%d之和为:%d"%（n,sum））

A）结果:1到100之和为：5000

B）结果：1到100之和为：0

C）结果：1JIJ100之和为：2050

D）结果：1到100之和为：5020

答案:B

解析：循环中没有给sum赋值，故sum=0

11.［单选题］关于OLAP和OLTP的区别描述，不正确的是（）。

A）0L主要是关于如何理解聚集的大量不同的数据.它与0T应用程序不同。

B）与OLAP应用程序不同，OLTP应用程序包含大量相对简单的事务。

O0LAP的特点在于事务量大，但事务内容比较简单且重复率高。

D）0LAP是以数据仓库为基础的，但其最终数据来源与OLTP一样均来自底层的数据库系统，两者面对的

用户是相同的

答案:C

解析：0LTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，记录即时的增、删

、改、查，比如在银行存取一笔款，就是一个事务交易。OLAP即联机分析处理，是数据仓库的核心

部心，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。典型的应用就是复杂

的动态报表系统。

12.［单选题］绝对多数投票法的基本思想是（）。

A）对于若干和弱学习器的输出进行平均得到最终的预测输出

B）少数服从多数，数量最多的类别为最终的分类类别

C）不光要求获得最高票，还要求票过半数

D）将训练集弱学习器的学习结果作为输入，将训练集的输出作为输出，重新训练一个学习器来得到

最终结果

答案:C

解析:绝对多数投票法若某标记得票过半数，则预测为该标记；否则拒绝预测。

13.［单选题］在方差分析中，。反映的是样本数据与其组平均值的差异。

A）总离差

B）组间误差

C）抽样误差

D）组内误

答案:D

解析：组内误差是来自样本内部数据之间的随机误差，它反映了样本数据自身的差异程度；组间误差

由因子的不同处理造成的处理误差和抽样的随机误差组成，反映了不同样本之间数据的差异程度。

14.［单选题］平滑图像（）处理可以采用RGB彩色模型。

A）直方图均衡化

B）直方图均衡化

0加权均值滤波

D）中值滤波

答案:C

解析：平滑图像处理可以采用RGB彩色加权均值滤波模型。

15.［单选题］对于Boosting算法描述错误的是（）。

A）可将强学习器降为弱学习器

B）从初始训练集训练基学习器

C）对训练样本分布进行调整

D）做错的训练样本多次训

答案:A

解析:boosting是一种集成学习算法，由一系列基本分类器按照不同的权重组合成为一个强分类器。

16.［单选题］多分类学习中，最经典的三种拆分策略不包括（）o

A）一对一

B）一对其余

C）一对多

D）多对多

答案:C

解析：多分类学习中，最经典的三种拆分策略包括一对多，多对多，一对其余。

17.［单选题］下面购物篮能够提取的3-项集的最大数量是多少（）ID：购买项1牛奶，啤酒，尿布2

面包，黄油，牛奶3牛奶，尿布，饼干4面包，黄油，饼干5啤酒，饼干，尿布6牛奶，尿布，面

包，黄油7面包，黄油，尿布8啤酒，尿布9牛奶，尿布，面包，黄油10啤酒，饼干

A）1

B）2

D）4

答案:C

解析：

18.［单选题］RDD默认的存储级别是（）

A）MEMORY_ONLY

B）MEMORY_ONLYSER

C）MEMORY_AN

D）SKMEMORY_ANSKSER

答案:A

解析:RDD存储级别定义。

19.［单选题］在linux下预装了Python2,Python3且默认Python版本为Python3,下列描述可以正确启

动Python有（）o

A）在linux应用程序Terminal,打开一个终端窗口。输入whichPython

B）在linux应用程序Terminal,打开一个终端窗口。输入Python2或Python3

C）在linux应用程序Terminal,打开一个终端窗口。输入whichPython3

D）在linux应用程序Terminal,打开一个终端窗口。输入输入whichPython2

答案:B

解析:Windows系统下通过在命令行直接输入python2或者python3启动Python,Linux系统下通过在

Terminal输入python2或者python3启动Python。

20.［单选题］以等可能性为基础的概率是。

A）古典概率

B）经验概率

C）试验概率

D）主观概

答案:A

解析：关于古典是以这样的假设为基础的，即所能发生的事件是有限的、互不相容的，而且每个发生的

可能性相等。根据大量的、重复的统计试验结果计算随机事件中各种可能发生结果的概率，称为试

验概率或频率概率。主观概率，是指建立在过去的经验与判断的基础上，根据对未来事态发展的预

测和历史统计资料的研究确定的概率。反映的只是一种主观可能性。

21.［单选题］下列关于支持向量回归说法错误的是（）。

A）支持向量回归是将支持向量的方法应用到回归问题中

B）支持向量回归同样可以应用核函数求解线性不可分的问题

C）同分类算法不同的是，支持向量回归要最小化一个凹函数

D）支持向量回归的解是稀疏

答案:C

解析:支持向量机最大间隔模型是一个凸二次规划问题。

22.［单选题］以下描述中错误的是（）。

A）数据化与数字化是两个不同概念

B）数据与数值是一个概念

C）大数据与海量数据是两个不同的概念

D）数据和信息是两个不同的概

答案:B

解析：除了“数值”，数据科学中所说的“数据”还包括文字、图形、图像、动画、文本、语音、视

频、多媒体和富媒体等多种类型

23.［单选题］对于线性回归模型，包括附加变量在内，以下的可能正确的是（）。

1）R-Squared和AdjustedR-squared都是递增的

2）R-Squared是常量的，AdjustedR-squared是递增的

3）R-Squared是递减的，AdjustedR-squared也是递减的

4）R-Squared是递减的，AdjustedR-squared是递增的

A）1和2

B）1和3

02和4

D）以上都不是

答案:D

解析:R-squared不能决定系数估计和预测偏差。每次在模型中加入预测器，R-squared递增或不变。

24.［单选题］决策树模型的规模应当是（）o

A）越复杂越好

B）越简单越好

C）适当限制其复杂程度

D）尽可能利用所有特

答案:C

解析:决策树模型的规模复杂可能产生过拟合，因此并非越复杂做好，应适当限制其复杂程度。

25.［单选题］可用作数据挖掘分析中的关联规则算法有（）。

A）机器学习、对数回归、关联模式

B）K均值法、S0M机器学习

C）Apriori算法、FP-Tree算法

D）RBF机器学习、K均值法、机器学

答案:C

解析：关联规则包括Apriori、FP-Tree等算法。

26.［单选题］Maxcompute的mapreduce不支持的功能是：（）0

A）统计信息

B）任务进度汇报

C）推测执行

D）文件压缩

答案:D

解析：

27.［单选题］数据科学处于哪三大领域的重叠之处。。

A）数学与统计知识、黑客精神与技能、领域实务知识

B）数据挖掘、黑客精神与技能、领域实务知识

C）数学与统计知识、数据挖掘、领域实务知识

D）数学与统计知识、黑客精神与技能、数据挖掘

答案:A

解析：根据DrewConway的数据科学韦恩图(DataScienceVennDiagram),数据科学处于数学与

统计知识、黑客精神与技能和领域实务知识等三大领域的交叉之处。

28.[单选题]下列关于线性模型的描述错误的是。。

A)支持向量机的判别函数一定属于线性函数

B)在样本为某些分布情况时，线性判别函数可以成为最小错误率或最小风险意义下的最优分类器

C)在一般情况下，线性分类器只能是次优分类器

D)线性分类器简单而且在很多期情况下效果接近最优，所以应用比较广

答案:A

解析:支持向量机的判别函数不一定是线性函数。

29.[单选题]以下选项正确的是()。

Importnumpyasnp

Nm=('raju','anil','ravi','amar')

Dv=('f.y.','s.y.','s.y.','f.y.')

Ind=np.lexsort((nm,dv))

Print(ind)

A)[3012]

B)[1359]

C)[3198]

D)['amar,f.y.'anil,s.y.'raju,f.y.'ravi,s.y,']

答案:A

解析:np.lexsortO按照多列排序，返回排序后的行索引。

30.[单选题]()对应于决策树结果，其他节点对应于()o

A)叶节点，属性测试

B)根结点，学习测试

C)内部节点，学习测试

D)叶节点，分类测

答案:A

解析:决策树包含一个根节点、若干内部节点和若干叶节点。叶节点对应于决策结果，其他每个节点

则对应于一个属性测试。

31.[单选题]聚类是一种典型的无监督学习任务，然而在现实聚类任务中我们往往能获得一些额外的

监督信息，于是可通过()来利用监督信息以获得更好的聚类效果。

A)监督聚类

B)半监督聚类

C)聚类

D)直推聚类

答案：B

解析：聚类是一种典型的无监督学习任务，然而在现实聚类任务中我们往往能获得一些额外的监督信

息，于是可通过半监督聚类来利用监督信息以获得更好的聚类效果。

32.［单选题］后剪枝是先从训练集生成一颗完整的决策树，然后（）对非叶结点进行考察。

A）自上而下

B）在划分前

C）禁止分支展开

D）自底向

答案：D

解析：后剪枝是先从训练集生成一颗完整的决策树，然后自底向上对非叶结点进行考察。

33.［单选题］。在划分属性时是在当前结点的属性集合中选择一个最优属性。

A）AdaBoost

B）RF

C）Bagging

D）传统决策树

答案:D

解析:传统决策树在选择划分属性时，是在当前节点的属性集合中选择一个最优属性进行划分。

34.［单选题］下列有关HDFS的容错机制描述错误的是（）。

A）HDFS可以使用机架位感知的方法实现容错机制；

B）HDFS可以使用基于erasurecode的方法实现容错机制；

OHDFS使用机架位感知的方法先把一份拷贝放入同机架上的机器，然后再拷贝一份到其他服务器；

D）HS使用机架位感知的方法先把一份拷贝放入同机架上的机器，然后再拷贝一份到同机架机器的不

同位置上

答案：D

解析:HDFS使用机架位感知的方法先把一份拷贝放入同机架上的机器，然后再拷贝一份到其他服务器

35.［单选题］线性回归的基本假设不包括哪个（）。

A）随机误差项是一个期望值为0的随机变量

B）对于解释变量的所有观测值，随机误差项有相同的方差

C）随机误差项彼此相关

D）解释变量是确定性变量不是随机变量，与随机误差项之间相互独立

答案:C

解析：线性回归的基本假设：（1）线性关系假设（2）正态性假设，指回归分析中的Y服从正态分布。

（3）独立性假设，包含两个意思：①与某一个X值对应的一组Y值和与另一个X值对应的一组Y值之间没

有关系，彼此独立。②误差项独立，不同的X所产生的误差之间应相互独立，无自相关。（4）误差等

分散性假设：特定X水平的误差，除了应呈随机化的常态分配，其变异量也应相等，称为误差等分散

性。

36.［单选题］把图像分割问题与图的最小割（mincut）问题相关联的方法是（）。

A）基于图论的分割方法

B）分水岭算法

C)SLI法

D)基于阈值的方

答案:A

解析：基于图论的分割方法把图像分割问题与图的最小割(mincut)问题相关联。首先将图像映射为

带权无向图，图中每个节点对应于图像中的每个像素，每条边的权值表示了相邻像素之间在灰度、

颜色或纹理方面的非负相似度。

37.［单选题］以下分割方法中不属于区域算法的是()。

A)分裂合并

B)阈值分割

C)区域生长

D)边缘检

答案:D

解析：边缘检测算法是标识数字图像中亮度变化明显的点，不属于区域算法发范畴。

38.［单选题］二项分布的数学期望为()。

A)n(l-n)p

B)np(l-p)

C)np

D)n(1-p

答案:C

解析：二项分布，即重复n次的。如果事件发生的是p,则不发生的概率q=『p.则期望为np,方差为

npqo

39.［单选题］以下哪些方法不可以直接来对文本分类()

A)Kmeans

B)决策树

C)支持向量机

D)KN

答案:A

解析:Kmeans是聚类方法，属于无监督学习。BCD都是常见的分类方法。

40.［单选题］考虑值集｛1、2、3、4、5、90),其截断均值(p=20%)是()

A)2

B)3

03.5

D)5

答案:C

解析：

41.［单选题］ApacheSqoop主要设计目的是()。

A)数据清洗

B)数据转化

C)数据ETL

D)数据可视化

答案:C

解析：在Hadoop与传统的数据库之间进行数据的ETL操作。

42.［单选题］假设我们拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型，训练所

用的数据集由汽车和卡车的照片构成，而训练目标是检测出每种车辆的名称(车辆共有10种类型

)o现在想要使用这个模型来解决另外一个问题，问题数据集中仅包含一种车(福特野马)而目标

变为定位车辆在照片中的位置()0

A)除去神经网络中的最后一层，冻结所有层然后重新训练

B)对神经网络中的最后几层进行微调，同时将最后一层(分类层)更改为回归层

C)使用新的数据集重新训练模型

D)所有答案均不

答案:B

解析：由于神经网络浅层网络主要提取图像的低维特征，对于相近领域进行迁移学习时，这些低维特

征相同，因此只需要对最后几层进行微调，而检测位置相当于回归任务。

43.［单选题］在留出法、交叉验证法和自助法三种评估方法中，()更适用于数据集较小、难以划分

训练集和测试集的情况。

A)留出法

B)交叉验证法

0自助法

D)留一

答案:C

解析：自助法更适用于数据集较小、难以划分训练集和测试集的情况。

44.［单选题］下列常用模块功能描述错误的是()o

A)datetime：datetime对象不可将日期对象格式化为可读字符串的方法

B)json：JSON(JavaScriptObjectNotation,JS对象标记)是一种轻量级的数据交换格式

Osys：这个模块可供访问由解释器使用或维护的变量和与解释器进行交互的函数

D)scipy：应用广泛的科学计算包

答案:A

解析:strftimeO是datetime库将日期对象格式化为可读字符串的方法。

45.［单选题］MapReduce对map()函数的返回值进行处理后再返回给reduce()函数的目的是()。

A)减少map()函数和reduce()函数之间的数据传输

B)优化map()函数

C)优化reduce()函数

D)这一步骤并无必

答案:A

解析：为了降低map()函数与reduce()函数之间的数据传输量，一般先对map()函数的输出结果

进行处理。

46.［单选题］大数据平台构建分布式文件系统、分布式数据仓库、非关系型数据库、关系型数据库

,实现各类数据的集中存储与统一管理，满足（）存储需求。

A）历史数据

B）离线数据

C）实时数据

D）多样化数据

答案：D

解析:大数据平台构建分布式文件系统、分布式数据仓库、非关系型数据库、关系型数据库，实现各

类数据的集中存储与统一管理，满足多样化数据存储需求。

47.［单选题］关于数据相关性，以下说法错误的是。。

A）关性体现了大数据的灵魂

B）关性思维实现了从“为什么”到“是什么”的思维转变

C）关性关注事物的因果关系

D）关性关注事物的相关关系

答案:C

解析：相关性，是指两个变量的关联程度，可以有正相关、负相关、不相关。

48.［单选题］数据安全不只是技术问题，还涉及到。。

A）人员问题

B）管理问题

C）行政问题

D）领导问题

答案:B

解析：数据安全不只是技术问题，还涉及到管理问题。

49.［单选题］不参与Hadoop系统读过程的组件是（）

A）flink

B）NameNode

C）DataNode

D）读流程中生成的临时文

答案:A

解析：

50.［单选题］如果使用线性回归模型，下列说法正确的是（）

A）检查异常值是很重要的，因为线性回归对离群效应很敏感

B）线性回归分析要求所有变量特征都必须具有正态分布

C）线性回归假设数据中基本没有多重共线性

D）以上说法都不

答案:A

解析:异常值是数据中的一个非常有影响的点，它可以改变最终回归线的斜率。因此，去除或处理异

常值在回归分析中是很重要的。了解变量特征的分布是有用的，类似于正态分布的变量特征对提升

模型性能很有帮助，数据预处理的时候经常做的一件事就是将数据特征归一化到（0,1）分布，但

不是必须的。当模型包含相互关联的多个特征时，会发生多重共线性。因此，线性回归中变量特征

应该尽量减少冗余性。

51.［单选题］在MapReduce中，reduce（）函数可以将（）值相同的输入进行合并处理。

A）input

B）key

C）value

D）number

答案:B

解析:reduce（）函数根据key值合并value值。

52.［单选题］图像灰度方差说明了图像的哪一个属性（）。

A）平均灰度

B）图像对比度

C）图像整体亮度

D）图像细

答案:B

解析：方差反应图像的高频部分的大小；如果图片对比度小，那方差就小；如果图片对比度很大，

那方差就大；方差=每个像素点的灰度值减去图像平均灰度值的平方和除以总的像素个数

53.［单选题］Spark的特点不包括（）

A）速度快

B）通用性

C）易用性

D）单一操作性

答案:D

解析:Spark是一个快速、通用和易于使用的计算平台。

54.［单选题］scipy中模块stats的作用是。。

A）统计

B）差值计算

C）程序输入输出

D）稀疏矩阵

答案:A

解析：scipy中，stats是进行统计分析的模块。

55.［单选题］建立在相关关系分析法基础上的预测是大数据的（）。

A）基础

B）前提

0核心

D）条件

答案:C

解析：建立在相关关系分析法基础上的预测是大数据的核心。

56.［单选题］数据管理成熟度模型一DMM模型将一个机构的数据管理工作抽象成6个关键过程域，即数

据战略、（）、数据质量、平台与架构、数据操作以及辅助性过程。

A）数据管理

B）数据治理

C）数据策略

D）数据安全

答案:B

解析:DMM模型将一个机构的数据管理工作抽象成6个关键过程域，即数据战略、数据治理、数据质量

、平台与架构、数据操作以及辅助性过程。

57.［单选题］关于装饰器，下列说法错误的是（）。

A）装饰器是一个包裹函数

B）装饰器只能有一个参数

C）通过在函数定义的面前加上@符号和装饰器名，使得装饰器函数生效

D）如果装饰器带有参数，则必须在装饰函数的外层再嵌套一层函数

答案:B

解析：

58.［单选题］逻辑回归将输出概率限定在［0,1］之间。下列哪个函数起到这样的作用（）o

A）Sigmoid函数

B）tanh函数

C）ReLU函数

D）LeakyReLU函数

答案:A

解析:Sigmoid函数输出值限定在［0,1］之间。

59.［单选题］python不支持的数据类型有

A）char

B）int

C）float

D）list

答案:A

解析：

60.［单选题］下列哪项关于模型能力（modelcapacity指神经网络模型能拟合复杂函数的能力）的描

述是正确的（）

A）隐藏层层数增加，模型能力增加

B）Dropout的比例增加，模型能力增加

C）学习率增加，模型能力增加

D）都不正

答案:A

解析:Dropout比例增加，可能会丢失过多参数影响模型能力；学习率过大，梯度下降可能会越过最

低点，无法收敛。

61.［单选题］如果在大型数据集上训练决策树。为了花费更少的时间来训练这个模型，下列哪种做法

是正确的（）

A）增加树的深度

B）增加学习率

C）减小树的深度

D）减少树的数

答案:C

解析：决策树深度越深，在训练集上误差会越小，准确率越高。但是容易造成过拟合，而且增加模型

的训练时间。对决策树进行修剪，减小树的深度，能够提高模型的训练速度，有效避免过拟合。

62.［单选题］例如数据库中有A表，包括学生，学科，成绩三个字段，如何查询最高分〉80的学科？

A）SELECTMAX（成绩）FROMAGROUPBY学科HAVINGMAX（成绩）＞80；

B）SELECT学科FROMAGROUPBY学科HAVING成绩＞80；

CSELECT学科FROMAGROUPBY学科HAVINGMAX（成绩）＞80；

D）SELECT学科FROMAGROUPBY学科WHEREMAX（成绩）＞80

答案:C

解析：

63.［单选题］划分聚类算法是一种简单的较为基本的重要聚类方法。它的主要思想是通过将数据点集

分为（）个划分，并使用重复的控制策略使某个准则最优化，以达到最终的结果

A）D

B）K

C）E

D）F

答案:B

解析:划分聚类算法K-Means将数据点集分为K个子集。

64.［单选题］关于Python注释，以下选项中描述错误的是。。

A）Python注释语句不被解释器过滤掉，也不被执行

B）注释可以辅助程序调试

C）注释可用于标明作者和版权信息

D）注释用于解释代码原理或者用途

答案:A

解析:Python注释语句会被解释器过滤掉，不被执行。

65.［单选题］（）是指为最小化总体风险，只需在每个样本上选择能使特定条件风险最小的类别标记

A）支持向量机

B）间隔最大化

C）线性分类器

D）贝叶斯判定准

答案:D

解析：贝叶斯判定准则：为最小化总体风险，只需在每个样本上选择那个能使条件风险最小的类别标

记。

66.［单选题］下列关于特征编码的叙述中，不正确的是（）。

A）特征编码是将非数值型特征转换成数值型特征的方法；

B）数字编码与特征的排序无关；

C）One-Hot编码中，原始特征有n种取值，转换后就会产生n列新特征；

D）哑变量编码解决了One-Hot编码中存在线性关系的问题；

答案:B

解析:数字编码与特征的排序有关，先出现的优先排序。

67.［单选题］以下。是对DMM（数据管理成熟度模型）中“已管理级”基本特点的正确表述。

A）组织机构的数据管理关键活动能够根据结构自身的反馈以及外部环境的变革进行不断优化。

B）组织机构已用定量化的方式管理其关键过程的执行过程。

C）组织机构只有在项目管理过程中执行了

D）M给出的关键过程，而缺乏机构层次的统筹与管理组织机构的数据管理工作超出了项目管理的范

畴，由组织机构统一管理了其数据管理关键过程

答案：D

解析:DMM（数据管理成熟度模型）中“已管理级”基本特点的正确表述是组织机构的数据管理工作

超出了项目管理的范畴，由组织机构统一管理了其数据管理关键过程。

68.［单选题］关系云的一个重要功能是提供。。

A）数据库即服务

B）虚拟服务

C）弹性计算

D）按需服务

答案:A

解析：关系云的一个重要功能是提供“数据库即服务（DatabaseasaService）”，用户无须在本

机安装数据库管理软件，也不需要搭建自己的数据管理集群，而只需要使用服务提供商提供的数据

库服务。

69.［单选题］回归分析的任务，就是根据（）和因变量的观察值，估计这个函数，并讨论与之有关的

种种统计推断的问题

A）相关变量

B）样本

C）已知数据

D）自变

答案:D

解析：回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分

析按照涉及的变量的多少，分为一元回归和多元回归分析；按照因变量的多少，可分为简单回归分

析和多重回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析

70.［单选题］随着集成中个体分类器（相互独立）数目T的增大，集成的错误率将呈（）下降，最终

趋向于零。

A）指数级

B）对数级

C）线性级

D）平方

答案:C

解析：随着集成中个体分类器数目T的增大，集成的错误率将指数级下降，最终趋向于零。

71.［单选题］字符串的strip方法的作用是（）

A）删除字符串头尾指定的字符

B）删除字符串末尾的指定字符

C）删除字符串头部的指定字符

D）通过指定分隔符对字符串切片

答案:A

解析：

72.［单选题］多分类LDA将样本投影到N-1维空间，NT通常远小于数据原有的属性数，可通过这个投

影来减小样本点的维数，且投影过程中使用了类别信息，因此LDA也常被视为一种经典的（）技术。

A）无监督特征选择

B）无监督降维

C）监督特征选择

D）监督降维

答案:D

解析：多分类LDA将样本投影到NT维空间，NT通常远小于数据原有的属性数，可通过这个投影来减

小样本点的维数，且投影过程中使用了类别信息，因此LDA也常被视为一种经典的监督降维技术。

73.［单选题］通过KMeans算法进行聚类分析后得出的聚类结果的特征是（）。

A）同一聚类中的对象间相似度高，不同聚类中的对象间相似度高

B）同一聚类中的对象间相似度高，不同聚类中的对象间相似度低

C）同一聚类中的对象间相似度低，不同聚类中的对象间相似度低

D）同一聚类中的对象间相似度低，不同聚类中的对象间相似度

答案：B

解析：通过KMeans算法进行聚类分析后得出的聚类结果的特征是：同一聚类中的对象间相似度高，不

同聚类中的对象间相似度低。

74.［单选题］下列关于L1正则化与L2正则化描述错误的是()。

A)L1范数正则化有助于降低过拟合风险

B)L2范数正则化有助于降低过拟合风险

C)L1范数正则化比L2范数正则化更有易于获得稀疏解

D)L2范数正则化比L1范数正则化更有易于获得稀疏

答案：D

解析：周志华机器学习

75.［单选题］spark的master和worker通过什么方式进行通信的？

A)http

B)nio

C)netty

D)Akk

答案:D

解析：

76.［单选题］()用于将非线性引入神经网络。它会将值缩小到较小的范围内。

A)损失函数

B)优化函数

C)激活函数

D)目标函

答案:C

解析：激活函数用于将非线性引入神经网络，它会将值缩小到较小的范围内。

77.［单选题］下列的哪种方法可以用来降低深度学习模型的过拟合问题()。1增加更多的数据2使用

数据扩增技术(dataaugmentation)3使用归纳性更好的架构4正规化数据5降低架构的复杂度

A)145

B)123

01345

D)所有项目都有

答案:D

解析：增多数据、数据扩增、正规化数据、选择归纳性更好、复杂度更低的架构均可以用来降低深度

学习模型的过拟合问题。

78.［单选题］一篇文章中某些名词的TFTDF值比较大，则说明。。

A)这些名词对这篇文章的区分度比较高

B)这些名词对这篇文章的区分度比较低

C)不能说明什么

D)以上答案都不正

答案:A

解析:TFTDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重

要程度。名词的TFTDF值越大说明这些名词对这篇文章的区分度越高。

79.［单选题］下列不属于数据科学跨平台基础设施和分析工具的是()o

A)微软ure

B)Google云平台

C)阿里云

D)Adobephotosho

答案：D

解析:Adobephotoshop软件一般不作为数据分析工具。

80.［单选题］stats,describe()函数的作用是()。

A)计算变异系数

B)计算数据集的样本偏度

C)计算所传递数组的几个描述性统计信息

D)计算关于样本平均值的第n个矩

答案:C

解析:stats,describe用来计算所传递数组的几个描述性统计信息。

81.［单选题］在逻辑回归输出与目标对比的情况下，以下评估指标中哪一项不适用()o

A)C-R0C

B)准确度

C)Logloss

D)均方误

答案：D

解析:LogisticRegression是一个分类算法，所以它的输出不能是实时值，所以均方误差不能用于

评估它。

82.［单选题］下面代码的输出结果是。。

Print(0.1+0.2==0.3)

A)True

B)False

C)true

D)false

答案：B

解析：由于存在精度的关系，所以0.1+0.2得到的是一个无限接近0.3的数而不是0.3,故输出False。

83.［单选题］以下关于随机森林的说法正确的是()o

A)随机森林对于高维数据集的处理能力比较好

B)在对缺失数据进行估计时，随机森林是一个十分有效的方法

C)当存在分类不平衡的情况时，随机森林能够提供平衡数据集误差的有效方法

D)以上答案都正

答案:D

解析：随机森林对于高维数据集的处理能力比较好，在对缺失数据进行估计时，随机森林是一个十分

有效的方法，当存在分类不平衡的情况时，随机森林能够提供平衡数据集误差的有效方法。

84.［单选题］以下。不是NoSQL数据库。

A）MongoDB

B）BigTable

C）HBase

D）Access

答案:D

解析:NoSQL是指那些非关系型的、分布式的、不保证遵循ACID原则的数据存储系统。典型的

NoSQL产品有DangaInteractive的Memcached、lOgen的MongoDB、Facebook的Cassandra、Google

的BigTable及其开源系统HBase、Amazon的Dynamo、Apache的TokyoCabinet,CouchDB和Redis等

85.［单选题］可视化视觉下的数据类型不包括（）。

A）定类数据

B）定序数据

C）定宽数据

D）定比数据

答案:C

解析：从可视化处理视角看，可以将数据分为4个类型：定类数据、定序数据、定距数据和定比数据

,并采用不同的视觉映射方法。在可视化领域，对数据进行分类分析的目的在于不同类型的数据可

支持的操作类型不同。

86.［单选题］一般而言，在个体学习器性能相差较大时宜使用（），而在个体学习器性能相近时宜使

用（）。

A）简单平均法，加权平均法

B）加权平均法，简单平均法

C）简单平均法，简单平均法

D）加权平均法，加权平均法

答案:B

解析：一般而言，在个体学习器性能相差较大时宜使用加权平均法，而在个体学习器性能相近时宜使用

简单平均法。

87.［单选题］在SQL语句中，与表达式"仓库号NOTIN（"wh","wh2"）"功能相同的表达式是（D）

A）仓库号="wh"AND仓库号="wh2"

B）仓库号!="wh"OR仓库号!="wh2"

C）仓库号="wh"OR仓库号="wh2"

D）仓库号！="wh"AND仓库号!="wh2

答案：D

解析：

88.［单选题］数据故事话的‘情景'不包括（）。

A）还原情景

B）统计情景

C）移植情景

D）虚构情

答案:B

解析：”数据的故事化描述（Storytelling）”是指为了提升数据的可理解性、可记忆性及可体验性

,将“数据”还原成关联至特定的“情景”的过程。可见，数据故事化也是数据转换的表现形式之

一，其本质是以“故事讲述”的方式展现“数据的内容”。数据故事化中的“情景”，可以是

：1）还原情景：还原数据所计量和记录信息时的“原始情景”；2）移植情景：并非对应信息的原

始情景，而是将数据移植到另一个真实发生的情景（如目标用户比较熟悉的情景）之中。3）虚构情

景：数据的故事化描述中所选择的情景并非为真实存在的情景，而是根据讲述人的想象力设计出来

的“虚构情景”。

89.［单选题］数据可视化技术可以将所有数据的特性通过。的方式展现出来

A）文字

B）图

C）表格

D）树

答案:B

解析：数据可视化技术主要是通过图的方式将数据特性展现出来，而其他方式对于大规模数据很难适

用。

90.［单选题］数据科学中，人们开始注意到传统数据处理方式中普遍存在的“信息丢失”现象，进而

数据处理范式从（）转向（）O

A）产品在先，数据在后范式；数据在先，产品在后范式或无模式

B）模式在先，产品在后范式；产品在先，模式在后范式或无模式

C）数据在先，模式在后范式或无模式；模式在先，数据在后范式

D）模式在先，数据在后范式；数据在先，模式在后范式或无模式

答案:D

解析：传统关系数据库中，先定义模式，然后严格按照模式要求存储数据；当需要调整模式时，不仅

需要数据结构，而且还需要修改上层应用程序。然而，NoSQL技术则采用了非常简单的Key-Value等

模式在后（SchemaLater）和无模式（Schemaless）的方式提升了数据管理系统的自适应能力。当

然，模式在后（SchemaLater）和无模式（Schemaless）也会带来新问题，如降低了数据管理系统

的数据处理能力。

91.［单选题］（）是指对于数据局部不良行为的非敏感性，它是探索性分析追求的主要目标之一。

A）鲁棒性

B）稳定性

C）可靠性

D）耐抗性

答案:D

解析：耐抗性(Resistance)为探索性数据分析的四个指标之一，是指对于数据的局部不良行为的非

敏感性，它是探索性分析追求的主要目标之一。对于具有耐抗性的分析结果，当数据的一小部分被

新的数据代替时，即使它们与原来的数值差别很大，分析结果也只会有轻微的改变。

92.［单选题］大数据计算服务(MaxCompute,原ODPS)的MapReduce由多个步骤组成，以下()步骤

不是必须的。

A)combine

B)shuffle

C)map

D)reduce

答案:C

解析：

93.［单选题］视觉通道表现力评价指标不包括。。

A)精确性

B)可辨认性

C)可分离性

D)可转换性

答案:D

解析：在数据来源和目标用户已定的情况下，不同视觉通道的表现力不同。视觉通道的表现力的评价

指标包括精确性、可辨认性、可分离性和视觉突出性。

94.［单选题］下列关于TF-IDF说法正确的是()

A)该值与特征项在文档中出现的频率成反比

B)该值与特征项在文档中出现的频率成正比

C)该值与在整个语料库中出现该特征项的文档库成正比

D)该值与特征项在文档中出现的频率无

答案：B

解析:TFTDF是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term

Frequency),IDF意思是逆文本频率指数(InverseDocumentFrequency)oTFTDF是一种统计方法

,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着

它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。A中应是成

正比，C中应是成反比，B正确。

95.［单选题］下列关于Hive特点总结正确的选项是()

A)Hive支持自由的扩展集群的规模，只需要重启服务即可

B)Hive支持自定义函数，用户可以根据自己的需求去定义函数

OHiveSQL执行时，需要避免节点出现问题

D)Hive适合处理小批量数

答案：B

解析：

96.［单选题］Flink的哪种机制可以保证task运行失败时，其状态能够恢复？

A）窗口

B）有状态处理

C）事件时间

D）检查

答案:D

解析：

97.［单选题］Spark中引入RDD概念的目的是O。

A）数据存储

B）数据查重

C）提升容错能力

D）增强数据一致

答案:C

解析：在Spark中引入RDD概念的目的是实现Spark的并行操作和灵活的容错能力。

98.［单选题］关于可视分析学，下列说法错误的是（）。

A）可视分析学比较典型的模型是D.Keim等（2008年）提出的数据分析模型。

B）数据可视化的本质是将数据转换为知识，而不仅仅停留在数据可视化化呈现层次之上。

C）可视分析学流程强调可视化分析与自动化建模之间的相互作用。

D）数据映射和数据挖掘是数据可视化的两个重要支撑技术。

答案:A

解析：欧洲学者DanielKeim等人提出了可视化分析学的标准流程,数据可视化分析流程中的核心要素

包括四个方面：数据表示与转换、数据的可视化呈现、用户交互、分析推理。

99.［单选题］关于混合模型聚类算法的优缺点，下面说法正确的是。。

A）当簇只包含少量数据点，或者数据点近似协线性时，混合模型也能很好地处理

B）混合模型很难发现不同大小和椭球形状的簇

C）混合模型比K均值或模糊c均值更一般，因为它可以使用各种类型的分布

D）混合模型在有噪声和离群点时不会存在问题

答案:C

解析:K均值与模糊C均值，这两个方法都是迭代求取最终的聚类划分，即聚类中心与隶属度值。两者

都不能保证找到问题的最优解，都有可能收敛到局部极值。模糊C均值是K均值方法的改进，算法的

目标函数与K均值一致，区别在于目标函数中增加了模糊权重指数；GMM高斯混合模型聚类采用了新

的判断依据一概率，即通过属于某一类的概率大小来判断最终的归属类别。

100.［单选题］逻辑回归将输出概率限定在［0,1］之间。下列哪个函数起到这样的作用（）o

A）Sigmoid函数

B）tanh函数

0ReLU函数

D）LeakyReLU函

答案:A

解析:Sigmoid函数输出值限定在［0,1］之间。

101.［单选题］在一个线性回归问题中，我们使用R平方(R-Squared)来判断拟合度。此时，如果增

加一个特征，模型不变，则下面说法正确的是()O

A)如果R-Squared增加，则这个特征有意义

B)如果R-Squared减小，则这个特征没有意义

C)仅看R-Squared单一变量，无法确定这个特征是否有意义。

D)以上说法都不

答案:C

解析：单独看R-Squared,并不能推断出增加的特征是否有意义。通常来说，增加一个特征，R-

Squared可能变大也可能保持不变，两者不一定呈正相关。

102.［单选题］以下可以作为文本分类准则的是()o

A)预测准确率

B)鲁棒性

C)可扩展性

D)以上答案都正

答案:D

解析：文本分类准则包含预测准确性，鲁棒性和可扩展性。

103.［单选题］MaxcomputeSQL提供了CASE…WHEN…,可以进行条件判断。表tbl中包含了字段(iD、

bigint,agebigint),目前有三条纪录，分别为(1,20),(2,30),(3,60),执行以下

SQL：selectid,casewhenage>60then'A'whenage>40then'B'whenage>20then

'C'else'D'enD、fromtblwhereid=3；()是正确的执行结果。

A)A

B)B

C)C

D)D

答案:B

解析：

104.［单选题］下列哪个程序通常与NameNode在一个节点启动()。

A)SecondaryNameNode

B)DataNode

C)TaskTracker

D)Jobtracker

答案:D

解析：hadoop的集群是基于master/slave模式，namenode和jobtracker属于master,datanode和

tasktracker属于slave,master只有一个，而slave有多个。SecondaryNameNode内存需求和

NameNode在一个数量级上，所以通常SecondaryNameNode(运行在单独的物理机器上)和NameNode运

行在不同的机器上。JobTracker对应于？NameNode。TaskTracker?对应于？DataNode。DataNode?和

NameNode?是针对数据存放来而言的，JobTracker和TaskTracker是对于MapReduce执行而言的。

105.[单选题]下列算法中，不属于外推法的是。。

A)移动平均法

B)回归分析法

C)指数平滑法

D)季节指数法

答案:B

解析：外推法(Extrapolation)是根据过去和现在的发展趋势推断未来的一类方法的总称，回归分

析法不属于外推法。

106.[单选题]A=np.array([[l,1],[0,1]]),B=np.array([[2,0],[3,4]]),A*B的结果是O。

A)[[2,0],[0,4]]

B)[[5,4],[3,4]]

0[[3,4],[5,4]]

D)无法计算

答案:A

解析:Numpy数组的乘法计算分为两种：一种是矩阵正常相乘，代码实现为A@B或A.dot(B),一种是每

个元素对应相乘，表现方式为A*B,本题所问的是后一种。

107.[单选题]以下现象不能直接通过低通滤波器解决的是()o

A)低分辨率文本图像中出现的字符断裂问题

B)指纹图像中的去污染问题

C)人脸图像中需要美容的去皱纹问题

D)遥感图像中的扫描线滤除问

答案:B

解析：图像处理基础知识。

108.[单选题]Hadoop环境下MapReduce中，。实现中间结果中的重复key做合并

A)OutputKeyClass

B)OutputValueClass

C)mbinerass

D)ReducerClas

答案:C

解析:CombinerClass实现输出结果的合并。

109.[单选题]Hbase依靠()提供消息通信机制

A)Zoopkeeper

B)Chubby

ORPC

D)Socket

答案:A

解析:Zookeeper是一个高可用、高性能的分布式协调服务，为HBase提供消息通信机制。

110.［单选题］（）不是Spark服务层的功能。

A）SQL查询

B）实时处理

C）机器学习

D）内存计

答案：D

解析:Spark服务层主要提供面向特定类型的计算服务，如SQL查询、实时处理、机器学习以及图计算

111.［单选题］以下关于Hive说法正确的是（）o

A）一种数据仓库

B）一种数据处理工具

C）一种可视化工具

D）一种分析算法

答案:A

解析:hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储

、查询和分析存储在Hadoop中的大规模数据的机制。

112.［单选题］情感信息归纳常见的存在形式是（）o

A）语料库

B）情感文摘

C）情感评论

D）情感倾

答案:B

解析:文本处理基础知识

113.［单选题］回归方程判定系数的计算公式R”2=SSR/SST=1-SSE/SST,对判定系数描述错误的是

A）式中的SSE指残差平方和

B）式中的SSR指总离差平方和

0判定系数用来衡量回归方程的扰合优度

D）判定系数R~2等于相关系数的平方

答案：B

解析:SSR指回归平方和。

H4.［单选题］神经网络感知机只有（_）神经元进行激活函数处理，即只拥有一层功能神经元。

A）输出层

B）输入层

C）感知层

D）网络

答案:A

解析：神经网络感知机只有输入层神经元进行激活函数处理，即只拥有一层功能神经元。

115.［单选题］给定一个长度为n的不完整单词序列，我们希望预测下一个字母是什么。比如输入是

prediction个字母组成），希望预测第十个字母是什么。下面哪种神经网络结构适用于解决这个工

作（）

A）循环神经网络

B）全连接神经网络

C）受限波尔兹曼机

D）卷积神经网

答案:A

解析：循环神经网络具有记忆性、参数共享并且图灵完备，因此在对序列的非线性特征进行学习时具

有一定优势。循环神经网络在自然语言处理（NaturalLanguageProcessing,NLP）,例如语音识

别、语言建模、机器翻译等领域有应用，也被用于各类时间序列预报。

116.［单选题］Kafka通过（）避免任务重复执行。

A）实现记录唯一键约束

B）对每个Producer分配唯一ID

C）通过事务检查是否重复执行

D）利用Redis的原子性去实

答案:B

解析：

117.［单选题］在空间维度上刻画数据连续性是数据的（）特点。

A）可关联性

B）可溯源性

C）可理解性

D）可复制性

答案:A

解析：数据连续性理论是指由数据的可关联性、可溯源性、可理解性及其内在联系组成的一整套数据

保护措施，其目的是保障数据的可用性、可信性和可控性，降低数据的失用、失信和失控的风险

：1）可关联性是在空间维度上刻画数据连续性，代表的是不同数据对象之间的连续性。它是保障数

据可用性的重要前提，代表了数据是否具备支持开放关联和跨域存取的能力，进而避免数据资源的

碎片化。因此，研究数据可关联性的意义在于降低数据的“失用”风险。2）可溯源性是在时间维度

上刻画数据连续性，代表的是同一个数据对象的历史版本之间的连续性。它是保障数据可信性的重

要前提，代表了数据是否具备支持证据链管理、可信度评估以及预测分析的能力。因此，研究数据

可溯源性的意义在于降低数据的“失信”风险；3）可理解性是在内容维度上刻画数据连续性，代表

的是数据与其产生、管理和维护的主体（包括人与计算机）之间的连续性。它是降低数据的可控性

的重要前提，代表了数据是否具备自描述和自包含信息。因此，研究数据可理解性的意义在于降低

数据的“失控”风险。

118.［单选题］以下关于异常处理的描述，正确的是（）o

A)try语句中有except子句就不能有finally子句

B)Python中，可以用异常处理捕获程序中的所有错误

C)引发一个不存在索引的列表元素会引发NameError错误

D)Python中允许利用raise语句由程序主动引发异常

答案:D

解析:try语句中有except子句可以有finally子句,不用异常处理捕获程序中的所有错误，引

发一个不存在索引的列表元素会引发lisindeoutError。

119.［单选题］关于Hive中窗口函数下列描述正确的是()

A)LAG用于统计窗口内往上第n行值，空不计入窗口中

B)LEAD用于统计窗口内往下第n行值，空不计入窗口中

0FIRST_VALUE取分组排序后，截止到当前行的第一个值

D)LAST_VALUE取分组不需要指定ORDERBY后，截止到当前行的最后一个

答案:C

解析：

120.［单选题］线性判别分析(LDA)从贝叶斯决策理论阐释，当两类数据同先验且满足。时

,LDA达到最优分类。

A)满足高斯分布

B)协方差相等

C)满足高斯分布且协方差相等

D)协方差不

答案:C

解析：线性判别分析(LDA)从贝叶斯决策理论阐释，当两类数据同先验且满足满足高斯分布且协方

差相等时，LDA达到最优分类。

121.［单选题］以下MaxcomputeSQL()效率最高。

A)select*from(select*fromawheredt=20140301)AleftouterjoinbonB.id=A.id

B)没有区别

C)select*fromAleftouterjoinBonB.id=A.idandA.dt=20140301

D)select*fromAleftouterjoinBonB.id=A.idwhereA.dt=20140301

答案:A

解析：

122.［单选题］对于SVM分类算法，待分样本集中的大部分样本不是支持向量，下列说法正确的是

()O

A)需要将这些样本全部强制转换为支持向量

B)需要将这些样本中可以转化的样本转换为支持向量，不能转换的直接删除

C)移去或者减少这些样本对分类结果没有影响

D)以上都不对

答案:C

解析：支持向量机的一个重要性质：训练完成后，大部分的训练样本都不需保留，最终模型仅与支持

向量有关。

123.［单选题］在Apriori算法中，候选项集划分为不同的桶，存放在()中。

A)字典

B)集合

C)Hash树

D)列

答案:C

解析：在Apriori算法中，候选项集划分为不同的桶，存放在Hash树中。

124.［单选题］有关MapReduce的输入输出，说法错误的是()

A)链接多个MapReduce作业时，序列文件是首选格式

B)FileInputFormat中实现的getSplits()可以把输入数据划分为分片，分片数目和大小任意定义

C)想完全禁止输出，可以使用NullOutputFormat

D)每个reduce需将它的输出写入自己的文件中，输出无需分片

答案:B

解析:FilelnputFormat的分片大小是可以任意设置，可以调整的，输入分片数目不可以随意设置

,是根据分片大小和文件计算出来的。

125.［单选题］下列哪项通常是集群的最主要瓶颈()o

A)CPU

B)网络

C)磁盘10

D)内存

答案:C

解析:磁盘I/O是不可扩充的，其他的可以扩充。

126.［单选题］以下哪个分类方法可以较好地避免样本的不平衡问题()o

A)KNN

B)SVM

C)Bayes

D)神经网

答案:A

解析:KNN只是取了最近的几个样本点做平均，离预测数据较远的训练数据对预测结果不会造成影响

,但是svm、Bayes和NN每一个训练样本果都会对预测结果产生影响。

127.［单选题］已知一组数据的协方差矩阵P,下面关于主分量说法错误的是()o

A)主分量分析的最佳准则是对一组数据进行按一组正交基分解，在只取相同数量分量的条件下，以均

方误差计算截尾误差最小

B)在经主分量分解后，协方差矩阵成为对角矩阵

C)主分量分析就是K-L变换

D)主分量是通过求协方差矩阵的特征值得到

答案:c

解析：主分量分析的变换矩阵是协方差矩阵，K-L变换的变换矩阵可以有很多种(二阶矩阵、协方差

矩阵、总类内离散度矩阵等等)。当K-L变换矩阵为协方差矩阵时，等同于PCA。

128.［单选题］Hadoop生态系统中，()的主要设计目的是在Hadoop与传统数据库之间进行数据的

ETL操作。

A)HDFS

B)Flume

OHive

D)Sqoop

答案:D

解析：Sqoop主要用于在Hadoop(Hive)与传统的数据库(mysql,postgresql...)间进行数据的传递

,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导进到Hadoop的HDFS中

,也可以将HDFS的数据导进到关系型数据库中。

129.［单选题］以下聚合函数，用于求数据平均值的是

A)MAX

B)SUM

C)COUNT

D)AV

答案:D

解析：

130.［单选题］下列关于Python中的函数的说法，正确的是()0

A)函数用关键字function定义

B)函数定义时，函数的主体内容应与定义语句开头对齐

C)polynomial(x=l,2,z=3)的传递参数的方法是正确的

D)默认参数值可以在传递参数时修改

答案:D

解析:A中函数关键词由def定义；B

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据理论考试练习题及答案3-2023-背题版

文档简介

温馨提示

最新文档

评论

相关文档