大数据理论考试练习题及答案1-2023-背题版

上传人：无*** IP属地：河北上传时间：2024-01-12 格式：PDF 页数：108 大小：16.85MB 积分：12 举报 版权申诉

已阅读5页，还剩103页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试题说明

本套试题共包括1套试卷

每题均显示答案和解析

大数据理论考试练习题及答案1（500题）

大数据理论考试练习题及答案1

1.［单选题］如果我使用数据集的全部特征并且能够达到100%的准确率，但在测试集上仅能达到70%左

右，这说明：（）。

A）欠拟合

B）模型很棒

C）过拟合D.以上答案都不正

答案:C

解析：当学习器把训练样本学得太好了的时候，很可能巳经把训练样本自身的一些特点当作了所有潜

在样本都会具有的一般性质，这样就会导致泛化性能下降这种现象在机器学习中称为过拟合。

2.［单选题］HDFS是Hadoop平台上的分布式文件系统，那么它是由（）构成的。

A）由一个Namenode和多个Datanode组成？

B）由一个Datanode和多个Namenode组成

C）由多个Namenode和多个Datanode组成D.由一个Namenode和一个Datanode组成

答案:A

解析：HDFS由一个Namenode,一个secondaryNameNode和多个Datanode组成。

3.［单选题］当构建一个神经网络进行图片的语义分割时，通常采用下面哪种顺序（）o

A）先用卷积神经网络处理输入，再用反卷积神经网络得到输出

B）先用反卷积神经网络处理输入，再用卷积神经网络得到输出

C）不能确

答案:A

解析：处理图片需要先使用卷积神经网络对图像局部特征进行提取和分割，然后反卷积还原图像信息

,卷积类似于编码，反卷积类似于解码。

4.［单选题］当在卷积神经网络中加入池化层（poolinglayer）时，变换的不变性会被保留，是吗（）

A）不知道

B）看情况

C）是

答案:C

解析:使用池化时会导致出现不变性。

5.［单选题］假设有n组数据集，每组数据集中，x的平均值都是9,x的方差都是11,y的平均值都是

7.50,x与y的相关系数都是0.816,拟合的线性回归方程都是y=3.00+0.500*x。那么这n组数据集是

否一样（）

A）一样

B）不一样

C）无法确定

答案:C

解析：只比较平均值、方差、相关系数和回归方程，无法确定数据集是否相同，还需比较Anscombe's

quarteto

6.［单选题］对于神经网络的说法，下面正确的是：（_）。1.增加神经网络层数，可能会增加测试数据集

的分类错误率2.减少神经网络层数，总是能减小测试数据集的分类错误率3.增加神经网络层数，总是

能减小训练数据集的分类错误率

A）1

B）l、3

01、2

答案:A

解析：深度神经网络的成功，已经证明，增加神经网络层数，可以增加模型范化能力，即，训练数据集和

测试数据集都表现得更好.但更多的层数，也不一定能保证有更好的表现.所以，不能绝对地说层数多

的好坏，只能选A。

7.［单选题］（）认为，大数据时代的数据管理目标不一定为理想和完美，一致性、可用性和分区容错

性中的任何两个特征的保证（争取）可能导致另一个特征的损失（放弃）。

A）C理论

B）se原则

C）数据一致性理论

D）大数据法则

答案:A

解析:CAP理论认为，一个分布式系统不能同时满足一致性（Consistency）、可用性（Availability）和

分区容错性（PartitionTolerance）等需求，而最多只能同时满足其中的两个特征。CAP理论告诉我

们，数据管理不一定是理想的一一致性［［1］］、可用性和分区容错性中的任何两个特征的保证（争取

）可能导致另一个特征的损失（放弃）。

8.［单选题］在支持向量机中，（）允许支持向量机在一些样本上出错。

A）硬间隔

B）软间隔

C）核函数

D）拉格朗日乘子

答案:B

解析:在支持向量机中，软间隔允许支持向量机在一些样本上出错。

9.［单选题］以下不属于大数据重要意义的是（）o

A）大数据成为推动经济转型发展的新动力

B）大数据成为重塑国家竞争优势的新机遇

C）大数据成为提升政府治理能力的新途径

D）大数据会增加经济发展的成本

答案:D

解析：大数据可以促进经济的发展，催生新的业态，在辅助商业的决策、降低运营成本、精准市场的

营销方面都能发挥作用，进一步提升企业竞争力。

10.［单选题］下列属于无监督学习的是。。

A）K-means

B）SVM

C）最大炳

D）CRF

答案:A

解析:K-means是一个将数据集中在某些方面相似的数据成员进行分类组织的过程，这是一个典型聚

类算法，聚类就是一种发现这种内在结构的技术，该类算法被称为无监督学习。

11.［单选题］以下那个选项是在局部生效的，出了这个变量的作用域，这个变量就失效了（）。

A）局部变量

B）全局变量

C）字典

D）集合

答案:A

解析:局部变量是在局部生效的，出了这个变量的作用域，这个变量就失效了。

12.［单选题］假如使用逻辑回归对样本进行分类，得到训练样本的准确率和测试样本的准确率。现在

,在数据中增加一个新的特征，其它特征保持不变。然后重新训练测试。则下列说法正确的是

（）O

A）训练样本准确率一定会降低

B）训练样本准确率一定增加或保持不变

C）测试样本准确率一定会降低

D）测试样本准确率一定增加或保持不

答案:B

解析：在模型中增加更多特征一般会增加训练样本的准确率，减小偏差。但测试样本准确率不一定增

加，除非增加的特征是有效特征。

13.［单选题］通常来说，下面哪种方法能够用来预测连续因变量。

A）线性回归

B）逻辑回归

C）线性回归和逻辑回归

D）以上答案都不正确

答案:A

解析:逻辑回归被用来处理分类问题。

14.［单选题］在DAYU数据集成中，下列不属于CDM的文件增量迁移方式的是（）

A）增量导出指定大小的文件

B）增量大数全部新增的文件

C）增量导出指定时间以后的文件

D）增量导出指定目录的文

答案：A

解析：

15.［单选题］为了提高系统性能，Spark采取“惰性计算模式”，具体为（）o

A）执行Transformation操作时不会提交，只有执行tion操作时才会被提交到集群中开始被执行

B）执行Action操作时不会提交，只有执行Transformation操作时才会被提交到集群中开始被执行

C）只有执行完Action操作和Transformation操作时，所有操作才会被提交到集群中开始被执行

D）执行完Action操作或Transformation操作时都不会提交到集群

答案:A

解析:Spark”惰性计算模式”定义。

16.［单选题］MapReduce使用（）来记录不同事件的发生次数。

A）日志

B）事件触发器

C）状态列表

D）计数器

答案:D

解析:MapReduce使用计数器来记录不同事件的发生次数。

17.［单选题］关于HDFS的特征，下列说法错误的是。。

A）支持超大文件

B）基于商用硬件

C）流式数据访问

D）低吞吐量

答案:D

解析:HDFS设计中重视“数据的高吞吐量”，因此，其数据吞吐量高，但也造成了其数据延迟访问的

特征。

18.［单选题］BP神经网络具有很的表示能力，它经常遭遇（）,其训练误差持续降低，但测试误差却

可能上升。

A）欠拟合

B）误差过大

C）误差过小

D）过拟

答案：D

解析：由于其强大的表示能力，BP神经网络经常遭遇过拟合,其训练误差持续降低，但测试误差却可能

上升。

19.［单选题］某工厂共有100名员工，他们的月工资方差是s,现在给每个员工的月工资增加3000元

,那么他们的新工资的方差（）O

A）为s+3000

B）小了

C）大了

D）不变

答案：D

解析：方差用来计算每一个变量（观察值）与总体均数之间的差异。

20.［单选题］基于词的n元文法模型，其最后的粗分结果集合大小（）N»

A）大于

B）大于等于

C）小于

D）小于等于

答案:B

解析:基于N-最短路径分词算法，其基本思想是根据词典，找出字串中所有可能的词，构造词语切分

有向无环图。每个词对应图中的一条有向边，并赋给相应的边长（权值）。然后针对该切分图，在起

点到终点的所有路径中，求出长度值按严格升序排列（任何两个不同位置上的值一定不等，下同）依

次为第1,第2,…，第i,…，第N的路径集合作为相应的粗分结果集。如果两条或两条以上路径长

度相等，那么他们的长度并列第i,都要列入粗分结果集，而且不影响其他路径的排列序号，最后

的粗分结果集合大小大于或等于N。

21.［单选题］以下哪种说法是正确的？

A）数组可以包括不同类型的元素

B）数组是不可变的

C）数组最多不可以超过50个元素

D）数组最多不可以超过22个元

答案:A

解析：

22.［单选题］（）在划分属性时是在当前结点的属性集合中选择一个最优属性。

A）aBoost

B）RF

C）Bagging

D）传统决策

答案:D

解析:传统决策树在选择划分属性时，是在当前节点的属性集合中选择一个最优属性进行划分。

23.［单选题］以下哪一种分布是二维随机变量的分布（）。

A）正态分布

B）二项分布

C)边缘分布

D)指数分布

答案:C

解析：二维随机变量的分布有边缘分布和条件分布

24.［单选题］在一个神经网络中，下面哪种方法可以用来处理过拟合。

A)Dropout

B)分批归一化(tchNormalization)

C)正则化(regularization)

D)都可

答案:D

解析：Dropout,BatchNormalization和正则化都可以用来处理过拟合。

25.［单选题］下列关于Python全局变量和局部变量描述不正确的是()。

A)local关键字用于定义局部变量，global关键字用于定义全局变量

B)关键字local定义的变量仅在该函数内可见

C)关键字global定义全局变量时必须自成一行

D)nonlocal变量不可以在内嵌函数中使用

答案:D

解析:nonlocal关键字用来在函数或其他作用域中使用外层(非全局)变量，因此本就是为内嵌函数所

设计。

26.［单选题］tablel是根据dt分区的数据表，dt例如:20220101,下列加载数据的SQL正确的是

(),要求可重跑、写入分区要求当前天执行时写入至前一天的分区

A)LOADDATAINPATH'filepath'OVERWRITEINTOTABLEtablelPARTITION(dt='{{yyyymmdd}}')

B)LOADDATAINPATH'filepath'INTOTABLEtablelPARTITION(dt='{{yyyymmdd}}')

C)LOADDATAINPATH'filepath'INTOTABLEtablelPARTITION(dt='{{yyyyMMdd}}')

D)LOADDATAINPATH'filepath'OVERWRITEINTOTABLEtablelPARTITION(dt='{{yyyyMMdd-

Id}},)

答案:D

解析：

27.［单选题］开发Maxcompute的用户自定义标量函数，主要是实现其中的()方法。

A)evaluate

B)main

C)iterate

D)process

答案：A

解析：

28.［单选题］假设你需要调整参数来最小化代价函数(costfunction),会使用。技术。

A)穷举搜索

B)随机搜索

C)Bayesian优化

D)以上全是

答案:D

解析：要使用的学习器的性能作为特征于集的评价准则.

29.［单选题］大数据计算服务提供了大数据的存储和计算服务，非常适合应用于大数据分析的领域。

以下说法中错误的是：()。

A)可以实现大型互联网企业的数据仓库和BI分析

B)提供了便捷的分析处理海量数据的手段，用户可以不必关心分布式计算细节，从而达到分析大数

据的目的

C)可以支持实时OLAP分析

D)可以基于历史数据，进行用户特征和兴趣挖掘

答案:C

解析：

30.［单选题］一个分布式应用程序协调服务，分布式应用程序可以基于它实现同步服务，配置维护和

命名服务等的工具是OO

A)Flume

B)Zookeeper

C)Storm

D)Sparkstreaming

答案:B

解析：Zoopkeeper和Chubby均是分布式协调服务。

31.［单选题］Spark的Stage的Task的数量由什么决定_。

A)Partition

B)Job

C)Stage

D)TaskScheduler

答案:A

解析:task是stage下的一个任务执行单元，一般来说，一个rdd中有多少个partition就有多少个

tasko

32.［单选题］生成多项式和交互特征使用preprocessing模块中的()函数。

A)preprocessing,binarize()

B)preprocessing.Normalizer()

C)preprocessing.LabelEncoder()

D)preprocessing.PolynomialFeatures()

答案：D

解析:preprocessing.PolynomialFeatures用于生成多项式和交互特征，可以将线性回归模型应用于

多项式回归中。

33.［单选题］对于一组数据，我们应该如何将每个要素缩放到［T,1］范围，而不会破坏稀疏性

（）O

A）使用preprocessing.MaxAbsScalerO方法

B）使用preprocessing.LabelEncoder（）方法

C）使用preprocessing,maxabsscale（）方法

D）使用preprocessing.MinMaxScalerO方法

答案:C

解析:preprocessing.maxabs_scale（）函数会将将每个要素缩放到［T,1］范围，而不会破坏稀疏性

34.［单选题］有三个表，它们的记录行数分别是10行、2行和6行，三个表进行交叉连接后，结果集中

共有多少行数据

A）18

B）26

C）不确定

D）12

答案:D

解析：

35.［单选题］。技术可以将所有数据的特性通过图的方式展现出来。

A）支持向量机

B）神经网络

C）数据可视化

D）数据挖掘

答案:C

解析:数据可视化技术可以将所有数据的特性通过图的方式展现出来，而支持向量机、神经网络为具

体数据分析方法，数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

36.［单选题］Hadoop生态系统中，HBase是一种（）0

A）分布式文件系统

B）数据仓库

C）实时分布式数据库

D）分布式计算系统

答案:C

解析:HBase是一个面向列的实时分布式数据库。

37.［单选题］下列不属于深度学习内容的是（_）。

A）深度置信网络

B）受限玻尔兹曼机

C）卷积神经网络

D）贝叶斯学

答案:D

解析：贝叶斯学习属于传统的机器学习算法。

38.［单选题］MaxComputeSQL中建表时，如果指定了ifnotexists选项，贝!］：()。

A)存在同名表，返回失败

B)存在同名表，如果原表结构与要创建的目标表结构不一致，贝腿回失败

C)返回成功，已存在的同名表的元信息不会被改动

D)返回成功，已存在的同名表元信息会被更新

答案:C

解析：

39.［单选题］下面哪个操作是窄依赖()

A)join

B)filter

C)group

D)sort

答案:B

解析：spark中常见的窄依赖操作包括map,filer,union,sample等，宽依赖的操作包括

reducebykey,groupbykey,join等。

40.［单选题］选择哪一个解作为输出，将由学习算法的归纳偏好决定，常见的做法是引入()。

A)线性回归

B)线性判别分析

C)正则化项

D)偏置项

答案:C

解析：选择哪一个解作为输出，将由学习算法的归纳偏好决定，常见的做法是引入正则化

(regularization)项。

41.［单选题］下列在python3中合法的语句为()0

A)printHello,World!

B)print'Hello,World!"

Oprint('Hello,World!')

D)print"Hello,World!"

答案:C

解析:A选项存在语法错误，B、D选项为Python2打印语句。

42.［单选题］阅读下面的程序:deffunc()：print(x)x=100func()执行上述语句后，输出的结果为

A)0

B)100

C)程序出现异常

D）程序编译失败

答案:C

解析：

43.［单选题］异常检测过程查找基于。组标准值偏差的异常个案。

A）单体

B）分类

C）聚类

D）回

答案:C

解析:异常检测”过程查找基于聚类组标准值偏差的异常个案。该过程设计为在探索性步骤中，快速

检测到用于数据审核的异常个案，并优先于任何推论性数据分析。

44.［单选题］在TF-IDF算法中，在计算完词频与逆文档频率后，将二者（）后得到最终的结果。

A）相加

B）相减

C）相乘

D）相

答案:C

解析:TF-IDF算法基本知识。

45.［单选题］DWS支持实例故障发生时，业务不中断。因此（）。

A）不用担心实例故障带来的影响，无需处理故障问题。

B）在实例恢复或主备切换成功之后，能够继续提供服务。

C）不用担心CN故障导致SQL执行失败，保证SQL100%执行成功。

D）实例故障之后GaussDB200会自动重启，无需人为关注

答案:B

解析：

46.［单选题］下列关于线性回归分析中的残差说法正确的是（）。

A）残差均值总是为零

B）残差均值总是约等于零

C）残差均值总是大于零

D）以上答案都不正确

答案:A

解析：线性回归分析中，目标是残差最小化。残差平方和是关于参数的函数，为了求残差极小值，令

残差关于参数的偏导数为零，会得到残差和为零，即残差均值为零。

47.［单选题］下面与Zookeeper类似的框架是（）。

A）Protobuf

B）Java

C）Kafka

D)Chubby

答案:D

解析:Chubby-Google的分布式协调系统

48.［单选题］对于神经网络的说法，下面正确的是(_)。

A)增加神经网络层数，可能会增加测试数据集的分类错误率

B)减少神经网络层数，总是能减小测试数据集的分类错误率

C)增加神经网络层数，总是能减小训练数据集的分类错误率

D)l、2都

答案:A

解析:增加神经网络层数，可能会增加测试数据集的分类错误率。

49.［单选题］如果我们现有一个安装2.6.5版本的hadoop集群，在不修改默认配置的情况下存储200个

每个200M的文本文件，请问最终会在集群中产生多少个数据块(包括副本)()

A)200

B)40000

O400

0)120

答案:D

解析：在默认情况下，HDFS集群默认存储文件3份，并且大文件会按照128M的数据块大小

(Hadoop2.x版本以前的默认数据块的大小是64M,到了Hadoop2.x版本以后，默认的数据块大小就变

成了128M)进行切割分散存储。所以题目中的总数据块有200*2=400个。再加上会存储三份，所以

400*3=1200

50.［单选题］在深度学习中，我们经常会遇到收敛到localminimum,下面不属于解决localminimum问

题的方法是()

A)随机梯度下降

B)设置Momentum

C)设置不同初始值

D)增大batchsiz

答案:D

解析：增大batchsize无法无法解决ocalminimum问题。

51.［单选题］基于Bagging的集成学习代表算法有()0

A)Adaboost

B)GBDT

C)XGBOOST

D)随机森林

答案:D

解析：随机森林是基于Bagging的集成学习算法。

52.［单选题］数据资产应用以安全可控为前提，按照()的原则，落实安全与保密责任。

A）谁经手，谁使用，谁负责

B）谁主管，谁负责

C）谁使用，谁主管，谁负责

D）谁录入，谁使用，谁负责

答案:A

解析：数据资产应用以安全可控为前提，按照谁经手，谁使用，谁负责的原则，落实安全与保密责任

53.［单选题］视觉编码的前提是分析并了解目标用户的（），尽量降低目标用户的。。

A）视觉感知特征；感知障碍

B）视觉感知特征；感知时间

C）视觉感知习惯；感知障碍

D）视觉感知习惯；感知时

答案:A

解析:视觉编码的前提是分析并了解目标用户的视觉感知特征，尽量降低目标用户的感知障碍。

54.［单选题］为提高计算性能，Spark中Transformation操作采用的是（）计算模式。

A）活性

B）惰性

C）实时

D）非实时

答案:B

解析:Spark的所有Trandformation操作采取的是“惰性计算模式”

55.［单选题］从网络的原理上来看，结构最复杂的神经网络是。。

A）卷积神经网络

B）长短时记忆神经网络

OGRU

D）BP神经网

答案:B

解析:从网络的原理上来看，结构最复杂的神经网络是LSTM。

56.［单选题］（）算法是决策树学习的基本算法，其他多数决策树学习方法都是它的变体。

A）Find-S算法

B）KNN算法

C）概念算法

D）I算

答案:D

解析：ID3算法是决策树学习的基本算法，其他多数决策树学习方法都是它的变体。

57.［单选题］以下关于副本和视图描述错误的是（）。

A）Numpy的切片操作返回原数据的视图

B)调用Ndarray的view()函数产生一个视图

C)Python序列的切片操作，调用deepCopy()函数

D)调用Ndarray的copy()函数产生一个视图

答案:D

解析:视图对应浅复制，副本对应深复制，Ndarray的copy。产生一个副本，而不是视图。

58.［单选题］当()时，可以不考虑RDD序列化处理。

A)完成成本比较高的操作后

B)执行容易失败的操作之前

D)被重复利用实时性要求高

答案:D

解析:RDD的序列化处理，主要在完成成本比较高的操作之后、执行容易失败的操作之前、当RDD被重

复使用或者计算其代价很高时进行。

59.［单选题］下列()算法更适合做时间序列建模。

A)CNN

B)决策树

C)LSTM

D)贝叶斯算

答案:C

解析:LSTM算法更适合做时间序列建模。

60.［单选题］下列核函数特性描述错误的是()。

A)只要一个对称函数所对应的核矩阵半正定，就能称为核函数；

B)核函数选择作为支持向量机的最大变数；

C)核函数将影响支持向量机的性能；

D)核函数是一种降维模型

答案:D

解析：以RBF的核函数为例，它是通过径向基核函数可以把原始数据投影到更高维的空间里去，从而

增加数据可分的概率，是从低维到高维，并不是降维。

61.［单选题］输入图像为32x32,经过步长为1,不进行padding,卷积核为5x5的卷积层后，得到的特

征图尺寸是多少()

A)28x28

B)27x27

C)29x29

D)32x32

答案:A

解析：(32+0-5)/1+1=28。

62.[单选题]假设有列表a=['name','age','sex'"Db=['Dong',38,'Male'],请使用一个语句将

这两个列表的内容转换为字典，并且以列表a中的元素为“键”，以列表b中的元素为“值”，这个

语句可以写为()o

A)c=diet(cross(a,b))

B)c=diet(zip(a,b))

C)c=map(zip(a,b))

D)c=b

答案:B

解析:zip()将可迭代的对象作为参数，将对象中对应的元素打包成一个个元组,然后用diet生成器生

成字典

63.［单选题］关于python类说法错误的是()。

A)类的实例方法必须创建对象后才可以调用

B)类的实例方法必须创建对象前才可以调用

C)类的类方法可以用对象和类名来调用

D)类的静态属性可以用类名和对象来调用

答案:B

解析:类的实例方法必须创建对象后才可以调用。

64.［单选题］下面if语句统计“成绩(score)优秀的男生以及不及格的男生”的人数，正确的语句为

()O

A)If(gender=="男"andscore<60orscore>=90)：n+=l

B)If(gender=="男"andscore<60andscore>=90)：n+=l

C)If(gender=="男(score<60orscore>=90))：n+=l

D)If(gender=="男score<60orscore>=90)：n+=l

答案:C

解析：注意布尔运算优先级and>or。

65.［单选题］大数据计算服务(MaxCompute,原ODPS)中的订单表fact_order是一张分区表，分区

键是dt,每天新增的订单存储在当天的分区中，如果要更新dt='20160310,这个分区中的数据，对

应的源表是ods_order,则正确的SQL语句结构是：()。

A)updatefact_orderselect_fromods_orderwheredt='20160310,

B)insertoverwritetablefact_orderds='20160310'select_fromods_order

C)insertoverwritetablefact_orderpartition(dt=,20160310')select_fromods_order

D)insertoverwritetablefactorderselect_fromods_orderwheredt=,20160310,

答案:C

解析：

66.［单选题］Python中用()快捷键表示运行当前程序。

A)Ctrl+F10

B)Ctrl+Alt+F10

C)Shift+F10

D)Ctrl+Shift+F10

答案:D

解析:Python中用()快捷键表示运行当前程序Ctrl+Shift+F10。

67.［单选题］MaxCompute中负责对等待提交的task进行排序的模块是：()。

A)Worker

B)Executor

C)Scheduler

D)controller

答案:C

解析：

68.［单选题］图像中虚假轮廓的出现就其本质而言是。。

A)图像的灰度级数不够多而造成的

B)图像的空间分辨率不够高而造成的

0图像的灰度级数过多而造成的

D)图像的空间分辨率过高而造成

答案:A

解析：图像中的虚假轮廓最易在平滑区域内产生。平滑区域内灰度应缓慢变化，但当图像的灰度级数

不够多时会产生阶跃。所以图像中虚假轮廓的出现就其本质而言是图像的灰度级数不够多而造成的

,选A。

69.［单选题］假设你正在训练一个LSTM网络，你有一个10,000词的词汇表，并且使用一个激活值维度

为100的LSTM块，在每一个时间步中，「u的维度是多少()

A)1

B)100

0300

D)1000

答案:B

解析：Fu的向量维度等于LSTM中隐藏单元的数量。

70.［单选题］如果需要训练的特征维度成千上万，在高维情形下出现的数据样本稀疏、距离计算困难

o我们通过什么方法可以缓解这个问题()O

A)K均值算法

B)支持向量机

C)降维

D)以上答案都不正确

答案:C

解析：如果需要训练的特征维度成千上万，在高维情形下出现的数据样本稀疏、距离计算困难，可懂

过降维降低特征维度。

71.［单选题］Redis中String数据类型不含以下哪种操作？

A)mget

B）size

C）strlen

D）append

答案:D

解析：

72.［单选题］在DAYU数据集成中，DAYU批量数据迁移提供（）数据源之间批量数据迁移服务，帮助您

实现数据自由流动

A）架构

B）异构

C）同构/异构

D）同

答案:C

解析：

73.［单选题］下列属于卷积网络类型分类的是（_）。

A）普通卷积

B）扩张卷积

C）转置卷积

D）以上答案都正

答案:D

解析：卷积神经网络四种卷积类型：普通卷积，扩张卷积，转置卷积，可分离卷积。

74.［单选题］以下不属于基于区域的图像分割方法的是（）。

A）区域生长法

B）分水岭算法

C）大津算法

D）基于图论的分割算

答案:C

解析：大津算法是基于图像灰度分布的图像分割方法。

75.［单选题］与生成方法、半监督SVM、图半监督学习等基于单学习机器利用未标记数据不同，基于

分歧的方法（disagreement-basedmethods）使用多学习器，而学习器之间的分歧

（disagreement）对未标记数据的利用至关重要。（）是此类方法的重要代表。

A）协同训|练

B）组合训练

C）配合训练

D）陪同训

答案:A

解析：与生成方法、半监督SVM、图半监督学习等基于单学习机器利用未标记数据不同，基于分歧的

方法（disagreement-basedmethods）使用多学习器，而学习器之间的分歧（disagreement）对未标

记数据的利用至关重要。协同是此类方法的重要代表，它很好地利用了多视图的相容互补性。

76.［单选题］线性模型中的权重w值可以看做各个属性x的（）。

A）正则化系数

B）对最终决策结果的贡献度

C）高维映射

D）取

答案:B

解析：线性模型中的权重w值可以看做各个属性x的对最终决策结果的贡献度。

77.［单选题］关于队列的描述中，以下描述正确的是（）。

A）在队列中只能删除数据

B）队列是先进后出的线性表

C）在队列中只能插入数据

D）队列是先进先出的线性表

答案:D

解析：队列既能插入也能删除数据，并且是先进先出的线性表

78.［单选题］根据数据管理计划，设计或选择具体方法实行计划中的工作内容，属于数据治理的哪一

步（）。

A）计划

B）执行

C）检查

D）改进

答案:B

解析:数据治理并不是一次性工作，而是一种循序渐进的过程，主要包含计划、执行、检查和改进等

基本活动，即数据治理的PDCA模型，其中：1）计划（Plan）：数据管理方针和目标的确定，明确组织

机构的数据管理的目的、边界和工作内容。2）执行（Do）:根据数据管理计划，设计或选择具体的

方法、技术、工具等解决方案，实现计划中的工作内容。3）检查（Check）：定期检查执行效果，进

行绩效评估，并发现存在问题与潜在风险。4）改进（Action）：根据检查结果中发现的问题与风险

,进一步改进自己的数据管理工作。

79.［单选题］点击率的预测是一个数据比例不平衡问题（比如训练集中样本呈阴性的比例为99%,阳

性的比例是现），如果我们用这种数据建立模型并使得训练集的准确率高达99吼我们可以得出结论

是：（）。

A）模型的准确率非常高，我们不需要进一步探索

B）模型不好，我们应建一个更好的模型

C）无法评价模型

D）以上答案都不正

答案:C

解析：对于失衡数据，模型的准确率不能作为衡量模型效果的标准。因为我们需要探索的是少数1%的

数据，为更好的评估模型效果，可以用灵敏度、特异度、Fmeasure来判断。

80.［单选题］哪种聚类方法采用概率模型来表达聚类（）。

A）K-means

B）LVQ

ODBSCAN

D）高斯混合聚类

答案:D

解析：高斯混合聚类（MixtureofGaussian）采用概率模型来表达聚类。

81.［单选题］为了提高系统性能，Spark采取''惰性计算模式”，具体为（）o

A）执行Transformation操作时不会提交，只有执行Action操作时才会被提交到集群中开始被执行

B）执行Action操作时不会提交，只有执行Transformation操作时才会被提交到集群中开始被执行

C）只有执行完Action操作和Transformation操作时，所有操作才会被提交到集群中开始被执行

D）执行完Action操作或Transformation操作时都不会提交到集群

答案:A

解析:Spark”惰性计算模式”定义。

82.［单选题］在一个线性回归问题中，我们使用R平方（R-Squared）来判断拟合度。此时，如果增加

一个特征，模型不变，则下面说法正确的是（）O

A）如果R-Squared增加，则这个特征有意义

B）如果R-Squared减小，则这个特征没有意义

C）仅看R-Squared单一变量，无法确定这个特征是否有意义。

D）以上说法都不对

答案:C

解析：单独看R-Squared,并不能推断出增加的特征是否有意义。通常来说，增加一个特征，R-

Squared可能变大也可能保持不变，两者不一定呈正相关。

83.［单选题］若建立一个5000个特征，100万数据的机器学习模型，则应该怎么有效地应对这样的大数

据训练（）O

A）随机抽取一些样本，在这些少量样本之上训练

B）可以试用在线机器学习算法

C）应用P算法降维，减少特征数

D）以上答案都正

答案:D

解析：样本数过多，或者特征数过多，而不能单机完成训练，可以用小批量样本训练，或者在线累计

式训练，或者主成分PCA降维方式减少特征数量再进行训练。

84.［单选题］采用模板［71］主要检测（）方向的边缘。

A)水平

B)45°

C)垂直

D)135

答案:C

解析：［T1］是用右边的像素减去左边的像素，当左右像素差别大也就是存在垂直方向边缘时，模板

作用在图像上的值会较大。

85.［单选题］执行如下代码：

Importtime

Print(time,time())

以下选项中描述错误的是()O

A)time库是Python的标准库；

B)可使用time,ctime(),显示为更可读的形式;

C)time,sleep(5)推迟调用线程的运行，单位为毫秒;

D)输出自1970年1月1日00:00:00AM以来的秒数；

答案:C

解析:time模块的sleep。函数推迟调用线程的运行，单位为秒。

86.［单选题］你正在训练一个RNN网络，你发现你的权重与激活值都是NaN,下列选项中，哪一个是导

致这个问题的最有可能的原因()

A)梯度消失

B)梯度爆炸

C)ReLU函数作为激活函数g(.),在计算g(z)时，z的数值过大了

D)Sigmoid函数作为激活函数g(.),在计算g(z)时，z的数值过大

答案:B

解析：训练过程中出现梯度爆炸会伴随一些细微的信号，如：1、模型无法从训练数据中获得更新

(如低损失)。2、模型不稳定，导致更新过程中的损失出现显著变化。3、训练过程中，模型损失

变成NaNo

87.［单选题］下面哪项不属于循环神经网络的输出模式。(_)

A)单输出

B)多输出

C)同步多输出

D)异步多输

答案:C

解析：深度学习基础知识。

88.［单选题］采用主成分分析法映射到低维空间，将最小的d-d'个特征向量舍弃，有()影响。

A)使样本采样密度增大

B)丢失最优解

C)增大噪声

D)使样本采样密度减小

答案:A

解析:低维空间与原始高维空间必有不同，因为对应于最小的d-d'个特征值的特征向量被舍弃了

,这是降维导致的结果.但舍弃这部分信息往往是必要的：一方面舍弃这部分信息之后能使样本的采

样密度增大，这正是降维的重要动机；另一方面，当数据受到噪声影响时，最小的特征值所对应的

特征向量往往与噪声有关。将它们舍弃能在一定程度上起到去噪的效果.

89.［单选题］以下选项中，不属于函数的作用的是。。

A）提高代码执行速度

B）降低编程复杂度

C）增强代码可读性

D）复用代码

答案:A

解析：函数可以降低编程复杂度$；$增强代码可读性$；$复用代码

90.［单选题］以等可能性为基础的概率是（）

A）古典概率

B）经验概率

C）试验概率

D）主观概率

答案:A

解析：关于古典概率是以这样的假设为基础的，即随机现象所能发生的事件是有限的、互不相容的，而

且每个基本事件发生的可能性相等。根据大量的、重复的统计试验结果计算随机事件中各种可能发

生结果的概率，称为试验概率或频率概率。主观概率，是指建立在过去的经验与判断的基础上，根

据对未来事态发展的预测和历史统计资料的研究确定的概率。反映的只是一种主观可能性。

91.［单选题］数据变换的策略包括（）o

A）平滑处理、特征构造、聚集、标准化、离散化

B）平滑处理、特征构造、聚集、审计、离散化

C）平滑处理、特征构造、聚集、审计、离散化

D）特征构造、聚集、标准化、审计、离散化

答案:A

解析：数据变换的策略不包括审计。

92.［单选题］线性判别分析在二分类问题上，也称为（）。

A）线性回归

B）对数几率回归

C）Fisher判别分析

D）主成分分

答案:C

解析：线性判别分析在二分类问题上，也称为Fisher判别分析。

93.［单选题］下面关于HiveUDF开发描述错误的是。Hive有两个不同的接口编写

UDForg.apache,hadoop.hive.ql.exec.UDF基础UDF的函数读取和返回基本类型，仅支持Text类型

org.apache,hadoop.hive.ql.udf.generic.GenericUDF复杂的GenericUDF可以处理Map、List、

Set类型UDF处理原则是，输出和输出一对一的关系的函数下面关于HiveSQL编译描述正确的是（）

A）HiveSQL的Parser层是为了将SQL转化为执行计划的

B）逻辑层优化器会进行算子转换，优化合并不必要的算子操作

OMapReduce任务是需要遍历QueryBlock后生成的

D）编译器遍历ASTTree,抽象出查询的基本组成单元OperatorTree

答案:B

解析：

94.［单选题］以下关于DNN说法不正确的是（_）。

A）层数多

B）抽象能力强

C）模拟更复杂模型

D）广义上包含CNN,N,SVM等

答案:D

解析:DNN不包括SVM和DBM。

95.［单选题］下列关于BP网络说法不正确的是。。

A）标准BP算法每次仅针对一个训练样例更新连接权和阈值

B）神经网络经常遭遇过拟合

C）早停策略可用来缓解BP网络的过拟合问题

D）晚停策略可用来缓解BP网络的欠拟合问

答案:D

解析：早停和正则化是解决BP网络过拟合的两种方法，欠拟合的网络需继续训练，并没有晚停这一说

法。

96.［单选题］讨论变量之间的关系，主要有三个方法：（）、方差分析和回归分析

A）参数分析

B）逻辑分析

C）假设分析

D）相关分析

答案:D

解析：相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。例如

,人的身高和体重之间；空气中的相对湿度与降雨量之间的相关关系都是相关分析研究的问题。方

差分析用于两个及两个以上样本均数差别的显著性检验。

97.［单选题］任一随机事件出现的概率为（）

A）在T与1之间

B）小于0

C）不小于1

D）在0与1之间

答案:D

解析：如果没有其他的附加条件的话，一般概率P的取值范围是：0WPW1。0代表不可能发生，1代表一

定会发生。

98.[单选题]以下关于Hadoop中MapReduce说法正确的是()。

A)可以没有reduce任务

B)Reducer输入为随机输入

Oshuffle主要实现数据可视化功能

D)一个reducer只能从一个map复制所需要的partitio

答案：A

解析:MapReduce中的reduce并不是必须存在的。

99.[单选题]关于Spark的说法中，()是错误的。

A)采用内存计算模式

B)可利用多种语言编程

C)主要用于批处理

D)可进行map()操

答案:C

解析:HadoopMapReduce主要用于批处理，与Hadoop不同的是，Spark更为通用一些，可以很好地支持

流计算、交互式处理、图计算等多种计算模式。

100.[单选题]以下代码的输出结果为()o

A=np.array([[5,3,2],[2,4,0]])

N=np.sort(a,axis=None)

Print(n)

A)[022345]

B)[543220]

C)[[230][542]]

D)[[235][024]]

答案:A

解析:默认按最后一个轴进行排序，轴参数设置为None时先展平再进行排序。

101.[单选题]机器学习和深度学习的关系是(_)。

A)深度学习包含机器学习

B)机器学习包含深度学习

C)二者是独立的

D)二者相互促

答案:B

解析:机器学习包含深度学习。

102.[单选题]()先对数据集进行特征选择，然后再训练学习器。

A)过滤式选择

B)包裹式选择

C)稀疏表示

D)嵌入式选

答案:A

解析:过滤式选择先对数据集进行特征选择，然后再训练学习器。

103.［单选题］下列哪一项能反映出X和Y之间的强相关性（）

A）相关系数为0.9

B）对于无效假设6=0的p值为0.0001

C）对于无效假设8=0的t值为30

D）以上说法都不对

答案:A

解析:相关系数反映了不同变量之间线性相关程度，取值范围在之间，值越大表示相关程度越

高；因此，A选项中中r=0.9,表示X和Y之间有较强的相关性。p和t的数值大小没有统计意义，只是

将其与某一个阈值进行比对，以得到二选一的结论。

104.［单选题］下列不属于Statsmodels模块的主要特点的是（）。

A）线性模型

B）方差分析

C）时间序列

D）插值运算

答案:D

解析：插值运算不是统计分析的主要内容。

105.［单选题］以下四个选项中，（）是Spark的核心数据结构。

A）弹性分布式数据集

B）列表

C）元组

D）字典

答案:A

解析：弹性分布式数据集（RDD）是Spark的核心数据结构

106.［单选题］SQL语言又称

A）结构化定义语言

B）结构化控制语言

C）结构化查询语言

D）结构化操纵语

答案:C

解析：

107.［单选题］Hadoop中，（）执行文件系统命名空间操作。

A）Datanode

B）Namenode

C）JobTracker

D）TaskTracker

答案:B

解析:NameNode在hdfs这种文件系统中充当着master的角色，负责的功能有很多，比如文件系统目录

管理（命名空间管理）、数据块管理、数据节点管理、租约管理、缓存管理等等。

108.［单选题］Spark可以处理的数据任务包括（）

A）数据批处理任务；

B）交互式处理任务；

C）图数据处理任务；

口“田和加

答案：D

解析:Spark可以很好地支持流计算、交互式处理、图计算等多种计算模式。

109.［单选题］以下关于HBase的表述中错误的是（）。

A）HBase是一个构建在HDFS上的分布式列存储系统

B）HBase面向列（族）的存储和权限控制，列（族）独立检索

OHbase中提供了字符串、整型、浮点型等多种数据类型

D）Hbase的每个表可由多个列族一ColumnFamily组成

答案:C

解析:hbase中的数据都是字符串，没有类型，所以C错。

110.［单选题］Base原则的含义不包括（）

A）基本可用

B）柔性状态

C）最终一致

D）基础条

答案：D

解析:BASE原则是BasicallyAvailable（基本可用）、SoftState（柔性状态）和Eventually

Consistent（最终一致）的缩写。BasicallyAvailable是指可以容忍系统的短期不可用，并不追求

全天候服务；SoftState是指不要求一直保持强一致状态；EventuallyConsistent是指最终数据

一致，而不是严格的实时一致，系统在某一个时刻后达到一致性要求即可。

111.［单选题］图灵奖获得者JimGray提出的“科学研究第四范式”的全称为。。

A）数据密集型科学发现

B）以数据为中心的科学发现

C）数据驱动型的科学发现

D）大数据科学研究

答案:A

解析：2007年，图灵奖获得者JimGray提出了科学研究的第四范式一数据密集型科学发现（Data-

intensiveScientificDiscovery）。在他看来，人类科学研究活动已经历过三种不同范式的演变

过程（原始社会的“实验科学范式”、以模型和归纳为特征的“理论科学范式”和以模拟仿真为特

征的“计算科学范式”），目前正在从“计算科学范式”转向“数据密集型科学发现范式”。

112.［单选题］在数据科学中，R的包通常从。下载。

A)PIP

B)CRAN

C)Rstudio

D)Pypi

答案:B

解析：CRAN的全称为TheComprehensiveRArchiveNetwork,在R编程中通常从该服务器下载所需包

113.［单选题］在一些算法中，为了进行属性之间的比较或运算，需要把不同属性的不同变量取值范

围变换成同一范围，以免使得结果发生扭曲，偏向取值范围大的变量。这一过程称为（）0

A）合并

B）数据聚合

C）归一化

D）数据处理

答案:C

解析：归一化是一种无量纲处理手段，使物理系统数值的绝对值变成某种相对值关系。简化计算，缩

小量值的有效办法。

114.［单选题］信息增益对可取值数目（）的属性有所偏好，增益率对可取值数目（）的属性有所偏

好。

A）较局，较局

B）较高，较低

C）较低，较高

D）较低，较

答案：B

解析：信息增益准则对可取值数目较多的属性有所偏好，增益率对可取值数目较少的属性有所偏好。

115.［单选题］以下有关计算机编程语言说法错误的是（）o

A）编程语言是用于书写计算机程序的语言；

B）计算机语言可分为机器语言、汇编语言、高级语言；

C）计算机能识别和执行所有编程语言写的程序；

D）C/C++pascal、javpython都属于高级编程语言；

答案:C

解析：只有机器语言才能被计算机直接识别，Python等高级语言源程序，不能直接运行，必须翻译成

机器语言才能执行。

116.［单选题］以下（）不属于广义上的数据可视化技术。

A）类别可视化

B）科学可视化

C）信息可视化

D）可视分析学

答案:A

解析：数据可视化DataVisualization和信息可视化Infographics是两个相近的专业领域名词。

狭义上的数字可视化指的是讲数据用统计图表方式呈现，而信息图形（信息可视化）则是将非数字

的信息进行可视化。前者用于传递信息，后者用于表现抽象或复杂的概念、技术和信息。而广义上

的数据可视化则是数据可视化、信息可视化以及科学可视化等等多个领域的统称。

117.［单选题］对一幅100*100像素的图像，若像元用8bit表示灰度值，霍夫曼编码压缩后的图像数据

量为40000bit,则图像压缩比例为（）o

A)2：1

B)3：1

04：1

D)l：2

答案:A

解析：像素个数100*100=10000,再乘以每个像素位数得总位数80000,压缩后40000,所以压缩比为

2：10

118.［单选题］当训练样本近似线性可分时，通过（），学习一个（）o

A）硬间隔最大化线性可分支持向量机

B）软间隔最大化线性支持向量机

C）硬间隔最大化线性支持向量机

D）软间隔最大化非线性支持向量机

答案:B

解析：当训练样本近似线性可分时，通过软间隔，学习一个最大化线性支持向量机。

119.［单选题］以下哪项方法不属于汉语分词方法（）o

A）双向扫描法

B）正向最大匹配法

C）逐词遍历法

D）词向量匹配

答案:D

解析：词向量匹配法为相似性度量并不能实现分词。

120.［单选题］数据产品开发工作之中需要特别注意的基本活动不包括（）o

A）创造性设计

B）数据洞见

C）虚拟化

D）个性化描述

答案:D

解析：数据产品开发工作之中需要注意有创造性设计、数据洞见、虚拟化等基本活动。

121.［单选题］以下算法中，skiearn中未提及的是（）0

A）K-Means聚类算法

B）LogisticRegression

C）KNN最近邻分类算法

D）Apriori关联规则算法

答案:D

解析：关联规则在sklearn库中未涉及。

122.［单选题］当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的

数据相分离？（）

A）分类

B）聚类

C）关联分析

D）隐马尔可夫链

答案:B

解析：

123.［单选题］关于缺失值填补，不正确的说法是（）o

A）填补数据可以用中位数或者众数等

B）pandas,dropna可以用来填补缺失值

C）用平均值填补会引入相关性

D）哑变量填补是将缺失值当做一类新特征处理

答案:B

解析：pandas,dropna可以用来删除缺失值。

124.［单选题］关于SOM神经网络描述错误的是：（_）。

A）一种竞争学习型的无监督神经网络

B）将高维输入数据映射到低维空间，保持输入数据在高维空间的拓扑结构

C）SOM寻优目标为每个输出神经元找到合适的权重

D）输出层神经元以矩阵方式排列在二维空

答案:C

解析:SOM网络是一种竞争学习型的无监督神经网络。它能将高维输入数据映射到低维空间（通常为二

维），同时保持输入数据在高维空间的拓扑结构。SOM网络中的输出层神经元以矩阵方式排列在二维

空间中，每个神经元都拥有一个权向量。SOM的训练目标就是为每个输出层神经元找到合适的权向量

125.［单选题］使用SQL语句进行分组检索时，为了去掉不满足条件的分组，应当

A）使用WHERE子句

B）在GROUPBY后面使用HAVING子句

C）先使用WHERE子句，再使用HAVING子句

D）先使用HAVING子句，再使用WHERE子

答案:B

解析：

126.［单选题］对模型进行超参数优化详尽搜索指定参数的估计值使用以下哪种方法（）o

A)ParameterGrid()

B)ParameterSamp1er()

OGridSearchCV()

D)RandomizedSearchCV()

答案:C

解析：ParameterGrid网格搜索，ParameterSampler参数生成器，GridSearchCV详尽搜索指定参数的

估计值，RandomizedSearchCV随机搜索超参数。

127.[单选题]关于Logistic回归和SVM不正确的是:()。

A)Logistic回归本质上是一种根据样本对权值进行极大似然估计的方法，用先验概率的乘积代替后

验概率

B)Logistic回归的输出就是样本属于正类别的几率

C)SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面，属于结构风险最小化

D)SVM可以通过正则化系数控制模型的复杂度，避免过拟

答案:A

解析:Logit回归目标函数是最小化后验概率，Logit回归可以用于预测事件发生概率的大小，SVM目

标是结构风险最小化，SVM可以有效避免模型过拟合。

128.[单选题]下面()属于SVM应用。

A)文本和超文本分类

B)图像分类

C)新文章聚类

D)以上均

答案：D

解析:SVM可用于分类与回归，文本和超文本分类、图像分类、新文章聚类均属于SVM的应用。

129.[单选题]在情感分析任务中，其目的是将无结构化的情感文本转化成计算机容易识别和处理的

结构化文本，进而供情感分析上层的研究和应用服务的是()0

A)情感信息检索

B)情感信息抽取

C)情感信息分类

D)情感信息归

答案:B

解析：情感分析上层的研究和应用主要是为情感信息抽取。

130.[单选题]以下代码的输出结果为()o

Importnumpyasnp

A=np.arange(6).reshape(3,2)

Wt=np.array([3,5])

Print(np.average(a,axis=1,weights=wt))

A)LEO1][23][45]]

B)[0.6252.6254.625]

C)(array(Lo.625,2.625,4.625]),array([8.,8.,8,]))

D)以上答案都不正确

答案：B

解析:averge是按照权重求加权均值。

131.[单选题]np.where([[True,False],[True,True]],[[1,2],[3,4]],[[9,8],[7,6]]),最终的输出

结果是()o

A)[[1,4],[9,7]]

B)[[1,3],[9,7]]

0[[1,8],[3,4]]

D)[[2,9],[3,6]]

答案:C

解析：上述条件为[[True,False],[True,False]],分别对应最后输出结果的四个值。第一个值从

[1,9]中选，因为条件为True,所以是选1。第二个值从[2,8]中选，因为条件为False,所以选8,后

面以此类推。

132.[单选题]数据管理成熟度模型中成熟度等级最高是哪一级()o

A)已优化级

B)已测量级

C)已定义级

D)已管理级

答案：A

解析：已优化是数据管理成熟度模型中成熟度的最高等级。

133.[单选题]因子分析把每个原始变量分解为两部分因素：一部分为(),另一部分为()o

A)公共因子和特殊因子

B)特殊因子和相关因子

C)相关因子和独立因子

D)独立因子和公共因子

答案:A

解析：因子分析把每个原始变量分解为两部分因素：一部分为公共因子，另一部分为特殊因子。

134.[单选题]MapReduce框架中中间有一步叫shuffle,把同样的()运输到同一个()上面去。

A)value,key；

B)value,reducer；

C)key,reducer；

D)key,value；

答案:C

解析：Mapreduce定义了Shuffle,实现把相同key的数据汇集到同一个Reduce任务节点来处理。

135.[单选题]HBase是一种可伸缩、高可靠、高性能、分布式和面向()的动态模式数据库。

A)列

B)行

C)行和列

D)元组

答案:A

解析：HBase支持的是列式存储。

136.［单选题］下列关于Kafka描述正确的是()?

A)数据实时传输，没有延迟

B)不支持物联网传感数据直接接入

C)可以实现全局消息有序

D)监控完善，可以独立监

答案:B

解析：

137.［单选题］DataFrame和RDD最大的区别是()。

A)科学统计支持

B)多了schema

C)存储方式不一样

D)外部数据源支持

答案:B

解析：相比于RDD,DataFrame多了数据的结构信息，即schema

138.［单选题］下面关于Hive的SequenceFile格式描述正确的是()

A)SequenceFile是二进制文件格式，以list的形式序列化到文件中

B)SequenceFile存储方式：列存储

C)SequenceFile不可分割、压缩

D)SequenceFile优势是文件和Hadoopapi中的MapFile是相互兼容

答案:D

解析：

139.［单选题］()算法是分类算法。

A)DBSCAN

B)C4.5

C)K-Mean

D)EM

答案:B

解析:C

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据理论考试练习题及答案1-2023-背题版

文档简介

温馨提示

最新文档

评论

大数据理论考试练习题及答案1-2023-背题版

文档简介

温馨提示

最新文档

评论

相关文档