大数据开发基础练习题及答案14-2023-背题版

上传人：无*** IP属地：河北上传时间：2024-01-08 格式：PDF 页数：95 大小：10.55MB 积分：12 举报 版权申诉

已阅读5页，还剩90页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试题说明

本套试题共包括1套试卷

每题均显示答案和解析

大数据开发基础练习题及答案14(500题)

大数据开发基础练习题及答案14

L［单选题］下列哪个不是RDD的缓存方法()

A)persist()

B)cache()

C)memory()

答案:C

解析：

2.［单选题］Spark中Job的划分依据是()。

A)依赖

B)Action算子

C)Transformation算子

答案:B

解析:Action的触发会生成一个Job,Job会提交给DAGScheduler分解成Stage。因此Job是由

Action算子划分的，B正确。

3.［单选题］下列方法中，不可以用于特征降维的方法包括

A)主成分分析PCA

B)线性判别分析LDA

C)深度学习SparseAutoEncoder

D)矩阵奇异值分解SVD

答案:C

解析：

4.［单选题］MaxCompute服务是以RESTfulAPI的形式对外提供。下列()方法可以更新资源。

A)UPDATE

B)POST

OGET

D)PUT

答案:D

解析：

5.［单选题］根据《大数据风控平台项目操作手册》，全景风险视图模块，为了用户能便捷查看客户

的关联风险，实现客群风险监测和关联客户风险联防联控，系统在全景风险视图的客户名称下放置

了()按钮，方便用户查看关键信息。

A)【权限申请】、【集团图谱】、【最终受益人】

B)B.【数据补录】、【集团图谱】、【最终受益人】

C)C.【影像操作】、【企业信用智能分析报告】、【集团图谱】、【最终受益人】

D)D.【担保圈链】、【关联关系图谱】、【企业信用智能分析报告】、【集团图谱】、【最终受益

人】

答案:D

解析：

6.［单选题］假设你正在训练一个LSTM网络，你有一个10000词的词汇表，并且使用一个激活值维度

为100的LSTM块，在每一个时间步中，几的维度是()

A)1

B)100

C)300

D)10000

答案:B

解析：

7.［单选题］Hive不适用于以下哪个场景

A)非实时分析,例如日志分析，统计分析

B)数据挖掘，例如用户行为分析，兴趣分析，区域展示

C)数据汇总，例如每天，每用户点击数，点击排行

D)实时在线数据分析

答案：D

解析：

8.［单选题］Kafka集群在运行期间，直接依赖于下面那些组件？

A)Spark

B)Zookeeper

OHBase

D)HDFS

答案:B

解析：

9.［单选题］内部用户有作业层、管理层、()

A)执行层

B)决策层

C)建议层

D)推送层

答案:B

解析：

10.［单选题］数据的故事化描述是指为了提升数据的（），将数据还原成关联至特定的情景的过程

A）可理解性、可记忆性、可体验性

B）可接受性、可记忆性、可体验性

C）可接受性、可记忆性、可呈现性

D）可理解性、可记忆性、可呈线性

答案:A

解析:数据的故事化描述（Storytelling）是指为了提升数据的可理解性、可记忆性及可体验性，将

数据还原成关联至特定的情景的过程。

11.［单选题］迪士尼MagicBand手环，体现了哪种大数据思维方式：（）

A）我为人人，人人为我

B）全样而非抽样

C）效率而非精确

D）相关而非因果

答案:A

解析：

12.［单选题］以下不属于大数据系统端风险的是。

A）数据系统的申请、查看流程

B）数据查看权限

C）系统平台的稳定性

D）数据库管理、存储

答案:A

解析：

13.［单选题］下列语句执行的结果是（）>>>a=l»>b=2*a/4〉>>a="one">>>print（a,b）

A）one0

B）10

C）one0.5

D）one,0.5

答案:C

解析：

14.［单选题］以下关于关系数据模型的论述正确的是（）

A）只能表示实体间的1：1联系

B）只能表示实体间的l：n联系

C）只能表示实体间的m：n联系

D）可以表示实体间上述三种联系

答案：D

解析：

15.［单选题］在Hive中，以下那一个查询语句可以将2个或多个表集合进行合并（）

A）unionfull

B）unionall

Ounionfor

D）unionon

答案:B

解析：

16.［单选题］与生成方法、半监督SVM、图半监督学习等基于单学习机器利用未标记数据不同，基于

分歧的方法（disagreement-basedme也ods）使用多学习器，而学习器之间的分歧（disagreement）对未

标记数据的利用至关重要（）是此类方法的重要代表

A）协同训练

B）组合训练

C）配合训练

D）陪同训练

答案:A

解析：

17.［单选题］大数据的4V特性不包括

A）Volume（大量）

B）Velocity（高速）

C）Visual（可视）

D）Variety（多样）

答案:C

解析：

18.［单选题］下面关于Hadoop的描述错误的是：（）

A）Hadoop是一个能够对大量数据进行分布式处理的软件框架

B）作为并行分布式计算平台，Hadoop采用分布式存储和分布式处理两大核心技术，能够高效地处理

PB级数据

C）Hadoop只支持Java编程语言

D）Hadoop可以高效稳定地运行在廉价的计算机集群上，可以扩展到数以千计的计算机节点上

答案:C

解析：

19.［单选题］type（complex（2,4））的结果为（___）0

A）class'int'

B）class'float'

C）class'complex'

D）class'bool'

答案:C

解析：

20.［单选题］以下四种描述中，正确的是（）

A）、大数据和海量数据是同一个事物的不同描述

B）、数据和数值是同一个事物的不同描述

C）、数据和数字是同一个事物的不同描述

D）、以上说法均不正确

答案:D

解析：

21.［单选题］（_）是M-P神经元，也称为“阈值逻辑单元”。

A）输入层

B）输出层

C）第一层

D）第二层

答案:B

解析：

22.［单选题］Python使用（）符号标示注释。

A）&

B）*

C）#

D）//

答案:C

解析：单行注释使用#号。

23.［单选题］大数据时代，数据使用的关键是（）.

A）数据收集

B）数据存储

C）数据分析

D）低容错性

答案：D

解析：

24.［单选题］下面哪项操作能实现跟神经网络中Dropout的类似效果？

A）Boosting

B）bagging

C）Stacking

D）Mapping

答案:B

解析：

25.［单选题］网站在运营过程中，会有用户访问并产生行为数据，要想对这些数据进行处理挖掘，如

果是离线批处理下的方案配置，描述不正确的是

A）数据导入导出，Loader

B）数据采集传输：Flume

C）数据计算，Storm

D）数据存储.HDFS或MySql

答案:C

解析：

26.［单选题］机器学习中L1正则化和L2正则化的区别是？（）

A）使用L1可以得到稀疏的权值,使用L2可以得到平滑的权值

B）使用L1可以得到平滑的权值，使用L2可以得到平滑的权值

C）使用L1可以得到平滑的权值,使用L2可以得到稀疏的权值

D）使用L1可以得到稀疏的权值，使用L2可以得到稀疏的权值

答案:A

解析：

27.［单选题］我国首家大数据交易所是：（）

A）贵阳大数据交易所

B）上海数据交易中心

C）华东江苏大数据交易中心

D）浙江大数据交易中心

答案：A

解析：

28.［单选题］下列哪个标识符是合法的（）

A）print

B）_100

C）12name

D）name

答案:B

解析：

29.［单选题］（_）是从海量文本中查询到观点信息，根据主题相关度和观点倾向性对结果排序。

A）情感分类

B）情感检索

C）情感抽取

D）情感分析

答案:B

解析：

30.［单选题］下面不属于大数据4V特性有（一）。

A）容量大

B）类型多

C）速度快

D）应用价值高

答案:D

解析：

31.［单选题］设2={1,1,1,1,1,2,3,4,5,5,5,5},贝。面小（1611g））的显示结果为（）。

A）5

B）12

D）Error

答案:A

解析：

32.［单选题］支撑大数据业务的基础是（）

A）数据科学

B）数据应用

C）数据硬件

D）数据人才

答案:B

解析：

33.［单选题］以下关于Zookeeper的Leader节点在收到数据变更请求后的读写流程说法正确的是?

A）仅写入内存

B）同时写入磁盘和内存

C）先写入内存再写入磁盘

D）先写磁盘再写内存

答案:D

解析：

34.［单选题］numpy中向量转成矩阵使用什么函数？

A）np.reshape（）

B）np.reval（）

C）np.arange（）

D）np.random（）

答案:A

解析：

35.［单选题］对线下零售而言，做好大数据分析应用的前提是。

A）增加统计种类

B）扩大营业面积

C）增加数据来源

D）开展优惠促销

答案:C

解析：

36.［单选题］以下名称中不属于“属性张成的空间”的是（—）o

A）属性空间

B）样本空间

C）输入空间

D）对偶空间

答案:D

解析：

37.［单选题］关于赋值语句，以下选项中描述错误的是

A）在Python语言中，有一种赋值语句，可以同时给多个变量赋值

B）设x="alice"；y="kate",执行x,y=y,x可以实现变量x和y值的互换

C）设a=10；b=20,执行a,b=a,a+bprint（a,b）和a=bb=a+bprint（a,b）之后，得到

同样的输出结果：1030

D）在Python语言中，“=”表示赋值，即将“=”右侧的计算结果赋值给左侧变量，包含“=”的语

句称为赋值语句

答案:C

解析：

38.［单选题］关于基本数据的元数据是指：

A）基本元数据与数据源，数据仓库，数据集市和应用程序等结构相关的信息

B）基本元数据包括与企业相关的管理方面的数据和信息

C）基本元数据包括日志文件和简历执行处理的时序调度信息

D）基本元数据包括关于装载和更新处理，分析处理以及管理方面的信息

答案:D

解析：

39.［单选题］以下不属于关系型数据库的是（）

A）DB2

B）HBase

C）MySQL

D）Oracle

答案:B

解析：

40.［单选题］下列数据类型中不可以作为索引对Numpy数组进行选取的是（）。

A）boolean

B）tuple

C）diet

D）int

答案:C

解析:Numpy数组可以由整数、整数数组和布尔数组进行索引，不包括字典类型。

41.［单选题］scipy.stats模块中对随机变量进行随机取值的函数是（）。

A）rvs

B）pdf

Ocdf

D）sf

答案:A

解析:stats模块中的rvs函数对随机变量进行取值。

42.［单选题］以下哪项用来排序（）

A）ORDEREDBY

B）ORDERBY

C）GROUPBY

D）GROUPEDBY

答案:B

解析：

43.［单选题］Relief的扩展变体Relief-F能够处理（_）问题。

A）二分类

B）多分类

C）回归

D）降维

答案:B

解析：

44.［单选题］信息安全事件的处理不遵循的原则是（）

A）统一领导

B）综合协调

C）快速处理

D）集体责任

答案:D

解析：

45.［单选题］下列哪一项不属于仪表板的布局模式（）

A）标准模式

B）自由模式

C）标准模式（分页）

D）自由模式（分页）

答案:C

解析:

46.［单选题］若设1.启动，2.诊断，3.建立，4.行动，5.学习，贝UDMM模型中的顺序为(_)。

A)12345

B)12354

C)13254

D)13245

答案:A

解析：

47.［单选题］以下关于函数参数和返回值的描述，正确的是：

A)采用名称传参的时候，实参的顺序需要和形参的顺序一致

B)可选参数传递指的是没有传入对应参数值的时候，就不使用该参数

C)函数能同时返回多个参数值，需要形成一个列表来返回

D)Python支持按照位置传参也支持名称传参，但不支持地址传参

答案:D

解析：

48.［单选题］高斯核也称为(_)。

A)多项式核

B)拉普拉斯核

ORBF核

D)Sigmoid核

答案:C

解析：

49.［单选题］数据产品开发的关键环节是()

A)数据收集

B)数据预处理

C)数据学习

D)数据加工

答案:D

解析：数据加工(DataWrangling或DataMunging)是数据产品开发的关键环节。

50.［单选题］Flume的高级组件不包含以下哪个？

A)SinkProcessor

B)ChannelInterceptor

C)ChannelSelector

D)SourceInterceptor

答案:B

解析：

51.［单选题］以下()组件负责存储业务数据、执行数据查询任务以及向CN返回执行结果。

A)GTM

B)WLM

C)CN

D)DN

答案:D

解析：

52.［单选题］下列语句中不能创建一个字典的是()。

A)dictl={}

B)dict2={3：5}

C)dict3={［1,2,3］："uestc")

D)dict4={(1,2,3)："uestc")

答案:C

解析：字典key不可以是可变类型，C选项中列表为可变类型。

246

53.［单选题］下列有关Hive中分桶表理解不正确的是()

A)Hive不能针对分区进行桶的组织

B)Hive可以针对某一列进行桶的组织

C)把表组织成桶可以获得更高的查询处理效率

D)把表组织成桶可以使取样更高效

答案:A

解析：

54.［单选题］国网公司泛在电力物联网2019年建设方案要求，推进营配贯通优化提升，贯通率提升

()O

A)5%

B)7%

010%

D)15%

答案:A

解析：

55.［单选题］某公司在进行大数据离线批处理平台的前期技术选型，以下哪个大数据组件不属于离线

批处理业务所涉及到的组件？

A)HDFS

B)Spark

C)Storm

D)Hive

答案:C

解析：

56.［单选题］下面python循环体执行的次数与其他不同的是。。

A)i=0while(i

B)i=10while(i>0)：print(i)i=i-l

C)forIinrange(10)：Print(i)

D)forIinrange(10,0,-1)：print(i)

答案:A

解析：

57.［单选题］以下关于ElasticSearch介绍错误的是？(

A)Document文档，被素引的基本单位

B)EsMaster主节点

C)Index亲弓I,与关系型数据库中的索引概念一样

D)EsNode：Elasticsearch节点，一个节点就是一个Elasticsearch实例

答案:C

解析：

58.［单选题］以下不是NoSQL常用数据模型的是()

A)Key-Value

B)Key-Colum

C)图存储

D)关系数据模型

答案:D

解析：

59.［单选题］(一)返回模块名称空间的字典，(—)返回当前名称空间的字典。

A)locals()locals()

B)global()locals()

C)locals()global()

D)globals()globals()

答案:B

解析：

60.［单选题］以P(w)表示词条w的概率，假设已知P(南京)=0.8,P(市长)=0.6,P(江大桥

)=0.4；P(南京市)=0.3,P(长江大桥)=0.5o如果假设前后两个词的出现是独立的，那么分词

结果就是()。

A)南京市*长江*大桥

B)南京*市长*江大桥

C)南京市长*江大桥

D)南京市*长江大桥

答案：B

解析：最大概率分词基本思想：一句话有多种切割方法，我们选择联合概率最大的结果。

P（A）=0；P（B）=0.8X0.6X0,4=0.192；P（C）=0；P（D）=0.3X0.5=0.15o所以这

道题选择Bo

61.［单选题］Hive在处理数据时，默认的分隔复合类型中元素的分隔符是（）

A）"A

B［B

c）'c

D）\n

答案：B

解析：

62.［单选题］常用的数据归约方法可以分为（）。

A）维归约、数据压缩

B）维归约、参数归约

C）维归约、值归约

D）数据压缩、值归约

答案:C

解析：常用的数据归约方法有维归约和值归约两种。

63.［单选题］ApacheHadoop可以在（_）平台上运行。

A）Ubuntu

B）Debian

C）Windows

D）跨平台

答案：D

解析：

64.［单选题］某电商公司数据库高级工程师进行大数据分析，现在界面提示："0：

jdbe：hive2：//192.168.0.186：2181/>"信息，那么他最有可能在进行什么场录的数据分析工作？

A）实时检素场景

B）离线批处理场景

C）图搜索场景

D）实时流开发场景

答案:B

解析：

65.［单选题］HDFS的优点不包含哪个？

A）处理超大文件

B）运行于廉价机器上

C）高效存储大量小文件

D）流式的访问数据

答案:C

解析:

66.［单选题］MapReduce流程有（）各阶段。

A）三

B）二

C）四

D）五

答案:A

解析：

67.［单选题］Hive常被用来处理（）场景。

A）事务性处理

B）批量计算

C）实时性计算

D）流计算

答案:B

解析：

68.［单选题］下列关于Numpy的数组Ndarray对象属性的描述错误的是（）。

A）Ndarray.ndim秩，即轴的数量或维度的数量

B）Ndarray.shape数组的维度，对于矩阵来说是n行m列

C）Ndarray.size数组元素的总个数，也是shape属性中nXm的值

D）Ndarray.itemsizeNdarray对象的元素类型

答案：D

解析：itemsize是每个数组元素的字节大小。

69.［单选题］下列算法中属于图像平滑处理的是。。

A）梯度锐化

B）直方图均衡化

0中值滤波

D）Laplacian增强

答案:C

解析：

70.［单选题］在MaxCompute中，可以通过Tunnel命令行来完成数据的上传下载。如果要下载

test_project项目空间下的一个带分区的表test_table_p的内容到log.txt文件中，使用命令

tunneldownloadtest_project.test_table_plog.txt；结果报错，其中出错的部分为：（）。

A）tunnel

B）download

C）test_project.test_table_p

D）log_txt

答案:C

解析:

71.［单选题］假设我们要解决一个二类分类问题，我们已经建立好了模型，输出是0或1,初始时设阈

值为0.5,超过0.5概率估计，就判别为1,否则就判别为0；如果我们现在用另一个大于0.5的阈值,

那么现在关于模型说法，正确的是：

A）模型分类的召回率会降低或不变

B）模型分类的召回率会升高

C）模型分类准确率会升高或不变

D）模型分类准确率会降低

答案:A

解析：

72.［单选题］（_）通过构建并结合多个学习器来完成学习任务。

A）支持向量机

B）贝叶斯分类器

C）神经网络

D）集成学习

答案:D

解析：

73.［单选题］如想定义字符串，应使用（）

A）list

B）set

C）str

D）dict

答案:C

解析：

74.［单选题］关于基于Hadoop的MapReduce编程的环境配置，下面哪一步是不必要的（）

A）配置java环境变量

B）配置Hadoop环境变量

C）配置Eclipse

D）配置ssh

答案:C

解析:记住即可

75.［单选题］以下哪项不是“大数据”和传统的“小数据”的区别？

A）数据规模的采样聚合与全量

B）数据结构的结构化与非结构化

C）数据来源的集中于分散

D）数据质量的高低参差不齐

答案:C

解析:

76.［单选题］在逻辑回归输出与日标对比的情况下，以下评估指标中()不适用

A)AUC-ROC

B)准确度

C)Logloss

D)均方误差

答案：D

解析：

77.［单选题］能实现将一维数据写入CSV文件中的是

A)fo=open("price2016bj.csv","w")Is=［'AAA','BBB','CCC','DDD'］

fo.write(",join(ls)+"\n")fo.close()

B)fr=open("price2016.csv","w")Is=［］forlineinfo：line=

line.replace("\n","")Is.append(line,split(","))print(Is)fo.close()

C)fo=open("price2016bj.csv","r")Is=［'AAA','BBB','CCC',

"DDD'］fo.write(",join(ls)+"\n")fo.close()

D)fname=input("请输入要写入的文件：")fo=open(fname,"w+")ls=［"AAA","BBB",

"CCC"］fo.writelines(Is)forlineinfo：print(line)fo.close()

答案:A

解析：

78.［单选题］在线性回归问题中，我们用R方来衡量拟合的好坏。在线性回归模型中增加特征值并再训

练同一模型。下列说法正确的是()。

A)如果R方上升，则该变量是显著的

B)如果R方下降，则该变量不显著

C)单单R方不能反映变量重要性，不能就此得出正确结论

D)以上答案都不正确

答案:C

解析：单单R方不能表示变量显著性，因为每次加入一个特征值,R方都会上升或维持不变。但在调整R

方的情况下这也有误(如果特征值显著的话，调整R方会上升)。

79.［单选题］当数据集非常大的时候，对全体数据进行处理存在困难时，通过什么方式可以估计和推

断出整体的特性()

A)抽样查询

B)模糊查询

C)条件查询

D)连接查询

答案:A

解析:

80.［单选题］下列选项中，Python不支持的数据类型有()。

A）int

B）char

C）float

D）dictionary

答案:B

解析：

81.［单选题］np.square（2）的结果是多少?

A）1

B）4

C）3

D）2

答案:B

解析：

82.［单选题］下列哪项通常是集群的最主要的性能瓶颈？（）

A）CPU

B）网络

C）磁盘

D）内存

答案:C

解析：

83.［单选题］下列关于BigTable的描述，哪个是错误的？（）

A）爬虫持续不断地抓取新页面，这些页面每隔一段时间地存储到BigTable里

B）BigTable是一布式存储系统

OBigTable起初用于解决典型的互联网搜索问题

D）网络搜索应用查询建立好的索引，从BigTable到网页

答案:A

解析：

84.［单选题］选择哪一个解作为输出，将由学习算法的归纳偏好决定，常见的做法是引人（）。

A）线性回归

B）线性判别分析

C）正则化项

D）偏置项

答案:C

解析：

85.［单选题］变量的不确定性越大，相对应信息'脑的变化是（）

A）蜻变小

B）蜻变大

C)不变

D)以上答案都不正确

答案：B

解析：

86.［单选题］可用作数据挖掘分析中的关联规则算法有()。

A)机器学习、对数回归、关联模式

B)K均值法、SOM机器学习

C)Apriori算法、FP-Tree算法

D)RBF机器学习、K均值法、机器学习

答案:C

解析：关联规则包括Apriori、FP-Tree等算法。

87.［单选题］以下关于DataNode的描述不正确的是？

A)DataNode执行数据块的读/写操作

B)DataNode是用来存储数据块

C)DataNode管理数据块元数据

D)DataNode的数量受数据规模影响

答案:C

解析：

88.［单选题］()是基于规则的分类器

A)C4.S

B)KNN

C)NaiveBayes

D)C.ANN

答案:A

解析：

89.［单选题］关于数据备份的做法不对的是：()

A)确认备份操作步骤准确无误后进行备份操作。

B)各业务部门应将计算机信息数据备份媒体视同重要空白凭证，指定专人负责备份数据媒体的签收

和入库管理。

C)备份数据媒体应按要求写明标识，交办公室档案管理员异地存放，要确保存放地的安全，并定期

进行检查，确保数据的完整性、可用性。

D)涉密信息媒体的备份媒体(磁带、磁盘、光盘、纸媒体等)应有密级及保密期限标志，统一编号

,各单位保密机构负责涉密信息媒体的界定和销毁。

答案:C

解析：

90.［单选题］智能健康手环的应用，体现了()数据采集技术的应用。

A)统计报表

B)网络爬虫

C)传感器

D)API接口

答案:C

解析：

91.［单选题］以下关于数据仓库的叙述中，正确的是()

A)数据仓库主要用于支持决策管理

B)数据仓库的数据源相对比较单一

C)存放在数据仓库中的数据一般是实时更新的

D)数据仓库为企业的特定应用服务、强调处理的响应时间，数据的安全性和完整性等

答案:A

解析：

92.［单选题］若2=叩.abs(-5),则print(a)输出为(—)。

A)-6

B)-4

0-5

D)5

答案:D

解析：

93.［单选题］下列语句会无限循环下去的是()。

A)forainrange(10)：timesleep(10)

B)whilei<10：

Timesleep(10)

C)whileTrue：

Break

D)a=［3,-1,'］

Foriina［：］：ifnota：

Break

答案:B

解析:B中条件l<10恒成立。

94.［单选题］()是指过滤器在图像上滑动的距离。

A)卷积核大小

B)卷积步长

C)过滤器大小

D)图像大小

答案:B

解析：

95.［单选题］任何一个核函数都隐式地定义了一个（_）空间。

A）希尔伯特空间

B）再生希尔伯特空间

C）再生核希尔伯特空间

D）欧式空间

答案:C

解析：

96.［单选题］我想使用JavaAPI删除HDFS中的非空文件夹/123,以下选项正确的是。

A）fs.delete（newPath（"/123"））；

B）fs.delete（newPath（"/123"）,false）；

C）fs.delete（newPath（"/123"）,true）；

D）delete（）方法只能删除文件或非空文件夹，不能直接删除非空文件夹

答案:C

解析：

97.［单选题］例如数据库中有A表，包括学生，学科，成绩三个字段，数据库结构为学生学科成

绩张三语文60张三数学100李四语文70李四数学80李四英语80如何统计最高分＞80的

学科（）

A）SELECTMAX（成绩）FROMAGROUPBY学科HAVINGMAX（成绩）＞80；

B）SELECT学科FROMAGROUPBY学科HAVING成绩＞80；

C）SELECT学科FROMAGROUPBY学科HAVINGMAX（成绩）＞80；

D）SELECT学科FROMAGROUPBY学科WHEREMAX（成绩）＞80；

答案:C

解析：

98.［单选题］下列关于支持向量机优化性问题的形式说法正确的是（_）。

A）它是一个凸二次规划问题

B）它是一个凸一次规划问题

0它是一个凹二次规划问题

D）它是一个凹一次规划问题

答案:A

解析：

99.［单选题］HFile数据格式中的Data字段用于（）。

A）存储实际的KeyValue数据

B）存储数据的起点

C）指定字段的长度

D）存储数据块的起点

答案:A

解析:记住即可。毕竟Data字段用来存储数据？

100.［单选题］多分类学习中，最经典的三种拆分策略不包括()。

A)一对一

B)一对其余

C)一对多

D)多对多

答案：A

解析：多分类学习中，最经典的三种拆分策略包括一对多、多对多、一对其余。

101.［单选题］下面关于机械思维的核心思想，描述错误的是：()

A)世界变化的规律是确定的

B)lit界变化的规律是无法确定的

C)规律不仅是可以被认识的，而且可以用简单的公式或者语言描述清楚

D)这些规律应该是放之四海而皆准的.可以应用到各种未知领域指导实践

答案:B

解析：

102.［单选题］在Matplotlib中，在当前图形上添加一个子图需要用到的函数是()。

A)pit.stackplot()

B)plt.suptitle()

C)pit.subplot()

D)pit.imshow()

答案:C

解析:matplotlib.pyplot.subplot()函数的作用是在当前图形上添加一个子图。

103.［单选题］电影评分是以下哪些的应用实例(—)。

A)分类

B)聚类

C)强化学习

D)回归

答案:D

解析：

104.［单选题］在HBase的专用过滤器中，单列排除过滤器是()

A)SingleValueExcludeFilter

B)SingleColumnExcludeFiIter

C)SingleColumnValueExcludeFilter

D)ColumnValueExcludeFilter

答案:C

解析：

105.［单选题］通过(),持续降低自动采集成本和操作难度，不断提高公司数据的自动采集水平。

A)组织开展数据转换技术及应用研究

B）组织开展数据分类技术及应用研究

C）组织开展数据录入技术及应用研究

D）组织开展数据自动采集技术及应用研究

答案:D

解析：

106.［单选题］回归方程判定系数的计算公式R2=SSR/SST=bSSE/SST,对判定系数描述错误的是（）

A）式中的SSE指残差平方和

B）式中的SSR指总离差平方和

C）判定系数用来衡量回归方程的抗合优皮

D）判定系教K等于相关系数的平方

答案:B

解析：

107.［单选题］下列哪个程序通常与NameNode在一个节点启动？

A)SecondaryNameNode

B)DataNode

C)TaskTracker

D)Jobtracker

答案:D

解析：hadoop的集群是基于master/slave模式，namenode和jobtracker属于master,datanode和

tasktracker属于slave,master只有一个，而slave有多个。

JobTracker对应于NameNode；

TaskTracker对应于DataNode。

108.［单选题］a和b为两个整数，以下关系表达式语法错误的是？

A)a==b

B)ab

C)a>=b

D)a!=b

答案:B

解析：

109.［单选题］Oracle数据库最近使用过的SQL语句存储在

A）共享池

B）数据高速缓冲区

C）私有全局区

D）用户全局区

答案:B

解析：

110.［单选题］K-摇臂赌博机属于（）算法。

A）机器学习

B）深度学习

C）强化学习

D）有监督学习

答案:C

解析：

11L［单选题］二项分布的数学期望为（）

A）n（l-n）p

B）np（1-p）

C）np

D）n（1-p）

答案:C

解析：

112.［单选题］MapReduce框架对（）按照键值排序。。

A）中间结果

B）最终结果

C）输入数据

D）输出数据

答案:A

解析：

113.［单选题］对于ADS的主键，（）说法是正确的。

A）对于updateType=realtime的表来讲，主键是必须的，且主键中不能包含作为一级hash分区的分区

列

B）对于ADS的普通表，无论updateType如何取值，主键是必要的

C）对于updateType=batch的表来讲，主键是必须的，主要是约束导入数据时的重复记录

D）有主键的表的性能和用法上和没有主键的表之间没有任何区别

答案:D

解析：

114.［单选题］进入要操作的数据库TEST用以下哪一项（）

A）INTEST

B）SHOWTEST

OUSERTEST

D）USETEST

答案:D

解析：

115.［单选题］在图集合中发现一组公共子结构，这样的任务称为（）

A）频繁子集挖掘

B）频繁于圈挖掘

C）频繁数据项挖掘

D）频繁模式挖掘

答案:B

解析：

116.［单选题］以下哪一项不是Spark框架可用的资源调度系统？

A）Mesos

B）Yarn

C）deremel

D）aws

答案:C

解析：

117.［单选题］（_）是一类用图来表达变量相关关系的概率模型。

A）神经元模型

B）感知机模型

C）概率图模型

D）SVM

答案:C

解析：

118.［单选题］以下描述中错误的是（）。

A）数据化与数字化是两个不同概念

B）数据与数值是一个概念

C）大数据与海量数据是两个不同的概念

D）数据和信息是两个不同的概念

答案:B

解析：

119.［单选题］（）对监管数据质量承担最终责任

A）董事长

B）风险管理部

C）行长

D）数据运管部

答案:A

解析：

120.［单选题］阿里巴巴旗下的数据管理平台，被称为：

A）达摩盘

B）支付宝

C）蚂蚁花呗

D)招财宝

答案:A

解析：

121.［单选题］感知层是物联网体系架构的()层。

A)第一层

B)第二层

C)第三层

D)第四层

答案:A

解析：

122.［单选题］执行后可以查看Python的版本的是

A)importsysprint(sys.Version)

B)importsystemprint(system,version)

C)importsystemprint(system.Version)

D)importsysprint(sys.version)

答案:D

解析：

123.［单选题］一般地，”人“与”马“分别与”人马“相似，但”人“与”马”很不相似；要达到

这个目的，可以令”人“”马“与”人马”之间的距离都比较小，但”人“与”马”之间的距离很

大，此时该距离不满足(―)。

A)非负性

B)同一性

C)对称性

D)直递性

答案:D

解析：

124.［单选题］MapReduce中的归约过程是

A)Map

B)Guiyue

C)Summary

D)Reduce

答案:D

解析：

125.［单选题］HDFS采用块复制的概念，让数据在集群的节点间进行复制，从而实现了一个(—)的

系统。

A)云计算

B)分布式文件

C)流处理

D)高度容错性

答案:D

解析：

126.［单选题］实现One-Hot编码可以用Pandas中()函数。

A)groupby()

B)merge()

C)get_dummies()

D)llna()

答案:C

解析：get_dummies()生成哑变量，与One-Hot编码一致。

127.［单选题］kafka-clustermirroring工具可以实现()功能。

A)kafka集群数据同步方案

B)kafka单集群内数据备份

Okafka单集群内数据恢复

D)以全部不对

答案:A

解析：

128.［单选题］线性回归的基本假设不包括()。

A)随机误差项是一个期望值为0的随机变量

B)对于解释变量的所有观测值，随机误差项有相同的方差

C)随机误差项彼此相关

D)解释变量是确定性变量不是随机变量，与随机误差项之间相互独立

答案:C

解析：线性回归的基本假设有：(1)线性关系假设。(2)正态性假设。指回归分析中的Y服从正

态分布。(3)独立性假设。包含两个意思：①与某一个X对应的一组Y和与另一个X对应的一

组Y之间没有关系，彼此独立；②误差项独立，不同的X所产生的误差之间应相互独立，无自相

关。(4)误差等分散性假设。特定X水平的误差，除了应呈随机化的常态分配，其变异量也应相

等，称为误差等分散性。

129.［单选题］执行以下代码段时a=set('apple')b=set('orange')print(a&b)时，输出为

(一)。

A){'r,'e','a','p')

\(iitfiiftiitr)

nBMr,a,g,e,n,o)

Cr>)\tf»11,»pf,•g1,tof,•e•,tnf,ia»,frt)1

D){，e：H}

答案:D

解析：

130.［单选题］BP算法基于（一）策略，以目标的（―）梯度方向为参数进行调整。

A）前向传播，正

B）梯度下降，负

C）前向传播，负

D）梯度下降，正

答案:B

解析：

131.［单选题］下列有关Hive和Impala的对比错误的是（）。

A）Hive与Impala中对SQL的解释处理比较相似，都是通过词法分析生成执行计划

B）Hive与Impala使用相同的元数据

C）Hive适合于长时间的批处理查询分析，而Impala适合于实时交互式SQL查询

D）Hive在内存不足以存储所有数据时，会使用外存，而Impala也是如此

答案:D

解析：

132.［单选题］选择哪一个解作为输出，将由学习算法的归纳偏好决定，常见的做法是引人（）

A）线性回归

B）线性判别分析

C）正则化项

D）偏置项

答案:C

解析：

133.［单选题］下面哪个功能不是大数据平台安全管理组件提供的功能0。

A）接口代理

B）接口认证

C）接口授权

D）路由代理

答案:D

解析:接口可以对用户的身份和请求的参数进行验证，以保证接口的安全。通过添加身份验证和数字

签名的方法提高接口安全性，防止数据被集改和信息泄露。

134.［单选题］在完整的异常语句中，语句出现的顺序正确的是（）o

A）try—exceptfelseffinally

B）try->else-*except-*finally

C）tryfexceptffinally—else

D）try-*else-*else-*except

答案:A

解析：

135.［单选题］Gremlin中查询单个点的信息该用什么命令

A)g.VO.hasLabel("test")

B)g.VOhasLabel("test"),values("age")

C)9.VO.hasLabel("test).valueMap("String,list","age")

D)gV(13464736).valueMapO自

答案:D

解析：

136.［单选题］大数据的4V特点：Volume、Velocity,Variety,Veracity,其中Volume的含义是()

A)价值密度低

B)处理速度快

C)数据类型繁多

D)数据体量巨大

答案:D

解析：

137.［单选题］下列操作是只能删除空目录的是(—)。

A)rmtree

B)mkdir

C)chdir

D)rmdir

答案:D

解析：

138.［单选题］向量空间模型的缺陷不包括()

A)维度灾难

B)模型稀疏性

C)语义信息缺失

D)无法计算文本相似度

答案:D

解析：

139.［单选题］()和假设检验又可归结为统计推断的范畴，即对总体的数量特征做出具有一定可靠程度

的估计和判断。

A)参数估计

B)逻辑分析

C)方差分析

D)回归分析

答案：A

解析:推断统计包括参数估计和假设检验两方面的内容。

140.［单选题］摩尔定律指出，当价格不变时，集成电路上可容纳的晶体管数目，约每隔()便会增

加一倍，性能也将提升一倍。

A）6个月

B）18个月

012个月

D）24个月

答案:B

解析：

141.［单选题］下列操作属于预剪枝的是（）。

A）信息增益

B）计算最好的特征切分点

C）限制树模型的深度

D）可视化树模型

答案:C

解析：预剪枝是指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带

来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点。限制树模型的深度属于预剪枝。

142.［单选题］公司（）负责研究审议网络与数据安全总体方针、重大政策和重大事项。

A）国网安质部

B）国网信通部

C）网络安全和信息化领导小组

D）国网办公厅

答案:C

解析：

143.［单选题］下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计，错误的是（）

A）FSDataInputStream扩展了DatalnputStream以支持随机读

B）为实现细粒度并行，输入分片（InputSplit）应该越小越好

C）一台机器可能被指派从输入文件的任意位置开始处理一个分片

D）输入分片是一种记录的逻辑划分，而HDFS数据块是对输入数据的物理分割

答案:B

解析：

144.［单选题］（一）是一个在HDFS上开发的面向列的分布式数据库。

A）Hive

B）Pig

C）Mahout

D）Hbase

答案:D

解析：

145.［单选题］以下（）在关系模型中表示属性的取值范围。-

A）元组

B）键

C）属性

D）域

答案:D

解析：

146.［单选题］启动hadoop所有进程的命令是（）。

A）start-dfs.sh

B）start-all.sh

C）start-hadoop.sh

D）start-hdfs.sh

答案:B

解析：

147.［单选题］以下图像分割方法中，不属于基于图像灰度分布的阈值方法的是

A）类间最大距离法

B）最大类间、内方差比法

C）p-参数法

D）区域生长法

答案:D

解析：

148.［单选题］数据管理成熟度模型中成熟度等级最高的是（）。

A）已优化级

B）已测量级

C）已定义级

D）已管理级

答案:A

解析：已优化是数据管理成熟度模型中成熟度的最高等级。

149.［单选题］int（'Oxa',16）的结果为（—）。

A）10

B）12

016

D）a

答案:A

解析：

150.［单选题］大数据的起源是（）.

A）金融

B）电信

C）互联网

D)公共管理

答案:D

解析：

151.［单选题］业务中台方面，以业务为导向，优先建设()和客户服务业务中台，后期逐步视情况

拓展账务结算等业务共享服务

A)电网服务业务中台

B)电网资源业务中台

C)电网优化业务中台

D)电网环境业务中台

答案:B

解析：

152.［单选题］ElasticSearch中构建一个query需要用到下列哪个代码？

A)QueryBuilders.putQuery()

B)QueryBuilders.matchQuery()

C)QueryBuiIdersgetQuery()

D)QueryBuiIderscreateQuery()

答案：B

解析：

153.［单选题］关系云的一个重要功能是提供()。

A)数据库即服务

B)虚拟服务

C)弹性计算

D)按需服务

答案:A

解析：关系云的一个重要功能是提供数据库即服务(DatabaseasaService),用户无须在本机安

装数据库管理软件，也不需要搭建自己的数据管理集群，而只需要使用服务提供商提供的数据库服

务。

154.［单选题］下列不属于Transformation操作的是()。

A)map

B)filter

C)sample

D)count

答案:D

解析：

155.［单选题］使用池化层相比于相同步长的卷积层的优势在于？

A)参数更少

B)可以获得更大下采样

C）速度更快

D）有助于提升精度

答案:A

解析：

156.［单选题］下列关于线性回归分析中的残差说法正确的是（）。

A）残差均值总是为零

B）残差均值总是约等于零

C）残差均值总是大于本

D）以上答案都不正确

答案:A

解析：

157.［单选题］执行以下代码段x=32deffl()：globalxx=14deff2()：globalxx=

29print(x)时,输出为()。

A)32

B)14

029

D)以上都不是

答案:A

解析：

158.［单选题］以下插入记录正确的()

A)insertintoemp(ename,hiredate,sal)values(valuel,value2,value3)；

B)insertintoemp(ename,sal)values(valuel,value2,value3)；

C)insertintoemp(ename)values(valuel,value2,value3)；

D)insertintoemp(ename,hiredate,sal)values(valuel,value2)；

答案:A

解析：

159.［单选题］给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、

异类样例的投影点尽可能远离，这说的是()算法。

A)PCA

B)SVM

C)K-means

D)LDA

答案:D

解析：

160.［单选题］FusioninsightHD系统中，下面哪个方法不能查看到Loader作业执行的结果

A）通过LoaderUI界面查看

B）通过YARN任务管理查看

C)通过NodeManager查看

D)通过Manager的告警查看

答案:C

解析：

161.［单选题］关于“from-import”形式，以下错误的选项是(—)。

A)从模块名导入标识符

B)这种导入形式可以防止名称冲突

C)被导入模块的命名空间是模块导入的一部分

D)模块中的标识符可直接访问为标识符

答案:B

解析：

162.［单选题］下列模型中与文本分类相关的是()。

A)决策树

B)神经网络

OKNN算法

D)以上都对

答案:D

解析:决策树、神经网络、KNN算法都属于统计学习方法，是文本分类领域的主流。

163.［单选题］()属于Spark框架中的可扩展机器学习库。

A)MLib

B)GraphX

C)Streaming

D)SparkSQL

答案:A

解析:MLib是可扩展机器学习库。

164.［单选题］关于RDD,下列说法错误的是？

A)RDD具有血统机制答案：Lineage

B)RDD默认存储在磁盘

ORDD是一个只读的，可分区的分布式数据集

D)RDD是Spark对基础数据的抽象

答案：B

解析：

165.［单选题］Spark的集群管理模式不包含()。

A)Standalone模式

B)Message模式

OYARN模式

D)Mesos模式

答案:B

解析：Spark的集群管理主要有Standalone模式、YARN模式和Mesos模式三种。

166.［单选题］在Kafka集群中，Kafka服务端的角色是下列哪-项？

A)Producer

B)ZooKeeper

C)Consumer

D)Broker

答案：D

解析：

167.［单选题］()是!!。：™.rvs(5)的结果。

A)7.1316243700758

B)array(［-0.35687759,1.34347647,-0.11710531,-1.00725181,-0.51275702］)

C)array(［1,2,3,4,5］)

D)array(［5,4,3,2,1］)

答案:A

解析：

168.［单选题］(_)不属于基本分析方法。

A)回归分析

B)分类分析

C)聚类分析

D)元分析

答案：D

解析：

169.［单选题］Hadoop使用了一套独有的配置文件管理系统，并提供自己的API,即使用()处理配

置信息。

A)org.apache,hadoop.conf.Configuration

B)org.apache,hadoop.conf.Config

C)org.apache,hadoop.fs.FileSystem

D)org.apache,hadoop.fs.Path

答案:A

解析：

170.［单选题］大数据的起源()

A)电信

B)互联网

C)金融

D)公共管理

答案:B

解析：

171.［单选题］在Hadoop生态系统的组件中()是可扩展可伸缩的工作流协调管理器。

A)Oozie

B)Flume

C)Sqoop

D)Hue

答案:A

解析：

172.［单选题］执行以下代码段cars=L'bmw','audi",'toyota",

'subaru'］cars,sort()print(cars)时，输出为()。

A)［'audi','bmw','subaru','toyota'］

B)［'toyota','subaru','bmw','audi'］

C)［'bmw','audi','toyota','subaru'］

D)［'bmw','toyota','audi','subaru'］

答案:A

解析：

173.［单选题］Flume中一个ChannelSelector的作用是什么?

A)设置多个channel发往多个sink的策略

B)设置一个source发往多个channel的策略

C)设置多个source发往多个channel的策略

D)设置一个channel发往多个sink的策略角

答案：B

解析：

174.［单选题］Hadoop2.x版本中的数据块大小默认是多少？()

A)64M

B)128M

O256M

D)512M

答案：B

解析：

175.［单选题］下列有关KNN算法的流程顺序，描述正确的是()①确定K的大小，和距离的计算方法

②根据K个样本的所属类别，投票决定测试样本的类别归属③计算训练集样本与测试样本的举例，选

出K个与测试样本最相似的样本

A)①②③

B)③②①

C)①③②

D)②①③

答案:c

解析：

176.［单选题］HAVING子句的位置放在GROUPBY子句之（）

A）前后都可以

B）前

C）后

D）以上都不对

答案:C

解析：

177.［单选题］以下哪项属于Flume的基本数据单位？

A）Subject

B）Topic

C）Object

D）Event

答案:D

解析：

178.［单选题］消费信息是否属于用户信息？（）

A）属于

B）不属于

C）未定义

D）以上都不对

答案:A

解析：

179.［单选题］与生成方法、半监督SVM、图半监督学习等基于单学习机器利用未标记数据不同，基于

分歧的方法（disagreement-basedmethods）使用多学习器，而学习器之间的分歧（disagreement）对未

标记数据的利用至关重要。（）是此类方法的重要代表。

A）协同训练

B）组合训练

C）配合训练

D）陪同训练

答案:A

解析:协同训练是此类方法的重要代表，它很好地利用了多视图的相容互补性。

180.［单选题］下列关于Python模块的理解错误的是（）。

A）模块是包含函数和变量的Python文件

B）不可以使用"操作符访问模块中的函数和变量

C）可以导入模块中的所有类

D）可以在一个模块中导入另一个模块

答案:B

解析：导入模块后，可直接使用“模块.函数名/变量名”访问函数或变量。

181.［单选题］k-means算法中K指的是：()

A)K个样本

B)K个质心

C)K次迭代

D)K次方

答案：B

解析：

182.［单选题］某电商网站想要实现热销商品的实时TopN排名，可以使用哪种技术实现？

A)Elasticsearch的快速检索

B)HBase的rowkey索引

C)Hive的关联查询分析

D)Redis的排序计算

答案:D

解析：

183.［单选题］()是表管理类，提供了一个接口来管理HBase数据库的表信息。它提供的方法包括

：创建表、删除表、列出表项、使表有效或无效，以及添加或删除表列簇成员等。

A)Admin

B)Table

C)HTableDescriptor

D)HColumnDescriptor

答案:A

解析：

184.［单选题］以下不属于维度建模过程的是()

A)选择业务过程

B)定义粒度

C)建立模型

D)确定事实

答案:C

解析：

185.［单选题］下列哪个不属于可视化工具？()

A)Google

B)D3

C)Visual.ly

D)Spark

答案:D

解析:

186.［单选题］与以下代码段var=lOOifvar==200：print("1-Gotatrueexpression

value")print(var)elifvar==150：print("2-Gotatrueexpressionvalue")

print(var)elifvar==100：print("3-Gotatrueexpressionvalue")print(var)else：

print("4-Gotafalseexpressionvalue")print(var)等效的列表描述(___)0

A)1-GotatrueexpressionvaluelOO

B)2-GotatrueexpressionvaluelOO

C)3-GotatrueexpressionvaluelOO

D)4-GotatrueexpressionvaluelOO

答案:C

解析:

187.［单选题］数学关系式2

A)2

B)2

C)2

D)x>2orx

答案：B

解析：

188.［单选题］在Numpy中，数组拼接的函数不包括()。

A)append()

B)insert()

C)vstack()

D)where()

答案:D

解析:append()函数可向数组横纵坐标添加数组，insert()函数可向一维数组后添加数据

,vstack()函数可以进行数组拼接，where()函数是对数据进行条件筛选。

189.［单选题］HBase依赖提供强大的计算能力。

A)Zookeeper

B)Chubby

ORPC

D)MapReduce

答案:D

解析:记住即可

190.［单选题］在k近邻学习算法中，随着k的增加，上界将逐渐降低，当k区域无穷大时，上界和下界

碰到一起，k近邻法就达到了(_)。

A)贝叶斯错误率

B)渐进错误率

C）最优值

D）上界

答案:A

解析：

191.［单选题］（）属于浅层学习模

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据开发基础练习题及答案14-2023-背题版

文档简介

温馨提示

最新文档

评论

大数据开发基础练习题及答案14-2023-背题版

文档简介

温馨提示

最新文档

评论

相关文档