2024年世界职业院校技能大赛中职组“大数据应用与服务组”赛项考试题库（含答案）

上传人：浪*** IP属地：河北上传时间：2024-12-11 格式：PDF 页数：123 大小：19.40MB 积分：12 举报 版权申诉

2024年世界职业院校技能大赛中职组“大数据应用与服务组”赛项考试题库（含答案）_第2页

2024年世界职业院校技能大赛中职组“大数据应用与服务组”赛项考试题库（含答案）_第3页

2024年世界职业院校技能大赛中职组“大数据应用与服务组”赛项考试题库（含答案）_第4页

2024年世界职业院校技能大赛中职组“大数据应用与服务组”赛项考试题库（含答案）_第5页

已阅读5页，还剩118页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2024年世界职业院校技能大赛中职组“大数据应用与服务组”

赛项考试题库（含答案）

一、单选题

1.ZooKeeper的特点不包括（）。

A、顺序一致性

B、原子性

C、可靠性

D、复合系统映像

答案：D

2.在hadoop配置中core-site,xml的配置是（）参数。

A、集群全局参数

B、HDFS参数

C、Mapreduce参数

D、集群资源管理系统参数

答案：A

3.当Kafka中日志片段大小达到（）时，当前日志片段会被关闭。

A、1M

B、100M

C、1GB

D、10GB

答案：C

4Hive中的哪个配置参数用于指定Hive的临时文件目录()?

A、hive.tmp.dir

Bvhive.temp.directory

C、hive.temp.dir

D、hive.tmp.directory

答案：A

5.Flume的哪个版本加入了Kafka作为源和汇点？()

A、1.X版本

B、2.X版本

C、3.X版本

D、4.X版本

答案：B

6.Kafka的消息是如何进行顺序写入的？()

A、顺序写入到磁盘

B、顺序写入到内存

C、顺序写入到缓存

D、顺序写入到索引文件

答案：A

7.Stage的Task的数量由()决定。

A、Partition

B、Job

C、Stage

D、TaskScheduIer

答案：A

8.sqoop的组件功能是()o

A、sqoop只能实现关系型数据库向非关系型数据传输数据

B\sqoop是关系型数据库

C、sqoop实现在关系型数据库和非关系型数据库之间时行数据传输

D、sqoop是非关系型数据库

答案：C

9.ZooKeeper中的一次写操作是原子的吗？()

A、是，写操作是原子的

B、否，写操作可能不是原子的

C、取决于写操作的类型

D、取决于节点的类型

答案：A

10.FIink的高可用性(HighAvailabiIity)设置通常需要配置的组件是()。

A、JobManager和TaskManager

B\ResourceManager和NodeManager

GNameNode和DataNode

D、ZooKeeper集群

答案：D

11.在Flink中，水位线是()生成的。

A、基于系统时间的周期性

B、基于事件时间的周期性

C、由用户手动指定

D、实时

答案：A

12.典型的丽$01.数据库是（）。

A、Hive

B、MySQL

C、Hbase

D\OracIe

答案：C

13.Flink的窗口操作通常在（）执行，以对数据进行分组、聚合和统计。

A、数据产生时

B、数据进入Flink时

C、数据在窗口中间时

D、数据离开Flink时

答案：C

14.要在Hive中启用Kerberos认证，应该设置哪个配置参数（）?

A、hive.security.authentication

B\hive.kerberos.enabIed

C、hive.auth.kerberos

D\hive.authentication.method

答案：A

15.Hive中的自动分区是通过哪个配置参数启用的（）?

A、hive.auto,partition

Bvhive.partition.auto

C、hive.exec,dynamic,partition

D、hive.partitioning.auto

答案：c

16.以下选项哪个是MapReduce正确的运行模型（）。

A、Reduce-Map-ShuffIe

B、ShuffIe-Map-Reduce

C、Map-ShuffIe-Reduce

D、Map-Reduce-ShuffIe

答案：c

17.将一个RDD转换为DataFrame的方法是（）。

A、dataFrame（）

B\toDataFrame0

C、DF0

D、toDF0

答案：D

18.Hadoop集群中存在的主要性能瓶颈是（）。

A、CPU

B、网络

C\磁盘10

D、内存

答案：C

19.以下选项中说法正确的是（）。

A、DAG是弹性分布式数据集的简称，是分布式内存的一个抽象概念，提供了一

种高度受限的共享内存模型

B、Application是运行在工作节点的一个进程，负责运行Task

C\Job是运行在Executor上的工作单元

D、Stage是Job的基本调度单位，一/Job会分为多组Task,每组Task被称为

Stage

答案：D

20.Dataset最终在（）版本中被定义成Spark新特性。

A、Sparkl.6

B、Sparkl.8

C、Spark2.0

D\Spark2.2

答案：c

21.在Hive中，哪个配置参数用于指定HiveCLI的历史命令记录目录（）?

A、hive.history,fiIe.directory

Bvhive.query.Iog.dir

C、hive.cIi.history,directory

D、hive.command.Iog.dir

答案：c

22.Docker中的每一个工作都可以抽象为一个()。

A、实例

B、进程

C、Job

D、请求

答案：C

23.关于Hivemetastore的三种模式的描述错误的是()。

A、Derby方式是内嵌的方式，也是默认的启动方式，一般用于单元测试

B、local模式中，使用MySQL本地部署实现metastore

C、remote模式为远程MySQL

D、erby方式在同一时间只能有多个进程连接使用数据库

答案：D

24.Kafka是一种()。

A、数据库系统

B、分布式消息队列系统

C、缓存系统

D、文件系统

答案：B

25.在Hive中，以下哪个配置参数用于指定Hive的执行引擎为Spark()?

A、hive.execution.engine=spark

B\hive.spark,execution.engine=true

C、hive.spark,engine.enabIed=true

D、hive.query,engine=spark

答案：A

26.Hive中的哪个配置参数用于指定Hive元数据存储的连接URL（）?

Avhive.metastore,db.urI

B、hive.metastore.uri

C、hive.metastore,connection.urI

Dvhive.metastore,db.connection

答案：A

27.将大数据平台数据导出到mysqI可以使用（）工具。

A、Hadoop

B、Sqoop

C、Hive

D、XshelI

答案：B

28.在导入开始之前,Sqoop检索出表中所有的列以及列的SQL数据类型,这些SQ

L类型被映射什么类型（）。

A、C

B、C++

C、Java

D\Python

答案：c

29.Flink的CEP(CompIexEventProcessing)库用于(),帮助检测和处理特定

的事件模式。

A、执行复杂数据处理操作

B、处理图形数据

C、处理实时事件流

D、控制数据流速度

答案：C

30.关于DataFrame的优势,以下描述错误的是O。

A、DataFrame提升了Spark框架的执行效率

B\DataFrame减少了数据读取时间

C\DataFrame可以优化执行计划

D\ataFrame可以完全替换RDD

答案：D

31.Kafka的高可用性是通过什么机制实现的？()

A、数据复制

B、数据压缩

C、数据分片

D、数据缓存

答案：A

32.使用Dockerrm命令删除容器时只删除容器的链接,需要使用的命令选项是()。

A、f

B、I

C、v

D、i

答案：B

33.在hive中下列哪个命令不可以实现去重（）。

A、distinet

B、groupby

Cvrow_number

Dvhaving

答案：D

34.关于SparkSQL,以下描述错误的是（）。

A、SparkSQL使用的数据抽象并非是DataFrame,而是RDD

B、在Spark的早期版本中，DataFrame被称为SchemaRDD

C\DataFrame是一种以RDD为基础的分布式数据集

D、ataFrame可以完成RDD的绝大多数功能

答案：A

35.Kafka的消息压缩算法可以选择的方式是（）。

A、GZIP

B、Snappy

C、LZ4

D、所有以上

答案：D

36.FIink的广播状态(Broadcaststate)用于()。

A、在所有任务之间共享状态

B、保持数据流的连续性

C、加速数据处理

D、控制数据流速度

答案：A

37.Sqoop将导入或导出命令翻译成什么程序来实现导入导出()o

A、Spark

B、Storm

C\MapReduce

D\Tez

答案：C

38.关于ZooKeeper说法错误的是()。

A、ZooKeeper是一个高可用的分布式数据管理和协调框架

B、能够很好的保证分布式环境中数据的一致性

C、越来越多的分布式系统(HadoopvHBase、Kafka)中使用ZooKeeper

D、Hadoop的高可用不需要用到ZooKeeper

答案：D

39.DockerfiIe配置文件使用()命令指定基础镜像。

A、IMPORT

B、GET

C、OPEN

D、FROM

答案：D

40.测试Sqoop是否能够正常连接MySQL数据库命令是（）。

A、sqoopIist-database-connectjdbc:mysqI://127.0.0.1:3306/-usernamer

oot-P

B、sqoopIist-databases-connectionjdbc:mysqI://127.0.0.1:3306/-usern

ameroot-P

CvsqoopIist-databases-connectjdbc:mysqI://127.0.0.1:3306/-username

root-L

D、sqoopIist-databases-connectjdbc:mysqI://127.0.0.1:3306/-username

root-P

答案：D

41.hadoop2.0与hadoopl.0区别（）。

A、增加MapReduce2

B、增加YARN

G增加HDFS2

D、增加容错机制

答案：B

42.Sqoop中哪个参数用于指定要使用的分隔符，以便在导入数据时正确处理字

段？（）

A、-fieId-separator

B\-fs

C、-deIimiter

D、-spIit-by

答案：A

43.SparkSQL中，model函数可以接收的参数有哪些（）。

AvOverride、Ignore

B、Override、Ignore、Append

C、Ignore、Append、ErrorIfExists

DvOverridexIgnore、AppendsErrorIfExists

答案：D

44.在ZooKeeper中，每个节点都有一个唯一的标识符，这个标识符是（）。

A、ZNode

B、EphemeraINode

C、PersistentNode

D、ZooNode

答案：A

45.ZooKeeper中的一次读操作是原子的吗？（）

A、是，读操作是原子的

B、否，读操作可能不是原子的

C、取决于读操作的类型

D、取决于节点的类型

答案：A

46.FIink的时间语义（TimeSemantics）中的事件时间（EventTime）和处理时

间（ProcessingTime）的区别是（）。

A、事件时间是事件发生的时间，处理时间是事件进入Flink的时间

B、事件时间是事件进入Flink的时间，处理时间是事件发生的时间

C、事件时间和处理时间是相同的

D、事件时间和处理时间没有明确的定义

答案：A

47.在Hive中，以下哪个配置参数用于指定Hive执行计划的输出目录()?

A、hive.query,pIan.output,directory

B、hive.exec,pIan.output,directory

C、hive.pIan.output,directory

D、hive.query,execution.directory

答案：A

48.启动一个容器的操作命令是()。

A、dockerstart

B、dockeropen

Cvdockernew

Dvockergo

答案：A

49.Flink的本地模式(LocaIMode)和集群模式(CIusterMode)之间的主要区

别是()。

A、部署方式

B、编程语言

C、安全性设置

D、并行度设置

答案：A

50.消费者出现活锁问题时应该（）。

A、增加max.poll,intervaI.ms相关参数

B、减少消费者数量

C、重启集群

D、提IWJpoII频率

答案：A

51.Hive中分组的关键字是什么（）?

Axgroupby

Bvorderby

C、distributeby

D、sortby

答案：A

52.关于Hive数据倾斜问题描述正确的是（）。

A、不需要了解业务，对业务进行数据探查无法解决数据倾斜

B、每一个数据倾斜的作业都需要优化

C、小文件合并不会解决数据倾斜的问题

D、可以适当的通过控制mapper和reducer来控制数据倾斜的问题

答案：D

53.在Docker的运行过程中，对镜像的操作不包括（）。

A、deIete

B、search

C、puII

Dvpush

答案：A

54.关于SparkStreaming的优点，不包括（）。

A、易用性

B、容错性

C、易整合性

D、低吞吐量

答案：D

55.下列关于MapReduce说法不正确的是（）。

A、MapReduce是一种计算框架

B\MapReduce来源于googIe的学术论文

C\MapReduce程序只能用java语言编写

D\MapReduce隐藏了并行计算的细节，方便使用

答案：C

56.以下关于Spark中的RDD的说法，错误的是（）。

A、RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合

B、每个RDD可分成多个分区，每个分区就是一个数据集片段

C、RDD提供了一种高度共享内存模型，RDD既可以读，也可以直接修改

D、RDD的不同分区可以被保存到集群中不同的节点上，从而可以在集群中的不

同节点上进行并行计算

答案：c

57.以下关于Spark计算框架，说法错误的是（）。

A、Spark支持内存计算

B、Spark框架是使用Java编写的

C、Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和

图算法组件

D\Spark可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazo

nEC2等云环境中

答案：B

58.在Hadoop生态组件中，哪个产品可用于复杂的批量数据处理。（）

A、MapReducevHive

B、ImpaIa

C、Storm

D、Mahout

答案：A

59.在Hive中，以下哪个配置参数用于指定Hive服务器的端口号（）?

A、hive,server,port

B、hive.server2,thrift.port

Cvhive.server,rpc.port

Dvhive,thrift,server.port

答案：B

60.HadoopMapReduce支持多种语言编程，下列说法不正确的是（）。

A、可以用JAVA语言编写MapReduce应用程序

B、可以用C/C++语言编写MapReduce应用程序

C、可以用Python语言编写MapReduce应用程序

D、可以用javascript语言编写MapReduce应用程序

答案：D

61.查看HDFS的报告命令是0o

A、bin/hdfsdfsadmin-report

B、in/hdfs-report

C、bin/hdfsdeadmin-report

D、bin/hdfsdfs-report

答案：A

62.以下选项哪个是HDFS的名称节点（）。

A、DataNode

B、SecondaryNode

C、Node

DvNameNode

答案：D

63.SparkJob默认的调度模式是（）。

A、FIFO

B、FAIR

C\无

D、运行时指定

答案：A

64.Flume的哪个版本引入了Kafka作为其事件源和接收器？（）

A、FIume1.6

B、FIume1.7

C、DH5.0

D、CDH5.1

答案：c

65.在ZooKeeper中,关于节点的ACL（访问控制列表）说法错误的是O。

A、CL可以用于控制节点的读写权限

B、ACL可以定义多个权限组合

C、ACL可以设置到子节点上并继承父节点的权限

D、ACL只能设置在持久节点上

答案：D

66.查看Docker所有容器的命令是（）。

A、dockerps

B、dockerps-a

C、dockerpsaII

D、ockeraII

答案：B

67.Flume的事件Body可以包含什么类型的数据？（）

A、String,Byte数组,字节流,MapVString,String＞和自定义对象序列化后的数

据。

B\String,Map<String,String>和自定义对象序列化后的数据。

C、Byte数组,字节流和自定义对象序列化后的数据。

D、String和自定义对象序列化后的数据。

答案：A

68.在ZooKeeper中，节点可以设置监听器吗？()

A、是，可以设置监听器

B、否，节点没有监听功能

C、取决于节点的类型

D、取决于节点的权限设置

答案：A

69.Flink中的转换算子(TransformationOperator)通常用于()。

A、计算作业的结果

B、控制作业的执行顺序

C、定义数据源

D、过滤和转换数据流

答案：D

70.Flink的安装过程中，通常需要设置()来指定Flink的根目录。

A、JAVA_HOME

B、PATH

C、FLINK_HOME

D、FLINK_PATH

答案：C

71.0不是Spark的四大组件。

A、SparkStreaming

B、MlIib

C、GraphX

D、SparkR

答案：D

72.关于Dataset,下列说法错误的是（）。

AvDataset能从RDD中构建

B、Dataset提供了特定域对象中的弱类型集合

C、Dataset结合了RDD和DataFrame的优点

D、ataset可以通过SparkSession中的createDataset来创建

答案：B

73.下列（）不是RDD的缓存方法。

A、persist0

B、Cache（）

C、Memory0

D、以上都不是

答案：C

74.在Hive中，以下哪个配置参数用于指定Hive元数据存储的数据库类型（）?

Avhive.metastore,uris

B、hive.metastore,schema

C、hive.metastore,db.type

D、hive.metastore,db.urI

答案：c

75.下列描述中，哪项不属于Sqoop的缺点（）。

A、无法控制任务的并发度

B、格式紧耦合

C、安全机制不够完善

D、connector必须符合JDBC模型

答案：A

76.Hive中的配置文件通常位于哪个目录中（）?

A、/etc/hive/conf

B、/etc/hadoop/conf

C、/etc/hive/

D、/etc/hive/config

答案：A

77.Flume的哪个拦截器可以按类型区分事件？（）

A、ETL拦截器

B、分区拦截器

C、以上都不是

D、以上都是

答案：A

78.yarn状态的查询urI为（）。

A、http://yarn:8088

B、http://yarn:50070

C、http://master:8088

D、http://master:50070

答案：c

79.Flume如何处理故障恢复？（）

A、使用事务性机制

B、使用重试机制

C、使用断点续传机制

D、以上都不是

答案：C

80.Hive是由哪家公司开源的（）。

A、GoogIe

B、Facebook

C、LinkedIn

D、NetfIix

答案：B

81.关于MapReduce优点，下列说法不正确的是（）。

A、高容错性

B、适合PB级以上海量数据的离线处理

C、良好的扩展性

D、适合做实时计算

答案：D

82.Flink最常用的编程语言是()。

A、Java

B、Python

C、SeaIa

D\C++

答案：A

83.ZooKeeper中的一致性协议ZAB是基于()算法实现。

A、2PC(Two-PhaseCommit)算法

B、Raft算法

C、Paxos算法

D\3PC(Three-PhaseCommit)算法

答案：C

84.Docker的()命令用于构建镜像。

A、create

B、add

C、build

D、new

答案：C

85.DStream的转换操作方法中，()方法可以直接调用RDD上的操作方法。

A、countByKey()

B、updateStateByKey(func)

C、ogroup(otherStream,[numTasks])

D\transform(func)

答案：D

86.下列关于leader和follower的说法正确的是（）。

A、一个topic的每个分区可以没有leader

B\一•""btopic的每个分区可以没有follower

C、消费者消费数据的对象都是leader

D\follower从Ieader中同步数据有一定延迟

答案：C

87.HMaster的主要作用是（）。

A、用于启动任务管理多个HRegionServer

B、负责响应用户I/O请求，向HDFS文件系统读写数据

C、负责协调集群中的分布式组件

D、最终保存HBase数据行的文件

答案：A

88.Flume的哪个版本加入了对Thrift事件的的支持？。

A、FIume1.0

B、FIume1.1

C、FIume1.2

D\FIume1.3

答案：B

89.Flink的容错机制是（）工作的，它定期记录数据流的状态，以便在发生故

障时进行恢复。

A、基于备份数据

B、基于检查点

C、基于异常处理

D、基于数据重播

答案：B

90.在ZooKeeper中，节点的数据版本是如何维护的？（）

A、自动递增

B、手动指定

C、根据节点的创建时间确定

D、随机生成

答案：A

91.设用压力测试测出机器写入速度是20M/s一台，峰值的业务数据的速度是10

OM/s,副本数为6,预估需要部署Kafka机器数量为（）。

A、6.0

B、12.0

C、13.0

D、20.0

答案：C

92.Kafka的消费者可以以什么方式进行消息偏移量的管理？（）

A、手动管理

B、自动管理

C、随机管理

D、循环管理

答案：B

93.以下哪个参数在sqoop命令中用于指定要删除HDFS的目标目录？（）

Av-deIete-target-dir

B、一target-dir

C、一deIete-dir

Dv-deIete

答案：A

94.namenode在（）模式下hdfs文件系统无法修改和写入文件。

A、安全模式

B、维护模式

C、同步模式

D、待机模式

答案：A

95.Flink的核心概念之一是（）o

A、数据表

B、数据流

C、数据库

D、数据仓库

答案：B

96.将nginx容器接入自定义的myops网络的操作命令是（）。

A、dockernetworkjoinmyopsnginx

B、dockernetworkconnmyopsnginx

C、dockernetworkconnectmyopsnginx

Dvockernetworkconnectnginxmyops

答案：c

97.在Flink的配置文件中，（）通常用来指定Flink任务并行度。

A、paraIleiism.defau11

B、task,paraIIeIism

C、paraIIeIism.defauIt-task

D、task,defauIt-paraIIeIism

答案：D

98.Flume的哪个版本开始支持Avro作为数据传输格式？（）

A、1.X版本

B、2.X版本

C、3.X版本

D\4.X版本以后

答案：D

99.下列语句中描述错误的是（）o

A、可以通过CLI方式'JavaApi方式调用Sqoop

B\Sqoop底层会将Sqoop命令转换为MapReduce任务,并通过Sqoop连接器进行

数据的导入导出操作

C、Sqoop是独立的数据迁移工具,可以在任何系统上执行

D\如果在Hadoop分布式集群环境下，连接MySQL服务器参数不能是"localhos

t”或“127.0.0.1"

答案：C

100.Flume的Snk组件负责什么?()

A、将数据从Channel中读取并写入目标位置

B、将数据从Channel中读取并发送到下一组件

C、从Channel中读取数据并将其写入接收器

D、从Channel中读取数据并将其写入目标位置。

答案：D

101.DStream的输出操作，不包括()。

A、foreachRDD(func)

B、print0

C\fIatMap(func)

D、saveAsTextFiIes(prefix)

答案：C

102.Flume的事件传输方式是什么？()

A、puII-based

B、push-based

C\stream-based

D、event-based

答案：B

103.下面那种情况不会触发©ConsumerRebalance操作()。

A、某个消费者崩溃

B、某个生产者崩溃

C、消费者消费的多个topic中某个topic被删除

D、新增消费者

答案：B

1O4.Flume的拦截器实现了哪个接口？（）

A、ChannelInterceptor

B、EventInterceptor

C、SinkInterceptor

D、SourceInterceptor

答案：B

105.Kafka的核心是由哪个组件组成？（）

A、Producer

B、Consumer

C、Broker

DvZooKeeper

答案：c

106.以下哪个选项不是Sqoop的导入模式？（）

A、纯文本导入

B、二进制导入

GAvro导入

D、JS0N导入

答案：D

107.关于SecondaryNameNode哪项是正确的？（）

A、它是NameNode的热备

B、它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间

C、它对内存没有要求

D、SecondaryNameNode应与NameNode部署到一个节点

答案：B

108.以下哪种不是Hive支持的数据类型（）o

A、Struct

B、Int

C、Map

DvLong

答案：D

109.获取远程仓库中Docker镜像的操作命令是（）。

A、dockerget

B、dockerpush

C、dockerpuII

D、ockerdownIoad

答案：c

110.Hive的默认元数据存储是什么（）?

A、MySQL

B、PostgreSQL

C、Derby

D、OracIe

答案：c

111.Flink中的Watermark是用来（）,帮助FIink正确地处理迟到的事件。

A、测量数据流的速度

B、表示数据流的起点

C、处理乱序事件

D、控制数据流的大小

答案：C

112.Kafka的消息保留策略可以根据什么进行配置？（）

A、时间

B、大小

C、主题

D、分区

答案：A

113.在Kafka中，O是ISR队列中最小的LEO。

A、LEO

B、ISR

C、HW

D、AR

答案：C

114.DockerfiIe中指定环境变量的指令是（）。

A、WORKDIR

B、SHELL

C、ENV

D、ENTRYPOINT

答案：C

115.下列（）不可以作为SparkStreaming的输入数据流。

A、Kafka

B、Twitter

c、TCP套接字

D、Openstack

答案：D

116.Hive是为了解决哪类问题（）?

A、海量结构化日志的数据统计

B、分布式组件调度

答案：A

117.Sqoop是Hadoop和关系数据库服务器之间传送数据的工具，下列哪种数据

库是不支持使用Sqoop直接进行数据传送（）。

A、Postgres

B、OracIe

GMySQL

D、Redis

答案：D

118.Hive默认的元存储是保存在内嵌的（）数据库中。

A、MySQL

B、Derby

C、OracIe

D、SqIServer

答案：B

119.在ZooKeeper中，Watcher是一次性的吗?（）

A、是，一旦触发就无法再次使用

B、否，可以反复使用

G取决于Watcher的类型

D、取决于节点的类型

答案：C

120.关于Hive存储的文件格式描述错误的是（）。

A、ORC格式是Hive一直支持的

B、TEXTFILE是Hive的默认存储格式

C、SequenceFiIe是一种二进制存储

D、RC是ORC的前身

答案：A

121.以下关于Hive操作描述不正确的是（）。

AxHive是一个建立在hadoop文件系统上的数据仓库架构，可以用其对HDFS上

B\Hive依赖于MapReduce处理数据

C、Hive的加载数据时候，可以用local进行修饰，表示从某个本地目录下加载

数据

D、Hive一般可以用于实时的查询分析

答案：D

122.Hadoop组件在企业应用中，能用于大数据集实时查询的产品有()。

A、Hive

B、Pig

C、Mahout

D、Hbase

答案：D

123.ZooKeeper中的节点可以设置()类型的触发器。

A、数据变更触发器

B、子节点变更触发器

C、连接状态触发器

D、所有类型的触发器

答案：D

124.下面哪个命令是创建hive表()□

A、import-aII-tabIes

B、Iist-databases

C、Iist-tabIes

D、create-hive-tabIe

答案：D

125.将一个已经创建的容器导出到一个文件使用的操作命令是（）。

A、dockerimport

B、dockerIoad

C、dockeroutput

D、ockerexport

答案：D

126.关于Hive的SequenceFiIe格式描述正确的是（）。

A、SequenceFiIe是二进制文件格式，以Iist的形式序列化到文件中

B\SequenceFiIe存储方式：列存储

C、SequenceFiIe不可分割、压缩

D、SequenceFiIe优势是文件和Hadoopapi中的MapFiIe是相互兼容的

答案：D

127.Hive中的哪个配置参数用于指定Hive表的默认分隔符（）?

A、hive,default,delimiter

B\hive,default,separator

C\hive.defau11.fieId.deIim

答案：C

128.Docker内置网络模式不包括（）。

A、host模式

B\mynet模式

C、none模式

D\bridge模式

答案：B

129.Docker配置文件的语法格式中，代表单个字符的符号是（）。

A、*

B、?

C、!

D「

答案：B

130.新构建一个名为mydocker的镜像的操作命令是（）。

A、dockernewmydocker

BvdockerbuiIdmydocker

C、dockernew-tmydocker

D、ockerbuild-tmydocker

答案：D

131.在Hive中，哪个配置参数用于指定Hive的执行模式，如本地模式或MapRe

duce模式（）?

A、hive.execution.engine

B、hive.execution.mode

Cvhive.mapred.mode

Dvhive.exec,mode

答案：B

132.下面哪个命令行参数可以用来删除Kafka中的Topic?（）

A、Iist

B、create

CvdeIete

Dvescribe

答案：c

133.下列选项中，()不属于转换算子操作。

A、fiIter(func)

B、map(func)

C\reduce(func)

D、reduceByKey(func)

答案：C

134.关于Hive描述正确的是()。

A、count函数必须开窗口才能使用

B\max函数是窗口函数

C、lead函数是聚合函数,不是窗口函数

D、min函数是聚合函数,不是窗口函数

答案：B

135.Dockerfile中声明镜像内服务监听的端口的指令是()。

A、LISTEN

B、EXPOSE

C、ARG

D、MONITOR

答案：B

136.Flink的作业提交通常需要()来管理作业的执行。

A、JobManager

B、TaskManager

C、ResourceManager

D、NameNode

答案：A

137.在Centos中启动Docker服务的命令是()。

A、systemstartdocker

B、systemenabIedocker

CvsystemctIstartdocker

DvsystemctIrundocker

答案：c

138.DataFrame和RDD最大的区别是()。

A、科学统计支持

B、多schema

C、存储方式不一样

D、外部数据源支持

答案：B

139.ZooKeeper使用的是()文件系统。

A、HadoopDistributedFiIeSystem(HDFS)

B、NetworkFiIeSystem(NFS)

C\ZooKeeperFiIeSystem（ZFS）

D、ExtensibIeStorageEngine（ESE）

答案：C

140.允许开发人员为容器分配MAC地址的是（）。

A、网桥网络

B、覆盖网络

C、驱动网络

D、主机网络

答案：C

141.Spark默认的存储级别是（）。

A、MEM0RY_0NLY

B、MEM0RY_0NLY_SER

C、MEMORY_AND_DISK

D、MEMORY_AND_DISK_SER

答案：A

142.HBase依赖（）技术框架提供消息通信机制。

A、Zookeeper

B、Chubby

C、RPC

D\Socket

答案：A

143.与传统消息系统相比，Kafka的突出特点不包括（）。

A、能够持久化日志

B、容错能力强，是一个分布式系统

C、支持实时的流式处理

D、提供在线消息同步和离线消息缓存的能力

答案：D

144.下面（）端口不是Spark自带服务的端口。

A、8080.0

B、4040.0

C、8090.0

D、18080.0

答案：C

145.在Hive中，以下哪个配置参数用于指定HiveCLI的历史命令记录文件名（）？

A、hive.history,file,name

B、hive.cIi.history.file

Cvhive.command.Iog.fiIename

Dvhive.query.Iog.file

答案：B

146.在HDFS分布式文件系统中，一般采用冗余存储，冗余因子通常设置为（）o

A、1.0

B、2.0

C、3.0

D、4.0

答案：c

147.Flink的Web界面通常用于（）。

A、编写Flink作业

B、监控Flink集群

G运行Flink作业

D、调试Flink作业

答案：B

148.关于DStream窗口操作函数，以下说法错误的是（）。

A、window（）返回基于源DStream的窗口进行批计算后的一个新的Dstream

B\countByWindow。返回基于滑动窗口的DStream中的元素数

C\reduceByWindow（）做聚合操作并返回—新的Dstream

D、以上说法都不对

答案：D

149.Docker是基于。实现的开源容器项目。

A、C语后

B、Java］吾己

C、Go语三

D、Python语言

答案：C

150.在Sqoop中，使用哪个命令可以列出可用的数据库连接？（）

A、sqoopIist-databases

B、sqoopheIp

C、sqoopconnections

D、sqoopserver

答案：A

151.Kafka的消息消费可以使用哪种模式？（）

A、单播

B、组播

C、广播

D、串播

答案：A

152.下面（）操作是宽依赖。

A、map公

B\fIatMap

C、groupByKey

D、union

答案：c

153.当之前下线的分区重新上线时，要执行Leader选举，选举策略为（）。

A、OffIinePartitionLeader选举

B、ReassignPartitionLeader选举

CvPreferredRepIicaPartitionLeader选举

DvControIIedShutdownPartitionLeader选举

答案：A

154.Hadoop安装在一台计算机上，需修改相应的配置文件，用一台计算机模拟

多台主机的集群是（）模式。

A、全分布模式

B、伪分布模式

C、单机模式

D、全分布HA模式

答案：B

155.FIink支持的数据处理方式为（）。

A、批处理

B、流处理

C、以上都是

D、无法确定

答案：C

156.（）参数不影响kafka重平衡？

A、session.timeout.ms

B、heartbeat,intervaI.ms

C、message,max.bytes

D、max.poll,intervaI.ms

答案：c

157.在ZooKeeper中，（）角色负责协调其他节点的工作。

A、领导者（Leader）

B、跟随者(Follower)

C\观察者(Observer)

D、所有角色均可

答案：A

158.当使用sqoop将数据从MySQL导入到HDFS时，以下哪个参数用于指定使用

多个mapper?()

A、-m

B、-f

C、-t

D、-c

答案：A

159.SparkSQL可以处理的数据源包括O。

A、Hive表

B、Hive表、数据文件

C、Hive表、数据文件、RDD

D、Hive表、数据文件、RDD、外部数据库

答案：D

160.SparkStreaming中对DStream的转换操作会转变成对()的操作。

A、sqI

B、dataset

C、rdd

D、ataframe

答案：c

161.关于DataFrame与RDD在结构上的区别，以下描述错误的是（）。

A、DataFrame可以看作是分布式的Row对象的集合，在二维表数据集的每一列

都带有名称和类型

B、RDD是分布式的Java对象的集合

C、RDD在转换数据形式时效率相对较高

D\ataFrame提供了比RDD更丰富的算子

答案：C

162.配置Hadoop文件参数时,配置项“dfs.repIication"应该配置在哪个文件？

。

A、core-site,xml

B、hdfs-site.xml

C、mapred-site.xml

D、yarn-site,xml

答案：B

163.停止一个容器的操作命令是（）。

Avdockerstop

B、dockershutdown

C、dockershift

Dvockerpause

答案：A

164.下列不是Spark的部署模式的是（）。

A、单机式

B、单机伪分布式

C、列分布式

D、完全分布式

答案：C

165.下列哪个数据类型不是hadoop的数据类型（）。

A、Text

B、String

GIntWritabIe

D、NulIWritable

答案：B

166.Flume的事件可以包含哪些属性？（）

AvTimest,Type,Body,Headers,Count

B、Timest,Type,Body,Headers,ID

C、Timest,Type,Body,Headers,SequenceID

DvTimest,Type,Body,Headers,Number

答案：c

167.在ZooKeeper中，ZAB协议是（）。

A、用于节点间的数据同步和一致性保证的协议

B、用于节点间的消息传递和通信的协议

C、用于节点间的负载均衡和路由选择的协议

D、用于节点间的权限控制和访问管理的协议

答案：A

168.Flink的状态管理用于（），以支持容错性和状态化的计算。

A、存储和检索中间结果

B、控制数据流速度

C、定时触发窗口操作

D、执行数据清洗

答案：A

169.下列关于topic和partition的描述,错误的是（）。

A、Kafka中消息是以partition进行分类的

B\与partition不同，topic是逻辑上的概念而非物理上的概念

C、每个partition对应于—log文件

D\—partition分为多个segment

答案：A

170.在Flink中，（）通常用于指定Flink作业的任务流图（JobGraph）o

AxfIink.xml

B\job.conf

C、flperties

D、fIink-config.yamI

答案：D

171.Flume的哪个组件可以保证数据不会丢失？（）

A、通道

B、接收器

C、拦截器

D、源

答案：B

172.当在Sqoop中使用一append参数时,它会将数据添加到目标表的哪个位置？

（）

A、文件的开头

B、文件的末尾

C、新文件中

D、随机位置

答案：B

173.以下关于RDD的宽依赖和窄依赖的说法错误的是（）。

A、窄依赖表现为子RDD的一个分区只依赖于某个（些）父RDD的一个分区

B、宽依赖则表现为子RDD的一个分区依赖于同一个父RDD的多个分区

C、宽依赖的RDD之间无ShuffIe操作

D、窄依赖的RDD之间无ShuffIe操作

答案：C

174.Docker的三大核心不包括（）。

A、容器

B、算法

C\镜像

D、仓库

答案：B

175.下列（）不是Docker项目中用于文件存储的数据库。

A、MYSQL

B、MongoDB

GRedis

D\Kafka

答案：D

176.Kafka服务器默认能接收的最大消息是多大？（）$

A、1M

B、10M

C、100M

D、没有大小限制，因为支持大数据

答案：A

177.Spark采用RDD以后能够实现高效计算不是因为（）。

A、高效的容错性，通过血缘关系重新计算丢失分区

B、中间结果持久化到内存，数据在内存中的多个RDD操作之间进行传递，避免

了不必要的读写磁盘开销

C、存放的数据可以是Java对象，避免了不必要的对象序列化和反序列化

D、RDD采用了高效的“转换”和“动作”算子

答案：D

178.FIink支持处理各种类型的数据，包括（）数据。

A、结构化

B、半结构化

C、无结构化

D、以上都是

答案：D

179.Hive是以（）技术为基础的数据仓库。

A、HDFS

B、MAPREDUCE

C、HADOOP

D、HBASE

答案：C

180.Flink的作业调度（JobScheduIing）通常由（）负责。

A、ResourceManager

B\TaskManager

C、JobManager

D\ZooKeeper

答案：C

181.Flume的哪个组件用于将事件数据写入目标存储？（）

A、ChanneI

B、Sink

C、Source和ChanneI

D\Source和Sink

答案：B

182.关于HiveSQL编译描述正确的是（）。

A、HiveSQL的Parser层是为了将SQL转化为执行计划的

B、逻辑层优化器会进行算子转换，优化合并不必要的算子操作

C\MapReduce任务是需要遍历QueryBlock后生成的

D、编译器遍历ASTTree,抽象出查询的基本组成单元OperatorTree

答案：B

183.Docker的（）命令只支持将本地文件复制到容器中。

A、DD

B、COPY

C、SCP

D、PUT

答案：B

184.在HDFS文件操作中，上传文件的命令是（）o

Avput

B、input

C、get

Dvup

答案：A

185.制作镜像时，复制文件到镜像中使用的命令是（）。

A、DD

B、COPY

C、RUN

D、CMD

答案：B

186.以下关于Spark与Hadoop对比,说法错误的是（）。

A、Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作，还提

供了多种数据集操作类型，编程模型比HadoopMapReduce更灵活

B、Spark提供了内存计算，可将中间结果放到内存中，对于迭代运算效率更高

C、Spark磁盘I0开销较大，任务之间的衔接涉及I0开销

D、Spark基于DAG的任务调度执行机制，要优于HadoopMapReduce的迭代执行

机制

答案：C

187.Hive适合（）环境。

A、Hive适合用于联机（onIine）事务处理

B、提供实时查询功能

C、适合应用在大量不可变数据的批处理作业

D、Hive适合关系型数据环境

答案：C

188.强制删除容器tmp01的操作命令是（）。

A、dockerrm-ftmp01

B\dockerrm-vtmp01

C\dockerrm-1tmp01

D、ockerrm-ltmpOl

答案：A

189.在Sqoop中，哪个参数用于指定要导入的目标表？（）

A、-tabIe

B、-target-dir

Cv-outdir

Dv-where

答案：A

190.以下()文件中主要用来配置ResourceManager,NodeManager的通信端口，

web监控端口等。

Avcore-site,xml

B、mapred-site.xml

C、hdfs-site.xmI

Dvyarn-site,xml

答案：D

191.Docker运行的核心模块是()。

A、DockerServer

BvDockerEngine

C、DockerCIient

答案：B

192.关于SparkSQL,以下说法正确的是()。

A、HiveContext继承了SqIContext

B、DataFrame其实就是RDD

C、HiveContext只支持SQL语法解析器

D、SparkSQL的前身是Hive

答案：A

193.若要在Hive中启用压缩数据存储，应该设置哪个配置参数（）?

A、hive.compress,enabIed

B、hive.compression.enabIed

C、hive.storage,compression.enabIed

答案：B

194.Kafka的消息以什么形式进行存储？（）

A、表格

B、集合

C、文档

D、日志

答案：D

195.关于MapReduce的说法正确的是（）。

A、MapReducel.0用YARN框架来进行资源调度的

BvMapReduce是基于内存计算的框架

C\MapReduce是分布式文件存储系统

D、MapReducel.0既是一个计算框架又是一个资源调度框架

答案：D

196.dockerfiIe文件的作用是（）。

A、普通文件

B、用于自定义镜像

C、用于保存容器配置

D\用于存放docker配置

答案：B

197.Flume的默认通道类型是什么？（）

A、MemoryChanneI

B、FiIeChanneI

GKafkaChanneI

D、JdbcChanneI

答案：A

198.Kafka的消费者在处理消息时可以选择的模式是（）。

A、单线程模式

B、多线程模式

C、分布式模式

D、并行模式

答案：B

199.关于Hive各个格式使用场景描述错误的是（）。

A、Parquet对于大型查询的类型是高效的，对于扫描特定表格中的特定列的查

询，Parquet特别有用

B\目前Parquet默认使用gzip压缩格式

C、0RC可以支持复杂的数据结构（比如Map等）

D、RCFiIe是一种行列存储相结合的存储方式

答案：B

200.Kafka的消息传递语义是O。

A、最终一致性

B、强一致性

C、弱一致性

D、无一致性

答案：C

201.在Docker数据管理中，数据卷可以提供的特性不包括（）。

A、数据卷可以在容器之间共享和重用

B、对数据卷内数据的修改立马生效

C、对数据卷的更新不影响镜像

D、挂载数据卷时要手工创建挂载目录

答案：D

202.ZooKeeper中的数据模型是基于（）。

A、关系模型

B、键值对模型

C、图模型

D、文档模型

答案：B

203.关于Hive内外表描述正确的是（）。

A、内部表数据由HDFS自身管理，外部表数据由Hive管理；

B、内部表数据存储的位置是hive.metastore,warehouse,dir设置配置（默认:

/user/hive/warehouse)

C\外表存储必须指定LOCATION

D、内外表删除时，都会删除元数据和存储

答案：B

204.Flume的事件是什么？（）

A、数据项，记录，和文件

B、数据流，记录，和事件

G数据项，记录，和消息

D、数据流，记录，和消息

答案：D

205.使用Dockerrun命令运行一个容器时，通过参数（）可启动一个bash允许

用户进行交互。

A、it

B、ia

C\nt

D\na

答案：A

206.Flink的集群部署通常需要（）作为资源管理器。

A、YARN

B\ApacheZooKeeper

C、ApacheKafka

D、HadoopHDFS

答案：A

207.以下哪个文件是能够修改HDFS的副本保存数量参数（）。

A、修改mapred-site.xml配置文件

B、修改core-site,xml配置文件

G修改yarn-site.xml配置文件

D、修改hdfs-site.xml配置文件

答案：D

208.使用create命令新建容器时，指定容器在网络中的别名的命令选项是（）。

Avnet-name

B、net-aIias

C、network

Dvalias

答案：B

209.下列哪种情况不会触发到消费者分区的重新分配？

A、当有新的消费者加入消费者组

B、已有的消费者推出消费者组

C、处于消费者所在分区最近提交的。开set位置

D、消费者所订阅的主题的分区发生变化

答案：C

210.Flink的TabieAPI和SQL用于（）。

A、数据可视化

B、执行SQL查询

C、数据流分析

D、数据清洗

答案：B

211.Flume的Kafka源类型是什么？（）

AvKafkaSource

B、KafkaSpout

C、KafkaAvroSource

DvKafkaEventSource

答案：C

212.Hive中以下操作不正确的是（）。

A、IoaddatainpathintotabIename

BvinsertintotabIename

C、insertoverwritetabIename

D、upddatetabIename

答案：D

213.Linux下启动HDFS的命令是（）。

A、Hdfs

B、startdfs

C、start-dfs.sh

Dvstart-dfs.cmd

答案：c

214.下列说法错误的是（）o

A、生产者和消费者面向的都是一个topic

B、生产者发送数据的对象是leader

C、当集群中的某个节点发生故障时，Replica上的partition数据不会丢失

D、partition是一个没有顺序的队列

答案：D

215.以下哪个是正确的sqoop导入数据的完整命令？（）

A、sqoopimport-connectjdbc:mysqI://locaIhost:3306/userdb-usernamero

ot-deIete-target-dir-target-dir/MysqIToHDFSI-tabIestudent

B、sqoopimportdata-connectjdbc:mysqI://1ocaIhost:3306/userdb-userna

meroot-deIete-target-dir-target-dir/MysqIToHDFSI-tabIestudent

C、bin/sqoopimport-connectjdbc:mysqI://1ocaIhost:3306/userdb-userna

meroot-deIete-target-dir-target-dir/MysqIToHDFSI-tabIestudent

D、bin/sqoopimportdata-connectjdbc:mysqI://1ocaIhost:3306/userdb-us

ernameroot-deIete-target-dir-target-dir/MysqIToHDFSI-tabIestudent

答案：c

216.Flink中的Checkpoints（检查点）主要用于（）。

A、实现ExactIy-once语义

B、控制并行度

C、执行作业

D、压缩数据

答案：A

217.在ZooKeeper中，在配置文件zoo.cfg中，请问initLimit表示的含义是（）。

A、Leader-FoIIower初始通信时限

B\Leader-Follower同步通信时限

C、Iient-Server通信心跳时间

D、Client-Server初始通信时限

答案：A

218.Sqoop的作用是()o

A、用于传统关系数据库和Hadoop之间传输数据

B、提供对日志数据进行简单处理的能力

C、是Hadoop体系中数据存储管理的基础

D、是一个建立在HDFS之上，面向列的针对结构化和半结构化数据和动态数据库

答案：A

219.Flink的主要特点是()o

A、高吞吐量

B、低延迟

C、ExactIy-once处理语义

D、以上都是

答案：D

220.Task运行在下面()选项中Executor上的工作单元。

A、Driverprogram

B\sparkmaster

C、workernode

D\CIustermanager

答案：C

221.Flink的日志管理通常包括（）这几个方面。

A、日志存储和检索

B、日志清理和压缩

C、日志分析和报警

D、以上都是

答案：D

多选题

1■关于ZooKeeper顺序节点的说法不正确的是O。

A、创建顺序节点的命令为：create/testvaIue1

B、创建顺序节点时不能连续执行创建命令，否者报错节点已存在

C、通过顺序节点，可以创建分布式系统唯一ID

D、顺序节点的序号能无限增加

答案：ABD

2.Flume的可靠性机制包括哪些内容？（）

A、数据备份存储

B、数据重复传输

C、数据校验和

D、数据顺序保证

答案：ABCD

3.查看Docker容器的子命令有（）。

A、display

B\stats

C、inspect

D、Iist

答案：BC

4Flink的缓存机制包含以下哪些内容（）o

A、可以使用户在并行函数中很方便的读取本地文件

B、通过ExecutionEnvironment注册缓存文件并为其起名

C\当程序执行时，Flink自动将文件或目录复制到所有TaskManager节点的本

地文件系统

D、用户可以从TaskManager节点的本地文件系统访问它

答案：ABCD

5.Flink核心组成部分提供了面向（）的接口。

A、批处理

B、流处理

C、表

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2024年世界职业院校技能大赛中职组“大数据应用与服务组”赛项考试题库（含答案）

文档简介

温馨提示

最新文档

评论

2024年世界职业院校技能大赛中职组“大数据应用与服务组”赛项考试题库（含答案）

文档简介

温馨提示

最新文档

评论

相关文档