2024年全国职业院校技能大赛中职（大数据应用与服务赛项）考试题库（含答案）

上传人：共*** IP属地：河北上传时间：2025-03-05 格式：DOCX 页数：256 大小：199.67KB 积分：12 举报 版权申诉

2024年全国职业院校技能大赛中职（大数据应用与服务赛项）考试题库（含答案）_第2页

2024年全国职业院校技能大赛中职（大数据应用与服务赛项）考试题库（含答案）_第3页

2024年全国职业院校技能大赛中职（大数据应用与服务赛项）考试题库（含答案）_第4页

2024年全国职业院校技能大赛中职（大数据应用与服务赛项）考试题库（含答案）_第5页

已阅读5页，还剩251页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2024年全国职业院校技能大赛中职(大数据应用与服务赛项)考试题库(含答案)1.允许开发人员为容器分配MAC地址的是()。2.Flink的日志管理通常包括()这几个方面。3.DataFrame和RDD最大的区别是()。A、科学统计支持4.关于Hive描述正确的是()。D、min函数是聚合函数，不是窗口函数答案：B5.Flink的作业提交通常需要()来管理作业的执行。A、JobManager7.Dockerfile中指定环境变量的指令是()。18.Flume的Channel组件负责什么?()A、临时存储从Source组件接收的数据B、临时存储从下一组件接收的数据19.强制删除容器tmp01的操作命令是()。20.在hive中下列哪个命令不可以实现去重()。21.Flume的哪个版本开始支持Spoolingdirectorysource?()22.Flink的作业调度(JobScheduling)通常由()负责。23.Hive是为了解决哪类问题()?24.典型的NoSQL数据库是()。26.以下()文件中主要用来配置ResourceManager,NodeManager的通信端口，web监控端口等。答案：D27.Dataset最终在()版本中被定义成Spark新特性。28.在Flink中，水位线是()生成的。A、基于系统时间的周期性B、基于事件时间的周期性C、由用户手动指定D、实时答案：A29.Hive中以下操作不正确的是()。A、loaddatainpathintotablen30.Task运行在下面()选项中Executor上的工作单元。答案：CA、节点的数据变更操作B、节点的子节点变更操作C、节点的ACL变更操作D、所有节点的操作答案：D32.查看Docker镜像信息的命令是()。A、Isdocker答案：D33.消费者出现活锁问题时应该()。A、增加erval.ms相关参数B、减少消费者数量D、提高poll频率34.Flume的哪个拦截器可以按类型区分事件?()B、分区拦截器D、以上都是答案：A35.Hadoop组件在企业应用中，能用于大数据集实时查询的产品有()。A、HiveA、管理Flink集群的任务B、管理Flink作业的状态C、执行Flink作业的任务D、部署Flink作业到集群37.Stage的Task的数量由()决定。A、Partition38.Flink支持的数据处理方式为()。A、批处理B、流处理D、无法确定39.Flume的事件是什么?()40.ZooKeeper中的一次写操作是原子的吗?()A、是，写操作是原子的B、否，写操作可能不是原子的C、取决于写操作的类型D、取决于节点的类型41.下面哪个命令是创建hive表()。43.()参数不影响kafka重平衡?44.在Hive中，以下哪个配置参数用于指定Hive表的默认存储格式()?A、hive.default.storage.fo45.将一个RDD转换为DataFrame的方法是()。46.Flink的状态管理用于(),以支持容错性和状态化的计算。47.在Hive中，以下哪个配置参数用于指定Hive执行计划的缓存目录()?A、hive.query.plan.cache.dirC、hive.cache.plan.directory答案：B48.在Hive中，以下哪个配置参数用于指定HiveCLI的历史命令记录文件名()?A、hive.history.file.n答案：B49.关于DStream窗口操作函数，以下说法错误的是()。A、window()返回基于源DStream的窗口进行批计算后的一个新的DstreamB、countByWindow()返回基于滑动窗口的DStream中的元素数C、reduceByWindow()做聚合操作并返回一个新的DstreamD、以上说法都不对答案：D50.在Hive中，以下哪个配置参数用于指定HDFS的名称节点地址()。C、hive.metastore.warehouse.dirhive.ser51.关于ZooKeeper临时节点的说法正确的是()。B、一旦会话结束，临时节点将被自动删除C、临时节点不能手动删除D、临时节点允许有子节点答案：B52.Flink的高可用性(HighAvailability)设置通常需要配置的组件是()。答案：D53.Flink的容错机制是()工作的，它定期记录数据流的状态，以便在发生故障时进行恢复。A、基于备份数据B、基于检查点C、基于异常处理D、基于数据重播54.当Kafka中日志片段大小达到()时，当前日志片段会被关闭。A、1M答案：C55.HadoopMapReduce支持多种语言编程，下列说法不正确的是()。A、可以用JAVA语言编写MapReduce应用程序C、可以用Python语言编写MapReduce应用程序D、可以用javascript语言编写MapReduce应用程序答案：D库用于(),帮助检测和处理特定的事件模式。A、执行复杂数据处理操作B、处理图形数据C、处理实时事件流D、控制数据流速度答案：C57.在Hadoop生态组件中，哪个产品可用于复杂的批量数据处理。()答案：A答案：B59.下面()操作是窄依赖。60.关于MapReduce的说法正确的是()。B、MapReduce是基于内存计算的框架C、MapReduce是分布式文件存储系统D、MapReduce1.0既是一个计算框架又是一个资源调度框架答案：D61.将nginx容器接入自定义的myops网络的操作命令是()。A、dockernetworkjoinmyopsngiC、dockernetworkconn62.Kafka的高可用性是通过什么机制实现的?()63.Spark采用RDD以后能够实现高效计算不是因为()。B、中间结果持久化到内存，数据在内存中的多个RDD操作之间进行传递，避免C、存放的数据可以是Java对象，避免了不必要的对象序列化和反序列化D、RDD采用了高效的“转换”和“动作”算子64.Kafka服务器默认能接收的最大消息是多大?()否A、1M65.Flink的主要特点是()。B、低延迟C、Exactly-once处理语义D、以上都是答案：D66.若要在Hive中启用压缩数据存储，应该设置哪个配置参数()?A、press.enabC、p答案：B67.在HDFS文件操作中，上传文件的命令是()。答案：A68.Flink的Web界面通常用于()。答案：B69.Kafka的核心是由哪个组件组成?()A、Producer70.以下关于Hive操作描述不正确的是()。A、Hive是一个建立在hadoop文件系统上的数据仓库架构，可以用其对HDFS上B、Hive依赖于MapReduce处理数据C、Hive的加载数据时候，可以用local进行修饰，表示从某个本地目录下加载数据D、Hive一般可以用于实时的查询分析答案：D71.以下选项哪个是MapReduce正确的运行模型()。72.SparkJob默认的调度模式是()。C、无D、运行时指定73.要在Hive中启用数据列级别的访问控制(RBAC),应该设置哪个配置参数()?A、hive.column.security.B、Leader-Follower同步通信时限C、lient-Server通信心跳时间答案：A76.Flume的哪个组件可以保证数据不会丢失?()77.下列()不可以作为SparkStreaming的输入数据流。78.Kafka的消息以什么形式进行存储?()B、集合答案：D79.Docker的()命令用于构建镜像。80.Kafka的消费者在处理消息时可以选择的模式是()。81.Flume的Source组件负责什么?()82.关于Hivemetastore的三种模式的描述错误的是()。B、local模式中，使用MySQL本地部署实现metastoreC、remote模式为远程MySQLD、erby方式在同一时间只能有多个进程连接使用数据库83.Flink的安装配置中，通过()来指定外部依赖库的路径。B、在Flink作业中指定依赖库路径84.使用Dockerrun命令运行一个容器时，通过参数()可启动一个bash允许用85.Kafka的消息消费可以使用哪种模式?()86.下列关于MapReduce说法不正确的是()。87.Flink中的Checkpoints(检查点)主要用于()。D、压缩数据88.ZooKeeper的特点不包括()。A、顺序一致性C、可靠性D、复合系统映像89.Hive默认的元存储是保存在内嵌的()数据库中。答案：B90.Flume的默认通道类型是什么?()答案：A93.在ZooKeeper中，ACL(访问控制列表)可以设置94.HBase依赖()技术框架提供消息通信机制。95.关于Hive存储的文件格式描述错误的是()。C、SequenceFile是一种二进制存储96.停止一个容器的操作命令是()。A、dockerstop97.水位线的单位通常是()。98.Flume的拦截器实现了哪个接口?()A、Channellnterceptor99.下列语句中，描述错误的是()。A、可以通过CLI方式、JavaApi方式调用Sqot”或“”100.Flume如何处理故障恢复?()101.Sqoop的作用是()。A、用于传统关系数据库和Hadoop之间传输数据B、提供对日志数据进行简单处理的能力C、是Hadoop体系中数据存储管理的基础D、是一个建立在HDFS之上，面向列的针对结构化和半结构化数据和动态数据库答案：A102.Hive中分组的关键字是什么()?103.关于Hive的SequenceFile格式描述正确的是()。是二进制文件格式，以list的形式序列化到文件中存储方式：列存储不可分割、压缩优势是文件和Hadoopapi中的MapFile是相互兼容的答案：D104.Docker的()命令只支持将本地文件复制到容器中。A、DD105.以下哪个选项不是Sqoop的导入模式?()106.Hive的默认元数据存储是什么()?A、MySQL107.Kafka的消息是如何进行顺序写入的?()108.在Flink中，窗口(Window)的作用是()。109.关于MapReduce优点，下列说法不正确的是()。B、适合PB级以上海量数据的离线处理110.在hadoop配置中core-site.xml的配置是()参数。111.Flink中的Watermark是用来(),帮助Flink正确地处理迟到的事件。112.关于DataFrame的优势，以下描述错误的是()。113.ZooKeeper中的节点可以设置()类型的触发器。114.下列()不是Docker项目中用于文件存储的数据库。A、MYSQLD、随机位置答案：BA、事件发生的时间B、事件进入Flink的时间C、事件处理完成的时间D、事件被记录的时间答案：A117.Flink中的转换算子(TransfA、计算作业的结果B、控制作业的执行顺序C、定义数据源D、过滤和转换数据流答案：D118.关于SparkSQL,以下描述错误的是()。A、SparkSQL使用的数据抽象并非是DataFrame,而是RDDC、DataFrame是一种以RDD为基础的分布式数据集D、ataFrame可以完成RDD的绝大多数功能答案：A119.Flink的时间语义(TimeSemantics)中的事件时间(EventTime)和处理时A、事件时间是事件发生的时间，处理时间是事件进入Flink的时间B、事件时间是事件进入Flink的时间，处理时间是事件发生的时间120.下列关于leader和follower的说法正确的是()。A、一个topic的每个分区可以没有leaderB、一个topic的每个分区可以没有followerC、消费者消费数据的对象都是leader121.在ZooKeeper中，()角色负责协调其他节点122.Kafka的消息传递语义是()。123.Dockerfile中声明镜像内服务监听的端口的指令是()。124.将大数据平台数据导出到mysql可以使用()工具。125.Flink的数据源可以是()。A、文件B、消息队列C、数据库126.Kafka的消息压缩算法可以选择的方式是()。127.要在Hive中启用Kerberos认证，应该设置哪个配置参数()?A、hive.security.authentica128.关于SparkSQL,以下说法正确的是()。A、HiveContext继承了SqIContextB、DataFrame其实就是RDD129.Hive中的哪个配置参数用于指定Hive的临时文件目录()?A、hive.tmp.dir130.关于Hive数据模型描述正确的是()。B、Hive的数据模型只包含：表、分区D、只能由Follower节点创建134.当使用sqoop将数据从MySQL导入到HDFS时，以下哪个参数用于指定使用多个mapper?()135.Hive中的配置文件通常位于哪个目录中()?A、/etc/hive/conf136.获取远程仓库中Docker镜像的操作命令是()。137.在ZooKeeper中，关于节点的ACL(访问控制列表)说法错误的是()。C、ACL可以设置到子节点上并继承父节点的权限138.下列说法错误的是()。B、生产者发送数据的对象是leaderA、LE0140.以下哪个参数在sqoop命令中用于指定要删除HDFS的目标目录?()A、--delete-target-dir141.在Hive中，哪个配置参数用于指定HiveCLI的历史命令记录目录()?A、hive.history.file.direct答案：C142.Kafka使用的是什么类型的消息传递模式?()A、点对点B、发布-订阅C、请求-响应答案：B143.Sqoop是Hadoop和关系数据库服务器之间传送数据的工具，下列哪种数据库是不支持使用Sqoop直接进行数据传送()。答案：D144.下列描述中，哪项不属于Sqoop的缺点()。A、无法控制任务的并发度B、格式紧耦合C、安全机制不够完善D、connector必须符合JDBC模型145.在Sqoop中，哪个参数用于指定要导入的目标表?()146.在Hive中，以下哪个配置参数用于指定Hive执行计划的输出目录()?A、hive.query.plan.output.direc答案：A147.下列方法中，不能创建RDD的方法是()。答案：D148.关于Hive和传统数据库的比较描述正确的是()?A、Hive使用了查询语言HQL(HiveQueryLanguage),HQL与SQL没有任何关系C、Hive是建立在Hadoop之上的，所有Hive的数据都是存储在HDFS中的，而D、Hive的针对数据仓库设计，针对的是读多写少的场景滩滩離滩滩滩QL类型被映射什么类型()。150.DStream的转换操作方法中，()方法可以直接调用RDD上的操作方法。151.Kafka的消息传递保证是()。152.Kafka的主题分区数量可以根据什么进行配置?()153.下面中不属于HIVE中的元数据信息()。C、表的属性(只存储内部表信息)155.关于SparkStreaming的优点，不包括()。157.Flume的哪个版本开始支持Avro作为数据传输格式?()A、1.X版本C、3.X版本158.关于Hive查询通常延迟较高的原因描述错误的是()。A、由于没有索引，需要扫描整个表，因此延迟较高B、由于MapReduce本身具有较高的响应延迟，因此在利用MapReduce执行HiveD、Hive查询延迟较于关系型数据库，延迟响一直都是很高的159.在Flink的配置文件中，()通常用来指定Flink任务并行度。答案：D160.在Hive中，哪个配置参数用于指定Hive的执行模式，如本地模式或MapReA、hive.execution.eng答案：B161.使用create命令新建容器时，指定容器在网络中的别名的命令选项是()。162.DStream的输出操作，不包括()。163.下列哪种情况不会触发到消费者分区的重C、处于消费者所在分区最近提交的offset位置164.Kafka的消费者可以以什么方式进行消息偏移量的管理?()165.Flink最常用的编程语言是()。166.Flume的默认Avro序列化方式是什么?()A、JSON167.以下关于Spark计算框架，说法错误的是()。D、Spark可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazo168.关于Hive用户自定义函数UDF的描述错误的是()。A、UDF(User-Defined-FB、UDAF(User-DefinedAggregationFuncation)聚C、UDTF(User-DefinedTable-GeneratingFunctions)一进多出D、上传UDFjar包至Hive环境即可使用自定义函数169.Kafka最初是由哪家公司开发的?()答案：C答案：AA、在节点数据变更之前B、在节点数据变更之后C、在节点数据变更期间答案：BA、jar答案：B173.在Flink中，()通常用于指定Flink作业的任务流图(JobGraph)。174.下面哪个命令是导入到集群()。175.Flume的Kafka源类型是什么?()答案：C176.Sqoop将导入或导出命令翻译成什么程序来实现导入导出()。177.SparkStreaming中对DStream的转换操作会转变成对()的操作。A、sql答案：C178.Sqoop是一个用于在Hadoop和关系型数据库之间进行大规模数据迁移的工具，它属于哪个Apache项目的一部分()答案：A179.在Hive中，以下哪个配置参数用于指定Hive服务器的端口号()?答案：B180.Flume的哪个版本加入了Kafka作为源和汇点?()181.制作镜像时，复制文件到镜像中使用的命令是()。A、DD182.查看Docker版本号的操作命令是()。183.Flume的哪个版本加入了对Thrift事件的的支持?()184.Hive是以()技术为基础的数据仓库。185.Linux下启动HDFS的命令是()。186.Docker容器是在()层面上实现虚拟化。187.在ZooKeeper中，节点的数据版本是如何维护的?()188.ZooKeeper中的数据模型是基于()。189.下列哪个数据类型不是hadoop的数据类型()。190.在Docker数据管理中，数据卷可以提供的特性不包括()。191.Docker内置网络模式不包括()。192.Flink支持处理各种类型的数据，包括()数据。193.在Hive中，以下哪个配置参数用于指定Hive的执行引擎A、hive.execution.engine=sp195.关于Hive各个格式使用场景描述错误的是()。A、Parquet对于大型查询的类型是高效的，对于扫描D、RCFile是一种行列存储相结合的存储方式答案：B196.在ZooKeeper中，SEQUENTIAL节点的特点是()。197.Spark默认的存储级别是()。198.当之前下线的分区重新上线时，要执行Leader选举，选举策略为()。199.Flume的哪个版本引入了Kafka作为其事件源和接收器?()200.下列()不是RDD的缓存方法。201.关于Dataset,下列说法错误的是()。D、ataset可以通过SparkSession中的createDataset来创建202.Flink的窗口操作通常在()执行，以对数据进行分组、聚合和统计。203.当在Sqoop中使用--target-dir参数时，它指定了哪个目录的路径?()204.启动一个容器的操作命令是()。205.使用消息队列的好处不包括()。206.Flink的分布式部署需要的组件是()。207.以下选项哪个是HDFS的名称节点()。答案：D208.在Docker的运行过程中，对镜像的操作不包括()。209.在ZooKeeper中，节点可以设置监听器吗?()A、是，可以设置监听器B、否，节点没有监听功能D、取决于节点的权限设置210.下面()端口不是Spark自带服务的端口。A、8080.0211.Docker运行的核心模块是()。B、分布式消息队列系统213.Kafka的消息保留策略可以根据什么进行配置?()214.关于Hive内外表描述正确的是()。A、内部表数据由HDFS自身管理，外部表数据由Hive管理；B、内部表数据存储的位置是hive.metastore.warehouse.dir设置配置(默认：C、外表存储必须指定LOCATION215.下列关于topic和partition的描述，错误的是()。216.Docker中的每一个工作都可以抽象为一个()。A、实例217.以下关于Spark中的RDD的说法，错误的是()。A、RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合B、每个RDD可分成多个分区，每个分区就是一个数据集片段D、RDD的不同分区可以被保存到集群中不同的节点上，从而可以在集群中的不218.以下哪种不是Hive支持的数据类型()。219.ZooKeeper中的一次读操作是原子的吗?()220.搜索nginx引擎的操作命令是()。答案：A221.在Sqoop中，使用哪个命令可以列出可用的数据库连接?()A、sqooplist-databas222.关于SecondaryNameNode哪项是正确的?()A、它是NameNode的热备B、它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间C、它对内存没有要求D、SecondaryNameNode应与NameNode部署到一个节点223.在ZooKeeper中，每个节点都有一个唯一的标识符，这个标识符是()。224.Hive中的自动分区是通过哪个配置参数启用的()?B、可序列化D、可持久化226.Flume的哪个组件用于将事件数据写入目标存储?()答案：B227.以下关于RDD的宽依赖和窄依赖的说法错误的是()。A、窄依赖表现为子RDD的一个分区只依赖于某个(些)父RDD的一个分区B、宽依赖则表现为子RDD的一个分区依赖于同一个父RDD的多个分区228.在ZooKeeper中，Watcher是一次性的吗?()C、取决于Watcher的类型229.sqoop的组件功能是()。230.以下选项中说法正确的是()。A、DAG是弹性分布式数据集的简称，是分布式内存的一个抽象概念，提供了一B、Application是运行在工作节点的一个进程，负责运行C、Job是运行在Executor上的工作单元D、Stage是Job的基本调度单位，一个Job会分为多组Task,每组Task被称为231.将一个已经创建的容器导出到一个文件使用的操作命令是()。232.以下对hive中表数据操作描述正确的是()。B、hive可以修改列值234.Docker配置文件的语法格式中，代表单个字符的符号是()。C、!答案：B235.关于Hive数据倾斜问题描述正确的是()。A、不需要了解业务，对业务进行数据探查无法解决数236.Dockerfile配置文件使用()命令指定基础镜像。A、IMPORTA、list238.Hadoop安装在一台计算机上，需修改相应的配置文件，用一台计算机模拟多台主机的集群是()模式。A、全分布模式B、伪分布模式D、全分布HA模式答案：BA、资源的分配和管理B、从节点C、执行器D、主节点240.以下哪个是正确的sqoop命令，用于将数据从MySQL导入到HDFS?()A、bin/sqoopimport--connectjdbc:mysql://0:3306/userdernameroot--delete-target-dir--target-dir/MysqIToHDFS1B、in/sqoopimport--connectjdbc:mysql://localhoseroot--delete-target-dir--target-dir/MysqlToHDFS1C、bin/sqoopimport--connectjdbc:mysql://localhost:330meroot--delete-target-dir--target-dir/MysqlToHDFSD、bin/sqoopimport--connectjdbc:mysql://localhosmeroot--delete-target-dir--target-dir/MysqIToHDFS1--tablestudent--m11.3A、-field-separator242.Docker的三大核心不包括()。243.关于DataFrame与RDD在结构上的区别，以下描述错误的是()。C、RDD在转换数据形式时效率相对较高D、ataFrame提供了比RDD更丰富的算子答案：C244.下面()操作是宽依赖。答案：C245.Flink的安全性设置通常包括(),以确保只有授权用户能够访问Flink集A、访问控制和身份验证B、作业调度和任务管理C、数据加密和网络安全D、日志管理和监控答案：A246.查看HDFS的报告命令是()。A、bin/hdfsdfsadmin-rep1.Flink整个系统包含()三个部分。A、Client2.下列关于容器操作命令匹配正确的有()。3.创建镜像的主要方法有()。4.Flink流式处理的数据源类型包括()。A、Collections5.在Hive中，以下哪个配置属性用于启用动态分区(A、hive.exec.dynamic.partit6.下列选项()是ZooKeeper的应用场景。7.在使用Sqoop将数据从Hive导入到MySQL之前，需要确保以下条件已经满足A、已经安装了Hadoop集群和Hive数据库B、已经安装了MySQL数据库，并且可以连接到MySQL数据库C、已经安装了Sqoop,并且可以在命令行中运行Sqoop命令8.Hive中的Bucketing是什么()。9.Kafka的特性()。10.Flink支持的部署模式有()。11.Hive的数据存储是如何组织的()。A、表B、分区12.Flink组件中流类型包括()。13.关于ZooKeeper顺序节点的说法不正确的是()。B、创建顺序节点时不能连续执行创建命令，否者报错节点已存在14.当使用Sqoop将数据从MySQL导入到HDFS时，以下()参数可以使用?15.ZooKeeper中的事务操作可以保证()特性。16.Hive中的哪个配置属性用于指定Hive表的默认存储格式()。A、hive.default.storage.fo18.Hive中的分区是如何定义的()。19.当使用Sqoop进行数据导出时，以下哪些()选项是正确的?B、Sqoop导出的数据可以按照指定的列进行排序C、Sqoop导出的数据可以插入到已存在的HDFS目录中D、Sqoop导出的数据可以删除已存在的HDFS目录20.启动HDFS至少需要启动()进程。21.在Hive中，以下哪个配置属性用于指定Hive表的默认文件格式()。22.Flink的编程模型包括哪几层()。D、有状态数据流处理答案：ABCD23.如果要在Hive中启用列级别的权限控制，哪个配置属性应该设置为true()。A、hive.column.Ievel.securB、hive.security.column.C、hive.enable.columnD、hive.column.authorizat答案：BCD24.在Hive中，以下哪个配置属性用于指定HDFS存储位置的根目录()。A、hive.data.root.dir25.下面是使用Sqoop将数据从Hive导入到MySQL的具体步骤()。27.zookeeper在kafka中的作用()。A、kafka将元数据信息维护在zookeeper上C、kafka使用zookeeper来实现动态的集群扩展D、发送到topic的数据需要经过zookeeper28.Flume可以应用于哪些数据传输场景?()29.下列关于Docker的操作命令正确的有()。30.Docker的常用镜像命令有()。31.Docker在开发和运维过程中具有的优势有()。32.Flume可以与其他哪些大数据技术进行集成?()33.Kafka相对传统技术有什么优势说法正确的是否()。C、持久：消息是持久性的，并在集群中进行复制，以防止数据丢失D、设计：它提供了容错保证和持久性34.关于Flink的架构表述正确的是()。C、Flink提供两个核心API:DatasetAPI和DataStreamAPI36.kafka容错性说话正确的是()。A、允许集群中节点失败(若副本数量为n,则允许n-1个节点失败)D、无论结束的是主还是副broker,都不会影响kafka使用，只要还有一个副本37.Sqoop中的--hive-drop-import-delims参数有什么作用?()A、在将数据从MySQL导入到Hive时，删除MySQL中存在的所有分隔符C、在将数据从MySQL导入到Hive时，删除Hive中存在的所有分隔符D、在将数据从MySQL导入到Hive时，删除Hive中存在的所有换行符38.Kafka负载均衡原理说法正确的是()。A、6producer根据用户指定的算法，将消息发送到指定的partitionB、存在多个partiiton,每个pazookeeper负责failoverD、通过zookeeper管理broker与consumer的动态加入与离开39.Master的ElectedLeader事件后不做()操作。40.Linux的特点是以下()方面。B、与Unix系统不兼容，具备几乎所有Unix的优秀特性。41.Docker容器的重要操作有()。42.ZooKeeper中的Watcher机制是通过以下()方式实现。43.关于spark容错说法错误的有()。C、heckpoint可以节约大量的系统资源44.RDD有()缺陷。C、拥有schema信息45.要配置Hive的元数据存储用户名，应该设置哪个属性()。A、hive.metastore.user答案：ABDA、作业的主进程B、负责了作业的调度C、负责向HDFS申请资源D、负责作业的解析答案：ABD47.Hive的分区和桶的主要区别是什么()。A、分区是物理存储层面的，而桶是逻辑存储层面的B、分区是逻辑存储层面的，而桶是物理存储层面的C、分区是由HiveMetastore管理的，而桶是用户自定义的D、分区和桶在Hive中没有区别A、自定义数据读取B、从集合中读取数据C、从文件中读取数据D、从消息列队中读取数据答案：ABCD49.Flink是实时计算的代表技术之一，以下针对Flink表述正确的有()。A、Flink是构建在数据流之上的一款有状态计算框架B、Flink可对有限数据流和无限数据流进行有状态或无状态的计算50.Sqoop中哪些参数可以用于指定要导入/导出的表?()51.利用数据卷容器可以对其中的数据卷进行()操作。52.Kafka的消费者可以以以下哪种方式进行消息的并行处理?()54.关于Docker容器的run命令，下列参数匹配正确的有()。55.关于spark中数据倾斜引发原因正确的选项有()。56.下列有关ZooKeeper中的节点路径说法正确的是()。57.Hadoop的运行模式分为以下()种。58.Hadoop核心主要由()部分组成。59.以下是Spark中executor的作用是()。60.Task运行不在以下选项中Executor上的工作单元有()。A、Driverprogram61.Flume可以用于哪些类型的数据采集?()A、结构化数据B、非结构化数据C、日志数据D、实时数据62.下面哪个配置属性用于指定Hive查询的最大并行度()。A、hive.query.parallel63.Kafka的消息传递可以使用的序列化器包括()。A、JSON65.关于partition中的数据是如何保持到硬盘上的，说法正确的是()。A、一个topic分为好几个partition,每一个partition是以文件夹的形式保B、每一个分区的命名是从序号0开始递增C、每一个partition目录下多个segment文件(包含xx.index,xx.log),默认是1G66.从RDD转换得到DataFrame包含两种典型的方法，分别是()。D、利用互联网机制推断RDD模式67.Sqoop目前支持两种增量导入模式，分别是()和()模式。68.nginx可以提供的功能有()。A、作为HTTP服务器69.下面哪些场景不是Flink擅长的()。70.要在Hive中配置HDFS的NameNodeURI,应该设置哪个属性()。72.在Hive中，以下哪个配置属性用于设置Hive表的默认压缩格式()。A、press.fo73.使用dockerps命令可以查看到的信息有()。A、容器IDB、镜像名称C、容器的端口D、生存时间E、环境变量74.关于dockerbuild命令支持的选项，下列匹配正确的有()。A、network:指定run命令时网络模式C、add-host:添加自定义的主机名到IP的映射D、label:配置镜像的标签75.Hive支持哪种数据存储格式()。A、CSV76.Stage的Task的数量不是由()决定。A、Partition77.Flink的主要特性包括()。A、精确一次的状态一致性保障D、事件时间支持A、控制节点的访问权限79.下面关于SparkMLlib库的描述正确的是()。A、MLlib库从1.2版本以后分为两个包：spark.mllib和spark.mlB、spark.mllib包含基于DataFrame的原始算法API80.Flink的时间窗口有()。A、滚动窗口B、滑动窗口C、定时窗口D、会话窗口81.Flume的拦截器可以完成哪些操作?()82.Flink的核心组件包括()。A、ResourceManager83.Hadoop集群的三大核心组件是()。84.要在Hive中启用LLAP(LowLatencyAnalyticalProcessing),哪个配置属85.关于HadoopHDFS的文件操作，正确的是()。B、HDFS可以查看文件内容D、HDFS可以更改文件内容86.Kafka的消息传递可以保证消息的可靠性传递通过()。87.要配置Hive的元数据存储连接字符串，应该设置哪个属性()。88.Hive中的数据类型包括哪些()。89.Flume的HTTPSource和Sink组件支持哪些协议?()A、HTTP90.Flink的兼容性体现在()。91.Flink支持的时间操作类型包括()。92.Flink的缓存机制包含以下哪些内容()。B、通过ExecutionEnvironment注册缓存文件并为其起名C、当程序执行时，Flink自动将文件或目录复制到所有TaskManager节点的本D、用户可以从TaskManager节点的本地文件系统访问它93.Hive中的哪个组件负责将HQL语句翻译成Tez或MapReduce任务()。A、QueryOptimizer94.HadoopHDFS自身的局限性包括()。A、不适合做低延迟、细粒度访问B、无法高效存储大量的小文件C、不支持多文件的写入及任意修改文件D、无法实现数据的冗余备份存储95.要启用Hive的Tez执行引擎，应该配置哪个属性()。A、hive.execution.eng96.如果要在Hive中启用用户定义的聚合函数(UDAFs),哪个配置属性应该设97.如果要在Hive中启用事务支持，哪个配置属性应该设置为true()。A、hive.transaction.enab98.Flume的拦截器支持哪些操作?()99.()是流计算的处理流程。100.要启用Hive的压缩功能，应该配置哪个属性()。A、press.ena101.Hadoop的优点有哪些()?102.Flume可以用于哪些方面的数据处理?()A、数据集中B、数据过滤103.Dockerfile配置文件中的指令包括()。104.Docker容器的操作状态有()。105.下面关于Flink的说法正确的是()。A、Flink起源于Stratosphere项目，该项目是在2010年到2014年间由柏林工D、Flink是Apache软件基金会的5个最大的大数据项目之一106.Kafka的核心组件包括()。A、Producer108.spark的特点包括()。B、通用109.SparkContext可以从()读取数据。110.下列属于RDD的转换算子的是()。111.ZooKeeper中的节点类型包括()。112.使用dockerstats命令可以显示的容器信息有()。113.ZooKeeper中的数据节点可以存储的数据类型包括()。114.Docker的常用容器命令有()。115.关于ZooKeeper的特性说法正确的是()。A、能改变ZooKeeper服务器状态的操作称为事务操作C、当节点发生变化时，通过watcher机制，可以让客户116.后端容器化环境部署中使用的数据库一般有()。117.管理自定义的网桥网络的操作命令有()。A、dockernetworkcrea118.Flink常见的应用场景包括()。A、数据流水线应用B、事件驱动型应用119.hadoopHA启动后，以下哪些进程运行在master()?120.SparkStreaming的基本输入源有()。121.查看Docker容器的子命令有()。122.Flume的Spoolingdirectorysource有何特点?()D、基于DAG的任务调度执行机制+C:F124.RDD的操作主要是()操作。125.Sqoop是一个用于在Hadoop和结构化数据存储(如关系型数据库)之间传输数据的工具。以下哪些()是Sqoop的主要参数?126.Docker的核心概念包括()。127.ZooKeeper的集群中的Leader节点的选举是通过以下()方式实现。128.下列选项中，属于Sqoop命令的参数有()。129.下面关于Flink窗口描述错误的是()。A、滚动窗口在时间上是重叠的B、滚动窗口在时间上是不重叠的C、滑动窗口之间时间点存在重叠D、滑动窗口之间时间点不存在重叠答案：AD130.Flink核心组成部分提供了面向()的接口。A、批处理D、复杂事件处理131.Flume的可靠性机制包括哪些内容?()A、数据备份存储132.Spark要想很好的支持SQL,需要完成三大过程。这三大过程包括()。1.()多个容器可以共享宿主机的同一个目录。4.()HADOOPHA通过主备NameNode解决单点故障问题，如果主NameNode发生9.()Flink的批处理模式和流处理模式是完全独立的，不能在同一个应用中同时使用。12.()大数据的数据类型丰富，包括结构化数据、半结构化数据和非结构化数14.()按照任务划分，回归模型不是机器学习模型。15.()Sqoop是apache旗下一款“hadoop和关系数据库服务器之间传送数据”的工具。16.

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2024年全国职业院校技能大赛中职（大数据应用与服务赛项）考试题库（含答案）

文档简介

温馨提示

最新文档

评论

2024年全国职业院校技能大赛中职（大数据应用与服务赛项）考试题库（含答案）

文档简介

温馨提示

最新文档

评论

相关文档