全国职业院校技能大赛中职（大数据应用与服务赛项）考试题及答案

上传人：共*** IP属地：河北上传时间：2025-01-26 格式：DOCX 页数：249 大小：258.15KB 积分：11 举报 版权申诉

已阅读5页，还剩244页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1.制作镜像时，复制文件到镜像中使用的命令是()。2.在配置好Hadoop集群之后，通过浏览器登录查看HDFS状态，以下是查看的URL()。类型，这些SQL类型被映射什么类型()。4.在ZooKeeper中，在配置文件zoo.cfg中，请问initLimit表示的含义是()。A、Leader-Follower初始通信时限B、Leader-Follower同步通信时限C、lient-Server通信心跳时间5.在ZooKeeper中，事务日志(transactionlog)用于记录()。A、节点的数据变更操作B、节点的子节点变更操作D、所有节点的操作6.在ZooKeeper中，每个节点都有一个唯一的标识符，这个标识符是()。7.在ZooKeeper中，节点可以设置监听器吗?()D、取决于节点的权限设置8.在ZooKeeper中，节点的数据版本是如何维护的?()B、手动指定C、根据节点的创建时间确定D、随机生成9.在ZooKeeper中，关于节点的ACL(访问控制列表)说法错误的是()。A、用于节点间的数据同步和一致性保证的协议D、取决于Watcher的设置A、节点名称具有顺序性D、节点的ACL具有顺序性D、只能由Follower节点创建D、所有选项都正确A、领导者(Leader)D、所有角色均可17.在Sqoop中，使用哪个命令可以列出可用的数据库连接?()18.在Sqoop中，哪个参数用于指定要导入的目标表?()19.在Kafka中，()是ISR队列中最小的LEO。20.在hive中下列哪个命令不可以实现去重()。22.在Hive中，以下哪个配置参数用于指定Hive执行计划的缓存23.在Hive中，以下哪个配置参数用于指定Hive元数据存储的数据库类型()?24.在Hive中，以下哪个配置参数用于指定Hive服务器的端口号25.在Hive中，以下哪个配置参数用于指定Hive的执行引擎为Spark()?26.在Hive中，以下哪个配置参数用于指定Hive表的默认存储格27.在Hive中，以下哪个配置参数用于指定HiveCLI的历史命令记录文件名()?28.在Hive中，以下哪个配置参数用于指定HDFS的名称节点地址()。29.在Hive中，哪个配置参数用于指定Hive的执行模式，如本地30.在Hive中，哪个配置参数用于指定HiveCLI的历史命令记录31.在HDFS文件操作中，上传文件的命令是()。33.在hadoop配置中core-site.xml的配置是()参数。34.在Flink中，水位线是()生成的。35.在Flink中，窗口(Window)的作用是()。A、控制数据流的速度B、对数据流进行分组C、对数据流进行时间切片D、对数据流进行过滤36.在Flink中，()通常用于指定Flink作业的任务流图(JobGraph)。B、job.conf37.在Flink的配置文件中，()通常用来指定Flink任务并行度。38.在Docker数据管理中，数据卷可以提供的特性不包括()。A、数据卷可以在容器之间共享和重用B、对数据卷内数据的修改立马生效C、对数据卷的更新不影响镜像D、挂载数据卷时要手工创建挂载目录39.在Docker的运行过程中，对镜像的操作不包括()。40.在Centos中启动Docker服务的命令是()。41.在()版本后，Kafka正式移除了对Zookeeper的依赖。B、Kafka2.642.允许开发人员为容器分配MAC地址的是()。A、网桥网络B、覆盖网络C、驱动网络D、主机网络43.以下选项中说法正确的是()。A、DAG是弹性分布式数据集的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型B、Application是运行在工作节点的一个进程，负责运行TaskC、Job是运行在Executor上的工作单元D、Stage是Job的基本调度单位，一个Job会分为多组Task,每组Task被称为Stage44.以下选项哪个是MapReduce正确的运行模型()。45.以下选项哪个是HDFS的名称节点()。46.以下哪种不是Hive支持的数据类型()。47.以下哪个选项不是Sqoop的导入模式?()B、in/sqoopimport--connnameroot--delete-target-dir--target-dir/MysqlToHDFS1--taernameroot-delete-target-dir--target-dir/MysqITD、bin/sqoopimport--cernameroot-delete-target-dir--target-dir/Mysql49.以下哪个参数在sqoop命令中用于指定要删除HDFS的目标目50.以下关于Spark中的RDD的说法，错误的是()。A、RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合B、每个RDD可分成多个分区，每个分区就是一个数据集片段C、RDD提供了一种高度共享内存模型，RDD既可以读，也可D、RDD的不同分区可以被保存到集群中不同的节点上，从而51.以下关于Spark计算框架，说法错误的是()。C、Spark提供了完整而强大的技术栈，包可运行于AmazonEC2等云环境中52.以下关于RDD的宽依赖和窄依赖的说法错误的是()。A、窄依赖表现为子RDD的一个分区只依赖于某个(些)父RDD的一个分区C、宽依赖的RDD之间无Shuffle操作53.以下关于Hive操作描述不正确的是()。A、Hive是一个建立在hadoop文件系统上的数据仓库架构，可B、Hive依赖于MapReduce处理数据54.以下对hive中表数据操作描述正确的是()。D、以上说法都不对55.以下()文件中主要用来配置ResourceManager,NodeManager56.要在Hive中启用数据列级别的访问控制(RBAC),应该设置哪个配置参数()?57.要在Hive中启用Kerberos认证，应该设置哪个配置参数()?58.消费者出现活锁问题时应该()。A、增加erval.ms相关参数B、减少消费者数量C、重启集群59.下面中不属于HIVE中的元数据信息()。A、表的名字B、表的列和分区及其属性C、表的属性(只存储内部表信息)D、表的数据所在目录60.下面哪个命令是导入到集群()。61.下面哪个命令是创建hive表()。63.下面哪个程序负责HDFS数据存储()。64.下面()端口不是Spark自带服务的端口。65.下面()操作是窄依赖。66.下面()操作是宽依赖。67.下面()不是RDD的特点。C、可修改oop连接器进行数据的导入导出操作69.下列选项中，针对Spark运行的基本流程是错误是()。A、Driver端提交任务，向Master申请资源C、Executor启动会主动连接Driver,通过Driver->Master->WorkExecutor,从而得到Driver在哪D、river会产生Task,提交给Executor中启动Task去做真正的计算70.下列说法错误的是()。A、生产者和消费者面向的都是一个topicB、生产者发送数据的对象是leaderA、当有新的消费者加入消费者组B、已有的消费者推出消费者组C、处于消费者所在分区最近提交的offset位置D、消费者所订阅的主题的分区发生变化72.下列哪个数据类型不是hadoop的数据类型()。73.下列描述中，哪项不属于Sqoop的缺点()。C、安全机制不够完善D、connector必须符合JDBC模型74.下列关于topic和partition的描述，错误的是()。A、Kafka中消息是以partition进行分类的C、每个partition对应于一个log文件D、一个partition分为多个segment75.下列关于MapReduce说法不正确的是()。A、MapReduce是一种计算框架B、MapReduce来源于google的学术论文C、MapReduce程序只能用java语言编写D、MapReduce隐藏了并行计算的细节，方便使用76.下列关于leader和follower的说法正确的是()。A、一个topic的每个分区可以没有leaderB、一个topic的每个分区可以没有followerC、消费者消费数据的对象都是leaderD、follower从leader中同步数据有一定延迟77.下列方法中，不能创建RDD的方法是()。78.下列()不是RDD的缓存方法。79.下列()不是Docker项目中用于文件存储的数据库。80.下列()不可以作为SparkStreaming的输入数据流。82.搜索nginx引擎的操作命令是()。84.使用消息队列的好处不包括()。D、能够同步通信85.使用Dockerrun命令运行一个容器时，通过参数()可启动一个bash允许用户进行交互。选项是()。选项是()。88.若要在Hive中启用压缩数据存储，应该设置哪个配置参数89.强制删除容器tmp01的操作命令是()。90.启动一个容器的操作命令是()。91.将一个已经创建的容器导出到一个文件使用的操作命令是()。92.将一个RDD转换为DataFrame的方法是()。93.将大数据平台数据导出到mysql可以使用()工具。95.获取远程仓库中Docker镜像的操作命令是()。96.关于ZooKeeper临时节点的说法正确的是()。C、临时节点不能手动删除97.关于SparkStreaming的优点，不包括()。B、容错性D、低吞吐量98.关于SparkSQL,以下说法正确的是()。C、HiveContext只支持SQL语法解析器D、SparkSQL的前身是Hive99.关于SparkSQL,以下描述错误的是()。A、SparkSQL使用的数据抽象并非是DataFrame,而是RDDC、DataFrame是一种以RDD为基础的分D、ataFrame可以完成RDD的绝大多数功能100.关于SecondaryNameNode哪项是正确的?()B、它的目的是帮助NameNode合并编辑日志，减少NameNodeC、它对内存没有要求101.关于MapReduce优点，下列说法不正确的是()。A、高容错性D、适合做实时计算102.关于MapReduce的说法正确的是()。C、MapReduce是分布式文件存储系统D、MapReduce1.0既是一个计算框架又是一个资源调度框架103.关于Hive用户自定义函数UDF的描述错误的是()。A、UDF(User-Defined-Function)一进一出B、UDAF(User-DefinedAggregationFuncation)聚集函数C、UDTF(User-DefinedTable-GeneratingFunctions)一进多出104.关于Hive数据倾斜问题描述正确的是()。C、小文件合并不会解决数据倾斜的问题D、可以适当的通过控制mapper和reducer来控制数据倾斜的问题105.关于Hive数据模型描述正确的是()。A、Hive的元数据存储在HDFS中106.关于Hive内外表描述正确的是()。A、内部表数据由HDFS自身管理，外部表数据由Hive管理；置(默认：/user/hive/warehouse)C、外表存储必须指定LOCATIOND、内外表删除时，都会删除元数据和存储107.关于Hive描述正确的是()。A、count函数必须开窗口才能使用108.关于Hive和传统数据库的比较描述正确的是()?A、Hive使用了查询语言HQL(HiveQueryLanguage),HQL与SQL没有任何关系B、Hive使用了查询语言HQL(HiveQueryLanguage),HQL与SQL没有任何关系C、Hive是建立在Hadoop之上的，所有Hive的数据都是存储在109.关于Hive各个格式使用场景描述错误的是()。A、Parquet对于大型查询的类型是高效的，对于扫描特定表格中的特定列的查询，Parquet特别有用B、目前Parquet默认使用gzip压缩格式C、ORC可以支持复杂的数据结构(比如Map等)D、RCFile是一种行列存储相结合的存储方式110.关于Hive的SequenceFile格式描述正确的是()。A、SequenceFile是二进制文件格式，以list的形式序列化到文件中D、SequenceFile优势是文件和Hadoopapi中的MapFile是相互兼111.关于Hive存储的文件格式描述错误的是()。A、ORC格式是Hive一直支持的B、TEXTFILE是Hive的默认存储格式C、SequenceFile是一种二进制存储112.关于Hive查询通常延迟较高的原因描述错误的是()。A、由于没有索引，需要扫描整个表，因此延迟较高D、Hive查询延迟较于关系型数据库，延迟响一直都是很高的A、HiveSQL的Parser层是为了将SQL转化为执行计划的D、编译器遍历ASTTree,抽象出查询的基本组成单元Operator114.关于Hivemetastore的三种模式的描述错误的是()。A、Derby方式是内嵌的方式，也是默认的启动方式，一般用于B、local模式中，使用MySQL本地部署实现metastoreC、remote模式为远程MySQLD、erby方式在同一时间只能有多个进程连接使用数据库115.关于DStream窗口操作函数，以下说法错误的是()。A、window()返回基于源DStream的窗口进行批计算后的一个新的DstreamB、countByWindow()返回基于滑动窗口的DStream中的元素数C、reduceByWindow()做聚合操作并返回一个新的DstreamD、以上说法都不对116.关于Dataset,下列说法错误的是()。B、Dataset提供了特定域对象中的弱类型集合C、Dataset结合了RDD和DataFrame的优点D、ataset可以通过SparkSession中的createDataA、DataFrame可以看作是分布式的Row对象的集合，在二维表D、ataFrame提供了比RDD更丰富的算子118.关于DataFrame的优势，以下描述错误的是()。A、DataFrame提升了Spark框架的执行效率B、DataFrame减少了数据读取时间C、DataFrame可以优化执行计划D、ataFrame可以完全替换RDD119.典型的NoSQL数据库是()。120.当之前下线的分区重新上线时，要执行Leader选举，选举策略为()。A、OfflinePartitionLeaB、ReassignPartitionLeader选举A、导出数据的目录B、导入数据的目录C、HDFS的目标目录D、S3的目标目录表的哪个位置?()A、文件的开头B、文件的末尾C、新文件中D、随机位置数用于指定使用多个mapper?()124.当Kafka中日志片段大小达到()时，当前日志片段会被关125.查看HDFS的报告命令是()。126.查看Docker镜像信息的命令是()。127.查看Docker版本号的操作命令是()。128.ZooKeeper中的一致性协议ZAB是基于()算法实现。B、Raft算法C、Paxos算法D、3PC(Three-PhaseCommit)算法129.ZooKeeper中的一次写操作是原子的吗?()A、是，写操作是原子的B、否，写操作可能不是原子的C、取决于写操作的类型130.ZooKeeper中的一次读操作是原子的吗?()A、是，读操作是原子的B、否，读操作可能不是原子的C、取决于读操作的类型131.ZooKeeper中的数据模型是基于()。132.ZooKeeper中的节点可以设置()类型的触发器。133.ZooKeeper使用的是()文件系统。136.Task运行在下面()选项中Executor上的工作单元。137.Stage的Task的数量由()决定。据时正确处理字段?()139.Sqoop是一个用于在Hadoop和关系型数据库之间进行大规模数据迁移的工具，它属于哪个Apache项目的一部分()140.Sqoop是Hadoop和关系数据库服务器之间传送数据的工具，下列哪种数据库是不支持使用Sqoop直接进行数据传送()。141.Sqoop将导入或导出命令翻译成什么程序来实现导入导出142.Sqoop的作用是()。A、用于传统关系数据库和Hadoop之间传输数据B、提供对日志数据进行简单处理的能力C、是Hadoop体系中数据存储管理的基础D、是一个建立在HDFS之上，面向列的针对结构化和半结构化数据和动态数据库143.sqoop的组件功能是()。A、sqoop只能实现关系型数据库向非关系型数据传输数据B、sqoop是关系型数据库C、sqoop实现在关系型数据库和非关系型数据库之间时行数据D、sqoop是非关系型数据库144.sqoop安装完成后，查看sqoop版本的命令是()。145.Spark默认的存储级别是()。146.Spark采用RDD以后能够实现高效计算不是因为()。A、高效的容错性，通过血缘关系重新计算丢失分区B、中间结果持久化到内存，数据在内存中的多个RDD操作之147.SparkStreaming中对DStream的转换操作会转变成对()的操148.SparkJob默认的调度模式是()。D、运行时指定149.MySQL数据库驱动文件放置于hive哪个目录下()。150.Linux下启动HDFS的命令是()。151.Kafka最初是由哪家公司开发的?()152.Kafka是一种()。153.Kafka使用的是什么类型的消息传递模式?()154.Kafka服务器默认能接收的最大消息是多大?()6D、没有大小限制，因为支持大数据155.Kafka的主题分区数量可以根据什么进行配置?()B、消费者数量C、主题的重要性156.Kafka的消息以什么形式进行存储?()C、文档157.Kafka的消息压缩算法可以选择的方式是()。D、所有以上158.Kafka的消息消费可以使用哪种模式?()159.Kafka的消息是如何进行顺序写入的?()A、顺序写入到磁盘B、顺序写入到内存C、顺序写入到缓存D、顺序写入到索引文件160.Kafka的消息传递语义是()。161.Kafka的消息传递保证是()。A、至少一次D、无保证162.Kafka的消息保留策略可以根据什么进行配置?()163.Kafka的消费者在处理消息时可以选择的模式是(D、并行模式164.Kafka的消费者可以以什么方式进行消息偏移量的管理?()B、自动管理D、循环管理165.Kafka的核心是由哪个组件组成?()166.Kafka的高可用性是通过什么机制实现的?()D、数据缓存167.HMaster的主要作用是()。B、负责响应用户I/O请求，向HDFS文件系统读写数据D、最终保存HBase数据行的文件168.Hive中以下操作不正确的是()。169.Hive中分组的关键字是什么()?170.Hive中的自动分区是通过哪个配置参数启用的()?171.Hive中的配置文件通常位于哪个目录中()?172.Hive中的哪个配置参数用于指定Hive元数据存储的连接UR173.Hive中的哪个配置参数用于指定Hive的临时文件目录()?174.Hive是由哪家公司开源的()。175.Hive是以()技术为基础的数据仓库。176.Hive是为了解决哪类问题()?A、海量结构化日志的数据统计177.Hive默认的元存储是保存在内嵌的()数据库中。178.Hive的默认元数据存储是什么()?179.HBase依赖()技术框架提供消息通信机制。有()。台计算机模拟多台主机的集群是()模式。B、伪分布模式C、单机模式A、可以用JAVA语言编写MapReduce应用程序B、可以用C/C++语言编写MapReduce应用程序C、可以用Python语言编写MapReduce应用程序D、可以用javascript语言编写MapReduce应用程序183.hadoop2.0与hadoop1.0区别()。D、增加容错机制184.Flume如何处理故障恢复?()185.Flume的源类型有哪些?()参考答案：C参考答案：D187.Flume的事件可以包含哪些属性?()188.Flume的事件Body可以包含什么类型的数据?()化后的数据。C、Byte数组，字节流和自定义对象序列化后的数据。D、String和自定义对象序列化后的数据。参考答案：A195.Flume的哪个版本开始支持Avro作为数据传输格式?()A、1.X版本B、2.X版本C、3.X版本D、4.X版本以后196.Flume的哪个版本加入了对Thrift事件的的支持?()197.Flume的哪个版本加入了Kafka作为源和汇点?()B、2.X版本C、3.X版本D、4.X版本199.Flume的默认Avro序列化方式是什么?()200.Flume的拦截器实现了哪个接口?()201.Flume的Source组件负责什么?()A、接收数据并将其写入ChannelC、从数据源读取数据并将其写入ChannelD、从数据源读取数据并将其写入接收器202.Flume的Kafka源类型是什么?()203.Flume的Channel组件负责什么?()A、临时存储从Source组件接收的数据B、临时存储从下一组件接收的数据204.Flink最常用的编程语言是()。205.Flink中的转换算子(TransformationOperator)通常用于()。A、计算作业的结果B、控制作业的执行顺序C、定义数据源A、事件发生的时间D、事件被记录的时间D、任务的执行顺序208.Flink中的Watermark是用来(),帮助Flink正确地处理迟到的事件。D、控制数据流的大小209.Flink中的Checkpoints(检查点)主要用于()。C、执行作业210.Flink支持的数据处理方式为()。D、无法确定211.Flink支持处理各种类型的数据，包括()数据。A、结构化B、半结构化C、无结构化212.Flink任务管理器(TaskManager)的作用是()。213.Flink的作业调度(JobScheduling)通常由()负责。214.Flink的作业提交通常需要()来管理作业的执行。215.Flink的状态管理用于(),以支持容错性和状态化的计算。D、执行数据清洗216.Flink的主要特点是()。A、高吞吐量217.Flink的数据源可以是()。e)和处理时间(ProcessingTime)的区别是()。间间C、事件时间和处理时间是相同的D、事件时间和处理时间没有明确的定义219.Flink的容错机制是()工作的，它定期记录数据流的状态，D、基于数据重播220.Flink的日志管理通常包括()这几个方面。A、日志存储和检索C、日志分析和报警D、以上都是221.Flink的广播状态(BroadcastState)用于()。A、在所有任务之间共享状态B、保持数据流的连续性C、加速数据处理D、控制数据流速度是()。223.Flink的分布式部署需要的组件是()。224.Flink的窗口操作通常在()执行，以对数据进行分组、聚合A、数据产生时B、数据进入Flink时C、数据在窗口中间时D、数据离开Flink时225.Flink的本地模式(LocalMode)和集群模式(ClusterMode)之间的主要区别是()。A、部署方式226.Flink的安装配置中，通过()来指定外部依赖库的路径。227.Flink的安全性设置通常包括(),以确保只有授权用户能够B、作业调度和任务管理A、编写Flink作业229.Flink的TableAPI和SQL用于()。D、数据清洗230.Flink的CEP(ComplexEventProcessing)库用于(),帮助检231.DStream的转换操作方法中，()方法可以直接调用RDD上232.DStream的输出操作，不包括()。233.Docker中的每一个工作都可以抽象为一个()。234.Docker运行的核心模块是()。A、*237.Docker内置网络模式不包括()。238.Docker的三大核心不包括()。239.Docker的()命令只支持将本地文件复制到容器中。240.Docker的()命令用于构建镜像。241.Dockerfile中指定环境变量的指令是()。242.Dockerfile中声明镜像内服务监听的端口的指令是()。243.Dockerfile配置文件使用()命令指定基础镜像。244.Dataset最终在()版本中被定义成Spark新特性。245.DataFrame和RDD最大的区别是()。D、外部数据源支持246.ClusterManager是()。A、资源的分配和管理247.()参数不影响kafka重平衡?1.在使用Sqoop将数据从Hive导入到MySQL之前，需要确保以下条件已经满足()。A、已经安装了Hadoop集群和Hive数据库B、已经安装了MySQL数据库，并且可以连接到MySQL数据库C、已经安装了Sqoop,并且可以在命令行中运行Sqoop命令D、已经安装好JAVA式()。3.在Hive中，以下哪个配置属性用于指定HDFS存储位置的根目录()。4.在Hive中，以下哪个配置属性用于设置Hive表的默认压缩格式()。5.在Hive中，以下哪个配置属性用于启用动态分区()。6.与hadoop相比，Spark主要有()优点。A、提供多种数据集操作类型而不仅限于MapRC、提供了内存计算，带来了更高的迭代运算效率D、基于DAG的任务调度执行机制+C:F7.以下是Spark中executor的作用是()。A、保存计算的RDD分区数据D、做资源调度任务8.以下哪些组件属于Hadoop生态圈()。9.要在Hive中启用LLAP(LowLatencyAnalyt配置属性应该设置为true()。10.要在Hive中配置HDFS的NameNodeURI,应该设置哪个属性11.要启用Hive的压缩功能，应该配置哪个属性()。12.要启用Hive的Tez执行引擎，应该配置哪个属性()。13.要配置Hive的元数据存储用户名，应该设置哪个属性()。14.要配置Hive的元数据存储连接字符串，应该设置哪个属性()。15.下面是使用Sqoop将数据从Hive导入到MySQL的具体步骤B、插入数据D、在MySQL中查看数据16.下面哪些场景不是Flink擅长的()。B、迭代计算C、数据存储D、流处理17.下面哪个配置属性用于指定Hive查询的最大并行度()。18.下面关于SparkMLlib库的描述正确的是()。A、MLlib库从1.2版本以后分为两个包：spark.mllib和spark.mlB、spark.mllib包含基于DataFrame的原始算法APIC、spark.mllib包含基于RDD的原始算法APID、spark.ml则提供了基于RDD的、高层次的API19.下面关于Flink的说法正确的是()。A、Flink起源于Stratosphere项目，该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开D、Flink是Apache软件基金会的5个最大的大数据项目之一20.下面关于Flink窗口描述错误的是()。A、滚动窗口在时间上是重叠的B、滚动窗口在时间上是不重叠的C、滑动窗口之间时间点存在重叠D、滑动窗口之间时间点不存在重叠21.下列有关ZooKeeper中的节点路径说法正确的是()。23.下列选项()是ZooKeeper的应用场景。C、分布式协调/通知24.下列属于RDD的转换算子的是()。25.下列关于容器操作命令匹配正确的有()。26.下列关于Docker的操作命令正确的有()。27.使用dockerstats命令可以显示的容器信息有()。28.使用dockerps命令可以查看到的信息有()。A、容器IDB、镜像名称C、容器的端口D、生存时间E、环境变量29.如果要在Hive中启用用户定义的聚合函数(UDAFs),哪个配30.如果要在Hive中启用事务支持，哪个配置属性应该设置为tr31.如果要在Hive中启用列级别的权限控制，哪个配置属性应该设置为true()。32.启动HDFS至少需要启动()进程。33.利用数据卷容器可以对其中的数据卷进行()操作。34.后端容器化环境部署中使用的数据库一般有()。35.管理自定义的网桥网络的操作命令有()。36.关于ZooKeeper顺序节点的说法不正确的是()。B、创建顺序节点时不能连续执行创建命令，否者报错节点已存在C、通过顺序节点，可以创建分布式系统唯一IDD、顺序节点的序号能无限增加37.关于ZooKeeper的特性说法正确的是()。知D、watch能触发多次38.关于spark中数据倾斜引发原因正确的选A、key本身分布不均衡C、过多的数据在一个task里面39.关于spark容错说法错误的有()。A、在容错机制中，如果一个节点死机了，而且运算窄依赖，则只要把丢失的父RDD分区重算即可，依赖于其他C、heckpoint可以节约大量的系B、每一个分区的命名是从序号0开始递增C、每一个partition目录下多个segment文件(包含xx.index,xx.log),默认是1GD、每个分区里面的消息是有序的，数据是一样的41.关于HadoopHDFS的文件操作，正确的是()。A、HDFS可以创建文件并写入数据B、HDFS可以查看文件内容D、HDFS可以更改文件内容42.关于Flink的架构表述正确的是()。D、ataSetAPI做批处理，而DataStreamAPI做流处理43.关于Docker容器的run命令，下列参数匹配正确的有()。44.关于dockerbuild命令支持的选项，下列匹配正确的有()。45.当使用Sqoop进行数据导出时，以下哪些()选项是正确的?A、Sqoop可以使用多个mapper同时进行数据导出B、Sqoop导出的数据可以按照指定的列进行排序C、Sqoop导出的数据可以插入到已存在的HDFS目录中D、Sqoop导出的数据可以删除已存在的HDFS目录46.当使用Sqoop将数据从MySQL导入到HDFS时，以下()参A、利用反射机制推断RDD模式B、使用编程方式定义RDD模式C、利用投影机制推断RDD模式D、利用互联网机制推断RDD模式48.创建镜像的主要方法有()。49.查看Docker容器的子命令有()。50.ZooKeeper中的数据节点可以存储的数据类型包括()。D、二进制数据51.ZooKeeper中的事务操作可以保证()特性。A、原子性C、隔离性D、持久性52.ZooKeeper中的节点类型包括()。B、临时节点C、有序节点D、临时有序节点53.ZooKeeper中的Watcher机制是通过以下()方式实现。A、回调函数D、事件驱动54.ZooKeeper中的SEQUENTIAL节点的特点是()。B、无序节点C、节点名称自动递增D、节点名称不自动递增55.ZooKeeper中的ACL(AccessControlList)用于()。B、控制节点的读写权限C、kafka使用zookeeper来实现动态的集群扩展D、发送到topic的数据需要经过zookeeper57.ZooKeeper的集群中的Leader节点的选举是通过以下()方式B、抢占式D、选举算法58.Task运行不在以下选项中Executor上的工作单元有()。59.Stage的Task的数量不是由()决定。60.Sqoop中哪些参数可以用于指定要导入/导出的表?()61.Sqoop中的--hive-drop-import-delims参数有什么作用?()A、在将数据从MySQL导入到Hive时，删除MySQL中存在的D、在将数据从MySQL导入到Hive时，删除Hive中存在的所有换行符62.Sqoop是一个用于在Hadoop和结构化数据存储(如关系型数据库)之间传输数据的工具。以下哪些()是Sqoop的主要参数?63.Sqoop目前支持两种增量导入模式，分别是()和()模式。包括()。A、加载loadD、执行execution65.spark的特点包括()。C、可延伸D、兼容性A、文件流67.Sparkdriver的功能是()。A、作业的主进程B、负责了作业的调度D、负责作业的解析68.SparkContext可以从()读取数据。69.RDD有()缺陷。A、不支持细粒度的写和更新操作(如网络爬虫)B、基于内存的计算D、不支持增量迭代计算70.RDD的操作主要是()操作。A、转换算子操作C、读写操作D、行动算子操作D、作为反向代理服务器73.Linux的特点是以下()方面。A、开放源代码的程序软件，可自由修改。74.Kafka相对传统技术有什么优势说法正确的是6()。A、快速：单一的Kafka代理可以处理成千上万的客户端，每秒处理数兆字节的读写操作。失75.kafka容错性说话正确的是()。A、允许集群中节点失败(若副本数量为n,则允许n-1个节点失败)B、杀死集群中的主节点还是可以使用C、杀死集群中所有的副节点还是可以使用D、无论结束的是主还是副broker,都不会影响kafka使用，只要还有一个副本76.Kafka负载均衡原理说法正确的是()。A、否producer根据用户指定的算法，将消息发送到指定的partitB、存在多个partiton,每个partition有自己的replica,每个replica分布在不同的Broker节点上C、多个partition需要选取出leadpartition,leadpartition负责读写，D、通过zookeeper管理broker与consumer的动态加入与离开77.Kafka的消息传递可以使用的序列化器包括()。78.Kafka的消息传递可以保证消息的可靠性传递通过()。A、复制机制B、冗余机制D、容错机制79.Kafka的消费者可以以以下哪种方式进行消息的并行处理?()81.Kafka的核心组件包括()。82.Hive中的数据类型包括哪些()。D、自定义数据类型83.Hive中的数据存储如何分区()。84.Hive中的哪个组件负责将HQL语句翻译成Tez或MapReduce任务()。85.Hive中的哪个组件负责将HQL语句翻译成MapReduce任务86.Hive中的哪个配置属性用于指定Hive表的默认存储格式()。87.Hive中的分区是如何定义的()。A、在表的创建时定义D、在表的插入操作中定义88.Hive中的Bucketing是什么()。D、一种数据存储技术89.Hive支持哪种数据存储格式()。90.Hive的数据存储是如何组织的()。91.Hive的分区和桶的主要区别是什么()。C、分区是由HiveMetastore管理的，而桶是用户自定义的D、分区和桶在Hive中没有区别92.Hadoop集群的三大核心组件是()。93.Hadoop核心主要由()部分组成。94.Hadoop的运行模式分为以下()种。B、伪分布模式C、全分布模式D、主备模式95.Hadoop的优点有哪些()?A、扩容能力强B、成本低C、速度快D、占用资源少96.HadoopHDFS自身的局限性包括()。A、不适合做低延迟、细粒度访问B、无法高效存储大量的小文件C、不支持多文件的写入及任意修改文件D、无法实现数据的冗余备份存储97.hadoopHA启动后，以下哪些进程运行在master()?98.Flume可以与其他哪些大数据技术进行集成?()99.Flume可以用于哪些类型的数据采集?()B、非结构化数据C、日志数据100.Flume可以用于哪些方面的数据处理?()A、数据集中101.Flume可以应用于哪些数据传输场景?()A、数据中心之间传输数据B、跨网络传输数据C、日志数据传输102.Flume的拦截器支持哪些操作?()A、数据过滤103.Flume的拦截器可以完成哪些操作?()A、数据过滤104.Flume的可靠性机制包括哪些内容?()D、数据顺序保证105.Flume的核心组件有哪些?()有何特点?()A、可处理大文件C、可自动滚动文件108.Flink组件中流类型包括()。A、有界流B、无界流C、字符流D、文件流A、结束时间C、采集时间D、事件时间110.Flink支持的部署模式有()。111.Flink支持的Source包括()。A、自定义数据读取C、从文件中读取数据112.Flink整个系统包含()三个部分。113.Flink有哪些状态存储方式()。114.Flink是实时计算的代表技术之一，以下针对Flink表述正确的有()。A、Flink是构建在数据流之上的一款有状态计算框架B、Flink可对有限数据流和无限数据流进行有状态或无状态的计算C、Flink无法对大规模的数据进行快速计算D、Flink能够部署在各种集群环境115.Flink流式处理的数据源类型包括()。116.Flink核心组成部分提供了面向()的接口。117.Flink的主要特性包括()。A、精确一次的状态一致性保障D、事件时间支持A、滚动窗口B、滑动窗口C、定时窗口D、会话窗口A、YARN能够作为Flink集群的资源调度管理器B、能够与Hadoop原有的Mappers和Reduces混合使用C、能够使用Hadoop的格式化输入和输出D、能够从本地获取数据A、可以使用户在并行函数中很方便的读取本地文件C、当程序执行时，Flink自动将文件或目录复制到所有TaskManager节点的本地文件系统D、用户可以从TaskManager节点的本地文件系统访问它121.Flink的核心组件包括()。122.Flink的编程模型包括哪几层()。D、有状态数据流处理123.Flink常见的应用场景包括()。C、地图应用D、数据分析应用124.Docker在开发和运维过程中具有的优势有()。C、更轻松的迁移扩展D、更简单的更新管理要方式有()。A、映射所有接口地址B、映射到指定地址的指定端口126.Docker容器的重要操作有()。A、创建127.Docker容器的操作状态有()。A、

人人文库> 全部分类> 教育资料 > 中学教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

全国职业院校技能大赛中职（大数据应用与服务赛项）考试题及答案

文档简介

温馨提示

最新文档

评论

全国职业院校技能大赛中职（大数据应用与服务赛项）考试题及答案

文档简介

温馨提示

最新文档

评论

相关文档