世界职业院校技能大赛中职组“大数据应用与服务组”赛项考试题及答案_第1页
世界职业院校技能大赛中职组“大数据应用与服务组”赛项考试题及答案_第2页
世界职业院校技能大赛中职组“大数据应用与服务组”赛项考试题及答案_第3页
世界职业院校技能大赛中职组“大数据应用与服务组”赛项考试题及答案_第4页
世界职业院校技能大赛中职组“大数据应用与服务组”赛项考试题及答案_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

世界职业院校技能大赛中职组“大数据应用与服务组”赛项考试题及答案含义是()。符是()。5.在ZooKeeper中,节点可以设置监听器吗?()6.在ZooKeeper中,节点的数据版本是如何维护的?()A、自动递增7.在ZooKeeper中,关于节点的ACL(访问控制列表)说法错误的是()。A、CL可以用于控制节点的读写权限D、ACL只能设置在持久节点上A、用于节点间的数据同步和一致性保证的协议C、用于节点间的负载均衡和路由选择的协议D、用于节点间的权限控制和访问管理的协议C、取决于Watcher的类型B、跟随者(Follower)C、观察者(Observer)D、所有角色均可13.在Kafka中,()是ISR队列中最小的LEO。15.在Hive中,以下哪个配置参数用于指定Hive执行计划的输出16.在Hive中,以下哪个配置参数用于指定Hive元数据存储的数据库类型()?17.在Hive中,以下哪个配置参数用于指定Hive服务器的端口号18.在Hive中,以下哪个配置参数用于指定Hive的执行引擎为Spark()?19.在Hive中,以下哪个配置参数用于指定HiveCLI的历史命令记录文件名()?20.在Hive中,哪个配置参数用于指定Hive的执行模式,如本地21.在Hive中,哪个配置参数用于指定HiveCLI的历22.在HDFS文件操作中,上传文件的命令是()。通常设置为()。25.在hadoop配置中core-site.xml的配置是()参数。D、集群资源管理系统参数26.在Flink中,水位线是()生成的。C、由用户手动指定27.在Flink中,()通常用于指定Flink作业的任务流图(JobGraph)。28.在Flink的配置文件中,()通常用来指定Flink任务并行度。29.在Docker数据管理中,数据卷可以提供的特性不包括()。D、挂载数据卷时要手工创建挂载目录30.在Docker的运行过程中,对镜像的操作不包括()。31.在Centos中启动Docker服务的命令是()。32.允许开发人员为容器分配MAC地址的是()。B、覆盖网络D、主机网络A、能够持久化日志C、Job是运行在Executor上的工作单元D、Stage是Job的基本调度单位,一个Job会分为多组Task,每组Task被称为Stage36.以下选项哪个是HDFS的名称节点()。37.以下哪种不是Hive支持的数据类型()。38.以下哪个选项不是Sqoop的导入模式?()D、JSON导入39.以下哪个文件是能够修改HDFS的副本保存数量参数()。40.以下哪个是正确的sqoop导入数据的完整命令?()ttA、Spark的计算模式也属于MapReduce,但不局限于Map和Re44.以下关于Spark计算框架,说法错误的是()。C、Spark提供了完整而强大的技术栈,包括SQL查询、流式计D、Spark可运行于独立的集群模式中,可运行于Hadoop中,也45.以下关于RDD的宽依赖和窄依赖的说法错误的是()。A、窄依赖表现为子RDD的一个分区只依赖于某个(些)父RDD的一个分区46.以下关于Hive操作描述不正确的是()。A、Hive是一个建立在hadoop文件系统上的数据仓库架构,可B、Hive依赖于MapReduce处理47.以下()文件中主要用来配置ResourceManager,NodeManager48.要在Hive中启用Kerberos认证,应该设置哪个配置参数()?49.新构建一个名为mydocker的镜像的操作命令是()。50.消费者出现活锁问题时应该()。53.下面哪个命令行参数可以用来删除Kafka中的Topic?()54.下面()端口不是Spark自带服务的端口。55.下面()操作是宽依赖。57.下列选项中,()不属于转换算子操作。58.下列说法错误的是()。A、生产者和消费者面向的都是一个topicB、生产者发送数据的对象是leaderC、当集群中的某个节点发生故障时,Replica上的partition数据B、已有的消费者推出消费者组D、完全分布式66.下列()不是RDD的缓存方法。67.下列()不是Docker项目中用于文件存储的数据库。68.下列()不可以作为SparkStreaming的输入数据流。70.使用Dockerrun命令运行一个容器时,通过参数()可启动一的命令选项是()。选项是()。73.设用压力测试测出机器写入速度是20M/s一台,峰值的业务数据的速度是100M/s,副本数为6,预估需要部署Kafka机器数量为()。74.若要在Hive中启用压缩数据存储,应该设置哪个配置参数75.强制删除容器tmp01的操作命令是()。76.启动一个容器的操作命令是()。77.配置Hadoop文件参数时,配置项“dfs.replic79.将一个RDD转换为DataFrame的方法是()。80.将大数据平台数据导出到mysql可以使用()工具。82.获取远程仓库中Docker镜像的操作命令是()。83.关于ZooKeeper说法错误的是()。A、ZooKeeper是一个高可用的分布式数据管理和协调框架C、越来越多的分布式系统(Hadoop、HBase、Kafka)中使用ZD、Hadoop的高可用不需要用到ZooKeeper84.关于SparkStreaming的优点,不包括()。C、易整合性85.关于SparkSQL,以下说法正确的是()。A、HiveContext继承了SqlContextB、DataFrame其实就是RDDC、HiveContext只支持SQL语法解析器D、SparkSQL的前身是Hive86.关于SparkSQL,以下描述错误的是()。A、SparkSQL使用的数据抽象并非是DataFrame,而是RDDC、DataFrame是一种以RDD为基础的分布式数据集D、ataFrame可以完成RDD的绝大多数功能87.关于SecondaryNameNode哪项是正确的?()B、它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间C、它对内存没有要求A、高容错性B、适合PB级以上海量数据的离线处理89.关于MapReduce的说法正确的是()。B、MapReduce是基于内存计算的框架90.关于Hive数据倾斜问题描述正确的是()。D、可以适当的通过控制mapper和reducer来控制数据倾斜的问题91.关于Hive内外表描述正确的是()。A、内部表数据由HDFS自身管理,外部表数据由Hive管理;置(默认:/user/hive/warehouse)92.关于Hive描述正确的是()。B、max函数是窗口函数93.关于Hive各个格式使用场景描述错误的是()。C、ORC可以支持复杂的数据结构(比如Map等)D、RCFile是一种行列存储相结合的存储方式94.关于Hive的SequenceFile格式描述正确的是()。中95.关于Hive存储的文件格式描述错误的是()。A、ORC格式是Hive一直支持的A、HiveSQL的Parser层是为了将SQL转化为执行计划的C、MapReduce任务是需要遍历QueryBlock后生成的D、编译器遍历ASTTree,抽象出查询的基本组成单元Operator97.关于Hivemetastore的三种模式的描述错误的是()。B、local模式中,使用MySQL本地部署实现metastoreC、remote模式为远程MySQL98.关于DStream窗口操作函数,以下说法错误的是()。的DstreamD、以上说法都不对99.关于Dataset,下列说法错误的是()。A、Dataset能从RDD中构建B、Dataset提供了特定域对象中的弱类型集合A、DataFrame可以看作是分布式的Row对象的集合,在二维表D、ataFrame提供了比RDD更丰101.关于DataFrame的优势,以下描述错误的是()。A、DataFrame提升了Spark框架的执行效率B、DataFrame减少了数据读取时间C、DataFrame可以优化执行计划102.典型的NoSQL数据库是()。略为()。表的哪个位置?()A、文件的开头C、新文件中D、随机位置数用于指定使用多个mapper?()106.当Kafka中日志片段大小达到()时,当前日志片段会被关108.查看Docker所有容器的命令是()。109.测试Sqoop是否能够正常连接MySQL数据库命令是()。110.ZooKeeper中的一致性协议ZAB是基于()算法实现。A、2PC(Two-PhaseCommit)算法B、Raft算法C、Paxos算法111.ZooKeeper中的一次写操作是原子的吗?()A、是,写操作是原子的B、否,写操作可能不是原子的C、取决于写操作的类型D、取决于节点的类型112.ZooKeeper中的一次读操作是原子的吗?()A、是,读操作是原子的B、否,读操作可能不是原子的C、取决于读操作的类型D、取决于节点的类型113.ZooKeeper中的数据模型是基于()。A、关系模型B、键值对模型C、图模型D、文档模型114.ZooKeeper中的节点可以设置()类型的触发器。115.ZooKeeper使用的是()文件系统。116.ZooKeeper的特点不包括()。117.yarn状态的查询url为()。118.Task运行在下面()选项中Executor上的工作单元。119.Stage的Task的数量由()决定。据时正确处理字段?()下列哪种数据库是不支持使用Sqoop直接进行数据传送()。122.Sqoop将导入或导出命令翻译成什么程序来实现导入导出123.Sqoop的作用是()。A、用于传统关系数据库和Hadoop之间传输数据B、提供对日志数据进行简单处理的能力D、是一个建立在HDFS之上,面向列的针对结构化和半结构化124.sqoop的组件功能是()。A、sqoop只能实现关系型数据库向非关系型数据传输数据B、sqoop是关系型数据库C、sqoop实现在关系型数据库和非关系型数据库之间125.Spark默认的存储级别是()。126.Spark采用RDD以后能够实现高效计算不是因为()。B、中间结果持久化到内存,数据在内存中的多个RDD操作之C、存放的数据可以是Java对象,避免了不必要的对象序列化和127.SparkStreaming中对DStream的转换操作会转变成对()的操C、无D、运行时指定131.namenode在()模式下hdfs文件系统无法修改和写入文件。D、待机模式C、文档D、所有以上137.Kafka的消息消费可以使用哪种模式?()A、单播B、顺序写入到内存C、顺序写入到缓存D、顺序写入到索引文件139.Kafka的消息传递语义是()。A、最终一致性C、主题D、分区141.Kafka的消费者在处理消息时可以选择的模式是(C、分布式模式D、并行模式142.Kafka的消费者可以以什么方式进行消C、数据分片D、最终保存HBase数据行的文件146.Hive中以下操作不正确的是()。147.Hive中分组的关键字是什么()?148.Hive中的自动分区是通过哪个配置参数启用的()?149.Hive中的配置文件通常位于哪个目录中()?150.Hive中的哪个配置参数用于指定Hive元数据存储的连接UR151.Hive中的哪个配置参数用于指定Hive的临时文件目录()?152.Hive中的哪个配置参数用于指定Hive表的默认分隔符()?153.Hive适合()环境。154.Hive是由哪家公司开源的()。155.Hive是以()技术为基础的数据仓库。156.Hive是为了解决哪类问题()?A、海量结构化日志的数据统计157.Hive默认的元存储是保存在内嵌的()数据库中。158.Hive的默认元数据存储是什么()?159.HBase依赖()技术框架提供消息通信机制。有()。D、内存台计算机模拟多台主机的集群是()模式。D、全分布HA模式B、可以用C/C++语言编写MapReduce应用程序D、可以用javascript语言编写MapReduce应用程序164.hadoop2.0与hadoop1.0区别()。D、增加容错机制165.Flume如何处理故障恢复?()A、使用事务性机制B、使用重试机制C、使用断点续传机制D、以上都不是166.Flume的事件是什么?()167.Flume的事件可以包含哪些属性?()168.Flume的事件传输方式是什么?()169.Flume的事件Body可以包含什么类型的数据?()170.Flume的哪个组件用于将事件数据写入目标存储?()171.Flume的哪个组件可以保证数据不会丢失?()174.Flume的哪个版本开始支持Avro作为数据传输格式?()A、1.X版本B、2.X版本C、3.X版本D、4.X版本以后175.Flume的哪个版本加入了对Thrift事件的的支持?()176.Flume的哪个版本加入了Kafka作为源和汇点?()A、1.X版本B、2.X版本C、3.X版本178.Flume的拦截器实现了哪个接口?()A、将数据从Channel中读取并写入目标位置B、将数据从Channel中读取并发送到下一组件181.Flink最常用的编程语言是()。182.Flink中的转换算子(TransformationOperator)通常用于()。C、定义数据源183.Flink中的Watermark是用来(),帮助Flink正确地处理迟到B、表示数据流的起点184.Flink中的Checkpoints(检查点)主要用于()。A、实现Exactly-once语义B、控制并行度C、执行作业185.Flink支持的数据处理方式为()。186.Flink支持处理各种类型的数据,包括()数据。A、结构化D、以上都是187.Flink的作业调度(JobScheduling)通常由()负责。188.Flink的作业提交通常需要()来管理作业的执行。189.Flink的状态管理用于(),以支持容错性和状态化的计算。A、存储和检索中间结果B、控制数据流速度C、定时触发窗口操作D、执行数据清洗190.Flink的主要特点是()。A、高吞吐量B、低延迟D、以上都是191.Flink的时间语义(TimeSemantics)中的事件时间(EventTime)和处理时间(ProcessingTime)的区别是()。A、事件时间是事件发生的时间,处理时间是事件进入Flink的时间B、事件时间是事件进入Flink的时间,处理时间是事件发生的时间C、事件时间和处理时间是相同的D、事件时间和处理时间没有明确的定义192.Flink的容错机制是()工作的,它定期记录数据流的状态,193.Flink的日志管理通常包括()这几个方面。D、以上都是194.Flink的集群部署通常需要()作为资源管理器。B、数据流196.Flink的广播状态(BroadcastState)用于()。A、在所有任务之间共享状态D、控制数据流速度197.Flink的高可用性(HighAvailability)设置通常需要配置的组件是()。198.Flink的窗口操作通常在()执行,以对数据进行分组、聚合A、数据产生时B、数据进入Flink时C、数据在窗口中间时D、数据离开Flink时200.Flink的安装过程中,通常需要设置()来指定Flink的根目201.Flink的Web界面通常用于()。A、编写Flink作业D、调试Flink作业B、执行SQL查询C、数据流分析203.Flink的CEP(ComplexEventProcessing)库用于(),帮助检A、执行复杂数据处理操作C、处理实时事件流204.DStream的转换操作方法中,()方法可以直接调用RDD上205.DStream的输出操作,不包括()。207.Docker运行的核心模块是()。208.Docker是基于()实现的开源容器项目。A、C语言A、*B、算法D、仓库212.Docker的()命令只支持将本地文件复制到容器中。213.Docker的()命令用于构建镜像。214.Dockerfile中指定环境变量的指令是()。215.Dockerfile中声明镜像内服务监听的端口的指令是()。C、用于保存容器配置D、用于存放docker配置217.Dockerfile配置文件使用()命令指定基础镜像。218.Dataset最终在()版本中被定义成Spark新特性。219.DataFrame和RDD最大的区别是()。A、科学统计支持D、外部数据源支持221.()不是Spark的四大组件。1.在使用Sqoop将数据从Hive导入到MySQL之前,需要确保以下条件已经满足()。A、已经安装了Hadoop集群和Hive数据库B、已经安装了MySQL数据库,并且可以连接到MySQL数据库C、已经安装了Sqoop,并且可以在命令行中运行Sqoop命令式()。录()。4.在Hive中,以下哪个配置属性用于设置Hive表的默认压缩格式()。5.以下是Spark中executor的作用是()。A、保存计算的RDD分区数据C、接受Driver端发送来的任务Task,作用在RDD上进行执行D、做资源调度任务flumekafkasqark7.以下哪些是yarn-site.xml配置文件主要参数()。配置属性应该设置为true()。9.要在Hive中配置HDFS的NameNodeURI,应该设置哪个属性10.要启用Hive的压缩功能,应该配置哪个属性()。11.要启用Hive的Tez执行引擎,应该配置哪个属性()。12.要配置Hive的元数据存储连接字符串,应该设置哪个属性()。13.要读取people.json文件生成DataFrame,可以使用下列()命A、MLlib库从1.2版本以后分为两个包:spark.mllib和spark.mlB、spark.mllib包含基于DataFrame的原始算法APID、spark.ml则提供了基于RDD的、高层次的APIA、Flink起源于Stratosphere项目,该项目是在2010年到2014年D、Flink是Apache软件基金会的5个最大的大数据项目之一18.下面关于Flink的描述正确的是()。略好于SparkD、Spark的市场影响力和社区活跃度明显超过Flink19.下列属于RDD的转换算子的是()。20.下列属于RDD的行动算子的是()。21.下列关于容器操作命令匹配正确的有()。22.下列关于Docker的操作命令正确的有()。23.使用dockerstats命令可以显示的容器信息有()。D、端口24.使用dockerps命令可以查看到的信息有()。A、容器IDD、生存时间E、环境变量25.如果要在Hive中启用用户定义的聚合函数(UDAFs),哪个配置属性应该设置为true()。26.如果要在Hive中启用事务支持,哪个配置属性应该设置为tr27.如果要在Hive中启用列级别的权限控制,哪个配置属性应该设置为true()。28.如果要在Hive中启用动态分区插入,哪个配置属性应该设置29.利用数据卷容器可以对其中的数据卷进行()操作。A、备份30.后端容器化环境部署中使用的数据库一般有()。31.管理自定义的网桥网络的操作命令有()。32.关于ZooKeeper顺序节点的说法不正确的是()。B、创建顺序节点时不能连续执行创建命令,否者报错节点已存在知B、每一个分区的命名是从序号0开始递增C、每一个partition目录下多个segment文件(包含xx.index,xx.log),默认是1GD、每个分区里面的消息是有序的,数据是一样的37.关于HadoopHDFS的文件操作,正确的是()。D、HDFS可以更改文件内容38.关于Flink的架构表述正确的是()。A、Fink存储层支持专有的文件系统者在被YARN或Mesos管理的集群上运行。也能部署在云端D、ataSetAPI做批处理,而DataStreamAPI做流处理39.关于Docker容器的run命令,下列参数匹配正确的有()。40.关于dockerbuild命令支持的选项,下列匹配正确的有()。A、利用反射机制推断RDD模式B、使用编程方式定义RDD模式C、利用投影机制推断RDD模式D、利用互联网机制推断RDD模式42.创建镜像的主要方法有()。A、基于本地文件导入43.查看Docker容器的子命令有()。45.ZooKeeper中的事务操作可以保证()特性。B、临时节点D、临时有序节点47.ZooKeeper中的Watcher机制是通过以下()方式实现。48.ZooKeeper中的SEQUENTIAL节点的特点是()。A、有序节点B、无序节点49.ZooKeeper中的ACL(AccessControlList)用于()。D、控制节点的创建权限50.ZooKeeper的集群中的Leader节点的选举是通过以下()方式B、抢占式D、选举算法51.Stage的Task的数量不是由()决定。52.Sqoop中哪些参数可以用于指定要导入/导出的表?()53.Sqoop中的--hive-drop-import-delims参数有什么作用?()55.Sqoop目前支持两种增量导入模式,分别是()和()模式。56.Spark要想很好的支持SQL,需要完成三大过程。这三大过程包括()。D、执行executionB、通用D、兼容性A、文件流C、套接字流A、作业的主进程60.SparkContext可以从()读取数据。D、内存61.RDD有()缺陷。C、特征抽取D、统计模型64.Master的ElectedLeader事件后不做()操作。A、通知driverB、通知worker65.Kafka相对传统技术有什么优势说法正确的是否()。失66.kafka容错性说话正确的是()。A、允许集群中节点失败(若副本数量为n,则允许n-1个节点失败)D、无论结束的是主还是副broker,都不会影响kafka使用,只要67.Kafka的消息传递可以使用的认证机制包括()。68.Kafka的消息传递可以保证消息的可靠性传递通过()。B、冗余机制69.Kafka的消息传递保证可以是()。70.Kafka的消费者可以以以下哪种方式进行消息的并行处理?()C、多节点71.Kafka的特性()。D、高并发72.Hive中的数据存储是如何分区的()。A、基于文件大小73.Hive中的数据存储如何分区()。74.Hive中的哪个组件负责将HQL语句翻译成Tez或M任务()。75.Hive中的哪个组件负责将HQL语句翻译成MapReduce任务76.Hive中的哪个配置属性用于指定Hive表的默认存储格式()。77.Hive中的分区是如何定义的()。A、在表的创建时定义C、在元数据存储中定义D、在表的插入操作中定义78.Hive中的Bucketing是什么()。D、一种数据存储技术79.Hive支持哪种数据存储格式()。80.Hive的数据存储是如何组织的()。81.Hive的查询优化是通过什么实现的()。82.Hadoop集群的三大核心组件是()。83.Hadoop核心主要由()部分组成。84.Hadoop的运行模式分为以下()种。85.Hadoop的优点有哪些()?86.HadoopHDFS自身的局限88.Flume可以与其他哪些大数据技术进行集成?

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论