世界职业院校技能大赛中职组“大数据应用与服务组”赛项考试题及答案

上传人：服*** IP属地：四川上传时间：2024-11-22 格式：DOC 页数：128 大小：484.06KB 积分：12 举报 版权申诉

已阅读5页，还剩123页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

世界职业院校技能大赛中职组“大数据应用与服务组”赛项考试题及答案单选题1.制作镜像时，复制文件到镜像中使用的命令是（）。A、DDB、COPYC、RUND、CMD参考答案：B2.在导入开始之前,Sqoop检索出表中所有的列以及列的SQL数据类型,这些SQL类型被映射什么类型（）。A、CB、C++C、JavaD、Python参考答案：C3.在ZooKeeper中，在配置文件zoo.cfg中，请问initLimit表示的含义是（）。A、Leader-Follower初始通信时限B、Leader-Follower同步通信时限C、lient-Server通信心跳时间D、Client-Server初始通信时限参考答案：A4.在ZooKeeper中，每个节点都有一个唯一的标识符，这个标识符是（）。A、ZNodeB、EphemeralNodeC、PersistentNodeD、ZooNode参考答案：A5.在ZooKeeper中，节点可以设置监听器吗？（）A、是，可以设置监听器B、否，节点没有监听功能C、取决于节点的类型D、取决于节点的权限设置参考答案：A6.在ZooKeeper中，节点的数据版本是如何维护的？（）A、自动递增B、手动指定C、根据节点的创建时间确定D、随机生成参考答案：A7.在ZooKeeper中，关于节点的ACL（访问控制列表）说法错误的是（）。A、CL可以用于控制节点的读写权限B、ACL可以定义多个权限组合C、ACL可以设置到子节点上并继承父节点的权限D、ACL只能设置在持久节点上参考答案：D8.在ZooKeeper中，ZAB协议是（）。A、用于节点间的数据同步和一致性保证的协议B、用于节点间的消息传递和通信的协议C、用于节点间的负载均衡和路由选择的协议D、用于节点间的权限控制和访问管理的协议参考答案：A9.在ZooKeeper中，Watcher是一次性的吗？（）A、是，一旦触发就无法再次使用B、否，可以反复使用C、取决于Watcher的类型D、取决于节点的类型参考答案：C10.在ZooKeeper中，（）角色负责协调其他节点的工作。A、领导者（Leader）B、跟随者（Follower）C、观察者（Observer）D、所有角色均可参考答案：A11.在Sqoop中，使用哪个命令可以列出可用的数据库连接？（）A、sqooplist-databasesB、sqoophelpC、sqoopconnectionsD、sqoopserver参考答案：A12.在Sqoop中，哪个参数用于指定要导入的目标表？（）A、–tableB、–target-dirC、–outdirD、–where参考答案：A13.在Kafka中，（）是ISR队列中最小的LEO。A、LEOB、ISRC、HWD、AR参考答案：C14.在hive中下列哪个命令不可以实现去重（）。A、distinctB、groupbyC、row_numberD、having参考答案：D15.在Hive中，以下哪个配置参数用于指定Hive执行计划的输出目录（）？A、hive.query.plan.output.directoryB、hive.exec.plan.output.directoryC、hive.plan.output.directoryD、hive.query.execution.directory参考答案：A16.在Hive中，以下哪个配置参数用于指定Hive元数据存储的数据库类型（）？A、hive.metastore.urisB、hive.metastore.schemaC、hive.metastore.db.typeD、hive.metastore.db.url参考答案：C17.在Hive中，以下哪个配置参数用于指定Hive服务器的端口号（）？A、hive.server.portB、hive.server2.thrift.portC、hive.server.rpc.portD、hive.thrift.server.port参考答案：B18.在Hive中，以下哪个配置参数用于指定Hive的执行引擎为Spark（）？A、hive.execution.engine=sparkB、hive.spark.execution.engine=trueC、hive.spark.engine.enabled=trueD、hive.query.engine=spark参考答案：A19.在Hive中，以下哪个配置参数用于指定HiveCLI的历史命令记录文件名（）？A、B、hive.cli.history.fileC、mand.log.filenameD、hive.query.log.file参考答案：B20.在Hive中，哪个配置参数用于指定Hive的执行模式，如本地模式或MapReduce模式（）？A、hive.execution.engineB、hive.execution.modeC、hive.mapred.modeD、hive.exec.mode参考答案：B21.在Hive中，哪个配置参数用于指定HiveCLI的历史命令记录目录（）？A、hive.history.file.directoryB、hive.query.log.dirC、hive.cli.history.directoryD、mand.log.dir参考答案：C22.在HDFS文件操作中，上传文件的命令是（）。A、putB、inputC、getD、up参考答案：A23.在HDFS分布式文件系统中，一般采用冗余存储，冗余因子通常设置为（）。A、1.0B、2.0C、3.0D、4.0参考答案：C24.在Hadoop生态组件中，哪个产品可用于复杂的批量数据处理。（）A、MapReduce、HiveB、ImpalaC、StormD、Mahout参考答案：A25.在hadoop配置中core-site.xml的配置是（）参数。A、集群全局参数B、HDFS参数C、Mapreduce参数D、集群资源管理系统参数参考答案：A26.在Flink中，水位线是（）生成的。A、基于系统时间的周期性B、基于事件时间的周期性C、由用户手动指定D、实时参考答案：A27.在Flink中，（）通常用于指定Flink作业的任务流图（JobGraph）。A、flink.xmlB、job.confC、pertiesD、flink-config.yaml参考答案：D28.在Flink的配置文件中，（）通常用来指定Flink任务并行度。A、parallelism.defaultB、task.parallelismC、parallelism.default-taskD、task.default-parallelism参考答案：D29.在Docker数据管理中，数据卷可以提供的特性不包括（）。A、数据卷可以在容器之间共享和重用B、对数据卷内数据的修改立马生效C、对数据卷的更新不影响镜像D、挂载数据卷时要手工创建挂载目录参考答案：D30.在Docker的运行过程中，对镜像的操作不包括（）。A、deleteB、searchC、pullD、push参考答案：A31.在Centos中启动Docker服务的命令是（）。A、systemstartdockerB、systemenabledockerC、systemctlstartdockerD、systemctlrundocker参考答案：C32.允许开发人员为容器分配MAC地址的是（）。A、网桥网络B、覆盖网络C、驱动网络D、主机网络参考答案：C33.与传统消息系统相比，Kafka的突出特点不包括（）。A、能够持久化日志B、容错能力强，是一个分布式系统C、支持实时的流式处理D、提供在线消息同步和离线消息缓存的能力参考答案：D34.以下选项中说法正确的是（）。A、DAG是弹性分布式数据集的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型B、Application是运行在工作节点的一个进程，负责运行TaskC、Job是运行在Executor上的工作单元D、Stage是Job的基本调度单位，一个Job会分为多组Task，每组Task被称为Stage参考答案：D35.以下选项哪个是MapReduce正确的运行模型（）。A、Reduce-Map-ShuffleB、Shuffle-Map-ReduceC、Map-Shuffle-ReduceD、Map-Reduce-Shuffle参考答案：C36.以下选项哪个是HDFS的名称节点（）。A、DataNodeB、SecondaryNodeC、NodeD、NameNode参考答案：D37.以下哪种不是Hive支持的数据类型（）。A、StructB、IntC、MapD、Long参考答案：D38.以下哪个选项不是Sqoop的导入模式？（）A、纯文本导入B、二进制导入C、Avro导入D、JSON导入参考答案：D39.以下哪个文件是能够修改HDFS的副本保存数量参数（）。A、修改mapred-site.xml配置文件B、修改core-site.xml配置文件C、修改yarn-site.xml配置文件D、修改hdfs-site.xml配置文件参考答案：D40.以下哪个是正确的sqoop导入数据的完整命令？（）A、sqoopimport--connectjdbc:mysql://localhost:3306/userdb--usernameroot--delete-target-dir--target-dir/MysqlToHDFS1--tablestudentB、sqoopimportdata--connectjdbc:mysql://localhost:3306/userdb--usernameroot--delete-target-dir--target-dir/MysqlToHDFS1--tablestudentC、bin/sqoopimport--connectjdbc:mysql://localhost:3306/userdb--usernameroot--delete-target-dir--target-dir/MysqlToHDFS1--tablestudentD、bin/sqoopimportdata--connectjdbc:mysql://localhost:3306/userdb--usernameroot--delete-target-dir--target-dir/MysqlToHDFS1--tablestudent参考答案：C41.以下哪个参数在sqoop命令中用于指定要删除HDFS的目标目录？（）A、--delete-target-dirB、--target-dirC、--delete-dirD、--delete参考答案：A42.以下关于Spark中的RDD的说法，错误的是（）。A、RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合B、每个RDD可分成多个分区，每个分区就是一个数据集片段C、RDD提供了一种高度共享内存模型，RDD既可以读，也可以直接修改D、RDD的不同分区可以被保存到集群中不同的节点上，从而可以在集群中的不同节点上进行并行计算参考答案：C43.以下关于Spark与Hadoop对比，说法错误的是（）。A、Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比HadoopMapReduce更灵活B、Spark提供了内存计算，可将中间结果放到内存中，对于迭代运算效率更高C、Spark磁盘IO开销较大，任务之间的衔接涉及IO开销D、Spark基于DAG的任务调度执行机制，要优于HadoopMapReduce的迭代执行机制参考答案：C44.以下关于Spark计算框架，说法错误的是（）。A、Spark支持内存计算B、Spark框架是使用Java编写的C、Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件D、Spark可运行于独立的集群模式中，可运行于Hadoop中，也可运行于AmazonEC2等云环境中参考答案：B45.以下关于RDD的宽依赖和窄依赖的说法错误的是（）。A、窄依赖表现为子RDD的一个分区只依赖于某个（些）父RDD的一个分区B、宽依赖则表现为子RDD的一个分区依赖于同一个父RDD的多个分区C、宽依赖的RDD之间无Shuffle操作D、窄依赖的RDD之间无Shuffle操作参考答案：C46.以下关于Hive操作描述不正确的是（）。A、Hive是一个建立在hadoop文件系统上的数据仓库架构，可以用其对HDFS上B、Hive依赖于MapReduce处理数据C、Hive的加载数据时候，可以用local进行修饰，表示从某个本地目录下加载数据D、Hive一般可以用于实时的查询分析参考答案：D47.以下（）文件中主要用来配置ResourceManager，NodeManager的通信端口，web监控端口等。A、core-site.xmlB、mapred-site.xmlC、hdfs-site.xmlD、yarn-site.xml参考答案：D48.要在Hive中启用Kerberos认证，应该设置哪个配置参数（）？A、hive.security.authenticationB、hive.kerberos.enabledC、hive.auth.kerberosD、hive.authentication.method参考答案：A49.新构建一个名为mydocker的镜像的操作命令是（）。A、dockernewmydockerB、dockerbuildmydockerC、dockernew-tmydockerD、ockerbuild-tmydocker参考答案：D50.消费者出现活锁问题时应该（）。A、增加erval.ms相关参数B、减少消费者数量C、重启集群D、提高poll频率参考答案：A51.下面那种情况不会触发♂ConsumerRebalance操作（）。A、某个消费者崩溃B、某个生产者崩溃C、消费者消费的多个topic中某个topic被删除D、新增消费者参考答案：B52.下面哪个命令是创建hive表（）。A、import-all-tablesB、list-databasesC、list-tablesD、create-hive-table参考答案：D53.下面哪个命令行参数可以用来删除Kafka中的Topic？（）A、listB、createC、deleteD、escribe参考答案：C54.下面（）端口不是Spark自带服务的端口。A、8080.0B、4040.0C、8090.0D、18080.0参考答案：C55.下面（）操作是宽依赖。A、map♂B、flatMapC、groupByKeyD、union参考答案：C56.下列语句中,描述错误的是（）。A、可以通过CLI方式、JavaApi方式调用SqoopB、Sqoop底层会将Sqoop命令转换为MapReduce任务,并通过Sqoop连接器进行数据的导入导出操作C、Sqoop是独立的数据迁移工具,可以在任何系统上执行D、如果在Hadoop分布式集群环境下,连接MySQL服务器参数不能是“localhost”或“”参考答案：C57.下列选项中，（）不属于转换算子操作。A、filter(func)B、map(func)C、reduce(func)D、reduceByKey(func)参考答案：C58.下列说法错误的是（）。A、生产者和消费者面向的都是一个topicB、生产者发送数据的对象是leaderC、当集群中的某个节点发生故障时，Replica上的partition数据不会丢失D、partition是一个没有顺序的队列参考答案：D59.下列哪种情况不会触发到消费者分区的重新分配？A、当有新的消费者加入消费者组B、已有的消费者推出消费者组C、处于消费者所在分区最近提交的offset位置D、消费者所订阅的主题的分区发生变化参考答案：C60.下列哪个数据类型不是hadoop的数据类型（）。A、TextB、StringC、IntWritableD、NullWritable参考答案：B61.下列描述中，哪项不属于Sqoop的缺点（）。A、无法控制任务的并发度B、格式紧耦合C、安全机制不够完善D、connector必须符合JDBC模型参考答案：A62.下列关于topic和partition的描述，错误的是（）。A、Kafka中消息是以partition进行分类的B、与partition不同，topic是逻辑上的概念而非物理上的概念C、每个partition对应于一个log文件D、一个partition分为多个segment参考答案：A63.下列关于MapReduce说法不正确的是（）。A、MapReduce是一种计算框架B、MapReduce来源于google的学术论文C、MapReduce程序只能用java语言编写D、MapReduce隐藏了并行计算的细节，方便使用参考答案：C64.下列关于leader和follower的说法正确的是（）。A、一个topic的每个分区可以没有leaderB、一个topic的每个分区可以没有followerC、消费者消费数据的对象都是leaderD、follower从leader中同步数据有一定延迟参考答案：C65.下列不是Spark的部署模式的是（）。A、单机式B、单机伪分布式C、列分布式D、完全分布式参考答案：C66.下列（）不是RDD的缓存方法。A、persist()B、Cache()C、Memory()D、以上都不是参考答案：C67.下列（）不是Docker项目中用于文件存储的数据库。A、MYSQLB、MongoDBC、RedisD、Kafka参考答案：D68.下列（）不可以作为SparkStreaming的输入数据流。A、KafkaB、TwitterC、TCP套接字D、Openstack参考答案：D69.停止一个容器的操作命令是（）。A、dockerstopB、dockershutdownC、dockershiftD、ockerpause参考答案：A70.使用Dockerrun命令运行一个容器时，通过参数（）可启动一个bash允许用户进行交互。A、itB、iaC、ntD、na参考答案：A71.使用Dockerrm命令删除容器时只删除容器的链接，需要使用的命令选项是（）。A、fB、lC、vD、i参考答案：B72.使用create命令新建容器时，指定容器在网络中的别名的命令选项是（）。A、net-nameB、net-aliasC、networkD、alias参考答案：B73.设用压力测试测出机器写入速度是20M/s一台，峰值的业务数据的速度是100M/s，副本数为6，预估需要部署Kafka机器数量为（）。A、6.0B、12.0C、13.0D、20.0参考答案：C74.若要在Hive中启用压缩数据存储，应该设置哪个配置参数（）？A、press.enabledB、pression.enabledC、pression.enabled参考答案：B75.强制删除容器tmp01的操作命令是（）。A、dockerrm-ftmp01B、dockerrm-vtmp01C、dockerrm-1tmp01D、ockerrm-Itmp01参考答案：A76.启动一个容器的操作命令是（）。A、dockerstartB、dockeropenC、dockernewD、ockergo参考答案：A77.配置Hadoop文件参数时，配置项“dfs.replication”应该配置在哪个文件？（）A、core-site.xmlB、hdfs-site.xmlC、mapred-site.xmlD、yarn-site.xml参考答案：B78.将一个已经创建的容器导出到一个文件使用的操作命令是（）。A、dockerimportB、dockerloadC、dockeroutputD、ockerexport参考答案：D79.将一个RDD转换为DataFrame的方法是（）。A、dataFrame()B、toDataFrame()C、DF()D、toDF()参考答案：D80.将大数据平台数据导出到mysql可以使用（）工具。A、HadoopB、SqoopC、HiveD、Xshell参考答案：B81.将nginx容器接入自定义的myops网络的操作命令是（）。A、dockernetworkjoinmyopsnginxB、dockernetworkconnmyopsnginxC、dockernetworkconnectmyopsnginxD、ockernetworkconnectnginxmyops参考答案：C82.获取远程仓库中Docker镜像的操作命令是（）。A、dockergetB、dockerpushC、dockerpullD、ockerdownload参考答案：C83.关于ZooKeeper说法错误的是（）。A、ZooKeeper是一个高可用的分布式数据管理和协调框架B、能够很好的保证分布式环境中数据的一致性C、越来越多的分布式系统（Hadoop、HBase、Kafka）中使用ZooKeeperD、Hadoop的高可用不需要用到ZooKeeper参考答案：D84.关于SparkStreaming的优点，不包括（）。A、易用性B、容错性C、易整合性D、低吞吐量参考答案：D85.关于SparkSQL,以下说法正确的是（）。A、HiveContext继承了SqlContextB、DataFrame其实就是RDDC、HiveContext只支持SQL语法解析器D、SparkSQL的前身是Hive参考答案：A86.关于SparkSQL,以下描述错误的是（）。A、SparkSQL使用的数据抽象并非是DataFrame，而是RDDB、在Spark的早期版本中,DataFrame被称为SchemaRDDC、DataFrame是一种以RDD为基础的分布式数据集D、ataFrame可以完成RDD的绝大多数功能参考答案：A87.关于SecondaryNameNode哪项是正确的？（）A、它是NameNode的热备B、它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间C、它对内存没有要求D、SecondaryNameNode应与NameNode部署到一个节点参考答案：B88.关于MapReduce优点，下列说法不正确的是（）。A、高容错性B、适合PB级以上海量数据的离线处理C、良好的扩展性D、适合做实时计算参考答案：D89.关于MapReduce的说法正确的是（）。A、MapReduce1.0用YARN框架来进行资源调度的B、MapReduce是基于内存计算的框架C、MapReduce是分布式文件存储系统D、MapReduce1.0既是一个计算框架又是一个资源调度框架参考答案：D90.关于Hive数据倾斜问题描述正确的是（）。A、不需要了解业务，对业务进行数据探查无法解决数据倾斜B、每一个数据倾斜的作业都需要优化C、小文件合并不会解决数据倾斜的问题D、可以适当的通过控制mapper和reducer来控制数据倾斜的问题参考答案：D91.关于Hive内外表描述正确的是（）。A、内部表数据由HDFS自身管理，外部表数据由Hive管理；B、内部表数据存储的位置是hive.metastore.warehouse.dir设置配置（默认：/user/hive/warehouse）C、外表存储必须指定LOCATIOND、内外表删除时，都会删除元数据和存储参考答案：B92.关于Hive描述正确的是（）。A、count函数必须开窗口才能使用B、max函数是窗口函数C、lead函数是聚合函数,不是窗口函数D、min函数是聚合函数,不是窗口函数参考答案：B93.关于Hive各个格式使用场景描述错误的是（）。A、Parquet对于大型查询的类型是高效的，对于扫描特定表格中的特定列的查询，Parquet特别有用B、目前Parquet默认使用gzip压缩格式C、ORC可以支持复杂的数据结构（比如Map等）D、RCFile是一种行列存储相结合的存储方式参考答案：B94.关于Hive的SequenceFile格式描述正确的是（）。A、SequenceFile是二进制文件格式，以list的形式序列化到文件中B、SequenceFile存储方式：列存储C、SequenceFile不可分割、压缩D、SequenceFile优势是文件和Hadoopapi中的MapFile是相互兼容的参考答案：D95.关于Hive存储的文件格式描述错误的是（）。A、ORC格式是Hive一直支持的B、TEXTFILE是Hive的默认存储格式C、SequenceFile是一种二进制存储D、RC是ORC的前身参考答案：A96.关于HiveSQL编译描述正确的是（）。A、HiveSQL的Parser层是为了将SQL转化为执行计划的B、逻辑层优化器会进行算子转换，优化合并不必要的算子操作C、MapReduce任务是需要遍历QueryBlock后生成的D、编译器遍历ASTTree，抽象出查询的基本组成单元OperatorTree参考答案：B97.关于Hivemetastore的三种模式的描述错误的是（）。A、Derby方式是内嵌的方式，也是默认的启动方式，一般用于单元测试B、local模式中，使用MySQL本地部署实现metastoreC、remote模式为远程MySQLD、erby方式在同一时间只能有多个进程连接使用数据库参考答案：D98.关于DStream窗口操作函数，以下说法错误的是（）。A、window()返回基于源DStream的窗口进行批计算后的一个新的DstreamB、countByWindow()返回基于滑动窗口的DStream中的元素数C、reduceByWindow()做聚合操作并返回一个新的DstreamD、以上说法都不对参考答案：D99.关于Dataset，下列说法错误的是（）。A、Dataset能从RDD中构建B、Dataset提供了特定域对象中的弱类型集合C、Dataset结合了RDD和DataFrame的优点D、ataset可以通过SparkSession中的createDataset来创建参考答案：B100.关于DataFrame与RDD在结构上的区别，以下描述错误的是（）。A、DataFrame可以看作是分布式的Row对象的集合，在二维表数据集的每一列都带有名称和类型B、RDD是分布式的Java对象的集合C、RDD在转换数据形式时效率相对较高D、ataFrame提供了比RDD更丰富的算子参考答案：C101.关于DataFrame的优势，以下描述错误的是（）。A、DataFrame提升了Spark框架的执行效率B、DataFrame减少了数据读取时间C、DataFrame可以优化执行计划D、ataFrame可以完全替换RDD参考答案：D102.典型的NoSQL数据库是（）。A、HiveB、MySQLC、HbaseD、Oracle参考答案：C103.当之前下线的分区重新上线时，要执行Leader选举，选举策略为（）。A、OfflinePartitionLeader选举B、ReassignPartitionLeader选举C、PreferredReplicaPartitionLeader选举D、ControlledShutdownPartitionLeader选举参考答案：A104.当在Sqoop中使用--append参数时，它会将数据添加到目标表的哪个位置？（）A、文件的开头B、文件的末尾C、新文件中D、随机位置参考答案：B105.当使用sqoop将数据从MySQL导入到HDFS时，以下哪个参数用于指定使用多个mapper？（）A、-mB、-fC、-tD、-c参考答案：A106.当Kafka中日志片段大小达到（）时，当前日志片段会被关闭。A、1MB、100MC、1GBD、10GB参考答案：C107.查看HDFS的报告命令是（）。A、bin/hdfsdfsadmin-reportB、in/hdfs-reportC、bin/hdfsdeadmin-reportD、bin/hdfsdfs-report参考答案：A108.查看Docker所有容器的命令是（）。A、dockerpsB、dockerps-aC、dockerpsallD、ockerall参考答案：B109.测试Sqoop是否能够正常连接MySQL数据库命令是（）。A、sqooplist-database--connectjdbc:mysql://:3306/--usernameroot–PB、sqooplist-databases--connectionjdbc:mysql://:3306/--usernameroot–PC、sqooplist-databases--connectjdbc:mysql://:3306/--usernameroot–LD、sqooplist-databases--connectjdbc:mysql://:3306/--usernameroot–P参考答案：D110.ZooKeeper中的一致性协议ZAB是基于（）算法实现。A、2PC（Two-PhaseCommit）算法B、Raft算法C、Paxos算法D、3PC（Three-PhaseCommit）算法参考答案：C111.ZooKeeper中的一次写操作是原子的吗？（）A、是，写操作是原子的B、否，写操作可能不是原子的C、取决于写操作的类型D、取决于节点的类型参考答案：A112.ZooKeeper中的一次读操作是原子的吗？（）A、是，读操作是原子的B、否，读操作可能不是原子的C、取决于读操作的类型D、取决于节点的类型参考答案：A113.ZooKeeper中的数据模型是基于（）。A、关系模型B、键值对模型C、图模型D、文档模型参考答案：B114.ZooKeeper中的节点可以设置（）类型的触发器。A、数据变更触发器B、子节点变更触发器C、连接状态触发器D、所有类型的触发器参考答案：D115.ZooKeeper使用的是（）文件系统。A、HadoopDistributedFileSystem(HDFS)B、NetworkFileSystem(NFS)C、ZooKeeperFileSystem(ZFS)D、ExtensibleStorageEngine(ESE)参考答案：C116.ZooKeeper的特点不包括（）。A、顺序一致性B、原子性C、可靠性D、复合系统映像参考答案：D117.yarn状态的查询url为（）。A、http://yarn:8088B、http://yarn:50070C、http://master:8088D、http://master:50070参考答案：C118.Task运行在下面（）选项中Executor上的工作单元。A、DriverprogramB、sparkmasterC、workernodeD、Clustermanager参考答案：C119.Stage的Task的数量由（）决定。A、PartitionB、JobC、StageD、TaskScheduler参考答案：A120.Sqoop中哪个参数用于指定要使用的分隔符，以便在导入数据时正确处理字段？（）A、–field-separatorB、–fsC、–delimiterD、–split-by参考答案：A121.Sqoop是Hadoop和关系数据库服务器之间传送数据的工具，下列哪种数据库是不支持使用Sqoop直接进行数据传送（）。A、PostgresB、OracleC、MySQLD、Redis参考答案：D122.Sqoop将导入或导出命令翻译成什么程序来实现导入导出（）。A、SparkB、StormC、MapReduceD、Tez参考答案：C123.Sqoop的作用是（）。A、用于传统关系数据库和Hadoop之间传输数据B、提供对日志数据进行简单处理的能力C、是Hadoop体系中数据存储管理的基础D、是一个建立在HDFS之上，面向列的针对结构化和半结构化数据和动态数据库参考答案：A124.sqoop的组件功能是（）。A、sqoop只能实现关系型数据库向非关系型数据传输数据B、sqoop是关系型数据库C、sqoop实现在关系型数据库和非关系型数据库之间时行数据传输D、sqoop是非关系型数据库参考答案：C125.Spark默认的存储级别是（）。A、MEMORY_ONLYB、MEMORY_ONLY_SERC、MEMORY_AND_DISKD、MEMORY_AND_DISK_SER参考答案：A126.Spark采用RDD以后能够实现高效计算不是因为（）。A、高效的容错性，通过血缘关系重新计算丢失分区B、中间结果持久化到内存，数据在内存中的多个RDD操作之间进行传递，避免了不必要的读写磁盘开销C、存放的数据可以是Java对象，避免了不必要的对象序列化和反序列化D、RDD采用了高效的“转换”和“动作”算子参考答案：D127.SparkStreaming中对DStream的转换操作会转变成对（）的操作。A、sqlB、datasetC、rddD、ataframe参考答案：C128.SparkSQL中,model函数可以接收的参数有哪些（）。A、Override、IgnoreB、Override、Ignore、AppendC、Ignore、Append、ErrorIfExistsD、Override、Ignore、Append、ErrorIfExists参考答案：D129.SparkSQL可以处理的数据源包括（）。A、Hive表B、Hive表、数据文件C、Hive表、数据文件、RDDD、Hive表、数据文件、RDD、外部数据库参考答案：D130.SparkJob默认的调度模式是（）。A、FIFOB、FAIRC、无D、运行时指定参考答案：A131.namenode在（）模式下hdfs文件系统无法修改和写入文件。A、安全模式B、维护模式C、同步模式D、待机模式参考答案：A132.Linux下启动HDFS的命令是（）。A、HdfsB、startdfsC、start-dfs.shD、start-dfs.cmd参考答案：C133.Kafka是一种（）。A、数据库系统B、分布式消息队列系统C、缓存系统D、文件系统参考答案：B134.Kafka服务器默认能接收的最大消息是多大?（）♂A、1MB、10MC、100MD、没有大小限制，因为支持大数据参考答案：A135.Kafka的消息以什么形式进行存储？（）A、表格B、集合C、文档D、日志参考答案：D136.Kafka的消息压缩算法可以选择的方式是（）。A、GZIPB、SnappyC、LZ4D、所有以上参考答案：D137.Kafka的消息消费可以使用哪种模式？（）A、单播B、组播C、广播D、串播参考答案：A138.Kafka的消息是如何进行顺序写入的？（）A、顺序写入到磁盘B、顺序写入到内存C、顺序写入到缓存D、顺序写入到索引文件参考答案：A139.Kafka的消息传递语义是（）。A、最终一致性B、强一致性C、弱一致性D、无一致性参考答案：C140.Kafka的消息保留策略可以根据什么进行配置？（）A、时间B、大小C、主题D、分区参考答案：A141.Kafka的消费者在处理消息时可以选择的模式是（）。A、单线程模式B、多线程模式C、分布式模式D、并行模式参考答案：B142.Kafka的消费者可以以什么方式进行消息偏移量的管理？（）A、手动管理B、自动管理C、随机管理D、循环管理参考答案：B143.Kafka的核心是由哪个组件组成？（）A、ProducerB、ConsumerC、BrokerD、ZooKeeper参考答案：C144.Kafka的高可用性是通过什么机制实现的？（）A、数据复制B、数据压缩C、数据分片D、数据缓存参考答案：A145.HMaster的主要作用是（）。A、用于启动任务管理多个HRegionServerB、负责响应用户I/O请求，向HDFS文件系统读写数据C、负责协调集群中的分布式组件D、最终保存HBase数据行的文件参考答案：A146.Hive中以下操作不正确的是（）。A、loaddatainpathintotablenameB、insertintotablenameC、insertoverwritetablenameD、upddatetablename参考答案：D147.Hive中分组的关键字是什么（）？A、groupbyB、orderbyC、distributebyD、sortby参考答案：A148.Hive中的自动分区是通过哪个配置参数启用的（）？A、hive.auto.partitionB、hive.partition.autoC、hive.exec.dynamic.partitionD、hive.partitioning.auto参考答案：C149.Hive中的配置文件通常位于哪个目录中（）？A、/etc/hive/confB、/etc/hadoop/confC、/etc/hive/D、/etc/hive/config参考答案：A150.Hive中的哪个配置参数用于指定Hive元数据存储的连接URL（）？A、hive.metastore.db.urlB、hive.metastore.uriC、hive.metastore.connection.urlD、hive.metastore.db.connection参考答案：A151.Hive中的哪个配置参数用于指定Hive的临时文件目录（）？A、hive.tmp.dirB、hive.temp.directoryC、hive.temp.dirD、hive.tmp.directory参考答案：A152.Hive中的哪个配置参数用于指定Hive表的默认分隔符（）？A、hive.default.delimiterB、hive.default.separatorC、hive.default.field.delim参考答案：C153.Hive适合（）环境。A、Hive适合用于联机(online)事务处理B、提供实时查询功能C、适合应用在大量不可变数据的批处理作业D、Hive适合关系型数据环境参考答案：C154.Hive是由哪家公司开源的（）。A、GoogleB、FacebookC、LinkedInD、Netflix参考答案：B155.Hive是以（）技术为基础的数据仓库。A、HDFSB、MAPREDUCEC、HADOOPD、HBASE参考答案：C156.Hive是为了解决哪类问题（）？A、海量结构化日志的数据统计B、分布式组件调度参考答案：A157.Hive默认的元存储是保存在内嵌的（）数据库中。A、MySQLB、DerbyC、OracleD、SqlServer参考答案：B158.Hive的默认元数据存储是什么（）？A、MySQLB、PostgreSQLC、DerbyD、Oracle参考答案：C159.HBase依赖（）技术框架提供消息通信机制。A、ZookeeperB、ChubbyC、RPCD、Socket参考答案：A160.Hadoop组件在企业应用中，能用于大数据集实时查询的产品有（）。A、HiveB、PigC、MahoutD、Hbase参考答案：D161.Hadoop集群中存在的主要性能瓶颈是（）。A、CPUB、网络C、磁盘IOD、内存参考答案：C162.Hadoop安装在一台计算机上，需修改相应的配置文件，用一台计算机模拟多台主机的集群是（）模式。A、全分布模式B、伪分布模式C、单机模式D、全分布HA模式参考答案：B163.HadoopMapReduce支持多种语言编程，下列说法不正确的是（）。A、可以用JAVA语言编写MapReduce应用程序B、可以用C/C++语言编写MapReduce应用程序C、可以用Python语言编写MapReduce应用程序D、可以用javascript语言编写MapReduce应用程序参考答案：D164.hadoop2.0与hadoop1.0区别（）。A、增加MapReduce2B、增加YARNC、增加HDFS2D、增加容错机制参考答案：B165.Flume如何处理故障恢复？（）A、使用事务性机制B、使用重试机制C、使用断点续传机制D、以上都不是参考答案：C166.Flume的事件是什么？（）A、数据项,记录,和文件B、数据流,记录,和事件C、数据项,记录,和消息D、数据流,记录,和消息参考答案：D167.Flume的事件可以包含哪些属性？（）A、Timest,Type,Body,Headers,CountB、Timest,Type,Body,Headers,IDC、Timest,Type,Body,Headers,SequenceIDD、Timest,Type,Body,Headers,Number参考答案：C168.Flume的事件传输方式是什么？（）A、pull-basedB、push-basedC、stream-basedD、event-based参考答案：B169.Flume的事件Body可以包含什么类型的数据？（）A、String,Byte数组,字节流,Map<String,String>和自定义对象序列化后的数据。B、String,Map<String,String>和自定义对象序列化后的数据。C、Byte数组,字节流和自定义对象序列化后的数据。D、String和自定义对象序列化后的数据。参考答案：A170.Flume的哪个组件用于将事件数据写入目标存储？（）A、ChannelB、SinkC、Source和ChannelD、Source和Sink参考答案：B171.Flume的哪个组件可以保证数据不会丢失？（）A、通道B、接收器C、拦截器D、源参考答案：B172.Flume的哪个拦截器可以按类型区分事件？（）A、ETL拦截器B、分区拦截器C、以上都不是D、以上都是参考答案：A173.Flume的哪个版本引入了Kafka作为其事件源和接收器？（）A、Flume1.6B、Flume1.7C、DH5.0D、CDH5.1参考答案：C174.Flume的哪个版本开始支持Avro作为数据传输格式？（）A、1.X版本B、2.X版本C、3.X版本D、4.X版本以后参考答案：D175.Flume的哪个版本加入了对Thrift事件的的支持？（）A、Flume1.0B、Flume1.1C、Flume1.2D、Flume1.3参考答案：B176.Flume的哪个版本加入了Kafka作为源和汇点？（）A、1.X版本B、2.X版本C、3.X版本D、4.X版本参考答案：B177.Flume的默认通道类型是什么？（）A、MemoryChannelB、FileChannelC、KafkaChannelD、JdbcChannel参考答案：A178.Flume的拦截器实现了哪个接口？（）A、ChannelInterceptorB、EventInterceptorC、SinkInterceptorD、SourceInterceptor参考答案：B179.Flume的Sink组件负责什么？（）A、将数据从Channel中读取并写入目标位置B、将数据从Channel中读取并发送到下一组件C、从Channel中读取数据并将其写入接收器D、从Channel中读取数据并将其写入目标位置。参考答案：D180.Flume的Kafka源类型是什么？（）A、KafkaSourceB、KafkaSpoutC、KafkaAvroSourceD、KafkaEventSource参考答案：C181.Flink最常用的编程语言是（）。A、JavaB、PythonC、ScalaD、C++参考答案：A182.Flink中的转换算子（TransformationOperator）通常用于（）。A、计算作业的结果B、控制作业的执行顺序C、定义数据源D、过滤和转换数据流参考答案：D183.Flink中的Watermark是用来（），帮助Flink正确地处理迟到的事件。A、测量数据流的速度B、表示数据流的起点C、处理乱序事件D、控制数据流的大小参考答案：C184.Flink中的Checkpoints（检查点）主要用于（）。A、实现Exactly-once语义B、控制并行度C、执行作业D、压缩数据参考答案：A185.Flink支持的数据处理方式为（）。A、批处理B、流处理C、以上都是D、无法确定参考答案：C186.Flink支持处理各种类型的数据，包括（）数据。A、结构化B、半结构化C、无结构化D、以上都是参考答案：D187.Flink的作业调度（JobScheduling）通常由（）负责。A、ResourceManagerB、TaskManagerC、JobManagerD、ZooKeeper参考答案：C188.Flink的作业提交通常需要（）来管理作业的执行。A、JobManagerB、TaskManagerC、ResourceManagerD、NameNode参考答案：A189.Flink的状态管理用于（），以支持容错性和状态化的计算。A、存储和检索中间结果B、控制数据流速度C、定时触发窗口操作D、执行数据清洗参考答案：A190.Flink的主要特点是（）。A、高吞吐量B、低延迟C、Exactly-once处理语义D、以上都是参考答案：D191.Flink的时间语义（TimeSemantics）中的事件时间（EventTime）和处理时间（ProcessingTime）的区别是（）。A、事件时间是事件发生的时间，处理时间是事件进入Flink的时间B、事件时间是事件进入Flink的时间，处理时间是事件发生的时间C、事件时间和处理时间是相同的D、事件时间和处理时间没有明确的定义参考答案：A192.Flink的容错机制是（）工作的，它定期记录数据流的状态，以便在发生故障时进行恢复。A、基于备份数据B、基于检查点C、基于异常处理D、基于数据重播参考答案：B193.Flink的日志管理通常包括（）这几个方面。A、日志存储和检索B、日志清理和压缩C、日志分析和报警D、以上都是参考答案：D194.Flink的集群部署通常需要（）作为资源管理器。A、YARNB、ApacheZooKeeperC、ApacheKafkaD、HadoopHDFS参考答案：A195.Flink的核心概念之一是（）。A、数据表B、数据流C、数据库D、数据仓库参考答案：B196.Flink的广播状态（BroadcastState）用于（）。A、在所有任务之间共享状态B、保持数据流的连续性C、加速数据处理D、控制数据流速度参考答案：A197.Flink的高可用性（HighAvailability）设置通常需要配置的组件是（）。A、JobManager和TaskManagerB、ResourceManager和NodeManagerC、NameNode和DataNodeD、ZooKeeper集群参考答案：D198.Flink的窗口操作通常在（）执行，以对数据进行分组、聚合和统计。A、数据产生时B、数据进入Flink时C、数据在窗口中间时D、数据离开Flink时参考答案：C199.Flink的本地模式（LocalMode）和集群模式（ClusterMode）之间的主要区别是（）。A、部署方式B、编程语言C、安全性设置D、并行度设置参考答案：A200.Flink的安装过程中，通常需要设置（）来指定Flink的根目录。A、JAVA_HOMEB、PATHC、FLINK_HOMED、FLINK_PATH参考答案：C201.Flink的Web界面通常用于（）。A、编写Flink作业B、监控Flink集群C、运行Flink作业D、调试Flink作业参考答案：B202.Flink的TableAPI和SQL用于（）。A、数据可视化B、执行SQL查询C、数据流分析D、数据清洗参考答案：B203.Flink的CEP（ComplexEventProcessing）库用于（），帮助检测和处理特定的事件模式。A、执行复杂数据处理操作B、处理图形数据C、处理实时事件流D、控制数据流速度参考答案：C204.DStream的转换操作方法中，（）方法可以直接调用RDD上的操作方法。A、countByKey()B、updateStateByKey(func)C、ogroup(otherStream,[numTasks])D、transform(func)参考答案：D205.DStream的输出操作，不包括（）。A、foreachRDD(func)B、print()C、flatMap(func)D、saveAsTextFiles(prefix)参考答案：C206.Docker中的每一个工作都可以抽象为一个（）。A、实例B、进程C、JobD、请求参考答案：C207.Docker运行的核心模块是（）。A、DockerServerB、DockerEngineC、DockerClient参考答案：B208.Docker是基于（）实现的开源容器项目。A、C语言B、Java语言C、Go语言D、Python语言参考答案：C209.Docker配置文件的语法格式中，代表单个字符的符号是（）。A、∗B、?C、!D、^参考答案：B210.Docker内置网络模式不包括（）。A、host模式B、mynet模式C、none模式D、bridge模式参考答案：B211.Docker的三大核心不包括（）。A、容器B、算法C、镜像D、仓库参考答案：B212.Docker的（）命令只支持将本地文件复制到容器中。A、DDB、COPYC、SCPD、PUT参考答案：B213.Docker的（）命令用于构建镜像。A、createB、addC、buildD、new参考答案：C214.Dockerfile中指定环境变量的指令是（）。A、WORKDIRB、SHELLC、ENVD、ENTRYPOINT参考答案：C215.Dockerfile中声明镜像内服务监听的端口的指令是（）。A、LISTENB、EXPOSEC、ARGD、MONITOR参考答案：B216.dockerfile文件的作用是（）。A、普通文件B、用于自定义镜像C、用于保存容器配置D、用于存放docker配置参考答案：B217.Dockerfile配置文件使用（）命令指定基础镜像。A、IMPORTB、GETC、OPEND、FROM参考答案：D218.Dataset最终在（）版本中被定义成Spark新特性。A、Spark1.6B、Spark1.8C、Spark2.0D、Spark2.2参考答案：C219.DataFrame和RDD最大的区别是（）。A、科学统计支持B、多schemaC、存储方式不一样D、外部数据源支持参考答案：B220.（）参数不影响kafka重平衡？A、session.timeout.msB、erval.msC、message.max.bytesD、erval.ms参考答案：C221.（）不是Spark的四大组件。A、SparkStreamingB、MllibC、GraphXD、SparkR参考答案：D多选题1.在使用Sqoop将数据从Hive导入到MySQL之前，需要确保以下条件已经满足（）。A、已经安装了Hadoop集群和Hive数据库B、已经安装了MySQL数据库，并且可以连接到MySQL数据库C、已经安装了Sqoop，并且可以在命令行中运行Sqoop命令D、已经安装好JAVA参考答案：ABC2.在Hive中，以下哪个配置属性用于指定Hive表的默认文件格式（）。A、hive.default.input.formatB、hive.table.default.file.formatC、hive.default.file.input.formatD、hive.input.format.default参考答案：ABC3.在Hive中，以下哪个配置属性用于指定HDFS存储位置的根目录（）。A、hive.data.root.dirB、hive.hdfs.root.dirC、hive.storage.root.dirD、hive.fs.root.dir参考答案：ABC4.在Hive中，以下哪个配置属性用于设置Hive表的默认压缩格式（）。A、press.formatB、pression.codecC、pressionD、pression.format参考答案：BCD5.以下是Spark中executor的作用是（）。A、保存计算的RDD分区数据B、向Driver反向注册C、接受Driver端发送来的任务Task,作用在RDD上进行执行D、做资源调度任务参考答案：ABC6.以下哪些属于ETL工具（）。A、sqoopB、flumeC、kafkaD、sqark参考答案：ABC7.以下哪些是yarn-site.xml配置文件主要参数（）。A、yarn.resourcemanager.addressB、yarn.resourcemanager.scheduler.addressC、yarn.resourcemanager.admin.addressD、yarn.nodemanager.oux-services参考答案：ABC8.要在Hive中启用LLAP（LowLatencyAnalyticalProcessing），哪个配置属性应该设置为true（）。A、hive.llap.enabledB、hive.enable.llapC、hive.execution.llap.enabledD、hive.llap.execution.enabled参考答案：ABD9.要在Hive中配置HDFS的NameNodeURI，应该设置哪个属性（）。A、node.uriB、node.uriC、D、node.uri参考答案：ABC10.要启用Hive的压缩功能，应该配置哪个属性（）。A、press.enableB、pressC、pression.codecD、pression参考答案：ACD11.要启用Hive的Tez执行引擎，应该配置哪个属性（）。A、hive.execution.engineB、hive.exec.engineC、hive.tez.enableD、hive.use.tez参考答案：ABD12.要配置Hive的元数据存储连接字符串，应该设置哪个属性（）。A、hive.metastore.uriB、hive.metastore.connectionC、hive.metastore.jdbc.urlD、hive.metastore.connection.url参考答案：ACD13.要读取people.json文件生成DataFrame，可以使用下列（）命令。A、spark.read.json("people.json")B、spark.read.text("people.json")C、spark.read.format("json").load("people.json")D、spark.read.format("csv").load("people.json")参考答案：AC14.下面是使用Sqoop将数据从Hive导入到MySQL的具体步骤（）。A、创建Hive表B、插入数据C、使用Sqoop导出数据D、在MySQL中查看数据参考答案：ABCD15.下面哪个配置属性用于指定Hive查询的最大并行度（）。A、hive.query.parallelismB、hive.exec.parallelC、hive.query.max.parallelD、hive.parallel.query.max参考答案：ACD16.下面关于SparkMLlib库的描述正确的是（）。A、MLlib库从1.2版本以后分为两个包：spark.mllib和spark.mlB、spark.mllib包含基于DataFrame的原始算法APIC、spark.mllib包含基于RDD的原始算法APID、spark.ml则提供了基于RDD的、高层次的API参考答案：AC17.下面关于Flink的说法正确的是（）。A、Flink起源于Stratosphere项目，该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的B、Flink可以同时支持实时计算和批量计算C、Flink不是Apache软件基金会的项目D、Flink是Apache软件基金会的5个最大的大数据项目之一参考答案：ABD18.下面关于Flink的描述正确的是（）。A、Flink和Spark一样，都是基于磁盘的计算框架B、当全部运行在HadoopYARN之上时，Flink的性能甚至还要略好于SparkC、Flink的流计算性能和Storm差不多，可以支持毫秒级的响应D、Spark的市场影响力和社区活跃度明显超过Flink参考答案：BCD19.下列属于RDD的转换算子的是（）。A、groupByKey()B、reduce()C、reduceByKey()D、map()参考答案：ACD20.下列属于RDD的行动算子的是（）。A、count()B、first()C、take()D、filter()参考答案：ABC21.下列关于容器操作命令匹配正确的有（）。A、创建容器：dockeraddB、启动容器：dockerstartC、删除容器：dockerrmD、导出容器：dockerexportE、暂停容器：dockerpause参考答案：BCDE22.下列关于Docker的操作命令正确的有（）。A、dockerdeleteB、dockerimportC、dockersearchD、ockerlistE、dockerimages参考答案：BCE23.使用dockerstats命令可以显示的容器信息有（）。A、内存B、网络C、PUD、端口E、存储参考答案：ABCE24.使用dockerps命令可以查看到的信息有（）。A、容器IDB、镜像名称C、容器的端口D、生存时间E、环境变量参考答案：ABCD25.如果要在Hive中启用用户定义的聚合函数（UDAFs），哪个配置属性应该设置为true（）。A、hive.udaf.enableB、hive.enable.udafsC、hive.udaf.supportD、hive.use.udaf参考答案：ABD26.如果要在Hive中启用事务支持，哪个配置属性应该设置为true（）。A、hive.transaction.enabledB、hive.support.transactionsC、hive.txn.managerD、hive.enable.txn参考答案：ACD27.如果要在Hive中启用列级别的权限控制，哪个配置属性应该设置为true（）。A、hive.column.level.securityB、hive.security.column.authorization.enabledC、hive.enable.column.level.securityD、hive.column.authorization.enabled参考答案：BCD28.如果要在Hive中启用动态分区插入，哪个配置属性应该设置为true（）。A、hive.dynamic.partition.insert.enableB、hive.partition.insert.dynamicC、hive.enable.dynamic.partition.insertD、hive.dynamic.insert.enable参考答案：ACD29.利用数据卷容器可以对其中的数据卷进行（）操作。A、备份B、恢复C、压缩D、迁移参考答案：ABCD30.后端容器化环境部署中使用的数据库一般有（）。A、ccessB、kafkaC、RedisD、MySQLE、MongoDB参考答案：CDE31.管理自定义的网桥网络的操作命令有（）。A、dockernetworkcreateB、dockernetworkconnectC、dockernetworkdisconnectD、ockernetworkrm参考答案：ABCD32.关于ZooKeeper顺序节点的说法不正确的是（）。A、创建顺序节点的命令为：create/testvalue1B、创建顺序节点时不能连续执行创建命令，否者报错节点已存在C、通过顺序节点，可以创建分布式系统唯一IDD、顺序节点的序号能无限增加参考答案：ABD33.关于ZooKeeper的特性说法正确的是（）。A、能改变ZooKeeper服务器状态的操作称为事务操作B、是版本机制有效避免了数据更新时出现的先后顺序问题C、当节点发生变化时，通过watcher机制，可以让客户端得到通知D、watch能触发多次参考答案：ABC34.关于spark中数据倾斜引发原因正确的选项有（）。A、key本身分布不均衡B、计算方式有误C、过多的数据在一个task里面D、shuffle并行度不够参考答案：ABCD35.关于spark容错说法错误的有（）。A、在容错机制中，如果一个节点死机了，而且运算窄依赖，则只要把丢失的父RDD分区重算即可，依赖于其他节点B、宽依赖开销更大C、heckpoint可以节约大量的系统资源D、RDD的容错机制是基于SparkStreaming的容错机制参考答案：AD36.关于partition中的数据是如何保持到硬盘上的，说法正确的是（）。A、一个topic分为好几个partition，每一个partition是以文件夹的形式保持在broker节点上面的B、每一个分区的命名是从序号0开始递增C、每一个partition目录下多个segment文件（包含xx.index，xx.log）,默认是1GD、每个分区里面的消息是有序的，数据是一样的参考答案：ABC37.关于HadoopHDFS的文件操作，正确的是（）。A、HDFS可以创建文件并写入数据B、HDFS可以查看文件内容C、HDFS可以创建目录D、HDFS可以更改文件内容参考答案：ABC38.关于Flink的架构表述正确的是（）。A、Fink存储层支持专有的文件系统B、从部署层来看，Fink不仅支持本地运行，还能在独立集群或者在被YARN或Mesos管理的集群上运行。也能部署在云端C、Flink提供两个核心API:DatasetAPI和DataStreamAPID、ataSetAPI做批处理，而DataStreamAPI做流处理参考答案：BCD39.关于Docker容器的run命令，下列参数匹配正确的有（）。A、d:在后台运行容器B、i:已交互模式运行容器C、p:随机端口映射D、h:指定容器的hostname参考答案：ABD40.关于dockerbuild命令支持的选项，下列匹配正确的有（）。A、network:指定run命令时网络模式B、f:dockerfile名称C、add-host:添加自定义的主机名到IP的映射D、label:配置镜像的标签参考答案：ABC41.从RDD转换得到DataFrame包含两种典型的方法，分别是（）。A、利用反射机制推断RDD模式B、使用编程方式定义RDD模式C、利用投影机制推断RDD模式D、利用互联网机制推断RDD模式参考答案：AB42.创建镜像的主要方法有（）。A、基于本地文件导入B、基于本地模板导入C、基于已有镜像的容器创建D、基于Dockerfile创建参考答案：BCD43.查看Docker容器的子命令有（）。A、displayB、statsC、inspectD、list参考答案：BC44.ZooKeeper中的数据节点可以存储的数据类型包括（）。A、字符串B、整数C、浮点数D、二进制数据参考答案：ABCD45.ZooKeeper中的事务操作可以保证（）特性。A、原子性B、一致性C、隔离性D、持久性参考答案：ABD46.ZooKeeper中的节点类型包括（）。A、持久节点B、临时节点C、有序节点D、临时有序节点参考答案：ABCD47.ZooKeeper中的Watcher机制是通过以下（）方式实现。A、回调函数B、轮询机制C、线程池D、事件驱动参考答案：AD48.ZooKeeper中的SEQUENTIAL节点的特点是（）。A、有序节点B、无序节点C、节点名称自动递增D、节点名称不自动递增参考答案：AC49.ZooKeeper中的ACL（AccessControlList）用于（）。A、控制节点的访问权限B、控制节点的读写权限C、控制节点的删除权限D、控制节点的创建权限参考答案：ABCD50.ZooKeeper的集群中的Leader节点的选举是通过以下（）方式实现。A、随机选择B、抢占式C、共识机制D、选举算法参考答案：CD51.Stage的Task的数量不是由（）决定。A、PartitionB、JobC、StageD、TaskSchedule

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

世界职业院校技能大赛中职组“大数据应用与服务组”赛项考试题及答案

文档简介

温馨提示

最新文档

评论

世界职业院校技能大赛中职组“大数据应用与服务组”赛项考试题及答案

文档简介

温馨提示

最新文档

评论

相关文档