全国职业院校技能大赛中职（大数据应用与服务赛项）考试题及答案

上传人：服*** IP属地：四川上传时间：2024-11-10 格式：DOC 页数：140 大小：529.63KB 积分：12 举报 版权申诉

已阅读5页，还剩135页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

全国职业院校技能大赛中职（大数据应用与服务赛项）考试题及答案单选题1.制作镜像时，复制文件到镜像中使用的命令是（）。A、DDB、COPYC、RUND、CMD参考答案：B2.在配置好Hadoop集群之后，通过浏览器登录查看HDFS状态，以下是查看的URL（）。A、http://master:8089B、:50070C、http://master:16010D、http://master:9999参考答案：B3.在导入开始之前,Sqoop检索出表中所有的列以及列的SQL数据类型,这些SQL类型被映射什么类型（）。A、CB、C++C、JavaD、Python参考答案：C4.在ZooKeeper中，在配置文件zoo.cfg中，请问initLimit表示的含义是（）。A、Leader-Follower初始通信时限B、Leader-Follower同步通信时限C、lient-Server通信心跳时间D、Client-Server初始通信时限参考答案：A5.在ZooKeeper中，事务日志（transactionlog）用于记录（）。A、节点的数据变更操作B、节点的子节点变更操作C、节点的ACL变更操作D、所有节点的操作参考答案：D6.在ZooKeeper中，每个节点都有一个唯一的标识符，这个标识符是（）。A、ZNodeB、EphemeralNodeC、PersistentNodeD、ZooNode参考答案：A7.在ZooKeeper中，节点可以设置监听器吗？（）A、是，可以设置监听器B、否，节点没有监听功能C、取决于节点的类型D、取决于节点的权限设置参考答案：A8.在ZooKeeper中，节点的数据版本是如何维护的？（）A、自动递增B、手动指定C、根据节点的创建时间确定D、随机生成参考答案：A9.在ZooKeeper中，关于节点的ACL（访问控制列表）说法错误的是（）。A、CL可以用于控制节点的读写权限B、ACL可以定义多个权限组合C、ACL可以设置到子节点上并继承父节点的权限D、ACL只能设置在持久节点上参考答案：D10.在ZooKeeper中，ZAB协议是（）。A、用于节点间的数据同步和一致性保证的协议B、用于节点间的消息传递和通信的协议C、用于节点间的负载均衡和路由选择的协议D、用于节点间的权限控制和访问管理的协议参考答案：A11.在ZooKeeper中，Watcher是在（）被触发。A、在节点数据变更之前B、在节点数据变更之后C、在节点数据变更期间D、取决于Watcher的设置参考答案：B12.在ZooKeeper中，Watcher是一次性的吗？（）A、是，一旦触发就无法再次使用B、否，可以反复使用C、取决于Watcher的类型D、取决于节点的类型参考答案：C13.在ZooKeeper中，SEQUENTIAL节点的特点是（）。A、节点名称具有顺序性B、节点数据具有顺序性C、节点的触发器具有顺序性D、节点的ACL具有顺序性参考答案：A14.在ZooKeeper中，EPHEMERAL节点的特点是（）。A、临时创建，会话结束后自动删除B、持久创建，会话结束后仍然保留C、只能由Leader节点创建D、只能由Follower节点创建参考答案：A15.在ZooKeeper中，ACL（访问控制列表）可以设置为（）。A、CREATOR_ALL_ACLB、OPEN_ACL_UNSAFEC、AUTH_IDSD、所有选项都正确参考答案：D16.在ZooKeeper中，（）角色负责协调其他节点的工作。A、领导者（Leader）B、跟随者（Follower）C、观察者（Observer）D、所有角色均可参考答案：A17.在Sqoop中，使用哪个命令可以列出可用的数据库连接？（）A、sqooplist-databasesB、sqoophelpC、sqoopconnectionsD、sqoopserver参考答案：A18.在Sqoop中，哪个参数用于指定要导入的目标表？（）A、–tableB、–target-dirC、–outdirD、–where参考答案：A19.在Kafka中，（）是ISR队列中最小的LEO。A、LEOB、ISRC、HWD、AR参考答案：C20.在hive中下列哪个命令不可以实现去重（）。A、distinctB、groupbyC、row_numberD、having参考答案：D21.在Hive中，以下哪个配置参数用于指定Hive执行计划的输出目录（）？A、hive.query.plan.output.directoryB、hive.exec.plan.output.directoryC、hive.plan.output.directoryD、hive.query.execution.directory参考答案：A22.在Hive中，以下哪个配置参数用于指定Hive执行计划的缓存目录（）？A、hive.query.plan.cache.dirB、hive.exec.plan.cache.dirC、hive.cache.plan.directoryD、hive.query.cache.directory参考答案：B23.在Hive中，以下哪个配置参数用于指定Hive元数据存储的数据库类型（）？A、hive.metastore.urisB、hive.metastore.schemaC、hive.metastore.db.typeD、hive.metastore.db.url参考答案：C24.在Hive中，以下哪个配置参数用于指定Hive服务器的端口号（）？A、hive.server.portB、hive.server2.thrift.portC、hive.server.rpc.portD、hive.thrift.server.port参考答案：B25.在Hive中，以下哪个配置参数用于指定Hive的执行引擎为Spark（）？A、hive.execution.engine=sparkB、hive.spark.execution.engine=trueC、hive.spark.engine.enabled=trueD、hive.query.engine=spark参考答案：A26.在Hive中，以下哪个配置参数用于指定Hive表的默认存储格式（）？A、hive.default.storage.formatB、hive.default.file.formatC、hive.default.formatD、hive.table.default.format参考答案：C27.在Hive中，以下哪个配置参数用于指定HiveCLI的历史命令记录文件名（）？A、B、hive.cli.history.fileC、mand.log.filenameD、hive.query.log.file参考答案：B28.在Hive中，以下哪个配置参数用于指定HDFS的名称节点地址（）。A、hive.metastore.urisB、fs.defaultFSC、hive.metastore.warehouse.dirhive.server2.thrift.port参考答案：B29.在Hive中，哪个配置参数用于指定Hive的执行模式，如本地模式或MapReduce模式（）？A、hive.execution.engineB、hive.execution.modeC、hive.mapred.modeD、hive.exec.mode参考答案：B30.在Hive中，哪个配置参数用于指定HiveCLI的历史命令记录目录（）？A、hive.history.file.directoryB、hive.query.log.dirC、hive.cli.history.directoryD、mand.log.dir参考答案：C31.在HDFS文件操作中，上传文件的命令是（）。A、putB、inputC、getD、up参考答案：A32.在Hadoop生态组件中，哪个产品可用于复杂的批量数据处理。（）A、MapReduce、HiveB、ImpalaC、StormD、Mahout参考答案：A33.在hadoop配置中core-site.xml的配置是（）参数。A、集群全局参数B、HDFS参数C、Mapreduce参数D、集群资源管理系统参数参考答案：A34.在Flink中，水位线是（）生成的。A、基于系统时间的周期性B、基于事件时间的周期性C、由用户手动指定D、实时参考答案：A35.在Flink中，窗口（Window）的作用是（）。A、控制数据流的速度B、对数据流进行分组C、对数据流进行时间切片D、对数据流进行过滤参考答案：C36.在Flink中，（）通常用于指定Flink作业的任务流图（JobGraph）。A、flink.xmlB、job.confC、pertiesD、flink-config.yaml参考答案：D37.在Flink的配置文件中，（）通常用来指定Flink任务并行度。A、parallelism.defaultB、task.parallelismC、parallelism.default-taskD、task.default-parallelism参考答案：D38.在Docker数据管理中，数据卷可以提供的特性不包括（）。A、数据卷可以在容器之间共享和重用B、对数据卷内数据的修改立马生效C、对数据卷的更新不影响镜像D、挂载数据卷时要手工创建挂载目录参考答案：D39.在Docker的运行过程中，对镜像的操作不包括（）。A、deleteB、searchC、pullD、push参考答案：A40.在Centos中启动Docker服务的命令是（）。A、systemstartdockerB、systemenabledockerC、systemctlstartdockerD、systemctlrundocker参考答案：C41.在（）版本后，Kafka正式移除了对Zookeeper的依赖。A、Kafka1.8B、Kafka2.6C、Kafka2.8D、Kafka3.2参考答案：C42.允许开发人员为容器分配MAC地址的是（）。A、网桥网络B、覆盖网络C、驱动网络D、主机网络参考答案：C43.以下选项中说法正确的是（）。A、DAG是弹性分布式数据集的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型B、Application是运行在工作节点的一个进程，负责运行TaskC、Job是运行在Executor上的工作单元D、Stage是Job的基本调度单位，一个Job会分为多组Task，每组Task被称为Stage参考答案：D44.以下选项哪个是MapReduce正确的运行模型（）。A、Reduce-Map-ShuffleB、Shuffle-Map-ReduceC、Map-Shuffle-ReduceD、Map-Reduce-Shuffle参考答案：C45.以下选项哪个是HDFS的名称节点（）。A、DataNodeB、SecondaryNodeC、NodeD、NameNode参考答案：D46.以下哪种不是Hive支持的数据类型（）。A、StructB、IntC、MapD、Long参考答案：D47.以下哪个选项不是Sqoop的导入模式？（）A、纯文本导入B、二进制导入C、Avro导入D、JSON导入参考答案：D48.以下哪个是正确的sqoop命令，用于将数据从MySQL导入到HDFS？（）A、bin/sqoopimport--connectjdbc:mysql://0:3306/userdb--usernameroot--delete-target-dir--target-dir/MysqlToHDFS1--tablestudentB、in/sqoopimport--connectjdbc:mysql://localhost:3306/userdb--usernameroot--delete-target-dir--target-dir/MysqlToHDFS1--tablestudentC、bin/sqoopimport--connectjdbc:mysql://localhost:3306/userdb--usernameroot--delete-target-dir--target-dir/MysqlToHDFS1--tablestudent--m11D、bin/sqoopimport--connectjdbc:mysql://localhost:3306/userdb--usernameroot--delete-target-dir--target-dir/MysqlToHDFS1--tablestudent--m11.3参考答案：D49.以下哪个参数在sqoop命令中用于指定要删除HDFS的目标目录？（）A、--delete-target-dirB、--target-dirC、--delete-dirD、--delete参考答案：A50.以下关于Spark中的RDD的说法，错误的是（）。A、RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合B、每个RDD可分成多个分区，每个分区就是一个数据集片段C、RDD提供了一种高度共享内存模型，RDD既可以读，也可以直接修改D、RDD的不同分区可以被保存到集群中不同的节点上，从而可以在集群中的不同节点上进行并行计算参考答案：C51.以下关于Spark计算框架，说法错误的是（）。A、Spark支持内存计算B、Spark框架是使用Java编写的C、Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件D、Spark可运行于独立的集群模式中，可运行于Hadoop中，也可运行于AmazonEC2等云环境中参考答案：B52.以下关于RDD的宽依赖和窄依赖的说法错误的是（）。A、窄依赖表现为子RDD的一个分区只依赖于某个（些）父RDD的一个分区B、宽依赖则表现为子RDD的一个分区依赖于同一个父RDD的多个分区C、宽依赖的RDD之间无Shuffle操作D、窄依赖的RDD之间无Shuffle操作参考答案：C53.以下关于Hive操作描述不正确的是（）。A、Hive是一个建立在hadoop文件系统上的数据仓库架构，可以用其对HDFS上B、Hive依赖于MapReduce处理数据C、Hive的加载数据时候，可以用local进行修饰，表示从某个本地目录下加载数据D、Hive一般可以用于实时的查询分析参考答案：D54.以下对hive中表数据操作描述正确的是（）。A、hive可以修改行值B、hive可以修改列值C、hive不可以修改特定行值、列值D、以上说法都不对参考答案：C55.以下（）文件中主要用来配置ResourceManager，NodeManager的通信端口，web监控端口等。A、core-site.xmlB、mapred-site.xmlC、hdfs-site.xmlD、yarn-site.xml参考答案：D56.要在Hive中启用数据列级别的访问控制（RBAC），应该设置哪个配置参数（）？A、hive.column.security.enabledB、hive.rbac.enabledC、hive.security.column.enabledD、hive.access.control.columns=true参考答案：C57.要在Hive中启用Kerberos认证，应该设置哪个配置参数（）？A、hive.security.authenticationB、hive.kerberos.enabledC、hive.auth.kerberosD、hive.authentication.method参考答案：A58.消费者出现活锁问题时应该（）。A、增加erval.ms相关参数B、减少消费者数量C、重启集群D、提高poll频率参考答案：A59.下面中不属于HIVE中的元数据信息（）。A、表的名字B、表的列和分区及其属性C、表的属性（只存储内部表信息）D、表的数据所在目录参考答案：C60.下面哪个命令是导入到集群（）。A、importB、exportC、odegenD、eval参考答案：A61.下面哪个命令是创建hive表（）。A、import-all-tablesB、list-databasesC、list-tablesD、create-hive-table参考答案：D62.下面哪个命令行参数可以用来删除Kafka中的Topic？（）A、listB、createC、deleteD、escribe参考答案：C63.下面哪个程序负责HDFS数据存储（）。A、DatanodeB、NameNodeC、JobtrackerD、secondaryNameNode参考答案：A64.下面（）端口不是Spark自带服务的端口。A、8080.0B、4040.0C、8090.0D、18080.0参考答案：C65.下面（）操作是窄依赖。A、joinB、filterC、groupD、sort参考答案：B66.下面（）操作是宽依赖。A、map♂B、flatMapC、groupByKeyD、union参考答案：C67.下面（）不是RDD的特点。A、可分区B、可序列化C、可修改D、可持久化参考答案：C68.下列语句中,描述错误的是（）。A、可以通过CLI方式、JavaApi方式调用SqoopB、Sqoop底层会将Sqoop命令转换为MapReduce任务,并通过Sqoop连接器进行数据的导入导出操作C、Sqoop是独立的数据迁移工具,可以在任何系统上执行D、如果在Hadoop分布式集群环境下,连接MySQL服务器参数不能是“localhost”或“”参考答案：C69.下列选项中，针对Spark运行的基本流程是错误是（）。A、Driver端提交任务，向Master申请资源B、Master与Worker进行TCP通信，使得Worker启动ExecutorC、Executor启动会主动连接Driver，通过Driver->Master->WorkExecutor,从而得到Driver在哪D、river会产生Task，提交给Executor中启动Task去做真正的计算参考答案：B70.下列说法错误的是（）。A、生产者和消费者面向的都是一个topicB、生产者发送数据的对象是leaderC、当集群中的某个节点发生故障时，Replica上的partition数据不会丢失D、partition是一个没有顺序的队列参考答案：D71.下列哪种情况不会触发到消费者分区的重新分配？A、当有新的消费者加入消费者组B、已有的消费者推出消费者组C、处于消费者所在分区最近提交的offset位置D、消费者所订阅的主题的分区发生变化参考答案：C72.下列哪个数据类型不是hadoop的数据类型（）。A、TextB、StringC、IntWritableD、NullWritable参考答案：B73.下列描述中，哪项不属于Sqoop的缺点（）。A、无法控制任务的并发度B、格式紧耦合C、安全机制不够完善D、connector必须符合JDBC模型参考答案：A74.下列关于topic和partition的描述，错误的是（）。A、Kafka中消息是以partition进行分类的B、与partition不同，topic是逻辑上的概念而非物理上的概念C、每个partition对应于一个log文件D、一个partition分为多个segment参考答案：A75.下列关于MapReduce说法不正确的是（）。A、MapReduce是一种计算框架B、MapReduce来源于google的学术论文C、MapReduce程序只能用java语言编写D、MapReduce隐藏了并行计算的细节，方便使用参考答案：C76.下列关于leader和follower的说法正确的是（）。A、一个topic的每个分区可以没有leaderB、一个topic的每个分区可以没有followerC、消费者消费数据的对象都是leaderD、follower从leader中同步数据有一定延迟参考答案：C77.下列方法中，不能创建RDD的方法是（）。A、makeRDDB、parallelizeC、textFileD、testFile参考答案：D78.下列（）不是RDD的缓存方法。A、persist（）B、Cache（）C、Memory（）D、以上都不是参考答案：C79.下列（）不是Docker项目中用于文件存储的数据库。A、MYSQLB、MongoDBC、RedisD、Kafka参考答案：D80.下列（）不可以作为SparkStreaming的输入数据流。A、KafkaB、TwitterC、TCP套接字D、Openstack参考答案：D81.停止一个容器的操作命令是（）。A、dockerstopB、dockershutdownC、dockershiftD、ockerpause参考答案：A82.搜索nginx引擎的操作命令是（）。A、dockersearchnginxB、dockerpullnginxC、dockerpushnginxD、ockerrmnginx参考答案：A83.水位线的单位通常是（）。A、秒B、毫秒C、分钟D、小时参考答案：B84.使用消息队列的好处不包括（）。A、能够有效解耦B、可恢复性增强C、提供缓冲空间D、能够同步通信参考答案：D85.使用Dockerrun命令运行一个容器时，通过参数（）可启动一个bash允许用户进行交互。A、itB、iaC、ntD、na参考答案：A86.使用create命令新建容器时，指定映射到本地主机端口的命令选项是（）。A、pB、hC、nD、i参考答案：A87.使用create命令新建容器时，指定容器在网络中的别名的命令选项是（）。A、net-nameB、net-aliasC、networkD、alias参考答案：B88.若要在Hive中启用压缩数据存储，应该设置哪个配置参数（）？A、press.enabledB、pression.enabledC、pression.enabled参考答案：B89.强制删除容器tmp01的操作命令是（）。A、dockerrm-ftmp01B、dockerrm-vtmp01C、dockerrm-1tmp01D、ockerrm-Itmp01参考答案：A90.启动一个容器的操作命令是（）。A、dockerstartB、dockeropenC、dockernewD、ockergo参考答案：A91.将一个已经创建的容器导出到一个文件使用的操作命令是（）。A、dockerimportB、dockerloadC、dockeroutputD、ockerexport参考答案：D92.将一个RDD转换为DataFrame的方法是（）。A、dataFrame（）B、toDataFrame（）C、DF（）D、toDF（）参考答案：D93.将大数据平台数据导出到mysql可以使用（）工具。A、HadoopB、SqoopC、HiveD、Xshell参考答案：B94.将nginx容器接入自定义的myops网络的操作命令是（）。A、dockernetworkjoinmyopsnginxB、dockernetworkconnmyopsnginxC、dockernetworkconnectmyopsnginxD、ockernetworkconnectnginxmyops参考答案：C95.获取远程仓库中Docker镜像的操作命令是（）。A、dockergetB、dockerpushC、dockerpullD、ockerdownload参考答案：C96.关于ZooKeeper临时节点的说法正确的是（）。A、创建临时节点的命令为：create-s/tmpmyvalueB、一旦会话结束，临时节点将被自动删除C、临时节点不能手动删除D、临时节点允许有子节点参考答案：B97.关于SparkStreaming的优点，不包括（）。A、易用性B、容错性C、易整合性D、低吞吐量参考答案：D98.关于SparkSQL,以下说法正确的是（）。A、HiveContext继承了SqlContextB、DataFrame其实就是RDDC、HiveContext只支持SQL语法解析器D、SparkSQL的前身是Hive参考答案：A99.关于SparkSQL,以下描述错误的是（）。A、SparkSQL使用的数据抽象并非是DataFrame，而是RDDB、在Spark的早期版本中,DataFrame被称为SchemaRDDC、DataFrame是一种以RDD为基础的分布式数据集D、ataFrame可以完成RDD的绝大多数功能参考答案：A100.关于SecondaryNameNode哪项是正确的？（）A、它是NameNode的热备B、它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间C、它对内存没有要求D、SecondaryNameNode应与NameNode部署到一个节点参考答案：B101.关于MapReduce优点，下列说法不正确的是（）。A、高容错性B、适合PB级以上海量数据的离线处理C、良好的扩展性D、适合做实时计算参考答案：D102.关于MapReduce的说法正确的是（）。A、MapReduce1.0用YARN框架来进行资源调度的B、MapReduce是基于内存计算的框架C、MapReduce是分布式文件存储系统D、MapReduce1.0既是一个计算框架又是一个资源调度框架参考答案：D103.关于Hive用户自定义函数UDF的描述错误的是（）。A、UDF（User-Defined-Function）一进一出B、UDAF（User-DefinedAggregationFuncation）聚集函数，多进一出C、UDTF（User-DefinedTable-GeneratingFunctions）一进多出D、上传UDFjar包至Hive环境即可使用自定义函数参考答案：D104.关于Hive数据倾斜问题描述正确的是（）。A、不需要了解业务，对业务进行数据探查无法解决数据倾斜B、每一个数据倾斜的作业都需要优化C、小文件合并不会解决数据倾斜的问题D、可以适当的通过控制mapper和reducer来控制数据倾斜的问题参考答案：D105.关于Hive数据模型描述正确的是（）。A、Hive的元数据存储在HDFS中B、Hive的数据模型只包含：表、分区参考答案：B106.关于Hive内外表描述正确的是（）。A、内部表数据由HDFS自身管理，外部表数据由Hive管理；B、内部表数据存储的位置是hive.metastore.warehouse.dir设置配置（默认：/user/hive/warehouse）C、外表存储必须指定LOCATIOND、内外表删除时，都会删除元数据和存储参考答案：B107.关于Hive描述正确的是（）。A、count函数必须开窗口才能使用B、max函数是窗口函数C、lead函数是聚合函数,不是窗口函数D、min函数是聚合函数,不是窗口函数参考答案：B108.关于Hive和传统数据库的比较描述正确的是（）？A、Hive使用了查询语言HQL（HiveQueryLanguage），HQL与SQL没有任何关系B、Hive使用了查询语言HQL（HiveQueryLanguage），HQL与SQL没有任何关系C、Hive是建立在Hadoop之上的，所有Hive的数据都是存储在HDFS中的，而数据库则可以将数据保存在块设备或者本地文件系统中D、Hive的针对数据仓库设计，针对的是读多写少的场景灕灕灕灕灕灕参考答案：D109.关于Hive各个格式使用场景描述错误的是（）。A、Parquet对于大型查询的类型是高效的，对于扫描特定表格中的特定列的查询，Parquet特别有用B、目前Parquet默认使用gzip压缩格式C、ORC可以支持复杂的数据结构（比如Map等）D、RCFile是一种行列存储相结合的存储方式参考答案：B110.关于Hive的SequenceFile格式描述正确的是（）。A、SequenceFile是二进制文件格式，以list的形式序列化到文件中B、SequenceFile存储方式：列存储C、SequenceFile不可分割、压缩D、SequenceFile优势是文件和Hadoopapi中的MapFile是相互兼容的参考答案：D111.关于Hive存储的文件格式描述错误的是（）。A、ORC格式是Hive一直支持的B、TEXTFILE是Hive的默认存储格式C、SequenceFile是一种二进制存储D、RC是ORC的前身参考答案：A112.关于Hive查询通常延迟较高的原因描述错误的是（）。A、由于没有索引，需要扫描整个表，因此延迟较高B、由于MapReduce本身具有较高的响应延迟，因此在利用MapReduce执行Hive查询时，也会有较高的延迟响应C、关系型数据库较于Hive底层的文件系统实现，执行延迟较低D、Hive查询延迟较于关系型数据库，延迟响一直都是很高的参考答案：D113.关于HiveSQL编译描述正确的是（）。A、HiveSQL的Parser层是为了将SQL转化为执行计划的B、逻辑层优化器会进行算子转换，优化合并不必要的算子操作C、MapReduce任务是需要遍历QueryBlock后生成的D、编译器遍历ASTTree，抽象出查询的基本组成单元OperatorTree参考答案：B114.关于Hivemetastore的三种模式的描述错误的是（）。A、Derby方式是内嵌的方式，也是默认的启动方式，一般用于单元测试B、local模式中，使用MySQL本地部署实现metastoreC、remote模式为远程MySQLD、erby方式在同一时间只能有多个进程连接使用数据库参考答案：D115.关于DStream窗口操作函数，以下说法错误的是（）。A、window（）返回基于源DStream的窗口进行批计算后的一个新的DstreamB、countByWindow（）返回基于滑动窗口的DStream中的元素数C、reduceByWindow（）做聚合操作并返回一个新的DstreamD、以上说法都不对参考答案：D116.关于Dataset，下列说法错误的是（）。A、Dataset能从RDD中构建B、Dataset提供了特定域对象中的弱类型集合C、Dataset结合了RDD和DataFrame的优点D、ataset可以通过SparkSession中的createDataset来创建参考答案：B117.关于DataFrame与RDD在结构上的区别，以下描述错误的是（）。A、DataFrame可以看作是分布式的Row对象的集合，在二维表数据集的每一列都带有名称和类型B、RDD是分布式的Java对象的集合C、RDD在转换数据形式时效率相对较高D、ataFrame提供了比RDD更丰富的算子参考答案：C118.关于DataFrame的优势，以下描述错误的是（）。A、DataFrame提升了Spark框架的执行效率B、DataFrame减少了数据读取时间C、DataFrame可以优化执行计划D、ataFrame可以完全替换RDD参考答案：D119.典型的NoSQL数据库是（）。A、HiveB、MySQLC、HbaseD、Oracle参考答案：C120.当之前下线的分区重新上线时，要执行Leader选举，选举策略为（）。A、OfflinePartitionLeader选举B、ReassignPartitionLeader选举C、PreferredReplicaPartitionLeader选举D、ControlledShutdownPartitionLeader选举参考答案：A121.当在Sqoop中使用--target-dir参数时，它指定了哪个目录的路径？（）A、导出数据的目录B、导入数据的目录C、HDFS的目标目录D、S3的目标目录参考答案：C122.当在Sqoop中使用--append参数时，它会将数据添加到目标表的哪个位置？（）A、文件的开头B、文件的末尾C、新文件中D、随机位置参考答案：B123.当使用sqoop将数据从MySQL导入到HDFS时，以下哪个参数用于指定使用多个mapper？（）A、-mB、-fC、-tD、-c参考答案：A124.当Kafka中日志片段大小达到（）时，当前日志片段会被关闭。A、1MB、100MC、1GBD、10GB参考答案：C125.查看HDFS的报告命令是（）。A、bin/hdfsdfsadmin-reportB、in/hdfs-reportC、bin/hdfsdeadmin-reportD、bin/hdfsdfs-report参考答案：A126.查看Docker镜像信息的命令是（）。A、lsdockerB、lsimagesC、dockerlistimagesD、ockerimages参考答案：D127.查看Docker版本号的操作命令是（）。A、docker-vB、docker--versionC、docker-lD、ocker-a参考答案：A128.ZooKeeper中的一致性协议ZAB是基于（）算法实现。A、2PC（Two-PhaseCommit）算法B、Raft算法C、Paxos算法D、3PC（Three-PhaseCommit）算法参考答案：C129.ZooKeeper中的一次写操作是原子的吗？（）A、是，写操作是原子的B、否，写操作可能不是原子的C、取决于写操作的类型D、取决于节点的类型参考答案：A130.ZooKeeper中的一次读操作是原子的吗？（）A、是，读操作是原子的B、否，读操作可能不是原子的C、取决于读操作的类型D、取决于节点的类型参考答案：A131.ZooKeeper中的数据模型是基于（）。A、关系模型B、键值对模型C、图模型D、文档模型参考答案：B132.ZooKeeper中的节点可以设置（）类型的触发器。A、数据变更触发器B、子节点变更触发器C、连接状态触发器D、所有类型的触发器参考答案：D133.ZooKeeper使用的是（）文件系统。A、HadoopDistributedFileSystem（HDFS）B、NetworkFileSystem（NFS）C、ZooKeeperFileSystem（ZFS）D、ExtensibleStorageEngine（ESE）参考答案：C134.ZooKeeper的特点不包括（）。A、顺序一致性B、原子性C、可靠性D、复合系统映像参考答案：D135.yarn状态的查询url为（）。A、http://yarn:8088B、http://yarn:50070C、http://master:8088D、http://master:50070参考答案：C136.Task运行在下面（）选项中Executor上的工作单元。A、DriverprogramB、sparkmasterC、workernodeD、Clustermanager参考答案：C137.Stage的Task的数量由（）决定。A、PartitionB、JobC、StageD、TaskScheduler参考答案：A138.Sqoop中哪个参数用于指定要使用的分隔符，以便在导入数据时正确处理字段？（）A、–field-separatorB、–fsC、–delimiterD、–split-by参考答案：A139.Sqoop是一个用于在Hadoop和关系型数据库之间进行大规模数据迁移的工具，它属于哪个Apache项目的一部分（）A、HadoopB、HiveC、ApacheCommonsD、Noneoftheabove参考答案：A140.Sqoop是Hadoop和关系数据库服务器之间传送数据的工具，下列哪种数据库是不支持使用Sqoop直接进行数据传送（）。A、PostgresB、OracleC、MySQLD、Redis参考答案：D141.Sqoop将导入或导出命令翻译成什么程序来实现导入导出（）。A、SparkB、StormC、MapReduceD、Tez参考答案：C142.Sqoop的作用是（）。A、用于传统关系数据库和Hadoop之间传输数据B、提供对日志数据进行简单处理的能力C、是Hadoop体系中数据存储管理的基础D、是一个建立在HDFS之上，面向列的针对结构化和半结构化数据和动态数据库参考答案：A143.sqoop的组件功能是（）。A、sqoop只能实现关系型数据库向非关系型数据传输数据B、sqoop是关系型数据库C、sqoop实现在关系型数据库和非关系型数据库之间时行数据传输D、sqoop是非关系型数据库参考答案：C144.sqoop安装完成后,查看sqoop版本的命令是（）。A、Sqoop-versionB、SqoopversionC、Sqoop-vD、Sqoopv参考答案：B145.Spark默认的存储级别是（）。A、MEMORY_ONLYB、MEMORY_ONLY_SERC、MEMORY_AND_DISKD、MEMORY_AND_DISK_SER参考答案：A146.Spark采用RDD以后能够实现高效计算不是因为（）。A、高效的容错性，通过血缘关系重新计算丢失分区B、中间结果持久化到内存，数据在内存中的多个RDD操作之间进行传递，避免了不必要的读写磁盘开销C、存放的数据可以是Java对象，避免了不必要的对象序列化和反序列化D、RDD采用了高效的“转换”和“动作”算子参考答案：D147.SparkStreaming中对DStream的转换操作会转变成对（）的操作。A、sqlB、datasetC、rddD、ataframe参考答案：C148.SparkJob默认的调度模式是（）。A、FIFOB、FAIRC、无D、运行时指定参考答案：A149.MySQL数据库驱动文件放置于hive哪个目录下（）。A、jarB、libC、binD、sbin参考答案：B150.Linux下启动HDFS的命令是（）。A、HdfsB、startdfsC、start-dfs.shD、start-dfs.cmd参考答案：C151.Kafka最初是由哪家公司开发的？（）A、GoogleB、FacebookC、LinkedInD、Microsoft参考答案：C152.Kafka是一种（）。A、数据库系统B、分布式消息队列系统C、缓存系统D、文件系统参考答案：B153.Kafka使用的是什么类型的消息传递模式？（）A、点对点B、发布-订阅C、请求-响应D、广播参考答案：B154.Kafka服务器默认能接收的最大消息是多大?（）♂A、1MB、10MC、100MD、没有大小限制，因为支持大数据参考答案：A155.Kafka的主题分区数量可以根据什么进行配置？（）A、生产者数量B、消费者数量C、主题的重要性D、集群的规模参考答案：D156.Kafka的消息以什么形式进行存储？（）A、表格B、集合C、文档D、日志参考答案：D157.Kafka的消息压缩算法可以选择的方式是（）。A、GZIPB、SnappyC、LZ4D、所有以上参考答案：D158.Kafka的消息消费可以使用哪种模式？（）A、单播B、组播C、广播D、串播参考答案：A159.Kafka的消息是如何进行顺序写入的？（）A、顺序写入到磁盘B、顺序写入到内存C、顺序写入到缓存D、顺序写入到索引文件参考答案：A160.Kafka的消息传递语义是（）。A、最终一致性B、强一致性C、弱一致性D、无一致性参考答案：C161.Kafka的消息传递保证是（）。A、至少一次B、最多一次C、正好一次D、无保证参考答案：A162.Kafka的消息保留策略可以根据什么进行配置？（）A、时间B、大小C、主题D、分区参考答案：A163.Kafka的消费者在处理消息时可以选择的模式是（）。A、单线程模式B、多线程模式C、分布式模式D、并行模式参考答案：B164.Kafka的消费者可以以什么方式进行消息偏移量的管理？（）A、手动管理B、自动管理C、随机管理D、循环管理参考答案：B165.Kafka的核心是由哪个组件组成？（）A、ProducerB、ConsumerC、BrokerD、ZooKeeper参考答案：C166.Kafka的高可用性是通过什么机制实现的？（）A、数据复制B、数据压缩C、数据分片D、数据缓存参考答案：A167.HMaster的主要作用是（）。A、用于启动任务管理多个HRegionServerB、负责响应用户I/O请求，向HDFS文件系统读写数据C、负责协调集群中的分布式组件D、最终保存HBase数据行的文件参考答案：A168.Hive中以下操作不正确的是（）。A、loaddatainpathintotablenameB、insertintotablenameC、insertoverwritetablenameD、upddatetablename参考答案：D169.Hive中分组的关键字是什么（）？A、groupbyB、orderbyC、distributebyD、sortby参考答案：A170.Hive中的自动分区是通过哪个配置参数启用的（）？A、hive.auto.partitionB、hive.partition.autoC、hive.exec.dynamic.partitionD、hive.partitioning.auto参考答案：C171.Hive中的配置文件通常位于哪个目录中（）？A、/etc/hive/confB、/etc/hadoop/confC、/etc/hive/D、/etc/hive/config参考答案：A172.Hive中的哪个配置参数用于指定Hive元数据存储的连接URL（）？A、hive.metastore.db.urlB、hive.metastore.uriC、hive.metastore.connection.urlD、hive.metastore.db.connection参考答案：A173.Hive中的哪个配置参数用于指定Hive的临时文件目录（）？A、hive.tmp.dirB、hive.temp.directoryC、hive.temp.dirD、hive.tmp.directory参考答案：A174.Hive是由哪家公司开源的（）。A、GoogleB、FacebookC、LinkedInD、Netflix参考答案：B175.Hive是以（）技术为基础的数据仓库。A、HDFSB、MAPREDUCEC、HADOOPD、HBASE参考答案：C176.Hive是为了解决哪类问题（）？A、海量结构化日志的数据统计B、分布式组件调度参考答案：A177.Hive默认的元存储是保存在内嵌的（）数据库中。A、MySQLB、DerbyC、OracleD、SqlServer参考答案：B178.Hive的默认元数据存储是什么（）？A、MySQLB、PostgreSQLC、DerbyD、Oracle参考答案：C179.HBase依赖（）技术框架提供消息通信机制。A、ZookeeperB、ChubbyC、RPCD、Socket参考答案：A180.Hadoop组件在企业应用中，能用于大数据集实时查询的产品有（）。A、HiveB、PigC、MahoutD、Hbase参考答案：D181.Hadoop安装在一台计算机上，需修改相应的配置文件，用一台计算机模拟多台主机的集群是（）模式。A、全分布模式B、伪分布模式C、单机模式D、全分布HA模式参考答案：B182.HadoopMapReduce支持多种语言编程，下列说法不正确的是（）。A、可以用JAVA语言编写MapReduce应用程序B、可以用C/C++语言编写MapReduce应用程序C、可以用Python语言编写MapReduce应用程序D、可以用javascript语言编写MapReduce应用程序参考答案：D183.hadoop2.0与hadoop1.0区别（）。A、增加MapReduce2B、增加YARNC、增加HDFS2D、增加容错机制参考答案：B184.Flume如何处理故障恢复？（）A、使用事务性机制B、使用重试机制C、使用断点续传机制D、以上都不是参考答案：C185.Flume的源类型有哪些？（）A、Log4j,Kafka,HBase,自定义B、File,Kafka,HBase,自定义C、File,Kafka,HBase,Spooling,自定义D、File,Kafka,HBase,Spooling,Exec参考答案：C186.Flume的事件是什么？（）A、数据项,记录,和文件B、数据流,记录,和事件C、数据项,记录,和消息D、数据流,记录,和消息参考答案：D187.Flume的事件可以包含哪些属性？（）A、Timest,Type,Body,Headers,CountB、Timest,Type,Body,Headers,IDC、Timest,Type,Body,Headers,SequenceIDD、Timest,Type,Body,Headers,Number参考答案：C188.Flume的事件Body可以包含什么类型的数据？（）A、String,Byte数组,字节流,Map<String,String>和自定义对象序列化后的数据。B、String,Map<String,String>和自定义对象序列化后的数据。C、Byte数组,字节流和自定义对象序列化后的数据。D、String和自定义对象序列化后的数据。参考答案：A189.Flume的哪个组件用于将事件数据写入目标存储？（）A、ChannelB、SinkC、Source和ChannelD、Source和Sink参考答案：B190.Flume的哪个组件可以保证数据不会丢失？（）A、通道B、接收器C、拦截器D、源参考答案：B191.Flume的哪个拦截器可以按类型区分事件？（）A、ETL拦截器B、分区拦截器C、以上都不是D、以上都是参考答案：A192.Flume的哪个版本引入了Kafka作为其事件源和接收器？（）A、Flume1.6B、Flume1.7C、DH5.0D、CDH5.1参考答案：C193.Flume的哪个版本开始支持Spoolingdirectorysource？（）A、Flume1.0B、Flume1.1C、Flume1.2D、Flume1.3参考答案：C194.Flume的哪个版本开始支持HTTP和HTTPS协议？（）A、Flume1.0B、Flume1.1C、Flume1.2D、Flume1.3参考答案：D195.Flume的哪个版本开始支持Avro作为数据传输格式？（）A、1.X版本B、2.X版本C、3.X版本D、4.X版本以后参考答案：D196.Flume的哪个版本加入了对Thrift事件的的支持？（）A、Flume1.0B、Flume1.1C、Flume1.2D、Flume1.3参考答案：B197.Flume的哪个版本加入了Kafka作为源和汇点？（）A、1.X版本B、2.X版本C、3.X版本D、4.X版本参考答案：B198.Flume的默认通道类型是什么？（）A、MemoryChannelB、FileChannelC、KafkaChannelD、JdbcChannel参考答案：A199.Flume的默认Avro序列化方式是什么？（）A、JSONB、inaryC、SpecificD、Generic参考答案：C200.Flume的拦截器实现了哪个接口？（）A、ChannelInterceptorB、EventInterceptorC、SinkInterceptorD、SourceInterceptor参考答案：B201.Flume的Source组件负责什么？（）A、接收数据并将其写入ChannelB、接收数据并将其转发到下一组件C、从数据源读取数据并将其写入ChannelD、从数据源读取数据并将其写入接收器参考答案：C202.Flume的Kafka源类型是什么？（）A、KafkaSourceB、KafkaSpoutC、KafkaAvroSourceD、KafkaEventSource参考答案：C203.Flume的Channel组件负责什么？（）A、临时存储从Source组件接收的数据B、临时存储从下一组件接收的数据C、在Source和Sink之间传递数据D、在Source和Receiver之间传递数据参考答案：A204.Flink最常用的编程语言是（）。A、JavaB、PythonC、ScalaD、C++参考答案：A205.Flink中的转换算子（TransformationOperator）通常用于（）。A、计算作业的结果B、控制作业的执行顺序C、定义数据源D、过滤和转换数据流参考答案：D206.Flink中的事件时间（EventTime）是指（）。A、事件发生的时间B、事件进入Flink的时间C、事件处理完成的时间D、事件被记录的时间参考答案：A207.Flink中的任务并行度（TaskParallelism）是指（）。A、任务执行的速度B、同一任务的多个实例并行执行C、不同任务之间的并行执行D、任务的执行顺序参考答案：B208.Flink中的Watermark是用来（），帮助Flink正确地处理迟到的事件。A、测量数据流的速度B、表示数据流的起点C、处理乱序事件D、控制数据流的大小参考答案：C209.Flink中的Checkpoints（检查点）主要用于（）。A、实现Exactly-once语义B、控制并行度C、执行作业D、压缩数据参考答案：A210.Flink支持的数据处理方式为（）。A、批处理B、流处理C、以上都是D、无法确定参考答案：C211.Flink支持处理各种类型的数据，包括（）数据。A、结构化B、半结构化C、无结构化D、以上都是参考答案：D212.Flink任务管理器（TaskManager）的作用是（）。A、管理Flink集群的任务B、管理Flink作业的状态C、执行Flink作业的任务D、部署Flink作业到集群参考答案：C213.Flink的作业调度（JobScheduling）通常由（）负责。A、ResourceManagerB、TaskManagerC、JobManagerD、ZooKeeper参考答案：C214.Flink的作业提交通常需要（）来管理作业的执行。A、JobManagerB、TaskManagerC、ResourceManagerD、NameNode参考答案：A215.Flink的状态管理用于（），以支持容错性和状态化的计算。A、存储和检索中间结果B、控制数据流速度C、定时触发窗口操作D、执行数据清洗参考答案：A216.Flink的主要特点是（）。A、高吞吐量B、低延迟C、Exactly-once处理语义D、以上都是参考答案：D217.Flink的数据源可以是（）。A、文件B、消息队列C、数据库D、以上都是参考答案：D218.Flink的时间语义（TimeSemantics）中的事件时间（EventTime）和处理时间（ProcessingTime）的区别是（）。A、事件时间是事件发生的时间，处理时间是事件进入Flink的时间B、事件时间是事件进入Flink的时间，处理时间是事件发生的时间C、事件时间和处理时间是相同的D、事件时间和处理时间没有明确的定义参考答案：A219.Flink的容错机制是（）工作的，它定期记录数据流的状态，以便在发生故障时进行恢复。A、基于备份数据B、基于检查点C、基于异常处理D、基于数据重播参考答案：B220.Flink的日志管理通常包括（）这几个方面。A、日志存储和检索B、日志清理和压缩C、日志分析和报警D、以上都是参考答案：D221.Flink的广播状态（BroadcastState）用于（）。A、在所有任务之间共享状态B、保持数据流的连续性C、加速数据处理D、控制数据流速度参考答案：A222.Flink的高可用性（HighAvailability）设置通常需要配置的组件是（）。A、JobManager和TaskManagerB、ResourceManager和NodeManagerC、NameNode和DataNodeD、ZooKeeper集群参考答案：D223.Flink的分布式部署需要的组件是（）。A、JobManager和TaskManagerB、JobClient和JobTrackerC、Master和SlaveD、river和Executor参考答案：A224.Flink的窗口操作通常在（）执行，以对数据进行分组、聚合和统计。A、数据产生时B、数据进入Flink时C、数据在窗口中间时D、数据离开Flink时参考答案：C225.Flink的本地模式（LocalMode）和集群模式（ClusterMode）之间的主要区别是（）。A、部署方式B、编程语言C、安全性设置D、并行度设置参考答案：A226.Flink的安装配置中，通过（）来指定外部依赖库的路径。A、在Flink集群中心目录中添加依赖库B、在Flink作业中指定依赖库路径C、在Flink配置文件中设置lib.paths属性D、在Flink的CLASSPATH环境变量中添加路径参考答案：C227.Flink的安全性设置通常包括（），以确保只有授权用户能够访问Flink集群。A、访问控制和身份验证B、作业调度和任务管理C、数据加密和网络安全D、日志管理和监控参考答案：A228.Flink的Web界面通常用于（）。A、编写Flink作业B、监控Flink集群C、运行Flink作业D、调试Flink作业参考答案：B229.Flink的TableAPI和SQL用于（）。A、数据可视化B、执行SQL查询C、数据流分析D、数据清洗参考答案：B230.Flink的CEP（ComplexEventProcessing）库用于（），帮助检测和处理特定的事件模式。A、执行复杂数据处理操作B、处理图形数据C、处理实时事件流D、控制数据流速度参考答案：C231.DStream的转换操作方法中，（）方法可以直接调用RDD上的操作方法。A、countByKey（）B、updateStateByKey（func）C、ogroup（otherStream,[numTasks]）D、transform（func）参考答案：D232.DStream的输出操作，不包括（）。A、foreachRDD（func）B、print（）C、flatMap（func）D、saveAsTextFiles（prefix）参考答案：C233.Docker中的每一个工作都可以抽象为一个（）。A、实例B、进程C、JobD、请求参考答案：C234.Docker运行的核心模块是（）。A、DockerServerB、DockerEngineC、DockerClient参考答案：B235.Docker容器是在（）层面上实现虚拟化。A、硬件层面B、操作系统层面C、应用程序层面参考答案：B236.Docker配置文件的语法格式中，代表单个字符的符号是（）。A、∗B、?C、!D、^参考答案：B237.Docker内置网络模式不包括（）。A、host模式B、mynet模式C、none模式D、bridge模式参考答案：B238.Docker的三大核心不包括（）。A、容器B、算法C、镜像D、仓库参考答案：B239.Docker的（）命令只支持将本地文件复制到容器中。A、DDB、COPYC、SCPD、PUT参考答案：B240.Docker的（）命令用于构建镜像。A、createB、addC、buildD、new参考答案：C241.Dockerfile中指定环境变量的指令是（）。A、WORKDIRB、SHELLC、ENVD、ENTRYPOINT参考答案：C242.Dockerfile中声明镜像内服务监听的端口的指令是（）。A、LISTENB、EXPOSEC、ARGD、MONITOR参考答案：B243.Dockerfile配置文件使用（）命令指定基础镜像。A、IMPORTB、GETC、OPEND、FROM参考答案：D244.Dataset最终在（）版本中被定义成Spark新特性。A、Spark1.6B、Spark1.8C、Spark2.0D、Spark2.2参考答案：C245.DataFrame和RDD最大的区别是（）。A、科学统计支持B、多schemaC、存储方式不一样D、外部数据源支持参考答案：B246.ClusterManager是（）。A、资源的分配和管理B、从节点C、执行器D、主节点参考答案：A247.（）参数不影响kafka重平衡？A、session.timeout.msB、erval.msC、message.max.bytesD、erval.ms参考答案：C多选题1.在使用Sqoop将数据从Hive导入到MySQL之前，需要确保以下条件已经满足（）。A、已经安装了Hadoop集群和Hive数据库B、已经安装了MySQL数据库，并且可以连接到MySQL数据库C、已经安装了Sqoop，并且可以在命令行中运行Sqoop命令D、已经安装好JAVA参考答案：ABC2.在Hive中，以下哪个配置属性用于指定Hive表的默认文件格式（）。A、hive.default.input.formatB、hive.table.default.file.formatC、hive.default.file.input.formatD、hive.input.format.default参考答案：ABC3.在Hive中，以下哪个配置属性用于指定HDFS存储位置的根目录（）。A、hive.data.root.dirB、hive.hdfs.root.dirC、hive.storage.root.dirD、hive.fs.root.dir参考答案：ABC4.在Hive中，以下哪个配置属性用于设置Hive表的默认压缩格式（）。A、press.formatB、pression.codecC、pressionD、pression.format参考答案：BCD5.在Hive中，以下哪个配置属性用于启用动态分区（）。A、hive.exec.dynamic.partitionB、hive.optimize.dynamic.partitionC、hive.dynamic.partition.modeD、hive.partition.dynamic.enabled参考答案：ACD6.与hadoop相比，Spark主要有（）优点。A、提供多种数据集操作类型而不仅限于MapReduceB、数据集中式计算而更加高效C、提供了内存计算，带来了更高的迭代运算效率D、基于DAG的任务调度执行机制+C:F参考答案：ABCD7.以下是Spark中executor的作用是（）。A、保存计算的RDD分区数据B、向Driver反向注册C、接受Driver端发送来的任务Task,作用在RDD上进行执行D、做资源调度任务参考答案：ABC8.以下哪些组件属于Hadoop生态圈（）。A、MySQLB、HiveC、HDFSD、Sqoop参考答案：BCD9.要在Hive中启用LLAP（LowLatencyAnalyticalProcessing），哪个配置属性应该设置为true（）。A、hive.llap.enabledB、hive.enable.llapC、hive.execution.llap.enabledD、hive.llap.execution.enabled参考答案：ABD10.要在Hive中配置HDFS的NameNodeURI，应该设置哪个属性（）。A、node.uriB、node.uriC、D、node.uri参考答案：ABC11.要启用Hive的压缩功能，应该配置哪个属性（）。A、press.enableB、pressC、pression.codecD、pression参考答案：ACD12.要启用Hive的Tez执行引擎，应该配置哪个属性（）。A、hive.execution.engineB、hive.exec.engineC、hive.tez.enableD、hive.use.tez参考答案：ABD13.要配置Hive的元数据存储用户名，应该设置哪个属性（）。A、hive.metastore.userB、hive.metastore.usernameC、hive.metastore.db.userD、hive.metastore.connection.username参考答案：ABD14.要配置Hive的元数据存储连接字符串，应该设置哪个属性（）。A、hive.metastore.uriB、hive.metastore.connectionC、hive.metastore.jdbc.urlD、hive.metastore.connection.url参考答案：ACD15.下面是使用Sqoop将数据从Hive导入到MySQL的具体步骤（）。A、创建Hive表B、插入数据C、使用Sqoop导出数据D、在MySQL中查看数据参考答案：ABCD16.下面哪些场景不是Flink擅长的（）。A、批处理B、迭代计算C、数据存储D、流处理参考答案：BC17.下面哪个配置属性用于指定Hive查询的最大并行度（）。A、hive.query.parallelismB、hive.exec.parallelC、hive.query.max.parallelD、hive.parallel.query.max参考答案：ACD18.下面关于SparkMLlib库的描述正确的是（）。A、MLlib库从1.2版本以后分为两个包：spark.mllib和spark.mlB、spark.mllib包含基于DataFrame的原始算法APIC、spark.mllib包含基于RDD的原始算法APID、spark.ml则提供了基于RDD的、高层次的API参考答案：AC19.下面关于Flink的说法正确的是（）。A、Flink起源于Stratosphere项目，该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的B、Flink可以同时支持实时计算和批量计算C、Flink不是Apache软件基金会的项目D、Flink是Apache软件基金会的5个最大的大数据项目之一参考答案：ABD20.下面关于Flink窗口描述错误的是（）。A、滚动窗口在时间上是重叠的B、滚动窗口在时间上是不重叠的C、滑动窗口之间时间点存在重叠D、滑动窗口之间时间点不存在重叠参考答案：AD21.下列有关ZooKeeper中的节点路径说法正确的是（）。A、节点路径可以是临时节点B、节点路径可以是持久节点C、临时节点会话结束后自动删除D、临时节点不会自动删除参考答案：ABC22.下列选项中,属于Sqoop命令的参数有（）。A、importB、outputC、inputD、export参考答案：AD23.下列选项（）是ZooKeeper的应用场景。A、Master选举B、分布式锁C、分布式协调/通知D、存储非关系型数据参考答案：ABC24.下列属于RDD的转换算子的是（）。A、groupByKey（）B、reduce（）C、reduceByKey（）D、map（）参考答案：ACD25.下列关于容器操作命令匹配正确的有（）。A、创建容器：dockeraddB、启动容器：dockerstartC、删除容器：dockerrmD、导出容器：dockerexportE、暂停容器：dockerpause参考答案：BCDE26.下列关于Docker的操作命令正确的有（）。A、dockerdeleteB、dockerimportC、dockersearchD、ockerlistE、dockerimages参考答案：BCE27.使用dockerstats命令可以显示的容器信息有（）。A、内存B、网络C、PUD、端口E、存储参考答案：ABCE28.使用dockerps命令可以查看到的信息有（）。A、容器IDB、镜像名称C、容器的端口D、生存时间E、环境变量参考答案：ABCD29.如果要在Hive中启用用户定义的聚合函数（UDAFs），哪个配置属性应该设置为true（）。A、hive.udaf.enableB、hive.enable.udafsC、hive.udaf.supportD、hive.use.udaf参考答案：ABD30.如果要在Hive中启用事务支持，哪个配置属性应该设置为true（）。A、hive.transaction.enabledB、hive.support.transactionsC、hive.txn.managerD、hive.enable.txn参考答案：ACD31.如果要在Hive中启用列级别的权限控制，哪个配置属性应该设置为true（）。A、hive.column.level.securityB、hive.security.column.authorization.en

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

全国职业院校技能大赛中职（大数据应用与服务赛项）考试题及答案

文档简介

温馨提示

最新文档

评论

全国职业院校技能大赛中职（大数据应用与服务赛项）考试题及答案

文档简介

温馨提示

最新文档

评论

相关文档