2025年度福建省职业院校技能大赛中职组（大数据应用与服务赛项）考试题（附答案）

上传人：服*** IP属地：四川上传时间：2025-04-04 格式：DOC 页数：111 大小：422.05KB 积分：12 举报 版权申诉

2025年度福建省职业院校技能大赛中职组（大数据应用与服务赛项）考试题（附答案）_第2页

2025年度福建省职业院校技能大赛中职组（大数据应用与服务赛项）考试题（附答案）_第3页

2025年度福建省职业院校技能大赛中职组（大数据应用与服务赛项）考试题（附答案）_第4页

2025年度福建省职业院校技能大赛中职组（大数据应用与服务赛项）考试题（附答案）_第5页

已阅读5页，还剩106页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

年度福建省职业院校技能大赛中职组（大数据应用与服务赛项）考试题（附答案）单选题1.制作镜像时，复制文件到镜像中使用的命令是（）。A、DDB、COPYC、RUND、CMD参考答案：B2.在ZooKeeper中，在配置文件zoo.cfg中，请问initLimit表示的含义是（）。A、Leader-Follower初始通信时限B、Leader-Follower同步通信时限C、lient-Server通信心跳时间D、Client-Server初始通信时限参考答案：A3.在ZooKeeper中，事务日志（transactionlog）用于记录（）。A、节点的数据变更操作B、节点的子节点变更操作C、节点的ACL变更操作D、所有节点的操作参考答案：D4.在ZooKeeper中，每个节点都有一个唯一的标识符，这个标识符是（）。A、ZNodeB、EphemeralNodeC、PersistentNodeD、ZooNode参考答案：A5.在ZooKeeper中，节点可以设置监听器吗？（）A、是，可以设置监听器B、否，节点没有监听功能C、取决于节点的类型D、取决于节点的权限设置参考答案：A6.在ZooKeeper中，关于节点的ACL（访问控制列表）说法错误的是（）。A、CL可以用于控制节点的读写权限B、ACL可以定义多个权限组合C、ACL可以设置到子节点上并继承父节点的权限D、ACL只能设置在持久节点上参考答案：D7.在ZooKeeper中，Watcher是在（）被触发。A、在节点数据变更之前B、在节点数据变更之后C、在节点数据变更期间D、取决于Watcher的设置参考答案：B8.在ZooKeeper中，SEQUENTIAL节点的特点是（）。A、节点名称具有顺序性B、节点数据具有顺序性C、节点的触发器具有顺序性D、节点的ACL具有顺序性参考答案：A9.在ZooKeeper中，EPHEMERAL节点的特点是（）。A、临时创建，会话结束后自动删除B、持久创建，会话结束后仍然保留C、只能由Leader节点创建D、只能由Follower节点创建参考答案：A10.在ZooKeeper中，ACL（访问控制列表）可以设置为（）。A、CREATOR_ALL_ACLB、OPEN_ACL_UNSAFEC、AUTH_IDSD、所有选项都正确参考答案：D11.在ZooKeeper中，（）角色负责协调其他节点的工作。A、领导者（Leader）B、跟随者（Follower）C、观察者（Observer）D、所有角色均可参考答案：A12.在Sqoop中，哪个参数用于指定要导入的目标表？（）A、–tableB、–target-dirC、–outdirD、–where参考答案：A13.在linux系统中，提交hadoop程序的命令是（）。A、hadoopjarB、hadoop-submitC、hadoop-jarD、hadoopfs参考答案：A14.在Kafka中，（）是ISR队列中最小的LEO。A、LEOB、ISRC、HWD、AR参考答案：C15.在hive中下列哪个命令不可以实现去重（）。A、distinctB、groupbyC、row_numberD、having参考答案：D16.在Hive中，以下哪个配置参数用于指定Hive执行计划的输出目录（）？A、hive.query.plan.output.directoryB、hive.exec.plan.output.directoryC、hive.plan.output.directoryD、hive.query.execution.directory参考答案：A17.在Hive中，以下哪个配置参数用于指定Hive执行计划的缓存目录（）？A、hive.query.plan.cache.dirB、hive.exec.plan.cache.dirC、hive.cache.plan.directoryD、hive.query.cache.directory参考答案：B18.在Hive中，以下哪个配置参数用于指定Hive元数据存储的数据库类型（）？A、hive.metastore.urisB、hive.metastore.schemaC、hive.metastore.db.typeD、hive.metastore.db.url参考答案：C19.在Hive中，以下哪个配置参数用于指定Hive的执行引擎为Spark（）？A、hive.execution.engine=sparkB、hive.spark.execution.engine=trueC、hive.spark.engine.enabled=trueD、hive.query.engine=spark参考答案：A20.在Hive中，以下哪个配置参数用于指定Hive表的默认存储格式（）？A、hive.default.storage.formatB、hive.default.file.formatC、hive.default.formatD、hive.table.default.format参考答案：C21.在Hive中，以下哪个配置参数用于指定HiveCLI的历史命令记录文件名（）？A、B、hive.cli.history.fileC、mand.log.filenameD、hive.query.log.file参考答案：B22.在Hive中，以下哪个配置参数用于指定HDFS的名称节点地址（）。A、hive.metastore.urisB、fs.defaultFSC、hive.metastore.warehouse.dirhive.server2.thrift.port参考答案：B23.在Hive中，哪个配置参数用于指定Hive的执行模式，如本地模式或MapReduce模式（）？A、hive.execution.engineB、hive.execution.modeC、hive.mapred.modeD、hive.exec.mode参考答案：B24.在Hive中，哪个配置参数用于指定HiveCLI的历史命令记录目录（）？A、hive.history.file.directoryB、hive.query.log.dirC、hive.cli.history.directoryD、mand.log.dir参考答案：C25.在HDFS分布式文件系统中，一般采用冗余存储，冗余因子通常设置为（）。A、1.0B、2.0C、3.0D、4.0参考答案：C26.在Flink中，窗口（Window）的作用是（）。A、控制数据流的速度B、对数据流进行分组C、对数据流进行时间切片D、对数据流进行过滤参考答案：C27.在Flink的配置文件中，（）通常用来指定Flink任务并行度。A、parallelism.defaultB、task.parallelismC、parallelism.default-taskD、task.default-parallelism参考答案：D28.在Docker数据管理中，数据卷可以提供的特性不包括（）。A、数据卷可以在容器之间共享和重用B、对数据卷内数据的修改立马生效C、对数据卷的更新不影响镜像D、挂载数据卷时要手工创建挂载目录参考答案：D29.在Docker的运行过程中，对镜像的操作不包括（）。A、deleteB、searchC、pullD、push参考答案：A30.在Centos中启动Docker服务的命令是（）。A、systemstartdockerB、systemenabledockerC、systemctlstartdockerD、systemctlrundocker参考答案：C31.在（）版本后，Kafka正式移除了对Zookeeper的依赖。A、Kafka1.8B、Kafka2.6C、Kafka2.8D、Kafka3.2参考答案：C32.与传统消息系统相比，Kafka的突出特点不包括（）。A、能够持久化日志B、容错能力强，是一个分布式系统C、支持实时的流式处理D、提供在线消息同步和离线消息缓存的能力参考答案：D33.以下选项中说法正确的是（）。A、DAG是弹性分布式数据集的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型B、Application是运行在工作节点的一个进程，负责运行TaskC、Job是运行在Executor上的工作单元D、Stage是Job的基本调度单位，一个Job会分为多组Task，每组Task被称为Stage参考答案：D34.以下选项哪个是HDFS的名称节点（）。A、DataNodeB、SecondaryNodeC、NodeD、NameNode参考答案：D35.以下哪种不是Hive支持的数据类型（）。A、StructB、IntC、MapD、Long参考答案：D36.以下哪个选项不是Sqoop的导入模式？（）A、纯文本导入B、二进制导入C、Avro导入D、JSON导入参考答案：D37.以下哪个是正确的sqoop命令，用于将数据从MySQL导入到HDFS？（）A、bin/sqoopimport--connectjdbc:mysql://0:3306/userdb--usernameroot--delete-target-dir--target-dir/MysqlToHDFS1--tablestudentB、in/sqoopimport--connectjdbc:mysql://localhost:3306/userdb--usernameroot--delete-target-dir--target-dir/MysqlToHDFS1--tablestudentC、bin/sqoopimport--connectjdbc:mysql://localhost:3306/userdb--usernameroot--delete-target-dir--target-dir/MysqlToHDFS1--tablestudent--m11D、bin/sqoopimport--connectjdbc:mysql://localhost:3306/userdb--usernameroot--delete-target-dir--target-dir/MysqlToHDFS1--tablestudent--m11.3参考答案：D38.以下哪个是正确的sqoop导入数据的完整命令？（）A、sqoopimport--connectjdbc:mysql://localhost:3306/userdb--usernameroot--delete-target-dir--target-dir/MysqlToHDFS1--tablestudentB、sqoopimportdata--connectjdbc:mysql://localhost:3306/userdb--usernameroot--delete-target-dir--target-dir/MysqlToHDFS1--tablestudentC、bin/sqoopimport--connectjdbc:mysql://localhost:3306/userdb--usernameroot--delete-target-dir--target-dir/MysqlToHDFS1--tablestudentD、bin/sqoopimportdata--connectjdbc:mysql://localhost:3306/userdb--usernameroot--delete-target-dir--target-dir/MysqlToHDFS1--tablestudent参考答案：C39.以下关于Spark与Hadoop对比，说法错误的是（）。A、Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比HadoopMapReduce更灵活B、Spark提供了内存计算，可将中间结果放到内存中，对于迭代运算效率更高C、Spark磁盘IO开销较大，任务之间的衔接涉及IO开销D、Spark基于DAG的任务调度执行机制，要优于HadoopMapReduce的迭代执行机制参考答案：C40.以下关于Spark计算框架，说法错误的是（）。A、Spark支持内存计算B、Spark框架是使用Java编写的C、Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件D、Spark可运行于独立的集群模式中，可运行于Hadoop中，也可运行于AmazonEC2等云环境中参考答案：B41.以下关于RDD的宽依赖和窄依赖的说法错误的是（）。A、窄依赖表现为子RDD的一个分区只依赖于某个（些）父RDD的一个分区B、宽依赖则表现为子RDD的一个分区依赖于同一个父RDD的多个分区C、宽依赖的RDD之间无Shuffle操作D、窄依赖的RDD之间无Shuffle操作参考答案：C42.以下关于Hive操作描述不正确的是（）。A、Hive是一个建立在hadoop文件系统上的数据仓库架构，可以用其对HDFS上B、Hive依赖于MapReduce处理数据C、Hive的加载数据时候，可以用local进行修饰，表示从某个本地目录下加载数据D、Hive一般可以用于实时的查询分析参考答案：D43.以下对hive中表数据操作描述正确的是（）。A、hive可以修改行值B、hive可以修改列值C、hive不可以修改特定行值、列值D、以上说法都不对参考答案：C44.要在Hive中启用数据列级别的访问控制（RBAC），应该设置哪个配置参数（）？A、hive.column.security.enabledB、hive.rbac.enabledC、hive.security.column.enabledD、hive.access.control.columns=true参考答案：C45.下面中不属于HIVE中的元数据信息（）。A、表的名字B、表的列和分区及其属性C、表的属性（只存储内部表信息）D、表的数据所在目录参考答案：C46.下面那种情况不会触发♂ConsumerRebalance操作（）。A、某个消费者崩溃B、某个生产者崩溃C、消费者消费的多个topic中某个topic被删除D、新增消费者参考答案：B47.下面哪个命令是创建hive表（）。A、import-all-tablesB、list-databasesC、list-tablesD、create-hive-table参考答案：D48.下面哪个命令行参数可以用来删除Kafka中的Topic？（）A、listB、createC、deleteD、escribe参考答案：C49.下面（）端口不是Spark自带服务的端口。A、8080.0B、4040.0C、8090.0D、18080.0参考答案：C50.下面（）不是RDD的特点。A、可分区B、可序列化C、可修改D、可持久化参考答案：C51.下列语句中,描述错误的是（）。A、可以通过CLI方式、JavaApi方式调用SqoopB、Sqoop底层会将Sqoop命令转换为MapReduce任务,并通过Sqoop连接器进行数据的导入导出操作C、Sqoop是独立的数据迁移工具,可以在任何系统上执行D、如果在Hadoop分布式集群环境下,连接MySQL服务器参数不能是“localhost”或“”参考答案：C52.下列选项中，针对Spark运行的基本流程是错误是（）。A、Driver端提交任务，向Master申请资源B、Master与Worker进行TCP通信，使得Worker启动ExecutorC、Executor启动会主动连接Driver，通过Driver->Master->WorkExecutor,从而得到Driver在哪D、river会产生Task，提交给Executor中启动Task去做真正的计算参考答案：B53.下列选项中，（）不属于转换算子操作。A、filter（func）B、map（func）C、reduce（func）D、reduceByKey（func）参考答案：C54.下列说法错误的是（）。A、生产者和消费者面向的都是一个topicB、生产者发送数据的对象是leaderC、当集群中的某个节点发生故障时，Replica上的partition数据不会丢失D、partition是一个没有顺序的队列参考答案：D55.下列哪种情况不会触发到消费者分区的重新分配？A、当有新的消费者加入消费者组B、已有的消费者推出消费者组C、处于消费者所在分区最近提交的offset位置D、消费者所订阅的主题的分区发生变化参考答案：C56.下列描述中，哪项不属于Sqoop的缺点（）。A、无法控制任务的并发度B、格式紧耦合C、安全机制不够完善D、connector必须符合JDBC模型参考答案：A57.下列关于topic和partition的描述，错误的是（）。A、Kafka中消息是以partition进行分类的B、与partition不同，topic是逻辑上的概念而非物理上的概念C、每个partition对应于一个log文件D、一个partition分为多个segment参考答案：A58.下列关于MapReduce说法不正确的是（）。A、MapReduce是一种计算框架B、MapReduce来源于google的学术论文C、MapReduce程序只能用java语言编写D、MapReduce隐藏了并行计算的细节，方便使用参考答案：C59.下列关于leader和follower的说法正确的是（）。A、一个topic的每个分区可以没有leaderB、一个topic的每个分区可以没有followerC、消费者消费数据的对象都是leaderD、follower从leader中同步数据有一定延迟参考答案：C60.下列方法中，不能创建RDD的方法是（）。A、makeRDDB、parallelizeC、textFileD、testFile参考答案：D61.下列不是Spark的部署模式的是（）。A、单机式B、单机伪分布式C、列分布式D、完全分布式参考答案：C62.下列（）不是RDD的缓存方法。A、persist（）B、Cache（）C、Memory（）D、以上都不是参考答案：C63.下列（）不是Docker项目中用于文件存储的数据库。A、MYSQLB、MongoDBC、RedisD、Kafka参考答案：D64.下列（）不可以作为SparkStreaming的输入数据流。A、KafkaB、TwitterC、TCP套接字D、Openstack参考答案：D65.搜索nginx引擎的操作命令是（）。A、dockersearchnginxB、dockerpullnginxC、dockerpushnginxD、ockerrmnginx参考答案：A66.水位线的单位通常是（）。A、秒B、毫秒C、分钟D、小时参考答案：B67.使用Dockerrun命令运行一个容器时，通过参数（）可启动一个bash允许用户进行交互。A、itB、iaC、ntD、na参考答案：A68.使用create命令新建容器时，指定映射到本地主机端口的命令选项是（）。A、pB、hC、nD、i参考答案：A69.使用create命令新建容器时，指定容器在网络中的别名的命令选项是（）。A、net-nameB、net-aliasC、networkD、alias参考答案：B70.设用压力测试测出机器写入速度是20M/s一台，峰值的业务数据的速度是100M/s，副本数为6，预估需要部署Kafka机器数量为（）。A、6.0B、12.0C、13.0D、20.0参考答案：C71.若要在Hive中启用压缩数据存储，应该设置哪个配置参数（）？A、press.enabledB、pression.enabledC、pression.enabled参考答案：B72.启动一个容器的操作命令是（）。A、dockerstartB、dockeropenC、dockernewD、ockergo参考答案：A73.配置Hadoop文件参数时，配置项“dfs.replication”应该配置在哪个文件？（）A、core-site.xmlB、hdfs-site.xmlC、mapred-site.xmlD、yarn-site.xml参考答案：B74.将一个已经创建的容器导出到一个文件使用的操作命令是（）。A、dockerimportB、dockerloadC、dockeroutputD、ockerexport参考答案：D75.将nginx容器接入自定义的myops网络的操作命令是（）。A、dockernetworkjoinmyopsnginxB、dockernetworkconnmyopsnginxC、dockernetworkconnectmyopsnginxD、ockernetworkconnectnginxmyops参考答案：C76.获取远程仓库中Docker镜像的操作命令是（）。A、dockergetB、dockerpushC、dockerpullD、ockerdownload参考答案：C77.关于ZooKeeper临时节点的说法正确的是（）。A、创建临时节点的命令为：create-s/tmpmyvalueB、一旦会话结束，临时节点将被自动删除C、临时节点不能手动删除D、临时节点允许有子节点参考答案：B78.关于SparkStreaming的优点，不包括（）。A、易用性B、容错性C、易整合性D、低吞吐量参考答案：D79.关于SparkSQL,以下说法正确的是（）。A、HiveContext继承了SqlContextB、DataFrame其实就是RDDC、HiveContext只支持SQL语法解析器D、SparkSQL的前身是Hive参考答案：A80.关于SparkSQL,以下描述错误的是（）。A、SparkSQL使用的数据抽象并非是DataFrame，而是RDDB、在Spark的早期版本中,DataFrame被称为SchemaRDDC、DataFrame是一种以RDD为基础的分布式数据集D、ataFrame可以完成RDD的绝大多数功能参考答案：A81.关于SecondaryNameNode哪项是正确的？（）A、它是NameNode的热备B、它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间C、它对内存没有要求D、SecondaryNameNode应与NameNode部署到一个节点参考答案：B82.关于MapReduce优点，下列说法不正确的是（）。A、高容错性B、适合PB级以上海量数据的离线处理C、良好的扩展性D、适合做实时计算参考答案：D83.关于Hive用户自定义函数UDF的描述错误的是（）。A、UDF（User-Defined-Function）一进一出B、UDAF（User-DefinedAggregationFuncation）聚集函数，多进一出C、UDTF（User-DefinedTable-GeneratingFunctions）一进多出D、上传UDFjar包至Hive环境即可使用自定义函数参考答案：D84.关于Hive内外表描述正确的是（）。A、内部表数据由HDFS自身管理，外部表数据由Hive管理；B、内部表数据存储的位置是hive.metastore.warehouse.dir设置配置（默认：/user/hive/warehouse）C、外表存储必须指定LOCATIOND、内外表删除时，都会删除元数据和存储参考答案：B85.关于Hive描述正确的是（）。A、count函数必须开窗口才能使用B、max函数是窗口函数C、lead函数是聚合函数,不是窗口函数D、min函数是聚合函数,不是窗口函数参考答案：B86.关于Hive各个格式使用场景描述错误的是（）。A、Parquet对于大型查询的类型是高效的，对于扫描特定表格中的特定列的查询，Parquet特别有用B、目前Parquet默认使用gzip压缩格式C、ORC可以支持复杂的数据结构（比如Map等）D、RCFile是一种行列存储相结合的存储方式参考答案：B87.关于Hive存储的文件格式描述错误的是（）。A、ORC格式是Hive一直支持的B、TEXTFILE是Hive的默认存储格式C、SequenceFile是一种二进制存储D、RC是ORC的前身参考答案：A88.关于Hive查询通常延迟较高的原因描述错误的是（）。A、由于没有索引，需要扫描整个表，因此延迟较高B、由于MapReduce本身具有较高的响应延迟，因此在利用MapReduce执行Hive查询时，也会有较高的延迟响应C、关系型数据库较于Hive底层的文件系统实现，执行延迟较低D、Hive查询延迟较于关系型数据库，延迟响一直都是很高的参考答案：D89.关于Dataset，下列说法错误的是（）。A、Dataset能从RDD中构建B、Dataset提供了特定域对象中的弱类型集合C、Dataset结合了RDD和DataFrame的优点D、ataset可以通过SparkSession中的createDataset来创建参考答案：B90.关于DataFrame与RDD在结构上的区别，以下描述错误的是（）。A、DataFrame可以看作是分布式的Row对象的集合，在二维表数据集的每一列都带有名称和类型B、RDD是分布式的Java对象的集合C、RDD在转换数据形式时效率相对较高D、ataFrame提供了比RDD更丰富的算子参考答案：C91.典型的NoSQL数据库是（）。A、HiveB、MySQLC、HbaseD、Oracle参考答案：C92.当之前下线的分区重新上线时，要执行Leader选举，选举策略为（）。A、OfflinePartitionLeader选举B、ReassignPartitionLeader选举C、PreferredReplicaPartitionLeader选举D、ControlledShutdownPartitionLeader选举参考答案：A93.当在Sqoop中使用--target-dir参数时，它指定了哪个目录的路径？（）A、导出数据的目录B、导入数据的目录C、HDFS的目标目录D、S3的目标目录参考答案：C94.当在Sqoop中使用--append参数时，它会将数据添加到目标表的哪个位置？（）A、文件的开头B、文件的末尾C、新文件中D、随机位置参考答案：B95.当使用sqoop将数据从MySQL导入到HDFS时，以下哪个参数用于指定使用多个mapper？（）A、-mB、-fC、-tD、-c参考答案：A96.创建一个容器的操作命令是（）。A、dockeraddB、dockernewC、dockerbuildD、ockercreate参考答案：D97.查看HDFS的报告命令是（）。A、bin/hdfsdfsadmin-reportB、in/hdfs-reportC、bin/hdfsdeadmin-reportD、bin/hdfsdfs-report参考答案：A98.查看Docker所有容器的命令是（）。A、dockerpsB、dockerps-aC、dockerpsallD、ockerall参考答案：B99.测试Sqoop是否能够正常连接MySQL数据库命令是（）。A、sqooplist-database--connectjdbc:mysql://:3306/--usernameroot–PB、sqooplist-databases--connectionjdbc:mysql://:3306/--usernameroot–PC、sqooplist-databases--connectjdbc:mysql://:3306/--usernameroot–LD、sqooplist-databases--connectjdbc:mysql://:3306/--usernameroot–P参考答案：D100.ZooKeeper中的一致性协议ZAB是基于（）算法实现。A、2PC（Two-PhaseCommit）算法B、Raft算法C、Paxos算法D、3PC（Three-PhaseCommit）算法参考答案：C101.ZooKeeper中的一次写操作是原子的吗？（）A、是，写操作是原子的B、否，写操作可能不是原子的C、取决于写操作的类型D、取决于节点的类型参考答案：A102.ZooKeeper中的数据模型是基于（）。A、关系模型B、键值对模型C、图模型D、文档模型参考答案：B103.ZooKeeper中的默认端口号是（）。A、2181.0B、8080.0C、3306.0D、5432.0参考答案：A104.ZooKeeper的特点不包括（）。A、顺序一致性B、原子性C、可靠性D、复合系统映像参考答案：D105.yarn状态的查询url为（）。A、http://yarn:8088B、http://yarn:50070C、http://master:8088D、http://master:50070参考答案：C106.Task运行在下面（）选项中Executor上的工作单元。A、DriverprogramB、sparkmasterC、workernodeD、Clustermanager参考答案：C107.Stage的Task的数量由（）决定。A、PartitionB、JobC、StageD、TaskScheduler参考答案：A108.Sqoop是Hadoop和关系数据库服务器之间传送数据的工具，下列哪种数据库是不支持使用Sqoop直接进行数据传送（）。A、PostgresB、OracleC、MySQLD、Redis参考答案：D109.sqoop安装完成后,查看sqoop版本的命令是（）。A、Sqoop-versionB、SqoopversionC、Sqoop-vD、Sqoopv参考答案：B110.Spark默认的存储级别是（）。A、MEMORY_ONLYB、MEMORY_ONLY_SERC、MEMORY_AND_DISKD、MEMORY_AND_DISK_SER参考答案：A111.Spark采用RDD以后能够实现高效计算不是因为（）。A、高效的容错性，通过血缘关系重新计算丢失分区B、中间结果持久化到内存，数据在内存中的多个RDD操作之间进行传递，避免了不必要的读写磁盘开销C、存放的数据可以是Java对象，避免了不必要的对象序列化和反序列化D、RDD采用了高效的“转换”和“动作”算子参考答案：D112.SparkSQL可以处理的数据源包括（）。A、Hive表B、Hive表、数据文件C、Hive表、数据文件、RDDD、Hive表、数据文件、RDD、外部数据库参考答案：D113.SparkJob默认的调度模式是（）。A、FIFOB、FAIRC、无D、运行时指定参考答案：A114.namenode在（）模式下hdfs文件系统无法修改和写入文件。A、安全模式B、维护模式C、同步模式D、待机模式参考答案：A115.Linux下启动HDFS的命令是（）。A、HdfsB、startdfsC、start-dfs.shD、start-dfs.cmd参考答案：C116.Kafka是一种（）。A、数据库系统B、分布式消息队列系统C、缓存系统D、文件系统参考答案：B117.Kafka使用的是什么类型的消息传递模式？（）A、点对点B、发布-订阅C、请求-响应D、广播参考答案：B118.Kafka的主题分区数量可以根据什么进行配置？（）A、生产者数量B、消费者数量C、主题的重要性D、集群的规模参考答案：D119.Kafka的消费者在处理消息时可以选择的模式是（）。A、单线程模式B、多线程模式C、分布式模式D、并行模式参考答案：B120.Kafka的核心是由哪个组件组成？（）A、ProducerB、ConsumerC、BrokerD、ZooKeeper参考答案：C121.Kafka的高可用性是通过什么机制实现的？（）A、数据复制B、数据压缩C、数据分片D、数据缓存参考答案：A122.HMaster的主要作用是（）。A、用于启动任务管理多个HRegionServerB、负责响应用户I/O请求，向HDFS文件系统读写数据C、负责协调集群中的分布式组件D、最终保存HBase数据行的文件参考答案：A123.Hive中以下操作不正确的是（）。A、loaddatainpathintotablenameB、insertintotablenameC、insertoverwritetablenameD、upddatetablename参考答案：D124.Hive中分组的关键字是什么（）？A、groupbyB、orderbyC、distributebyD、sortby参考答案：A125.Hive中的自动分区是通过哪个配置参数启用的（）？A、hive.auto.partitionB、hive.partition.autoC、hive.exec.dynamic.partitionD、hive.partitioning.auto参考答案：C126.Hive中的配置文件通常位于哪个目录中（）？A、/etc/hive/confB、/etc/hadoop/confC、/etc/hive/D、/etc/hive/config参考答案：A127.Hive中的哪个配置参数用于指定Hive元数据存储的连接URL（）？A、hive.metastore.db.urlB、hive.metastore.uriC、hive.metastore.connection.urlD、hive.metastore.db.connection参考答案：A128.Hive是以（）技术为基础的数据仓库。A、HDFSB、MAPREDUCEC、HADOOPD、HBASE参考答案：C129.Hive是为了解决哪类问题（）？A、海量结构化日志的数据统计B、分布式组件调度参考答案：A130.Hive的默认元数据存储是什么（）？A、MySQLB、PostgreSQLC、DerbyD、Oracle参考答案：C131.HBase依赖（）技术框架提供消息通信机制。A、ZookeeperB、ChubbyC、RPCD、Socket参考答案：A132.Hadoop组件在企业应用中，能用于大数据集实时查询的产品有（）。A、HiveB、PigC、MahoutD、Hbase参考答案：D133.Hadoop集群中存在的主要性能瓶颈是（）。A、CPUB、网络C、磁盘IOD、内存参考答案：C134.HadoopMapReduce支持多种语言编程，下列说法不正确的是（）。A、可以用JAVA语言编写MapReduce应用程序B、可以用C/C++语言编写MapReduce应用程序C、可以用Python语言编写MapReduce应用程序D、可以用javascript语言编写MapReduce应用程序参考答案：D135.Flume如何处理故障恢复？（）A、使用事务性机制B、使用重试机制C、使用断点续传机制D、以上都不是参考答案：C136.Flume的事件是什么？（）A、数据项,记录,和文件B、数据流,记录,和事件C、数据项,记录,和消息D、数据流,记录,和消息参考答案：D137.Flume的事件Body可以包含什么类型的数据？（）A、String,Byte数组,字节流,Map<String,String>和自定义对象序列化后的数据。B、String,Map<String,String>和自定义对象序列化后的数据。C、Byte数组,字节流和自定义对象序列化后的数据。D、String和自定义对象序列化后的数据。参考答案：A138.Flume的哪个组件用于将事件数据写入目标存储？（）A、ChannelB、SinkC、Source和ChannelD、Source和Sink参考答案：B139.Flume的哪个版本开始支持Spoolingdirectorysource？（）A、Flume1.0B、Flume1.1C、Flume1.2D、Flume1.3参考答案：C140.Flume的哪个版本开始支持HTTP和HTTPS协议？（）A、Flume1.0B、Flume1.1C、Flume1.2D、Flume1.3参考答案：D141.Flume的哪个版本开始支持Avro作为数据传输格式？（）A、1.X版本B、2.X版本C、3.X版本D、4.X版本以后参考答案：D142.Flume的哪个版本加入了对Avro事件的的支持？（）A、Flume1.0B、Flume1.1C、Flume1.2D、Flume1.3参考答案：C143.Flume的哪个版本加入了Kafka作为源和汇点？（）A、1.X版本B、2.X版本C、3.X版本D、4.X版本参考答案：B144.Flume的默认通道类型是什么？（）A、MemoryChannelB、FileChannelC、KafkaChannelD、JdbcChannel参考答案：A145.Flume的默认Avro序列化方式是什么？（）A、JSONB、inaryC、SpecificD、Generic参考答案：C146.Flume的拦截器实现了哪个接口？（）A、ChannelInterceptorB、EventInterceptorC、SinkInterceptorD、SourceInterceptor参考答案：B147.Flume的核心组件有哪些？（）A、Source,Channel,andSinkB、Source,Channel,andReceiverC、Source,Buffer,andSinkD、Source,Router,andChannel参考答案：A148.Flume的Source组件负责什么？（）A、接收数据并将其写入ChannelB、接收数据并将其转发到下一组件C、从数据源读取数据并将其写入ChannelD、从数据源读取数据并将其写入接收器参考答案：C149.Flume的Sink组件负责什么？（）A、将数据从Channel中读取并写入目标位置B、将数据从Channel中读取并发送到下一组件C、从Channel中读取数据并将其写入接收器D、从Channel中读取数据并将其写入目标位置。参考答案：D150.Flink最常用的编程语言是（）。A、JavaB、PythonC、ScalaD、C++参考答案：A151.Flink支持处理各种类型的数据，包括（）数据。A、结构化B、半结构化C、无结构化D、以上都是参考答案：D152.Flink任务管理器（TaskManager）的作用是（）。A、管理Flink集群的任务B、管理Flink作业的状态C、执行Flink作业的任务D、部署Flink作业到集群参考答案：C153.Flink的作业调度（JobScheduling）通常由（）负责。A、ResourceManagerB、TaskManagerC、JobManagerD、ZooKeeper参考答案：C154.Flink的作业提交通常需要（）来管理作业的执行。A、JobManagerB、TaskManagerC、ResourceManagerD、NameNode参考答案：A155.Flink的状态管理用于（），以支持容错性和状态化的计算。A、存储和检索中间结果B、控制数据流速度C、定时触发窗口操作D、执行数据清洗参考答案：A156.Flink的数据源可以是（）。A、文件B、消息队列C、数据库D、以上都是参考答案：D157.Flink的数据源（Source）通常用于（）。A、生成随机数据B、从外部系统读取数据C、存储计算结果D、控制作业的并行度参考答案：B158.Flink的时间语义（TimeSemantics）中的事件时间（EventTime）和处理时间（ProcessingTime）的区别是（）。A、事件时间是事件发生的时间，处理时间是事件进入Flink的时间B、事件时间是事件进入Flink的时间，处理时间是事件发生的时间C、事件时间和处理时间是相同的D、事件时间和处理时间没有明确的定义参考答案：A159.Flink的集群部署通常需要（）作为资源管理器。A、YARNB、ApacheZooKeeperC、ApacheKafkaD、HadoopHDFS参考答案：A160.Flink的核心概念之一是（）。A、数据表B、数据流C、数据库D、数据仓库参考答案：B161.Flink的广播状态（BroadcastState）用于（）。A、在所有任务之间共享状态B、保持数据流的连续性C、加速数据处理D、控制数据流速度参考答案：A162.Flink的分布式部署需要的组件是（）。A、JobManager和TaskManagerB、JobClient和JobTrackerC、Master和SlaveD、river和Executor参考答案：A163.Flink的窗口操作通常在（）执行，以对数据进行分组、聚合和统计。A、数据产生时B、数据进入Flink时C、数据在窗口中间时D、数据离开Flink时参考答案：C164.Flink的本地模式（LocalMode）和集群模式（ClusterMode）之间的主要区别是（）。A、部署方式B、编程语言C、安全性设置D、并行度设置参考答案：A165.Flink的安装过程中，通常需要设置（）来指定Flink的根目录。A、JAVA_HOMEB、PATHC、FLINK_HOMED、FLINK_PATH参考答案：C166.Flink的Web界面通常用于（）。A、编写Flink作业B、监控Flink集群C、运行Flink作业D、调试Flink作业参考答案：B167.Flink的TableAPI和SQL用于（）。A、数据可视化B、执行SQL查询C、数据流分析D、数据清洗参考答案：B168.DStream的转换操作方法中，（）方法可以直接调用RDD上的操作方法。A、countByKey（）B、updateStateByKey（func）C、ogroup（otherStream,[numTasks]）D、transform（func）参考答案：D169.Docker中的每一个工作都可以抽象为一个（）。A、实例B、进程C、JobD、请求参考答案：C170.Docker容器是在（）层面上实现虚拟化。A、硬件层面B、操作系统层面C、应用程序层面参考答案：B171.Docker配置文件的语法格式中，代表单个字符的符号是（）。A、∗B、?C、!D、^参考答案：B172.Dockerfile中声明镜像内服务监听的端口的指令是（）。A、LISTENB、EXPOSEC、ARGD、MONITOR参考答案：B173.dockerfile文件的作用是（）。A、普通文件B、用于自定义镜像C、用于保存容器配置D、用于存放docker配置参考答案：B174.Dockerfile配置文件使用（）命令指定基础镜像。A、IMPORTB、GETC、OPEND、FROM参考答案：D175.DataFrame和RDD最大的区别是（）。A、科学统计支持B、多schemaC、存储方式不一样D、外部数据源支持参考答案：B176.（）不是Spark的四大组件。A、SparkStreamingB、MllibC、GraphXD、SparkR参考答案：D多选题1.在Hive中，以下哪个配置属性用于设置Hive表的默认压缩格式（）。A、press.formatB、pression.codecC、pressionD、pression.format参考答案：ACD2.在Hive中，以下哪个配置属性用于启用动态分区（）。A、hive.exec.dynamic.partitionB、hive.optimize.dynamic.partitionC、hive.dynamic.partition.modeD、hive.partition.dynamic.enabled参考答案：ABCD3.以下是Spark中executor的作用是（）。A、保存计算的RDD分区数据B、向Driver反向注册C、接受Driver端发送来的任务Task,作用在RDD上进行执行D、做资源调度任务参考答案：ABC4.以下哪些组件属于Hadoop生态圈（）。A、MySQLB、HiveC、HDFSD、Sqoop参考答案：BCD5.以下哪些是yarn-site.xml配置文件主要参数（）。A、yarn.resourcemanager.addressB、yarn.resourcemanager.scheduler.addressC、yarn.resourcemanager.admin.addressD、yarn.nodemanager.oux-services参考答案：ABC6.要在Hive中启用LLAP（LowLatencyAnalyticalProcessing），哪个配置属性应该设置为true（）。A、hive.llap.enabledB、hive.enable.llapC、hive.execution.llap.enabledD、hive.llap.execution.enabled参考答案：ABC7.要在Hive中配置HDFS的NameNodeURI，应该设置哪个属性（）。A、node.uriB、node.uriC、D、node.uri参考答案：ABC8.要启用Hive的压缩功能，应该配置哪个属性（）。A、press.enableB、pressC、pression.codecD、pression参考答案：ABD9.要启用Hive的Tez执行引擎，应该配置哪个属性（）。A、hive.execution.engineB、hive.exec.engineC、hive.tez.enableD、hive.use.tez参考答案：ABD10.要配置Hive的元数据存储连接字符串，应该设置哪个属性（）。A、hive.metastore.uriB、hive.metastore.connectionC、hive.metastore.jdbc.urlD、hive.metastore.connection.url参考答案：ACD11.要读取people.json文件生成DataFrame，可以使用下列（）命令。A、spark.read.json（"people.json"）B、spark.read.text（"people.json"）C、spark.read.format（"json"）.load（"people.json"）D、spark.read.format（"csv"）.load（"people.json"）参考答案：AC12.下面哪些场景不是Flink擅长的（）。A、批处理B、迭代计算C、数据存储D、流处理参考答案：ABC13.下面哪个配置属性用于指定Hive查询的最大并行度（）。A、hive.query.parallelismB、hive.exec.parallelC、hive.query.max.parallelD、hive.parallel.query.max参考答案：ABD14.下面哪个配置属性用于设置Hive查询的日志级别（）。A、hive.query.log.levelB、hive.log.query.levelC、hive.logging.levelD、hive.query.logging.level参考答案：ACD15.下面关于SparkMLlib库的描述正确的是（）。A、MLlib库从1.2版本以后分为两个包:spark.mllib和spark.mlB、spark.mllib包含基于DataFrame的原始算法APIC、spark.mllib包含基于RDD的原始算法APID、spark.ml则提供了基于RDD的、高层次的API参考答案：AC16.下面关于Flink的描述正确的是（）。A、Flink和Spark一样,都是基于磁盘的计算框架B、当全部运行在HadoopYARN之上时,Flink的性能甚至还要略好于SparkC、Flink的流计算性能和Storm差不多,可以支持毫秒级的响应D、Spark的市场影响力和社区活跃度明显超过Flink参考答案：BCD17.下面关于Flink窗口描述错误的是（）。A、滚动窗口在时间上是重叠的B、滚动窗口在时间上是不重叠的C、滑动窗口之间时间点存在重叠D、滑动窗口之间时间点不存在重叠参考答案：AD18.下列有关ZooKeeper中的节点路径说法正确的是（）。A、节点路径可以是临时节点B、节点路径可以是持久节点C、临时节点会话结束后自动删除D、临时节点不会自动删除参考答案：ABC19.下列选项中,属于Sqoop命令的参数有（）。A、importB、outputC、inputD、export参考答案：AD20.下列选项（）是ZooKeeper的应用场景。A、Master选举B、分布式锁C、分布式协调/通知参考答案：ABC21.下列属于RDD的行动算子的是（）。A、count（）B、first（）C、take（）D、filter（）参考答案：ABC22.下列关于容器操作命令匹配正确的有（）。A、创建容器:dockeraddB、启动容器:dockerstartC、删除容器:dockerrmD、导出容器:dockerexportE、暂停容器:dockerpause参考答案：BCDE23.下列关于镜像操作命令匹配正确的有（）。A、获取镜像:dockerpushB、查看镜像:dockerimageC、创建镜像:dockercreateD、上传镜像:dockeruploadE、查找镜像:dockersearch参考答案：BE24.下列关于Docker的操作命令正确的有（）。A、dockerdeleteB、dockerimportC、dockersearchD、ockerlistE、dockerimages参考答案：BCE25.使用dockerstats命令可以显示的容器信息有（）。A、内存B、网络C、PUD、端口E、存储参考答案：ABCE26.使用dockerps命令可以查看到的信息有（）。A、容器IDB、镜像名称C、容器的端口D、生存时间E、环境变量参考答案：ABCD27.如果要在Hive中启用用户定义的聚合函数（UDAFs），哪个配置属性应该设置为true（）。A、hive.udaf.enableB、hive.enable.udafsC、hive.udaf.supportD、hive.use.udaf参考答案：ACD28.利用数据卷容器可以对其中的数据卷进行（）操作。A、备份B、恢复C、压缩D、迁移参考答案：ABCD29.后端容器化环境部署中使用的数据库一般有（）。A、ccessB、kafkaC、RedisD、MySQLE、MongoDB参考答案：CDE30.关于ZooKeeper顺序节点的说法不正确的是（）。A、创建顺序节点的命令为:create/testvalue1B、创建顺序节点时不能连续执行创建命令,否者报错节点已存在C、通过顺序节点,可以创建分布式系统唯一IDD、顺序节点的序号能无限增加参考答案：ABD31.关于ZooKeeper的特性说法正确的是（）。A、能改变ZooKeeper服务器状态的操作称为事务操作B、是版本机制有效避免了数据更新时出现的先后顺序问题C、当节点发生变化时,通过watcher机制,可以让客户端得到通知D、watch能触发多次参考答案：ABC32.关于spark中数据倾斜引发原因正确的选项有（）。A、key本身分布不均衡B、计算方式有误C、过多的数据在一个task里面D、shuffle并行度不够参考答案：ABCD33.关于spark容错说法错误的有（）。A、在容错机制中,如果一个节点死机了,而且运算窄依赖,则只要把丢失的父RDD分区重算即可,依赖于其他节点B、宽依赖开销更大C、heckpoint可以节约大量的系统资源D、RDD的容错机制是基于SparkStreaming的容错机制参考答案：AD34.关于partition中的数据是如何保持到硬盘上的，说法正确的是（）。A、一个topic分为好几个partition,每一个partition是以文件夹的形式保持在broker节点上面的B、每一个分区的命名是从序号0开始递增C、每一个partition目录下多个segment文件（包含xx.index,xx.log）,默认是1GD、每个分区里面的消息是有序的,数据是一样的参考答案：ABC35.关于HadoopHDFS的文件操作，正确的是（）。A、HDFS可以创建文件并写入数据B、HDFS可以查看文件内容C、HDFS可以创建目录D、HDFS可以更改文件内容参考答案：ABC36.关于Flink的架构表述正确的是（）。A、Fink存储层支持专有的文件系统B、从部署层来看,Fink不仅支持本地运行,还能在独立集群或者在被YARN或Mesos管理的集群上运行.也能部署在云端C、Flink提供两个核心API:DatasetAPI和DataStreamAPID、ataSetAPI做批处理,而DataStreamAPI做流处理参考答案：BCD37.关于Docker容器的run命令，下列参数匹配正确的有（）。A、在后台运行容器B、已交互模式运行容器C、随机端口映射D、指定容器的hostname参考答案：ABD38.关于dockerbuild命令支持的选项，下列匹配正确的有（）。A、network:指定run命令时网络模式B、f:dockerfile名称C、add-host:添加自定义的主机名到IP的映射D、label:配置镜像的标签参考答案：ABC39.当使用Sqoop进行数据导出时，以下哪些（）选项是正确的？A、Sqoop可以使用多个mapper同时进行数据导出B、Sqoop导出的数据可以按照指定的列进行排序C、Sqoop导出的数据可以插入到已存在的HDFS目录中D、Sqoop导出的数据可以删除已存在的HDFS目录参考答案：ABC40.当使用Sqoop将数据从MySQL导入到HDFS时，以下（）参数可以使用？A、--connectB、--usernameC、--passwordD、--table参考答案：ABCD41.从RDD转换得到DataFrame包含两种典型的方法，分别是（）。A、利用反射机制推断RDD模式B、使用编程方式定义RDD模式C、利用投影机制推断RDD模式D、利用互联网机制推断RDD模式参考答案：AB42.创建镜像的主要方法有（）。A、基于本地文件导入B、基于本地模板导入C、基于已有镜像的容器创建D、基于Dockerfile创建参考答案：BCD43.查看Docker容器的子命令有（）。A、displayB、statsC、inspectD、list参考答案：BC44.ZooKeeper中的数据节点可以存储的数据类型包括（）。A、字符串B、整数C、浮点数D、二进制数据参考答案：ABCD45.ZooKeeper中的节点类型包括（）。A、持久节点B、临时节点C、有序节点D、临时有序节点参考答案：ABCD46.ZooKeeper的集群中的Leader节点的选举是通过以下（）方式实现。A、随机选择B、抢占式C、共识机制D、选举算法参考答案：CD47.Task运行不在以下选项中Executor上的工作单元有（）。A、DriverprogramB、sparkmasterC、workernodeD、Clustermanager参考答案：ABD48.Stage的Task的数量不是由（）决定。A、PartitionB、JobC、StageD、TaskScheduler参考答案：BCD49.Sqoop中的--hive-drop-import-delims参数有什么作用？（）A、在将数据从MySQL导入到Hive时,删除MySQL中存在的所有分隔符B、在将数据从MySQL导入到Hive时,删除MySQL中存在的所有换行符C、在将数据从MySQL导入到Hive时,删除Hive中存在的所有分隔符D、在将数据从MySQL导入到Hive时,删除Hive中存在的所有换行符参考答案：AC50.Sqoop是一个用于在Hadoop和结构化数据存储（如关系型数据库）之间传输数据的工具。以下哪些（）是Sqoop的主要参数？A、--connectB、--usernameC、--tableD、-target-dir参考答案：ABCD51.Sqoop目前支持两种增量导入模式，分别是（）和（）模式。A、lastmodifiedB、appendC、--tableD、-target-dir参考答案：AB52.spark的特点包括（）。A、快速B、通用C、可延伸D、兼容性参考答案：ABD53.Sparkdriver的功能是（）。A、作业的主进程B、负责了作业的调度C、负责向HDFS申请资源D、负责作业的解析参考答案：ABD54.SparkContext可以从（）读取数据。A、本地磁盘B、webC、hdfsD、内存参考答案：ACD55.RDD的操作主要是（）操作。A、转换算子操作B、分组操作C、读写操作D、行动算子操作参考答案：AD56.nginx可以提供的功能有（）。A、作为HTTP服务器B、作为负载均衡服务器C、作为邮件代理服务器D、作为反向代理服务器参考答案：ABCD57.MLlib包括（）。A、分类模型B、聚类模型C、特征抽取D、统计模型参考答案：ABCD58.Kafka相对传统技术有什么优势说法正确的是（）。A、快速:单一的Kafka代理可以处理成千上万的客户端,每秒处理数兆字节的读写操作.B、可伸缩:在一组机器上对数据进行分区和简化,以支持更大的数据C、持久:消息是持久性的,并在集群中进行复制,以防止数据丢失D、设计:它提供了容错保证和持久性参考答案：ABCD59.Kafka负载均衡原理说法正确的是（）。A、producer根据用户指定的算法,将消息发送到指定的partitionB、存在多个partiiton,每个partition有自己的replica,每个replica分布在不同的Broker节点上C、多个partition需要选取出leadpartition,leadpartition负责读写,并由zookeeper负责failoverD、通过zookeeper管理broker与consumer的动态加入与离开参考答案：ABCD60.Kafka的消息传递可以使用的序列化器包括（）。A、JSONB、AvroC、ProtobufD、XML参考答案：ABC61.Kafka的消费者可以以以下哪种方式进行消息的并行处理？（）A、多线程B、多进程C、多节点D、多分区参考答案：ABC62.Kafka的特性（）。A、高吞吐量、低延迟B、可扩展性、持久性、可靠性C、容错性D、高并发参考答案：ABCD63.Kafka的核心组件包括（）。A、ProducerB、ConsumerC、BrokerD、SchemaRegistry参考答案：ABC64.Hive中的数据类型包括哪些（）。A、整数类型B、字符串类型C、时间类型D、自定义数据类型参考答案：CD65.Hive中的数据存储是如何分区的（）。A、基于文件大小B、基于日期C、基于列名D、基于文件格式参考答案：ABD66.Hive中的哪个组件负责将HQL语句翻译成Tez或MapReduce任务（）。A、QueryOptimizerB、QueryExecutorC、QueryCompilerD、QueryDriver参考答案：ACD67.Hive中的哪个组件负责将HQL语句翻译成MapReduce任务（）。A、QueryOptimizerB、QueryExecutorC、QueryCompilerD、QueryDriver参考答案：ACD68.Hive中的哪个配置属性用于指定Hive表的默认存储格式（）。A、hive.default.storage.formatB、hive.default.file.formatC、hive.default.formatD、hive.default.serde.format参考答案：ABC69.Hive中的分区是如何定义的（）。A、在表的创建时定义B、在查询时动态定义C、在元数据存储中定义D、在数据加载时定义参考答案：ABC70.Hive中的分区是如何定义的（）。A、在表的创建时定义B、在查询时动态定义C、在元数据存储中定义D、在表的插入操作中定义参考答案：ABC71.Hive支持哪种数据存储格式（）。A、CSVB、JSONC、ParquetD、Avro参考答案：ABCD72.Hive的数据存储是如何组织的（）。A、表B、分区C、桶（Bucket）D、列族（ColumnFamily）参考答案：ABC73.Hive的分区和桶的主要区别是什么（）。A、分区是物理存储层面的,而桶是逻辑存储层面的B、分区是逻辑存储层面的,而桶是物理存储层面的C、分区是由HiveMetastore管理的,而桶是用户自定义的D、分区和桶在Hive中没有区别参考答案：AC74.Hadoop集群的三大核心组件是（）。A、HDFSB、MapReduceC、ZookeeperD、YARN参考答案：ABD75.Hadoop的运行模式分为以下（）种。A、单机模式B、伪分布模式C、全分布模式D、主备模式参考答案：ABC76.HadoopHDFS自身的局限性包括（）。A、不适合做低延迟、细粒度访问B、无法高效存储大量的小文件C、不支持多文件的写入及任意修改文件D、无法实现数据的冗余备份存储参考答案：ABC77.hadoopHA启动后，以下哪些进程运行在master（）？A、QuorumPeerMainB、SecondaryNameNodeC、NamenodeD、ResourceManager参考答案：ABCD78.Flume可以用于哪些类型的数据采集？（）A、结构化数据B、非结构化数据C、日志数据D、实时数据参考答案：ABCD79.Flume可以用于哪些方面的数据处理？（）A、数据集中B、数据过滤C、数据聚合D、数据分布式处理参考答案：ABCD80.Flume的拦截器可以完成哪些操作？（）A、数据过滤B、数据转换C、数据加密D、数据压缩参考答案：ABC81.Flume的可靠性机制包括哪些内容？（）A、数据备份存储B、数据重复传输C、数据校验和D、数据顺序保证参考答案：ABCD82.Flume的核心组件有哪些？（）A、SourceB、ChannelC、SinkD、Receiver参考答案：ABC83.Flume的Spoolingdirectorysource有何特点？（）A、可处理大文件B、可处理多个文件C、可自动滚动文件D、可自动清理旧文件参考答案：ABCD84.Flume的HTTPSource和Sink组件支持哪些协议？（）A、HTTPB、HTTPSC、AvroD、Thrift参考答案：ABD85.Flume的Channel类型有哪些？（）A、MemoryChannelB、FileChannelC、ForwardChannelD、ReplicatorChannel参考答案：ABD86.Flink组件中流类型包括（）。A、有界流B、无界流C、字符流D、文件流参考答案：AB87.Flink支持的时间操作类型包括（）。A、结束时间B、处理时间C、采集时间D、事件时间参考答案：BD88.Flink支持的部署模式有（）。A、Standalone模式B、Local模式C、YARN集群模式D、HDFS模式参考答案：ABC89.Flink支持的Source包括（）。A、自定义数据读取B、从集合中读取数据C、从文件中读取数据D、从消息列队中读取数据参考答案：ABCD90.Flink整个系统包含（）三个部分。A、ClientB、TaskManagerC、DataSetD、JobManager参考答案：ABD91.Flink有哪些状态存储方式（）。A、RocksDBStateBackendB、MemoryStateBackendC、KafkaD、FsStateBackend参考答案：ABD92.Flink是实时计算的代表技术之一，以下针对Flink表述正确的有（）。A、Flink是构建在数据流之上的一款有状态计算框架B、Flink可对有限数据流和无限数据流进行有状态或无状态的计算C、Flink无法对大规模的数据进行快速计算D、Flink能够部署在各种集群环境参考答案：ABD93.Flink流式处理的数据源类型包括（）。A、CollectionsB、JDBCC、SocketStreamsD、Files参考答案：ABCD94.Flink核心组成部分提供了面向（）的接口。A、批处理B、流处理C、表处理D、复杂事件处理参考答案：AB95.Flink的主要特性包括（）。A、精确一次的状态一致性保障B、批流一体化C、精密的状态管理D、事件时间支持参考答案：ABCD96.Flink的时间窗口有（）。A、滚动窗口B、滑动窗口C、定时窗口D、会话窗口参考答案：ABD97.Flink的核心组件包括（）。A、ResourceManagerB、Job

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年度福建省职业院校技能大赛中职组（大数据应用与服务赛项）考试题（附答案）

文档简介

温馨提示

最新文档

评论

2025年度福建省职业院校技能大赛中职组（大数据应用与服务赛项）考试题（附答案）

文档简介

温馨提示

最新文档

评论

相关文档