大数据IA练习题20230928附有答案

上传人：啊*** IP属地：浙江上传时间：2024-10-05 格式：DOCX 页数：34 大小：2.30MB 积分：30 举报 版权申诉

已阅读5页，还剩29页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据IA练习题20230928[复制]此练习题仅供复习巩固，共134道题，每道题都作答完毕方可提交答卷。

切勿死记硬背，确保理解考点，并能够举一反三。加油~您的姓名：[填空题]*_________________________________1.Easticsearch默认是先把索引存放到内存中，当内存满了时再持久化到本地硬盘。[单选题]*A.TRUE(正确答案)B.FALSE2.Kafka中日志的清理方式包含以下哪些项？*A.Delete(正确答案)B.RemoveC.UpdateD.Compact(正确答案)3.在DataArtsStudio平台中，数据开发可以帮助用户轻松完成整个数据的处理分析流程。以下哪个选项不属于数据开发模块支持[单选题]*A.支持可视化和DDL方式管理数据库表。B.支持统一管理在脚本开发和作业开发使用到的file、jar、archive类型的资源C.支持导入和导出作业。D.支持去隐私、字符串操作、日期操作等常用字段的数据转换功能。(正确答案)4.在DataArtsStudio平台中，支持自定义业务元模型，批量导入业务元数据，关联业务和技术元教据、全储路的血缘管理和应用。[单选题]*A.TRUE(正确答案)B.FALSE5.MRS服务100%来容开源大数据生态，结合周边丰富的数据及应用迁移工具，能够帮助客户快速完成自建平台的平滑迁移，整个迁移过程“代码0修改，业务0中断”。[单选题]*A.TRUE(正确答案)B.FALSE6.ElasticSearch的索引可以存储在多种存储类型，而以下哪种存储类型不支持?[单选题]*A.HDFSB.共享文件系统C.对象存储(正确答案)D.本地文件系统7.下面哪些是ElasticSearch的特点?*A.高可靠性(正确答案)B.高扩展性(正确答案)C.高容错性(正确答案)D.高性能(正确答案)8.以下关于KrbServer及LdapServer开源增强特性的描述，错误的是哪一项?[单选题]*A.账号身份认证(正确答案)B.应用开发认证C.跨系统互信特性D.集群内服务认证9.Kafka中Partition对应的Leader宕机时，需要从Follower中选举出新Leader。当所有Replica都不工作时，对数据及时间要求不高的情况下，以下哪些方案可行?*A.在配置中增加Replica副本数量B.等待ISR中的任一个Replica活过来，并选它作为Leader(正确答案)C.重启Kafka集群(正确答案)D.选择第一个活过来的Replica(不一定是ISR成员)作为Leader10.请将MRS中Flume操作步骤按照先后顺序进行正确排序。[填空题]_________________________________(答案：1243)11.Flume采集日志数据，若不考虑故据安全性，要达到最高采集速度，应该用什么类型的Charmel?[单选题]*A.FileChannelB.HDFSChannelC.MemoryChannel(正确答案)D.JDBCChannel12.Flume采集海量日志数据时，经常会遇到性能瓶颈，可以通过以下哪些方式提升Flume性能?*A.优化FlumeGC参数B.修改batchSize和capacity(正确答案)C.增加Flume级联节点(正确答案)D.增加Source数量(正确答案)13.以下关于KafkaPartition偏移量的描述不正确的是?[单选题]*A.唯一标记一条消息B.每条消息在文件中的位置称为offset(偏移量)C.消费者通过(offset、partition、topic)跟踪记录D.offset是一个String型字符串(正确答案)14.Kafka的Producer和Customer数量必须相同。[单选题]*A.TRUEB.FALSE(正确答案)15.StructuredStreaming在OutPut阶段可以定义不同的数据写入方式，包括下列哪些方式?*A.CompleteMode(正确答案)B.UpdateMode(正确答案)C.GeneralModeD.AppendMode(正确答案)16.默认情况下Flink不开启检查点，用户需要在程序中通过调用以下那种方法配置和开启检查点?[单选题]*A.anv.enabloCheckpointing(1000)(正确答案)B.env.getCheckpointConfig（）setCheckpointingTimeout(60000)C.env.startSetCheckpointing(1000)D.anv.getCheckpointConfig（）.setMaxConcurrontCheckpointa(500)17.Flink提供了内置的状态管理，可以把工作时状态存储在Flink内部，而不需要把它存储在外部系统。这样做的好处包含以下哪些选项?*A.确保了数据在处理过程中的一致性(正确答案)B.降低了计算引擎对外部系统的依赖，使得部署、运维更加简单(正确答案)C.实现了高吞吐、高性能特性，但无法做到低延迟保障D.对性能带来了极大的提升(正确答案)18.关于SparkSQL与Hive区别与联系，下列说法正确的足?*A.SparkSQL不可以使用Hive的自定义函数B.SparkSQL兼容绝大部分Hive的语法和函数(正确答案)C.SparkSQL依赖Hive的元数据(正确答案)D.SparkSQL的执行引擎为SparkCore,Hive默认执行引擎为MapReduce(正确答案)19.关于Flink作业运行的流程，用户首先提交作业到(1)·经过处理、解析、优化提交到(2)·最后由(3)运行(4).请将答案匹配序号[填空题]*_________________________________(答案：2413)20.Spark任务的Container可以运行多个task。[单选题]*A.TRUE(正确答案)B.FALSE21.对于延迟事件出现时窗口已经关闭并产出了计算结果，以下处理方法不合理的是哪一项?[单选题]*A.将延迟事件收集起来另外处理B.重新激活已经关闭的窗口并重新计算以修正结果C.延迟事件一定不能忽略计算(正确答案)D.将延迟事件视为错误消息并丢弃22.Spark自带的资源管理框架是[单选题]*A.MesosB.Standalone(正确答案)C.DockerD.YARN23.Flink中基于异步轻量级的分市式快照技术捏供了Checkpoints容错机制，分布式快照可以将不同时间点Task/Operator的状态数据全局统一处理。[单选题]*A.TRUEB.FALSE(正确答案)24.在MRS集群中，Spark主要与以下那些组件进行交互?*A.ZooKeeper(正确答案)B.HDFS(正确答案)C.YARND.Hive(正确答案)25.Spark和Hive同时部署时，若SparkSQL要获取Hive元数据，SparkSQL需要在启动后执行同步操作。[单选题]*A.TRUE(正确答案)B.FALSE26.ResourceManager采用高可用方案，当ActiveResourceManager发现故障时，只能通过内置的ZooKeeper来启动Standby的ResourceManager将其状态切换为Active。[单选题]*A.TRUEB.FALSE(正确答案)27.为减少写入磁盘的数据量，MapReduce支持对MOF(MapOutFile)进行压缩后再写入。[单选题]*A.TRUE(正确答案)B.FALSE28.某公司使用Yarn的capacity调度器管理集群资源，现设置某一队列用户最低资源保障百分比为20%,该队列最多可允许______用户提交任务[填空题]*空1答案：5个29.MapReduce程序运行时，AppMaster发生故障。下列哪些选项对该任务描述正确?*A.AppMaster再次启动(正确答案)B.任务仍可运行(正确答案)C.AppMaster不再启动D.任务立即停止30.MapReduce在Map阶段的combine是一个预分组过程，是可选的。[单选题]*A.TRUE(正确答案)B.FALSE31.MapReduce某一任务失败时可通过重试机制重新计算该任务。[单选题]*A.TRUE(正确答案)B.FALSE32.Yarn做资源调度时，任务运行所需的资源是____提供的。[填空题]*空1答案：NodeManager33.Distributed表引擎本身不存储任何数据，而是作为数据分片的透明代理，能够自动路由数据到集群中的各个节点，分布式表需要和其他本地数据表一起协同工作。[单选题]*A.TRUE(正确答案)B.FALSE34.MergeTree是用于高负载任务的最通用和功能最强大的表引繁，以下关于MergeTree的关键特征的描述，错误的是哪一项?[单选题]*A.支持主健排序B.支持数据迁移(正确答案)C.支持并发数据访问D.支持二级索引35.ClickHouse数据迁移工具可以将某几个ClickHouseServer实例节点上的一个或多个MergeTree引擎分区表的部分分区迁移至其他ClickHouseServer节点上相同的表中。[单选题]*A.TRUE(正确答案)B.FALSE36.以下关于ClickHouse设计优点的描述，错误的是哪一项?[单选题]*A.多核并行计算B.数据压缩比低(正确答案)C.向量化计算引擎D.支持嵌套数据结构37.表引擎在ClickHouse中的作用十分关键，不同的表引擎决定了以下哪些因素?*A.数据的存储容量B.数据存储和读取的位置(正确答案)C.能否并发式访问数据(正确答案)D.是否可以执行多线程请求(正确答案)38.HBase的某张表的RowKey划分SplitKey为9,E,a,z,请问该表有几个Region?[单选题]*A.6B.4C.5(正确答案)D.339.Hive运行流程包括下面几步，请选择正确的顺序:

1:Hive根据表类型更新HDFS或Hive仓库中的数据。

2:Client提交HQL命令

3:YARN为群集中的应用程序分配资源，并为YARN队列中的Hive作业启用授权。

4:Tez执行查询

5:Hive通过JDBC连接返回查询结果。[单选题]21435(正确答案)21345241352431540.下列对HBase的RowKey描述，正确的是哪几项?*A.可以允许表没有RowKeyB.RowKey是有序的(正确答案)C.RowKey是无序的D.所有的表都必须要有RowKey(正确答案)41.下列哪些选项对HBase读写数据的过程描述正确?*A.客户端不可以维护已访问过的位置信息加快查道B.客户端读取数据不需要HMaster参与(正确答案)C.客户端可以维护已访问过的region位置信息加快查询(正确答案)D.客户端读取数据需要HMaster参与42.下列选项对列族描述正确的是?*A.是基本的访问控制单元(正确答案)B.一个列族最多容纳3个列C.由若干列组成(正确答案)D.列族也有版本号43.HBase组件中，数据读写服务需要连接Master执行。[单选题]*A.TRUEB.FALSE(正确答案)44.以下那些属于企业级大数据的应用场景?*A.供应链管理(正确答案)B.营销分析(正确答案)C.客户分析(正确答案)D.内部运营管理(正确答案)45.HDFS支持通过以下那些访问方式来访问数据?*A.JAVAAPI(正确答案)B.HTTP(正确答案)C.Shell(正确答案)D.S346.以下关于Zookeeper的关键特性，描述错误的是哪一项?[单选题]*A.原子性，更新只能成功或者失败，没有中间状态B.等待无关性，慢的或者失效的client不会干预快速的client的请求，使得每个client都能有效的等待C.无论哪个server,对外展示的均是同一个视图D.一条消息被一个server接收即完成，其他server不需要再重复接收该信息(正确答案)47.以下关于HDFS的描述，错误的是哪一项?[单选题]*A.HDFS具有高度的容错能力，主要部署在高成本硬件上(正确答案)B.HDFS提供对应用程序数据的高吞吐量访间，并且适用于具有大数据集的应用程序C.HDFS是一种旨在通用硬件上运行的分布式文件系统D.HDFS把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群48.Zookeeper选举时，当某一个实例获得了半数以上的票数时，则变为leader[单选题]*A.TRUE(正确答案)B.FALSE49.以下关于ZooKeeper关键特性中的原子性说法正确的是?[单选题]*A.—条消息被一个server接收，将被所有server接收B.更新只能全部完成或失败，不会部分完成(正确答案)C.集群中无论哪台服务器，对外展示的均是同一视图D.客户端发送的更新会按照它们被发送的顺序进行应用50.以下关于HDFS的元数据持久化的过程描述，请按正确的顺序从上到下排列。

[填空题]*_________________________________(答案：21453)51.HBase的Bloomfilter是用来过滤数据的。[单选题]*A.TRUEB.FALSE(正确答案)52.HBase要实现数十亿行数百万列的存储规模，需要以下哪个选项支持?[单选题]*A.HDFS(正确答案)B.KafkaC.ElasticSearchD.Redis53.HBase通过___快速判断用户数据不存在。[填空题]*空1答案：BloomFilter54.Hive可以创建托管表和外部表，关于这两种表，以下描述正确的是哪些选项?*A.使用托管表时，执行DROP操作时，元数据和数据会被一起删除(正确答案)B.使用外部表时，执行DROP操作时，只删除元数据(正确答案)C.使用外部表时，执行DROP操作时，元数据和数据会被一起删除D.使用托管表时，执行DROP操作时，只删除元数据。55.Hive的主要应用于以下那些场景?*A.实现数据的流式处理B.大规模的数据挖掘C.海量数据的离线分析(正确答案)D.实现数据抽取、数据加载、数据转换(正确答案)56.HDFS中，块(Block)的大小远远大于普通文件系统的最小单元，可以最小化寻址开销。[单选题]*A.TRUE(正确答案)B.FALSE57.以下描述哪一项不是传统数据处理的瓶颈?[单选题]*A.流数据的实时写入(正确答案)B.缺乏流式数据处理能力C.数据批量处理性能不足D.海量数据的高存储成本58.大数据体量的不断增加，对数据存储的物理安全性要求越来越高，对数据的多副本与容灾机制也提出更高的要求。[单选题]*A.TRUE(正确答案)B.FALSE59.HDFS中的block默认保存几份?[单选题]*A.1份B.与DataNode数量相同C.2份D.3份(正确答案)60.ZooKeeper在分布式应用中的主要作用不包括以下哪个选项?[单选题]*A.存储集群中服务器信息B.分配集群资源(正确答案)C.选举Master节点D.保证各节点上数据的一致性61.关于HDFS的NameNode的功能,以下描述错误的是哪些项?*A.存储文件内容(正确答案)B.保存文件块和DataNode之间的映射关系C.用于存储元数据D.维护了BlockID到DataNodo本地文件的映射关系(正确答案)62.HDFS数据读取流程括下面几步，请选择正确的顺序。

[填空题]*_________________________________(答案：53142)63.以下关于HDFS数据写入流程的描述，请按正确的顺序排列。

[填空题]*_________________________________(答案：516342)64.在Hive数据存储模型中，分区和桶的关系描述错误的是哪一项?[单选题]*A.建表时指定桶个数，桶内可排序。B.每个桶是一个目录(正确答案)C.分区下可再有分区或者桶D.分区数量不固定65.下列选项对Compaction描述正确的是哪一项?[单选题]*A.Minor触发频率相对Major较高B.Compation通过消除过期数据文件减少HFile文件数C.有Minor和Major两种类型(正确答案)D.Compation通过合并文件减少HFile文件数66.关于HBase组件的描述，正确的是?*A.是面向列的(正确答案)B.是一种NoSQL数据(正确答案)C.是分布式的(正确答案)D.存储数据是以K-V的形式(正确答案)67.以下关于HBase中HMaster的功能描述哪些是正确的?*A.负责RegionServer的负载均衡(正确答案)B.负责建表/修改表/删除表(正确答案)C.RegionServer失效后的Region迁移(正确答案)D.Region负载均衡，Region分裂以及分裂后的Region分配(正确答案)68.HBase的Region是由哪个服务进程来管理的?[单选题]*A.HMastorB.ZooKeeperC.HRegionServer(正确答案)D.DataNode69.HBase命令中下列哪个选项性能最差?[单选题]*A.scan(正确答案)B.listC.putD.get70.Hbase中当一个Region的size逐渐变大时，它可能会被修剪。[单选题]*A.TRUEB.FALSE(正确答案)71.执行HBase读数据业务，需要读取那几部分数据?*A.HLogB.HMasterC.MemStore(正确答案)D.HFile(正确答案)72.ClickHouse完全使用SQL作为查询语言，提供了标准协议的SQL查询接口[单选题]*A.TRUE(正确答案)B.FALSE73.YARN服务中，如果要给队列QueucA设置容量为30%,应该配置哪个参数?[单选题]*A.yarn.scheduler,.capacity.root.QuouoA.minimum-user-limit-percentB.yarn.scheduler,capacity.root.QueueA.Capacity(正确答案)C.yarn.scheduler,capacity,root.QueueA.StateD.yarn.scheduler,capacity.root.QueueAuser-limit-factor74.MergeTree用于高负载任务的最通用和功能最强大的表引擎，以下关于MergeTree的关键特征的描述，错误的是哪些项?*A.数据索引排序B.不支持数据抽样(正确答案)C.基于分区键的数据分区分块存储D.不支持数据复制(正确答案)75.ClickHouse提供____(请填写大写的英文缩写词)、HTTP两种访问协议。[填空题]*空1答案：TCP76.Yarn要实现HA机制，不需要依赖下列哪些选项?*A.ZookeeperB.Spark(正确答案)C.HDFS(正确答案)D.Kafka(正确答案)77.YARN中设置队列QueueA的最大使用资源量，需要配置哪个参数?[单选题]*A.yarn.scheduler.capacity.root.QueuoA.minimm-user-limit-parcentB.yarn.scheduler,capacity.root.QueueA.StateC.yarn.scheduler,capacity,root.QueueA.maximum-capacity(正确答案)D.varn.scheduler,capacity.root.QuoueA.user-limit-factor78.如果某些Containers的物理内存利用率超过了配置的内存阈值，但所有Containers的总内存利用率并役有超过设置的NodeManager内存阈值，那么内存使用过多的Containers仍可以继续运行。[单选题]*A.TRUE(正确答案)B.FALSE79.默认情况下MapReduce程序中reduce任务数由下列哪个选项决定?[单选题]*A.随机生成B.用户指定(正确答案)C.该任务所计算的数据块数量D.根据资源自行生成任务数80.Hadoop系统中，如果HDFS文件系统的备份因子是3,那么MapRechuce每次运行的task都要从3个有副本的机器上传输需要处理的文件段。[单选题]*A.TRUEB.FALSE(正确答案)81.MapReduce程序由Map和Reduce两部分组成，现有—MapReduce程序，其有5个reduce任务，该程序最终输出多少个结果文件?[单选题]*A.5(正确答案)B.2C.3D.482.Flink根据数据集类型的不同将核心数据处理接口分为两大类，一类是支持批计算的接口，另外一类是支持流计算的接口，以下关于这两类接口描述正确的是哪一项?[单选题]*A.支持批计算的接口是DataStreamAPI,支持流计算的接回是DataSetAPIB.支持批计算的接口是DataSetAPI,支持流计算的接口是DataStreamAPI(正确答案)C.仅支持批计算的接口是SQLAPI,仅支持流计算的接口是DataStreamAPID.仅支持批计算的接口是DataStreamAPI,仅支持流计算的接口是SQLAPI83.下图展示了StructuredStreaming的计算模型。通过观察可以得出最终T3的计算结果是?

[单选题]*A.Cat2;dog3;ow11B.Cat2;dog4;ow12(正确答案)C.Cat1;cat1:Dog2;dog2;owl2D.Cat2;ow1184.DataSet从Spark2.0正式启用，兼具DataFrame和RDD的特点，RDD也不再使用。[单选题]*A.TRUEB.FALSE(正确答案)85.SparkStreaming是将实时输入数据流以_____为单位进行拆分，然后经Spark引繁以类似批处理的方式处理每个时间片数据。[填空题]*空1答案：时间片86.StructuredStreaming接收结构化数据流生成无边界表，随着时间积累该表越来越大最终会导致教据过大无法计算。[单选题]*A.TRUE(正确答案)B.FALSE87.关于Flink作业运行的流程:用户首先提交Flink作业到(1),经过处理、解析、优化提交到(2),最后由(3)运行(4),请将答案匹配序号。

[填空题]*_________________________________(答案：2431)88.下图为Spark&MapReduce的性能对比数据，可以得出结论，与MapReduce计算相比，Spark用()的资源，获得()倍性能?

[单选题]*A.1/10,4B.1/8,4C.1/8,3D.1/10,3(正确答案)89.Yarn-client和Yarn-cluster主要区别是ApplicationMaster进程的区别。[单选题]*A.TRUE(正确答案)B.FALSE90.RDD有Transformation和Action算子，下列属于Action算子的是?[单选题]*A.saveAsTextFile(正确答案)B.MapC.FilterD.reduceByKey91.某公司使用Spark做大数据分析，某次分析任务中某RDD会被重复利用，导致重复计算多次。若要避免重复计算且能够重复利用该RDD,以下哪个选项更合适?[单选题]*A.写出该RDD,需要时再重新读取B.增大任务资源，快速结束该任务C.RDD执行persist操作(正确答案)D.Spark计算很快，无需优化92.某网站举行活动，要求计算该网站每分钟的用户访问量，若要实现该需求，下列哪个选项最合适?[单选题]*A.HiveB.Spark(正确答案)C.StormD.MapReduce93.在点对点消息系统中，可由一个或多个消费者消费队列中的数据，但是一条消息只能被消费一次。[单选题]*A.TRUE(正确答案)B.FALSE94.查看Kafka某Topic的Partition详细信息时，使用如下哪个命令?[单选题]*A.bin/kafka-topics.sh--deleteB.bin/kafka-topics.sh--listC.bin/kafka-topics.sh--createD.bin/kafka-topics.sh--describe(正确答案)95.Flume在传输数据过程中，如果下一跳的Flume节点故障或者数据接受异常时，可以自动切换到另外一路上继续传输。[单选题]*A.TRUE(正确答案)B.FALSE96.用于记录Kafka中消息读取位置的是____[填空题]*空1答案：offset97.Flume支持将多个Flume级联起来，同时级联节点内部支持数据复制。[单选题]*A.TRUEB.FALSE(正确答案)98.Producer需要Server接收到数据之后发出的确认接收的信号，当设置ACK信号的值为多少时表示至少要等待Leader已经成功将数据写入本地Log，但不要求等待所有Follower都成功写入?[单选题]*A.acks=allB.acks=1(正确答案)C.acks=0D.acks=299.银行为了数据传输的可靠性，使用Flume采集数据，主要是利用Flume的哪个特性?[单选题]*A.支持级联B.支持采集日志文件C.支持在定制各类数据发送方D.事务机制(正确答案)100.ElasticSearch的倒排索引所采用的排序方式，是通过Value找Key。在全文搜索中Value就是要搜索的关键词，通过Value找到对应的文档。[单选题]*A.TRUE(正确答案)B.FALSE101.以下关于传统数据入湖面临的挑战的描述，正确的是哪些项?*A.资源利用率低(正确答案)B.时效差(正确答案)C.成本高(正确答案)D.开发难(正确答案)102.ApacheRanger提供一个集中式安全管理框架，提供统一授权和统一审计能力。它可以对整个Hadoop生态中如HDFS、Hive、HBase、Kafka、Storm等进行粗粒度的数据访问控制。[单选题]*A.TRUEB.FALSE(正确答案)103.MRS会保存用户设置的登录Master节点的初始密码。为避免被恶意攻击，建议设置复杂度高的密码。[单选题]*A.TRUE(正确答案)B.FALSE104.数据质量监控DQC（DataQualityControl）模块是对数据库里的数据质量进行质量管理的工具,可以从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。[单选题]*A.TRUE(正确答案)B.FALSE105.在DataArtsStudio平台中，以下哪个选项不属于数据权限模块?[单选题]*A.用户管理和角色管理B.数据表权限C.审批中心(正确答案)D.数据目录权限106.大数据平台可以应用在以下哪些监管类的场景?*A.食品溯源(正确答案)B.卫星遥感分析(正确答案)C.公安网监(正确答案)D.舆情监控(正确答案)107.以下关于ZooKeeper的Leader节点在收到数据变更请求后的读写流程说法正确的是?[单选题]*A.仅写入内存B.先写磁盘再写内存C.先写内存再写磁盘(正确答案)D.同时写入磁盘和内存108.若HDFS单名称节点部署，可能存在哪些局限性?*A.一旦这个唯一的名称节点发生故障，会导致整个集群不可用(正确答案)B.整个分布式文件系统的吞吐量，受限于单个名称节点的吞吐量(正确答案)C.名称节点能够容纳的对象（文件、块）的个数会受到内存空间大小的限制(正确答案)D.影响基于HDFS的上层组件的功能实现109.HDFS中，抽象的块可以带来哪些好处?*A.支持大规模文件存储(正确答案)B.简化系统设计(正确答案)C.满足IO密集型应用的性能要求D.适合数据备份(正确答案)110.HDFS中NameNode的主备仲裁，是由哪个组件控制的?[单选题]*A.HDFSClientB.ZooKeeperFailoverController(正确答案)C.NodeManagerD.ResourceManager111.可以通过以下哪个命令创建节点数据?[单选题]*A.ls/nodeB.get/nodeC.create/node(正确答案)D.set/nodedata112.Hive架构中，__组件负责对表，列和Partition等的元数据进行读写及更新操作[填空题]*_________________________________(答案：MetaStore)113.113.HBase会周期性的把MemStore的数据刷写到磁盘_____文件中。[填空题]*_________________________________(答案：StoreFile)114.HBase中数据存储的文件格式是什么?[单选题]*A.HLogB.TextFileC.HFile(正确答案)D.SequenceFile115.HBase可用于下列哪些应用场景?*A.用户画像(正确答案)B.消息/订单存储(正确答案)C.好友推荐D.时序数据存储(正确答案)116.HBase的主HMaster是如何选举的?[单选题]*A.HMaster为双主模式，不需要进行裁决B.通过ZooKeeper进行裁决(正确答案)C.由RegionServer进行裁决D.随机选取117.Tez是一个支持有向无环图的分布式计算框架，Hive使用Tez引擎进行数据分析时，会将用户提交的HQL语句解析成相应的Tez任务并提交Tez执行。[单选题]*A.TRUEB.FALSE(正确答案)118.HBase集群定时执行Compaction的目的是什么?*A.提升数据写入能力B.减少同一个Region的文件数目。C.减少同一个Region同一个ColummFamily下的文件数目。(正确答案)D.提升数据读取性能。(正确答案)119.ClickHouse利用CPU的SIMD指令实现了向量化执行。SIMD的全称是SingleInstructionMultipleData,原理是在CPU寄存器层面实现数据的并行操作。[单选题]*A.TRUE(正确答案)B.FALSE120.以下关于ClickHouse适用场景的描述，错误的是哪一项?[单选题]*A.网络/APP流量分析B.非结构化数据(正确答案)C.商业智能(BI)D.用户行为记录分析121.以下关于ClickHous

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据IA练习题20230928附有答案

文档简介

温馨提示

最新文档

评论

大数据IA练习题20230928附有答案

文档简介

温馨提示

最新文档

评论

相关文档