大数据HCIA练习题(附答案)_第1页
大数据HCIA练习题(附答案)_第2页
大数据HCIA练习题(附答案)_第3页
大数据HCIA练习题(附答案)_第4页
大数据HCIA练习题(附答案)_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据HCIA练习题(附答案)一、单选题(共40题,每题1分,共40分)1、HBase的某张表的RowKey划分SplitKey为9,E,a,z,请问该表有几个Region?A、3B、4C、5D、6正确答案:C2、下列关于Flinkbarrier描述错误的是?A、在插入barrier的时候,会暂时阻断数据流B、一个barrier将本周起快照的数据与下一个周期快照的数据分隔开来C、barrier周期性插入到数据流中,并作为数据流的一部分随之流动D、barrier是Flink快照的核心正确答案:A3、FusionInsightHD中HBase的某张表的RowKey划分SplitKey为9,E,a,z,请问该表有几个Region?A、3B、4C、5D、6正确答案:C4、以下关于HBase二级索引的描述哪一项是正确的?A、二级索引把要查找的列与rowkey关联成一个索引表B、此时列成新的rowkey,原rowkey成为valueC、二级索引查询了2次D、以上完全正确正确答案:D5、Hive中的哪些操作可以合并A、UNIONALLB、JOINC、SELECTD、GROUPBY正确答案:A6、HBase中数据存储的文件格式是什么?A、HFileB、HLogC、TextFileD、SequenceFile正确答案:A7、spark的核心模块是?A、sparksqlB、mapreduceC、sparkstreamingD、sparkcore正确答案:D8、FusionInsightHD中,关于HBase的BIoomFilter特性理解,说法不正确的是?A、可以用来过滤数据B、可以用来优化随机读性能C、会增加存储的消耗D、可以准确判断某条数据不存在正确答案:A9、关于FusionInsightHDStreaming的Supervisor描述正确的是?A、Supervisor负责资源分配和任务调度B、Supervisor负责接受Nimbus分配的任务,启动和停止属于自己管理的worker进程C、Supervisor是运行具体处理逻辑的进程D、Supervisor是一个Topology中接收数据然后执行处理的组件正确答案:B10、关于HBase的Region分裂流程Split的描述不正确的是?A、Split过程中并没有真正的将文件分开,仅仅是创建了引用文件B、Split为了减少Region中数据大小,从而将一个Region分裂成两个RegionC、Split过程中该表会暂停服务D、Split过程中被分裂的Region会暂停服务正确答案:C11、Zookeeper的scheme认证方式不包括以下哪项?()A、saslB、worldC、digestD、auth正确答案:A12、在FusionInsightHD中,创建Loader作业的进行数据转换的正确步骤是()A、加载、转换、输出B、输入设置、转换、输出C、加载、转化、抽取D、抽取、转换、输出正确答案:B13、Flume数据采集过程中,下列选项中能对数据进行过滤和修饰的是?A、SinkB、ChannelSelectorC、InterceptorD、Channel正确答案:C14、FusionlnsightHD系统中,LDAP数据同步方式是哪个?A、单向同步B、双向同步C、隔离不同步D、数据交叉同步正确答案:A15、FusionlnsightHD中,如果需要查看当前登录HBase的用户和权限组,可以在HBaseshell中执行什么命令?A、use_permissionB、whoamiC、whoD、get_user正确答案:B16、下列选项中,关于Zookeeper可靠性含义说法正确的是?()A、可靠性通过主备部署莫属实现B、可靠性是指更新只能成功或者失败,没有中间状态C、可靠性是指无论哪个Server。对外展示的均是同一个视图D、可靠性是指一条消息被一个Server接收,它将被所有Server接受正确答案:D17、下列那些命令是HDFS下载文件/目录到本地的()A、dfs-mkdirB、dfs-putC、dfs-catD、dfs-get正确答案:D18、Flink中的()接口用于流数据处理,()接口用于批处理?A、DataStreamAPI,DataSetAPIB、DatabatchAPI,DataStreamAPIC、StreamAPI,BatchAPID、BatchAPI,StreamAPI正确答案:A19、在很多小文件场景下,Spark会起很多Task。当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响性能。FusionInsight中,针对小文件的场景通常采用()算子,来对Table中的小文件生成的partition进行合并,减少partition数,从而避免再shuffle的时候,生成过多的hash分桶,提高性能。A、groupbyB、connectC、coalesceD、join正确答案:C20、下列选项中,关于Zookeeper可靠性含义说法正确的是?A、可靠性通过主备部署模式实现B、可靠性是指一条消息被一个server接收,它将被所有server接受C、可靠性是指无论哪个server,对外展示的均是同一个视图D、可靠性是指更新只能成功或者失败,没有中间状态正确答案:B21、FusionInsightHD系统中HDFS默认BlockSize是多少?A、32MB、64MC、128MD、256M正确答案:C22、以下关于Kafka的描述错误的有()A、用作活动流和运营数据处理管道的基础B、由ApacheHadoop开发,并于2011年开源C、具有信息持久化、高吞吐、实时等特性D、使用Scala、Java语言实现正确答案:B23、FusionInsightHD集群组网设计中,有一种机架可以按照业务需求线性扩展,这种机架被称为()A、基本框B、扩展框C、管理框D、数据框正确答案:B24、FusionlnsightHD使用HBase客户端批量写入10条数据,某个RegionServer节点上包含该表的2个Region,分别A和B,10条数据中有两条属于A,4条属于B,请问写入这10条数据需要向该RegionServer发送几次RPC请求?A、1B、2C、3D、4正确答案:A25、FusionInsightHD系统审计日志不可以记录下面哪些操作?A、手动清除告警B、启停服务实例C、删除服务实例D、查询历史监控正确答案:D26、华为FusionInsightHD系统中关于HDFS的DataNode说法正确的是?A、不会检查数据的有效性B、周期性地将本节点的Block发送给NameNodeC、不同的DataNode存储的Block一定是不同的D、一个DataNode上的Block可以是相同的正确答案:D27、下面哪些场景不是Flink组件擅长的?()A、迭代计算B、数据存储C、批处理D、流处理正确答案:B28、YARN调度器分配资源申请的顺序,下面哪一个描述是正确的?A、任意机器->同机架->本地资源B、任意机器->本地资源->同机架C、本地资源->同机架->任意机器D、同机架->任意机器->本地资源正确答案:C29、下列关于HBase的BloomFilter特性理解不正确的是?A、用来过滤数据B、用来优化随机读取的性能C、会增加存储的消耗D、可以准确判断某条数据不存在S正确答案:C30、为了保证流应用的快照存储的可靠性,快照主要存储在?A、HDFS中B、jobManager的内存中C、可靠性高的单机数据库中D、本地文件系统中正确答案:A31、FusionInsightHD的Manager界面对Loader的操作不包括下列哪个?A、启动Loader实例B、查看Loader服务状态C、配置Loader参数D、查看Loader运行日志正确答案:D32、SoIrCloud模式是集群模式,在此模式下Solr服务器强依赖于以下哪个服务?A、HBaseB、HDFSC、ZooKeeperD、Yarn正确答案:C33、HBase的底层数据以()的形式存在的?A、KeyValueB、行存储C、实时存储D、列存储正确答案:A34、以下关于Flink关键特性描述不正确的是?A、SparkStreaming与Flink相比,时延更低B、Flink流式处理引擎能够同时提供支持流处理和批处理应用的功能C、与FusionInghtHD中的Streaming相比,Flink具有更高的吞吐量D、checkpoint实现了Flink的容错正确答案:A35、在有N个节点FusionInsightHD集群中部署HBase时,推荐部署()个HMaster进程,()个RegionServer进程A、3,NB、N,NC、2,ND、2,2正确答案:C36、关于DataSet,下列说法不正确的是?()A、DataSet是一个由特定域的对象组成的强类型集合B、DataSet不需要反序列化就可执行大部分操作C、DataSet执行sort、filter、shuffle等操作需要进行反序列化D、DataSet与RDD高度类似,性能比RDD好正确答案:C37、以下关于Hive的描述不正确的是?A、Hive的最佳使用场合是大数据集的批处理作业B、Hive查询操作过程严格遵守HadoopMapReduce的作业执行模型,Hive将用户的HiveQL语句通过解释器转为MapReduce作业提交到Hadoop集群上C、Hive构建在基于静态批处理的Hadoop之上,Hadoop通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销D、Hive可以实现在大规模数据集上实现低延迟快速的查询。正确答案:D38、Hive中的这条命令“ALTERTABLEemployee1ADDcolumns(column1string);”是什么含义?A、删除表B、增加列C、创建表D、修改文件格式正确答案:B39、以下关于kafkapartition偏移量的描述不正确的是?()A、offset是一个String型字符串B、每条消息在文件中的位置称为offset(偏移量)C、消费者通过(offset、partition、topic)跟踪记录D、唯一标记一条消息正确答案:A40、Flink的数据转换操作在以下哪个环节中完成?()A、soureB、TransformationC、SinkD、Channel正确答案:B二、多选题(共30题,每题1分,共30分)1、Hadoop的HDFS是一种分布式文件系统,适合以下哪种场景的数据存储和管理?A、大量小文件存储B、高容错、高吞吐量C、低延迟读取D、流式数据访问正确答案:BD2、Nimbus在Streaming架构中的功能包括?A、资源分配B、启动/关闭工作进程C、任务调度D、监控任务执行状态正确答案:ACD3、FusionInsightManager界面显示Hive服务状态为Bad时,可能原因有哪些?A、DBService不可用B、HDFS服务不可用C、MetaStore实例不可用D、HBase服务不可用正确答案:ABC4、在FusionInsight产品中,关于创建Kafka的Topic,以下哪些描述是正确的?A、在创建Kafka的Topic时,必须设置Partiton个数B、在创建Kafka的Topic时,必须设置Partition副本个数C、设置多副本可以增强Kafka服务的容灾能力D、以上全都正确正确答案:ABCD5、对于容量调度器的任务选择,以下说法正确的是A、资源回收请求队列优先B、资源利用量最低的队列优先C、最大队列层级优先D、最小队列层级优先正确答案:ABD6、采用Flume传输数据过程中,为了防止因Flume进程重启而丢失数据,可以使用以下哪种Channel类型?A、MemoryChannelB、JDBCChannelC、FileChannelD、HDFSChannel正确答案:BC7、HBase的数据文件HFile中一个KeyValue格式包含哪些信息?A、KeyB、ValueC、TimeStampD、KeyType正确答案:ABCD8、根据数据流如何在两个Transformation之间传输数据,数据流可以分为哪些类型?A、一对多流B、redistributing流C、一对一流D、Distributing流正确答案:AC9、HBase的数据文件HFile中一个KeyValue格式包含哪些信息?A、KeyB、ValueC、TimestampD、KeyType正确答案:ABCD10、Hadoop集群规模很大时,数据的分布情况会非常关键,用户需要根据数据分布情况,决定集群是否扩容,数据是否需要做均衡等。以下关于FusionInsight资源分布监控说法正确的有()A、帮助用户迅速找到资源消耗最高的节点,采用适当的措施B、通过每个服务主页的资源分布查看界面,查看到关键的资源分布情况C、可以帮助用户快速聚集在最关键的资源消耗上D、通过DashBoard界面,可以查看到主机资源分布情况。例如内存占有率在50-75%的主机列表,并提供链接跳转正确答案:ABCD11、下面关于flink窗口的描述错误的是A、滑动动窗口之间时间点不存在重叠B、滚动窗口在时间上是不重叠的C、滚动窗口在时间上是重叠的D、滑动窗口之间时间点存在重叠正确答案:AC12、华为大数据解决方案中平台架构包括以下哪些组成部分?A、DataFarm层B、GaussDB200C、FusionInsightManagerD、Hadoop层正确答案:ABCD13、FusionInsightHD系统中使用Streaming客户端Shell命令查看拓扑或提交拓扑失败,以下哪些定位手段是正确的?A、查看客户端异常堆栈,判断是否客户端使用问题B、查看主Nimbus的运行日志,判断是否Nimbus服务端异常C、查看Supervisor运行日志,判断是否Supervisor异常D、查看Worker运行日志正确答案:AB14、执行HBase读数据业务,需要读取哪几部分数据?A、HFileB、HLogC、MemStoreD、HDFS正确答案:AC15、FusionInsight家族包含下列哪些子产品()?()A、HDB、LibraC、ManagerD、MinerE、FarmerF、DWS正确答案:ABCDE16、以下关于Hadoop分布式文件系统HDFS联邦描述正确的有?A、一个Namespace使用一个blockpool管理数据块B、一个Namespace可使用多个blockpool管理数据块C、每个blockpool的磁盘空间是物理共享的,逻辑空间是隔离的D、支持NameNode/Namespace水平扩展正确答案:ACD17、在FusionInsightHD中,Flink主要与以下哪些组件进行交互?A、KafkaB、YARNC、ZookeeperD、HDFS正确答案:ABCD18、HBase集群定时执行Compaction的目的是什么?A、减少同一个Region,同一个ColumnFamily下的文件数目B、提升数据读取性能C、减少同一个ColumnFamily的文件数据D、减少同一个Region的文件数目正确答案:AB19、在FusionInsightHD中,以下哪一项不属于Hive的流控特性A、支持对已建立的总连接数做阈值控制B、支持对每个用户已经建立的连接数做阈值控制C、支持对某个特定用户已建立的连接数做阈值控制D、支持对单位时间内所建立的连接数做阈值控制正确答案:ABD20、Flink的兼容性体现在以下哪些方面?A、能够使用Hadoop的格式化输入和输出B、YARN能够作为Flink集群的资源调度管理器C、能够从本地获取数据D、能够与Hadoop原有的Mappers和Reducers混合使用正确答案:ABD21、以下关于KafkaPartition说法正确的有?A、每个Partition都是有序且不可变的消息队列B、每个Partition在存储层面对应一个log文件C、Partition数量决定了每个Consumergroup中并发消费者的最大数量D、引入Partition机制,保证了Kafka的高吞吐能力正确答案:ABCD22、以下属于Streaming的特点的是?A、属于事件驱动B、延迟低C、可做连续查询D、数据先存储在计算正确答案:ABC23、Hbase中的以下哪种场景会触发Flush操作?A、当Wals中的文件数量达到阈值时B、Hbase定期刷新Memstore,默认周期为1小时C、MemStore占用内存的总量和RegionServer总内存比值超出了预设的阈值大小D、Region中MemStore的总大小,达到了预设的FlushSize阈值正确答案:ABCD24、Zookeeper中的数据节点znode分为哪几种类型?A、temporaryB、persistentC、semi-persistentD、ephemeral正确答案:BD25、Hadoop的HDFS是一种分布式文件系统,适合以下哪种应用场景的数据存储和管理?A、大量小文件存储B、高容错、高吞吐量C、低延迟读取D、流式数据访问正确答案:BD26、HDFS不适用于以下哪些场景?A、流式数据访问B、大量小文件存储C、大文件存储与访问D、随机写入正确答案:BD27、关于SparkSQL&Hive区别与联系,下列说法正确的是?A、SparkSQL的执行引擎为Sparkcore,Hive默认的执行引擎为MapReduceB、SparkSQL不可以使用Hive的自定义函数C、SparkSQL兼容绝大部分Hive的语法和函数D、SparkSQL依赖Hive的元数据正确答案:ACD28、大数据商业咨询服务方案在规划环节主要考虑以下哪些设计?A、大数据商业模式设计B、商业场景全景规划C、典型场景需求设计D、场景分解和业务设计正确答案:ABCD29、大数据时代的到来,依赖于以下哪些技术的提升?A、网络B、硬件设备制造C、云计算D、人工智能正确答案:ABCD30、YARN容量调度器的主要特点有哪些()A、灵活性B、多重租赁C、动态更新配置文件D、容量保证正确答案:ABCD三、判断题(共30题,每题1分,共30分)1、ResourecManager采用高可用方案,当ActiveResourceManager发现故障时,只能通过内置的Zookeeper来启动Standby的ResourceManager将其状态切换为Active。A、正确B、错误正确答案:B2、现有3个机架,有一个文件需要存3份,其中副本1和副本2存放在与client相同的机架且不同的服务器上。根据HDFS的副本放置策略一定要存放在其他机架。A、正确B、错误正确答案:B3、在YARN的任务调度中,一旦ApplicationMaster申请到资源后,便与对应的ResourceManager通信,要求它启动任务。A、正确B、错误正确答案:B4、Mapreduce过程中,默认情况下,一个分片就是一个块,也是一个mapTask.A、正确B、错误正确答案:A5、驱动型Source是flume周期性主动去获取数据。()A、正确B、错误正确答案:B6、Channel的作用类似队列,用于临时缓存进来的数据,当Sink成功地将数据发送到下一跳的Channel或最终目的,数据会从Channel移除A、正确B、错误正确答案:A7、FusionInsightHD系统中,在创建Kafka的Topic时必须设置Partition个数和副本个数,设置多副本可以增强Kafka服务的容灾能力。A、正确B、错误正确答案:A8、假设HDFS在写入数据时只存2份,那么在写入过程中,HDFSClient先将数据写入DataNode1,再将数据写入DataNode2。()A、正确B、错误正确答案:B9、FusionInsightHD产品中,一个典型的Kafka集群包含若干Producer,若干Borker,若干Consumer和一个Zookeeper集群A、正确B、错误正确答案:A10、topology在任务完成后会自动结束运行。()A、正确B、错误正确答案:B11、Channels支持事务,提供较弱的顺序保证,可以连接任何数量的Source和Sink。A、正确B、错误正确答案:A12、Hadoop系统中,如果文件系统的备份因子是3,那么每次MapReduce任务运行的task所需要的文件都要从3个有副本的机器上传输需要处理的文件。A、正确B、错误正确答案:B13、FusionInsighttool是为技术支持工程师和维护工程师提供的一套健康检测工具,能够检查集群相关节点、服务的健康状态,提前发现集群中潜在的问题,并生成健康检查报告。方便技术支持工程师各维护工程师快速了解系统的健康状况。()A、正确B、错误正确答案:A14、大数据需要传统行业思维的转变,要把数据收集,分析中作为业务流程的重要组成,数据端驱动业务流程优化,实现智能化和自动化,并依托数据资产实现跨界拓展A、正确B、错误正确答案:A15、FusionInsightHD产品中,zookeeper服务不可用会导致kafka服务不可用。A、正确B、错误正确答案:A16、在Flink中,checkpoint机制能够保证应用在运行过程中出现失效时,从某一个检查点恢复,在此过程中,流快照是根据数据流入建立的A、正确B、错误正确答案:A17、Kafka作为一个分布式消息系统,支持在线和离线消息处理,并提供了JAVAAPI以便其他组件对接使用。在FunsionInsight解决方案中,Kafka属于FusionInsightHD模块。A、正确B、错误正

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论