《大数据平台搭建与配置管理》期中试题试卷及答案2套AB卷

上传人：红*** IP属地：江西上传时间：2023-02-06 格式：DOCX 页数：21 大小：87KB 积分：8.4 举报 版权申诉

已阅读5页，还剩16页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据平台搭建与配置管理第21页共21页《大数据平台搭建与配置管理》期中试题期中试题（闭卷A）题号一二三四五六七八九十成绩满分30202030100得分【本套试卷共有4大题，计66小题】一、选择题（20题，每题1.5分，共30分）1、Client端上传文件的时候下列正确的是（）。A.数据经过NameNode传给DataNodeB.Client只上传数据到一台DataNodeC.Client端将文件切分为Block，依次上传D.NameNode负责Block复制工作2、HDFS的NameNode负责管理文件系统的命名空间，将所有的文件和文件夹的元数据保存在一个文件系统树中，这些信息也会在硬盘上保存成一下文件（）。A.日志B.命名空间镜像C.两者都是D.以上都不是3、MapReduce框架提供了一种序列化键/值对的方法，支持这种序列化的类能够在Map和Reduce过程中充当键或值，以下说法错误的是？（）A.实现Writable接口的类是值B.实现WritableComparable接口的类可以是值或键C.Hadoop的基本类型Text并不实现WritableComparable接口D.键和值的数据类型可以超出Hadoop自身支持的基本类型4、对MapReduce的体系结构，以下说法不正确的是（）A.分布式编程架构B.以数据为中心，更看重吞吐率C.分而治之的思想D.将一个任务合并成多个子任务5、在创建Linux分区时，一定要创建（）两个分区。A.FAT/NTFSB.FAT/SWAPC.NTFS/SWAPD.SWAP/根分区6、下面哪个命令是用来定义shell的全局变量（）。A.exportfsB.aliasC.exportsD.export7、ZooKeeper可以实现（）。A.高吞吐量和低延迟数量B.高吞吐量和高延迟数量C.低吞吐量和低延迟数量D.低吞吐量和高延迟数量8、分布式应用正在运行的一组系统称为（）。A.集群B.分布式系统C.单元D.组9、查询速度的提升是以额外的（）为代价的。A.创建索引B.创建索引和存储索引C.删除索引D.存储索引10、Hive的元数据不能够存储在哪些位置？（）A.mysqlB.derbyC.oracleD.文本文件11、HBase依赖（）提供消息通信机制。A.ZookeeperB.ChubbyC.RPCD.Socket12、LSM含义是？（）A.日志结构合并树B.二叉树C.平衡二叉树D.长平衡二叉树13、HFile数据格式中的Data字段用于（）。A.存储实际的KeyValue数据B.存储数据的起点C.指定字段的长度D.存储数据块的起点14、下列不属于StreamGrouping方式的是（）。A.ShuffleGroupingB.AllGroupingC.FieldsGroupingD.newGrouping15、Storm会在集群内分配对应并行度个数的（）来同时执行这一组件。A.哈希值B.ThriftC.task线程D.Worker进程16、Storm可以用来实时处理新数据和（）。A.删除数据库B.更新数据库C.删除节点D.更新表17、MapReduce编程模型，键值对<key,value>的key必须实现哪个接口？（）。A.WritableComparableB.ComparableC.WritableD.LongWritable18、HBase数据库的BlockCache缓存的数据块中，哪一项不一定能提高效率（）。A.–ROOT-表B..META.表C.HFileindexD.普通的数据块19、HBase的Region组成中，必须要有以下哪一项（）。A.StoreFileB.MemStoreC.MetaStoreD.HFile20、设计分布式数据仓库hive的数据表时，为取样更高效，一般可以对表中的连续字段进行什么操作（）。A.分桶B.分区C.索引D.分表二、填空题（20题，每题1分，共10分）21、Spouts会从外部读取流数据并持续发出。22、当Spout或者Bolt发送元组时，它会把元组发送到每个订阅了该的Bolt上进行处理。23、Storm采用了来作为分布式协调组件。24、HBase分布式模式最好需要个节点。25、LSM结构的数据首先存储在。26、HBase中Hmaster负责监控的生命周期。27、Hive远程服务通过方式访问Hive。28、Hive不支持的更新。29、Hive非常适合于对那些只在文本末尾添加数据的大型数据集进行。30、分布式应用程序可以基于Zookeeper实现诸如数据发布/订阅、、命名服务、分布式协调/通知、、、分布式锁和分布式队列等功能。31、注册成临时节点后，再服务端出问题时，节点会自动的从zookeeper上。32、ZooKeeper提供了一项基本服务是。33、计算过程高度抽象到两个函数和。34、每一个小数据都可以完全地进行处理。35、大规模数据集的处理包括两个核心环节。36、ResourceManager默认的WebUI访问端口号为：。37、Hadoop集群搭建中常用的4个配置文件为：、hdfs-site.xml、mapred-site.xml、。38、HA产生的背景是。39、网络管理两个重要任务分别是：和。40、命令是删除文件命令。三、判断题，正确填“T”，错误填“F”（20题，每题1分，共20分）41、Hadoop支持数据的随机读写（）。42、NameNode负责管理元数据信息metadata，client端每次读写请求，它都会从磁盘中读取或会写入metadata信息并反馈给client端（）。43、MapReduce的inputsplit一定是一个block（）。44、链式MapReduce计算中，对任意一个MapReduce作业，Map和Reduce阶段可以有无限个Mapper，但Reducer只能有一个（）。45、HBase对于空（NULL）的列，不需要占用存储空间。（）。46、MapReduce适于PB级别以上的海量数据在线处理（）。47、MapReduce计算过程中，相同的key默认会被发送到同一个reducetask处理（）。48、HBase可以有列，可以没有列族（columnfamily）（）。49、/tmp目录主要用于存储程序运行时生成的临时文件（）。50、Linux系统以文本文件的形式保存大备份系统日志，如lastlog（）。51、Hadoop是Java开发的，所以MapReduce只支持Java语言编写（）。52、NameNode负责管理metadata，client端每次读写请求，它都会从磁盘中读取或者会写入metadata信息并反馈给client端（）。53、MapReduce程序可以直接读取HBase内存储的数据内容。（）54、所有消息交换都是通过MapReduce框架自身去实现的。（）55、更新ZooKeeper操作是非阻塞式的。（）56、在分布式锁服务中，就是通过对集群进行Master选举，来解决分布式系统中的单点故障。（）57、分区的主要好处是加快查询速度。（）58、Hive创建内部表时，会将数据移动到数据仓库指向的路径。（）。59、MapReduce程序可以直接读取HBase内存储的数据内容。（）60、使用Shell命令insert对HBase中的一张表进行数据添加操作。（）四、简答题（6题，每题5分，共30分）61、简述HBase的主要技术特点。答：62、HBase有哪些类型的访问接口？答：63、是否所有的MapReduce程序都需要经过Map和Reduce这两个过程？如果不是，请举例说明。答：64、请描述HDFSHA架构组成组建及其具体功能。答：65、hadoop节点动态上线下线怎么操作?答：66、HAnamenode是如何工作的？答：《大数据平台搭建与配置管理》期中标答期中标答A（闭卷）题号一二三四五六七八九十成绩满分30202030100得分一、选择题（20题，每题1.5分，共30分）1-5：CCCDD 6-10：DAABD11-15：AAADC16-20：BADBA二、填空题（20题，每题1分，共20分）21、Tuple 22、Stream23、Zookeeper24、325、内存中26、RegionServer27、JDBC28、级别29、批处理30、负载均衡集群管理Master选举31、删除32、分布式锁33、MapReduce34、并行35、分布式存储和分布式计算36、808837、core-site.xmlyarn-site.xml38、为了解决单NN那可能会出现宕机导致集群不可用或数据丢失的问题39、监控控制40、rm三、判断题（20题，每题1分，共20分）41-45：FFFTT46-50：FFFTF51-55：FFTTT56-60：TTTTF四、简答题（6题，每题5分，共60分）61、答：（1）列式存储（2）表数据是稀疏的多维映射表（3）读写的严格一致性（4）提供很高的数据读写速度（5）良好的线性可扩展性（6）提供海量数据（7）数据会自动分片（8）对于数据故障，hbase是有自动的失效检测和恢复能力。（9）提供了方便的与HDFS和MAPREDUCE集成的能力62、答：HBase提供了NativeJavaAPI,HBaseShell，ThriftGateway,RESTGateWay,Pig,Hive等访问接口。63、答：不是。略64、答：在一个典型的HA集群中，一般设置两个名称节点，其中一个名称节点处于“活跃”状态，另一个处于“待命”状态。处于活跃状态的名称节点负责对外处理所有客户端的请求，而处于待命状态的名称节点则作为备用节点，保存了足够多的系统元数据，当名称节点提供了“热备份”，一旦活跃名称节点出现故障，就可以立即切换到待命名称节点，不会影响到系统的正常对外服务。65、答：1）节点上线操作：当要新上线数据节点的时候，需要把数据节点的名字追加在dfs.hosts文件中（1）关闭新增节点的防火墙（2）在NameNode节点的hosts文件中加入新增数据节点的hostname（3）在每个新增数据节点的hosts文件中加入NameNode的hostname（4）在NameNode节点上增加新增节点的SSH免密码登录的操作（5）在NameNode节点上的dfs.hosts中追加上新增节点的hostname,（6）在其他节点上执行刷新操作：hdfsdfsadmin-refreshNodes（7）在NameNode节点上，更改slaves文件，将要上线的数据节点hostname追加到slaves文件中（8）启动DataNode节点（9）查看NameNode的监控页面看是否有新增加的节点2）节点下线操作：（1）修改/conf/hdfs-site.xml文件（2）确定需要下线的机器，dfs.osts.exclude文件中配置好需要下架的机器，这个是阻止下架的机器去连接NameNode。（3）配置完成之后进行配置的刷新操作./bin/hadoopdfsadmin-refreshNodes,这个操作的作用是在后台进行block块的移动。（4）当执行三的命令完成之后，需要下架的机器就可以关闭了，可以查看现在集群上连接的节点，正在执行Decommission，会显示：DecommissionStatus:Decommissioninprogress执行完毕后，会显示：DecommissionStatus:Decommissioned（5）机器下线完毕，将他们从excludes文件中移除。66、答：ZKFailoverController主要职责1）健康监测：周期性的向它监控的NN发送健康探测命令，从而来确定某个NameNode是否处于健康状态，如果机器宕机，心跳失败，那么zkfc就会标记它处于一个不健康的状态。2）会话管理：如果NN是健康的，zkfc就会在zookeeper中保持一个打开的会话，如果NameNode同时还是Active状态的，那么zkfc还会在Zookeeper中占有一个类型为短暂类型的znode，当这个NN挂掉时，这个znode将会被删除，然后备用的NN，将会得到这把锁，升级为主NN，同时标记状态为Active。3）当宕机的NN新启动时，它会再次注册zookeper，发现已经有znode锁了，便会自动变为Standby状态，如此往复循环，保证高可靠，需要注意，目前仅仅支持最多配置2个NN。4）master选举：如上所述，通过在zookeeper中维持一个短暂类型的znode，来实现抢占式的锁机制，从而判断那个NameNode为Active状态《大数据平台搭建与配置管理》期中试题期中试题（闭卷B）题号一二三四五六七八九十成绩满分30202030100得分【本套试卷共有4大题，计66小题】一、选择题（20题，每题1.5分，共30分）1、欲把当前目录下的file1.txt复制为file2.txt，以下正确的命令是（）。A.copyfile1.txtfile2.txtB.cpfile1.txt|file2.txtC.catfile2.txtfile1.txtD.catfile1.txt>file2.txt2、下面哪个命令可以用来切换使用者的身份（）。A.passwdB.logC.whoD.su3、以下哪个不是HDFS的守护进程（）。A.datanodeB.namenodeC.secondarynamenodeD.mrappmaster/yarnchild4、Hadoop-2.6.5集群中的HDFS的默认的数据块的大小是（）。A.32MBB.64MBC.128MBD.256MB5、HDFS集群中的namenode职责不包括（）。A.维护HDFS集群的目录树结构B.维护HDFS集群的所有数据块的分布、副本数和负载均衡C.负责保存客户端上传的数据D.响应客户端的所有读写数据请求6、下列关于HDFS的描述正确的是（）。A.如果NameNode宕机，SecondaryNameNode会接替它使集群继续工作B.HDFS集群支持数据的随机读写C.NameNode磁盘元数据不保存Block的位置信息D.DataNode通过长连接与NameNode保持通信7、MapReduce是（）上的并行计算。A.运行于大规模集群B.运行于磁盘C.运行于小规模集群D.运行在复杂的系统中8、MapReduce框架会将Map程序就近地在（）数据所在的节点运行。A.HDFSB.SparkC.MapReduceD.Zookeeper9、MapReduce为了保证任务的正常执行，采用（）等多种容错机制。A.重复执行B.重新开始整个任务C.直接丢弃执行效率低的作业D.以上都是10、ZooKeeper是集群的（），监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。A.领导者B.执行者C.管理者D.以上都不是11、ZK提供了一定的（）可以用来获取一个顺序增长的，可以在集群环境下使用的ID。A.函数B.接口C.方法D.类12、名称空间由（）组成。A.磁盘寄存器B.表C.内存寄存器D.数据寄存器13、hive数据仓库中的数据，不可能的来源有哪些？（）A.Mysql或Oracle数据库B.行为数据C.业务数据系统D.娱乐资料14、解压.tar.gz结尾的HBase压缩包使用的Linux命令是什么？（）A.tar-vfB.tarC.tar-zxD.tar-zxvf15、下以下数据第三列，应该用哪种数据类型存储:1,zhangsan,[90,79.88]。（）A.mapB.intC.arrayD.struct16、查询速度的提升是以额外的（）为代价的。A.创建索引B.创建索引和存储索引C.删除索引D.存储索引17、当客户端发起一个Put请求时，首先它从（）表中查出该Put数据。A.hbase:metaB.hbase:valueC.-ROOT-D.hbase:key18、HBase构建二级索引的实现方式有哪些？（）A.MapReduceB.HiveC.BloomFilterD.Filter19、Storm将（）组成的网络抽象成Topology。A.Spouts和BoltsB.字段C.GFSD.Tuple20、Storm运行在分布式集群中，其运行任务的方式与（）类似。A.HDFSB.HBaseC.HadoopD.Zookeeper二、填空题（20题，每题1分，共10分）21、链接分为：。22、JDK下解释执行Java的程序是。23、是客户端需要执行的一个工作单元。24、HDFS在设计上采取了多种机制保证在硬件出错的环境中实现数据的。25、HDFS不适合用在的应用场合。26、HDFS集群中只有唯一一个名称节点，该节点负责所有的。27、Map的输出结果首先被写入。28、磁盘包含机械部件，它是通过和来寻址定位数据。29、Shuffle优化的原则是给Shuffle过程尽可能多的。30、ZooKeeper允许分布式进程通过共享的相互协调。31、分布式应用正在运行的一组系统称为。32、ZooKeeper类通过其构造函数提供功能。33、Hive中创建的目的就是在查询一个表中某列值时提升速度。34、使用命令可以创建一个指定名字的表。35、WHERE子句是一个。36、HBase主要用来存储和的松散数据。37、在HBase中执行操作时，并不会删除数据旧的版本。38、服务器负责存储和维护分配给自己的。39、Storm可以用来实时处理新数据和。40、Topology中每一个计算组件都有一个执行度。三、判断题，正确填“T”，错误填“F”（20题，每题1分，共20分）41、Hive本地模式和远程模式，最关键的差别是存储元数据的mysql数据库的安装位置是在本地还是在远端。（）42、Hive数据类型中date类型是与时区无关的类型。（）43、Hive数据类型中，Timestamp类型是与时区无关的类型。（）44、Hive中的表，对应hdfs中文件的目录。（）45、外部表和内部表的差别，只是需要添加External关键词就可以了。（）46、删除外部表，只会删除外部表的元数据信息，并不会将外部表的数据删除。（）47、删除外部表，会同时删除外部表的数据和元数据。（）48、在Hive中，执行分桶操作，具体哪个值，分到哪个桶中，可以通过对数据进行Hash运算取得。（）49、HBase是一套高性能的分布式数据集群，必须在大型机或者高性能的服务器上进行搭建。（）50、HBase是Apache的Hadoop项目的子项目，利用HadoopHDFS作为其文件存储系统，适合于非结构化数据存储。（）51、MapReduce程序可以直接读取HBase内存储的数据内容。（）52、HBase系统适合进行多表联合查询以及复杂性读写操作。（）53、Hadoop是IBM公司开发的一款商用大数据软件。（）54、Hadoop是一个能够对大量数据进行分布式处理的软件框架，能够处理PB级数据。（）55、Hadoop存储系统HDFS的文件是分块存储，每个文件块默认大小为32MB。（）56、HDFS系统为了容错保证数据块完整性，每一块数据都采用2份副本。（）57、HDFS系统采用NameNode定期向DataNode发送心跳消息，用于检测系统是否正常运行。（）58、用户可以通过”hadoopfs–put”命令获取远端文件数据。（）59、Nagios不可以监控Hadoop集群，因为它不提供Hadoop支持（）。60、Ganglia不仅可以进行监控，也可以进行报警（）。四、简答题（6题，每题5分，共30分）61、试论述实现矩阵向量乘法与矩阵乘法采用不同MapReduce策略的原因。62、试论述HBase的三层结构中各层次的名称和作用。答：63、Storm集群中的Master节点和Work节点各自运行什么后台进程？这些进程又分别负责什么工作？答：64

人人文库> 全部分类> 办公材料 > 演讲稿件

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《大数据平台搭建与配置管理》期中试题试卷及答案2套AB卷

文档简介

温馨提示

最新文档

评论

《大数据平台搭建与配置管理》期中试题试卷及答案2套AB卷

文档简介

温馨提示

最新文档

评论

相关文档