![Hadoop大数据平台构建与应用(第2版)(微课版) 习题及答案 马荣飞_第1页](http://file4.renrendoc.com/view11/M00/14/0C/wKhkGWeqxLyASZqZAAEWuBm0DKM228.jpg)
![Hadoop大数据平台构建与应用(第2版)(微课版) 习题及答案 马荣飞_第2页](http://file4.renrendoc.com/view11/M00/14/0C/wKhkGWeqxLyASZqZAAEWuBm0DKM2282.jpg)
![Hadoop大数据平台构建与应用(第2版)(微课版) 习题及答案 马荣飞_第3页](http://file4.renrendoc.com/view11/M00/14/0C/wKhkGWeqxLyASZqZAAEWuBm0DKM2283.jpg)
![Hadoop大数据平台构建与应用(第2版)(微课版) 习题及答案 马荣飞_第4页](http://file4.renrendoc.com/view11/M00/14/0C/wKhkGWeqxLyASZqZAAEWuBm0DKM2284.jpg)
![Hadoop大数据平台构建与应用(第2版)(微课版) 习题及答案 马荣飞_第5页](http://file4.renrendoc.com/view11/M00/14/0C/wKhkGWeqxLyASZqZAAEWuBm0DKM2285.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章习题【单选题】1、数据采集工具不包括(C)A、FlumeB、KafkaC、HbaseD、Sqoop2、关于数据的规范化的错误观点是(A)A、方便存储B、一般包括数据中心化和数据标准化C、是为了消除量纲对数据结构的影响D、一般是一个无量纲的纯数值3、在ETL三个部分中,花费时间最长的是(B)的部分。A、EB、TC、LD、以上全部4人社的据生式大经了个段不包。A、运营式系统阶段B、用户原创内容阶段C、互联网应用阶段D、感知式系统阶段答案:C2【单选题】以下哪个现象不属于大数据的典型特征:A、数据包含噪声及缺失值B、数据量大C、数据类型多D、产生速率高答案:A3【单选题】以下哪项不属于大数据思维的涵盖内容:A、从模型驱动到数据驱动B、通过采样的手段获取目标群体的统计特性C、数据就是生产资料D、全样本分析答案:B4【单选题】在思方方,是数据著响是 。A、样非样B、率非确C、储非算D、关非果答案:C5【单选题】下列于处计的。A、StormB、HiveC、SqoopD、Spark答案:D6【多选题】数据生式致历三个段包。A、移动互联网数据阶段BD7【多选题】人类会数产方大致历三阶,包括 。A、运营式系统阶段B、移动互联网时代C、感知式系统阶段D、互联网应用阶段答案:BD8【多选题】大数的征含 。A、据大B、据型多C、理度快D、价值密度低答案:ABCD9【多选题】大数对维式影包括 。A、全样而非抽样B、效率而非精确C、实践而非理论D、相关而非因果答案:ABD10【多选题】大数的算式括 。A、批处理计算B、图计算C、流计算D、查询分析计算答案:ABCD11【多选题】云计的型务式括 。A、平台即服务B、物联网即服务C、基础设施即服务D、软件即服务答案:ACD(2.0答案:×MapReduce(2.0答案:×第2章习题1、简述Ubuntu与Debian的关系2、安装Ubuntu需要哪些分区。3、简述apt的基本功能。4、简述Ubuntu的版本号命名规则,以Ubuntu16.04说明。前两位数字为发行时的年份年份的最后两位数字,后两位为发行的月份,中间以一个英文小数点隔开。例如现在ubuntu的最新版是16.04,则代表了是在2016年4月份发行的.========================第3章习题下面哪个Linux命令可以一次显示一页内容?(C)pausecatmoregrep怎样更改一个文件的权限设置?(B)attribchmodchangefile.下面哪条命令可以把f1.txt复制为f2.txt?(C)cpf1.txt|f2.txtcatf1.txt|f2.txtcatf1.txt>f2.txtcopyf1.txt|f2.txt5.BA.tac B.tail C.rear D.last7.如何在文件中查找显示所有以"*"打头的行?(D)find*filewc-l*<filegrep-n*filegrep‘^*’file7.在ps命令中什么参数是用来显示所有用户的进程的?(A)A.a B.b C.u x8./tmp?(B)A.del/tmp/* B.rm-rf/tmprm-Ra/tmp/* rm-rf/tmp/*二、多选题1、下命中,显文本件容命是ABCA.more B.less C.tail D.join2、给文中找定条相字串命不能用命(BC)A.grep B.gzip C.find D.sort3、vi编器有工模式要(BD)A.检模B.令式 C.读模D.入式4、法除件命(ABC)A.mkdir B.rmdir C.mv D.rm5BDA.tar-dzvffilename.tgzB.tar-tzvffilename.tgzC.tar-czvffilename.tgzD.tar-xzvffilename.tgz6(BD)A.grepB.locateC.moreD.find1、什么是shell,它有什么作用?2、管道有什么作用?在一条语句是否可连续使用管道。在一条语句中是可以连续使用管道,即“|”可在一条语句中出现多次。4章一、单选题1、hadoop是用以下哪一种语言编写的(C)C B.C++ C.ScalaHDFSA.次入少读 多写,次读C.多写,次读 一写,次读HDFS_(C)。A.NTFS EXT3SeURtUaltae(mapred-site.xmlB.core-site.xml Chdfs-site.xml5pE(A.hadoop-default.xml B.C.hadoop-site.xml D.configuration.xsl二、多选题1、Hadoop分布式平台技术核心架构包括的元素有(ABCD)A.Hive B.Zookeeper C.MapReduce 2、Hadoop的主要应用场景包括(ABD)A.像理 B.IT安全 C.银存储 诈检测三、判断题1HadoopIBM(X)解析:Hadoop是Apache公司旗下的分布式计算平台。2、Hadoop是基于Java语言开发的,具有很好的跨平台特性。(√)3HadoopHadoopJDK(X)四、简述题1、请描述一下hadoop适合与不适合的应用场景的基本特点。适合的场景包括的基本特点是:大文件;流数据访问,一次写操作,多次读操作;使用通用硬件,降低成本不适合的场景的基本特点是:低延迟数据访问;大量小文件存储;频繁的文件读写2、Hadoop是一个开源分布式计算平台架构,基于apache协议发布,由java语言开发,主要包括哪些生态技术。HDFS(分布式文件管理系统)MapReduce(分布式计算框架)Hive(基于Hadoop的数据仓库)Pig(基于Hadoop的数据流系统)HBase(一个分布式面向列的数据库)Spark(快速和通用计算的Hadoop数据引擎)ZooKeeper(分布式协作服务)MahoutFlumeSqoopAmbari5章一、单选题1BlockDataNodeNoe块(A.Client B.Namenode C.Datanode D.Secondarynamenode2S((知识点:在HDFS的一个文件中只有一个写入者,而且写操作只能在文件末尾完成,即只能执行追加操作。默认三份文件块两块在同一机架上,另一份存放在其他机架上。)A.支多户同件的操作 B.用可在件位置行改C.默将件复制三份放 D.制文块认存在一架上3Naene(A.安全模式目的是在系统启动时检查各个DataNode上数据块的有效性B.根据策略对数据块进行必要的复制或删除C.当数据块最小百分比数满足的最小副本数条件时,会自动退出安全模式D.文件系统允许有修改4下哪程通不与NaNoe在个点动?(AA.SecondaryNameNode B.DataNodeC.resourcemanager D.nodemanager5SCA.NameNode B.C.DataNode secondaryNameNode6276S默认Blckie(CA.32MB B.64MB C.128MB 256MB二、多选题1、HDFS无法高效存储大量小文件,想让它能处理好小文件,比较可行的改进策略不ACA.用SequenceFile、MapFile、Har方归小件 B.多Master设计C.Block大小适当调小D.调大NameNode内存或将文件系统元数据存到硬盘里2、关于SecondaryNameNode哪项是不正确的?(ABD)NameNodeNameNodeNameNodeSecondaryNameNodeNameNode3pADA.DataNode B.NameNode C.4pAB。A.单(地模式 B.分式式 C.联式 布模式三、答题1、HDFS是如何实现容错机制的?如果DataNode出现故障会怎么样?HDFSHDFS时,HDFS下,HDFS3DataNode挂了NaNoeNoe(ae运行常。块报告包含DataNode上所有块的列表。如果一个DataNode发送心跳消息失败,则在特定时间段后将其标记为死亡。NameNode使用之前创建的副本将死节点的块复制到另一个DataNode2、简述Hadoopfs和Hadoopdfs的区别其一,fs是文件系统,dfs是分布式文件系统;其二,fs>dfs:分布式环境情况下,fs与dfs无区别,可以通用;但仅有本地环境的情况下,fs就是本地文件,dfs就不能用了。6章一、单选题1、HBase依靠(A)存储底层数据。A.HDFS B.Hadoop C.Memory MapReduce2、HBase来源于哪一项(C)?A.TheGoogleFileB.MapReduce C.Chubby3、解压.tar.gz结尾的HBase压缩包使用的Linux命令是?AA.tar-zxvf B.tar-zx C.tar-s tar-nf4Baes是表名(。A.updatexiaoming’setinfo.age=1 B.updateC.putput5BaelA.deletefromB.deletetablefrom‘xiaoming’C.deletealldeleteall‘xiaoming’6BaelA.selectcount(0)from‘users’ B.sum‘users’C.count‘users’ ‘users’7、下面对HBase的描述哪些是不正确的(A)?A.是源的 B.面列的 C.是布的 是种NoSQL据库8、下列哪些选项是安装HBase前所必须安装的(B)?A.Scala B.JDK C.ShellScript JavaCode二、判断题1、HBase是一套高性能的分布式数据集群,必须在大型机或者高性能的服务器上进行搭建。(正确)A.正确B.错误2、HBase是Apache的Hadoop项目的子项目,利用HadoopHDFS作为其文件存储系统,适合于非结构化数据存储。(A)A.正确B.错误3、MapReduce程序可以直接读取HBase内存储的数据内容。(A)A.正确B.错误4deleteHBase(B)A.正确B.错误5、使用Shell命令insert对HBase中的一张表进行数据添加操作。(B)A.正确B.错误6ShellHBase(A)A.正确B.错误7、HBase系统适合进行多表联合查询以及复杂性读写操作。(B)A.正确B.错误8、HBase允许创建空表,不需要建立列簇。(B)A.正确B.错误三、简答题1、试述HBase主服务器Master和Region服务器的功能组建及其作用。HBase由一个主服务器Master和许多Region服务器支持实现。主服务器Master主要负责表和Region的管理工作:管理用户对表的增加、删除、修改、查询等操作;实现不同Region服务器之间的负载均衡;在Region分裂或合并后,负责重新调整Region的分布;对发生故障失效的Region服务器上的Region进行迁移。Region服务器是HBase中最核心的模块,负责维护分配给自己的Region,并响应用户的读写请求。2、请阐述HBase的数据分区机制,说明分区是如何定位的。HBaseRegionRegionRegiondeRegionRegionRegionRegionRegion7章一、单选题1下说错的。A.Map函数将输入的元素转换成<key,value>形式的键值对B.Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写C.不同的Map任务之间不能互相通信D.MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave2、HBase依赖(D)提供强大的计算能力。A.B.Chubby C.RPC MapReduce3、在使用MapReduce程序进行词频统计时,对于文本行“goodbookdatMpA。A、<“good”,1>、<“good”,1>、<“book”,1>和<“man”,1>B、<“good”,1,1>、<“book”,1>和<“man”,1>C、<“good”,<1,1>>、<“book”,1>和<“man”,1>D、<“good”,2>、<“book”,1>和<“man”,1>4在频计,于本行"goodbookgoodman",过的Reduce函数处后结是 B 。A、<“good”,2><“book”,1><“man”,1>B、<“book”,1><“good”,2><“man”,1>C、<“good”,1,1><“book”,1><“man”,1>D、<“book”,1><“good”,1><“good”,1><“man”,1>5关于HadoopMapReduce叙错的D 。A、MapReduce采用“分而治之”的思想B、MapReduce的输入和输出都是键值对的形式C、MapReduce将计算过程划分为Map任务和Reduce任务D、MapReduce的设计理念是“数据向计算靠拢”6HadoopMapReduce算的程A 。A、Map任务—Shuffle—Reduce任务B、Map任务—Reduce任务—ShuffleC、Reduce任务—Map任务—ShuffleD、Shuffle—Map任务—Reduce任务7编写MapReduce时,列述误是 D 。A、reduce函数所在的类必须继承自Reducer类B、map函数的输出就是reduce函数的输入C、reduce函数的输出默认是有序的D、启动MapReduce进行分布式并行计算的方法是start二、多选题1Medue(AMapReduceMapReducegoogleMapReduceJavaMapReduce2、MapReduce与HBase的关系,哪些描述是正确的?(B、C)A两者不可或缺,MapReduce是HBase可以正常运行的保证B两者不是强关联关系,没有MapReduce,HBase可以正常运行CMapReduce可以直接访问HBaseD它们之间没有任何关系3对MapReduce的结构以说正的。A、分布式编程架构B、以数据为中心,更看重吞吐率C、分而治之的思想D、将一个任务分解成多个子任务答案:ABCD4、MapReduce了证务的常行采用 等种错制。A、重复执行B、重新开始整个任务C、推测执行D、直接丢弃执行效率低的作业答案:AC5关于MapReduce的shuffle过,叙正的。A、Shuffle分为Map任务端的Shuffle和Reduce任务段的ShuffleB、Map任务的输出结果不是立即写入磁盘,而是首先写入缓存C、并非所有场合都可以使用合并操作DReduceMap三、简答题1、MapReduce的Shuffle过程包含了哪几个阶段,分别做了什么工作?Shuffle的数据量是由什么决定的?map端shuffle过程如下:splitpartition3)写入环形内存缓冲区4)spill,执行溢出写5)归并reduce端shuffle过程如下:1)复制copy2)归并merge3)reduce2、试述Map和Reduce两部分之间的编程联系MapReduce程序主要由Map和Reduce两部分组成。Reduce阶段在Map阶段执行结束之后执行。Map阶段的输出结果作为Reduce阶段的输入结果。Reduce阶段的输入结果对应于多个Map的输出结果。Reduce阶段计算最终结果并将结果输出。8章一、判断题1、HiveHDFS(2、Hive有专门的数据存储格式,为数据建立专门索引。(错)3、Hive中包含的数据模型有:表(Table),外部表(ExternalTable),分区(Partition(Bucket(4、Hive每一个Table在Hive中都有一个相应的目录存储数据。(对)5、Hive将元数据存储在其自身的数据库中。(错)6、Hive所有的数据查询由MapReduce完成。(错)7、HiveQL语句转换为MapReduce作业提交到Hadoop集群,将执行结果呈现给用户。(对)8、Hive定义了简单的类SQL查询语言,称为HiveQL(简称HQL),可以通过类SQLMapReduceMapReduce(hiveHivehive-site.xml<property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value><description>JDBCconnectstringforaJDBCmetastore</description></property><property><name>javax.jdo.option.ConnectionUserName</name><value>hive123</value></property><property><name>javax.jdo.option.ConnectionPassword</name><value>hive1234567</value></property>HiveHiveMySQLhive123;hive12345679章一、单选题1、Hive数据仓默认的存放位置是(A)。A、/user/hive B、/user/hive/warehouseC、/user/hive/default D、/user/default2、查询表中数据时,去除重复列,使用关键词(C)。A、limit B、unique C、distinct D、stinct3、selectif(2<1,100,200)fromstudentlimit1的返回值是(B)。A、100 B、200 C、D、提示:if(2<1,100,200)相当于一个三目运算。limit1则表示找到一条记录就不再继续扫描。4、对查询出的数据进行排序时,使用关键词(B)指定为降序。A、asc B、desc C、esc D、des5、创建Hive数据库可以使用(B)hql语句。A、createdatabases B、createdatabaseC、adddatabase D、adddatabases6、在Hive中从一个数据库切换到另一个数据库,使用关键词(A)。A、use B、change C、get D、uses7、Hive中直接删除非空数据表,可以添加关键词(C)。A、limited B、terminated C、cascade 8、创建Hive数据表时,指定字段之间的分割符号,需要使用(B)。A、fieldsterminatedB、rowformatdelimitedfieldsterminatedbyC、mapkeysterminated D、collectionitemsterminatedby10章一、单选题1、akecr(A.Driverprogram B.sparkmaster C.node Clustermanager2、下面哪个不是RDD的特点(C)A.分区 B.序化 C.可改 可久化3、Spark的集群部署模式不包括(D)A.standalone B.sparkonmesos C.sparkonLocal4关于SparkSQL,以述错的( )SparkSQLRDDSpark,DataFrameSchemaRDDDataFrameRDDDataFrameRDDA5、DataFrame和RDD最大的区别(B)schema6关于的,以描错的( )SparkDataFrameDataFrameDataFrameRDD参考答案:D7将个RDD换为DataFrame的方是( )A.dataFrame() B.toDataFrame() C.DF() toDF()参考答案:D8、SparkSQL可处的据源括( )A.Hive表 B.Hive、据件C.Hive、据件RDD Hive、据件RDD、部据库参考案:D9下选中针对Spark运的本程个法是误( )DriverMasterMasterExecutorExecutor启动会主动连接Driver,通过->从而得到Driver在哪DriverExecutorB10、列法,能建RDD方是?( )A.makeRDD B.parallelize C.textFile testFile参考答案:D11、列项,个属于换子作?( )A.filter(func) B.map(func) C.reduce(func) reduceByKey(func)参考答案:C二、多选题1、Hadoop框架的缺陷有(ABC)A.表达能力有限,MR编程框架的限制B.过多的磁盘操作,缺乏对分布式内存的支持C.无法高效低支持迭代式计算D.海量的数据存储2、可以作为Spark编程语言的有(ABD):A.Java B.Scala C.Ruby D.Python3、与hadoop相比,Spark主要有以下哪些优点(ABCD)A.提供多种数据集操作类型而不仅限于MapReduceB.数据集中式计算而更加高效C.提供了内存计算,带来了更高的迭代运算效率D.基于DAG的任务调度执行机制4、YARNYARN(ABCD)A.算源需B.同载用搭群利C.享层储避据跨群D.大低运成5、spark的特点包括(ABD)A.B.C.延D.容6、Sparkdriver的功能是什么(ABD)A.作的进B.责作的C.责向HDFS申资源 D.责业解7、SparkContext可以从哪些位置读取数据(ACD)A.本磁B.web C.hdfs D.内8、RDD有哪些缺陷?(AD)A.支细度写新操(网爬虫B.于存计C.有schema信息 D.支增迭计9、要读取people.json文件生成DataFrame,可以使用下列那些命令(AC)A.spark.read.json("people.json")B.spark.read.text("people.json")C.spark.read.format("json").load("people.json")D.spark.read.format("csv").load("people.json")10、SparkSQL支持读取那些类型的文件(ABC)A.textB.jsonC.parquetD.DOC11、从RDD转换得到DataFrame包含两种典型的方法,分别是(AB)A.利反机断RDD模式 B.使编方义RDD模C.利投机断RDD模D.利互网制断RDD模式12、关于DataFrame与RDD在结构上的区别,以下描述正确的是(ABD)A.DataFrameRowB.RDDJavaC.RDDD.DataFrame提供了比RDD更丰富的算子13、流计算的处理流程(BCD)A.实数存B.实数计C.实查服D.实数采集14、SparkStreaming的基本输入源有哪几种(ACD)A.件B.kafka C.接D.RDD列15、MLlib包括(ABCD)A.类B.类C.征D.计16、下面关于SparkMLlib库的描述正确的是(AC)A.MLlib1.2spark.mllibspark.mlB.spark.mllibDataFrameAPIC.spark.mllib包含基于RDD的原始算法APID.spark.ml则提供了基于RDD的、高层次的API17(AASparkStreaming BFlink CStorm DSparkSQL18、列于RDD转算子是AgroupByKey() Breduce() CreduceByKey() Dmap()参考答案:ACD19、列于RDD行算子操)是Acount() Bfirst() Ctake() Dfilter()参考答案:ABC三、判断题1.standalone(集群模式)典型的Mater/slave模式,Spark支持ZooKeeper来实现HA2.构造数据Schema模式不可以添加数据的列名称。(错误)3.SparkStreaming并不支持RDD的所有算子。(错误)4.Pipeline被设计用来管理一系列的阶段,每一个阶段都由PipelineStage来表示。(正确)5.SparkMLtransformerstransformer(正确四、简答题1、试述如下Spark的几个主要概念:RDD、DAG、阶段、分区、窄依赖、宽依赖。答:①RDD:是弹性分布式数据集(ResilientDistributedDataset)的英文缩写,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。②DAG:DirectedAcyclicGraph()RDD③阶段:是作业的基本调度单位,一个作业会分为多组任务,每组任务被称为“阶段”,或者也被称为“任务集”。④分区:一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合,每个RDD可以分成多个分区,每个分区就是一个数据集片段。⑤窄依赖:父RDD的一个分区只被一个子RDD的一个分区所使用就是窄依赖。⑥宽依赖:父RDD的一个分区被一个子RDD的多个分区所使用就是宽依赖。2、SparkRDD行动Acto转换Trasfomaton11章一、单选题1、在Linux虚拟机中获取计算机网卡名称可使用(B)A.ipconfig B.ifconfig C.interfaces D.networkingrestart2、在Ubuntu虚拟机机中主机名保存在文件(C)中。A./home/hostname B./etc/name C./etc/hostname D./home/name3、ssh服务端的进程名为(D)A.openssh B.openssl C.ssh D.sshd4、SSH的默认端口是(C)A.2222 B.33 C.22 D.33335、利用远程机的用户登录正确的方法是(A)A.sshomd@00 B.ssh00C.ssh00::22 D.ssh00@omd二、多选题1、在/etc/hosts文件中建立“04slave1”地址映射后,远程复制文件的正确语句是(AD)A.scp~/.ssh/authorized_keysslave1:~/.ssh/authorized_keysB.cp~/.ssh/authorized_keysslave1:~/.ssh/authorized_keysC.cp~/.ssh/authorized_keys04:~/.ssh/authorized_keysD.scp~/.ssh/authorized_keys04:~/.ssh/authorized_keys2、Vmware虚拟机中虚拟网卡有哪些连接方式A.接B.地C.NAT模式 D.主模3、在vmware拟中:vmnet0对(A);vmnet1应(C);vmnet8对应(D)A.接B.地C.NAT模式 D.主模三、简答题1、简述桥接模式和NAT模式之间的区别IPNAT2AB1)使用ssh-keygen-tRSA功能在A、B主机分别创建秘钥;2)使用mv命令分别修改A、B主机公钥文件名称为A.pub和B.pub3)通过scp命令将A.pub和B.pub汇集到A或B主机4)形成许可证文件,通过cat~/.ssh/A.pub>>~/.ssh/authorized_keys和cat~/.ssh/B.pub>>~/.ssh/authorized_keys5)authorized_keys、B6)SSHASSHB12章(一)单选题1、Zookeeper角色分配不包括(B)A.Observer B.protecter C.leader D.follower2、ZookeeperShell命中可显节详信的命是(A)A.getB.setC.create D.stat3、zookeeper配置文件是(B)。A.core-sit.xml B.zoo.cfg C.Hadoop-env.xml D.dfs-sit.xml4、zookeeper集群使用的协议(C)。A.HTTP/IPB.WEBC.ZABD.ORACLE协5、zokeeer(CA.B.C.3 D.二、多选题1、zookeeperShell命令有哪些(ABCD)。A.Create B.Delete C.set D.get2、zokeeer集启在Mater服器入JS命令有些CDA.Namenode B.Datanode C.QuorumPeerMain D.HMaster3、下列属于zookeeper集群命令有哪些(ABD)A.zkServer.shstart B.zkServer.shstatus C.zkServer.shrestart D.zkServer.shstop4、zookeeper服务器有哪几种状态(ABCD)。A.竞状B.随状C.观状D.领者三、简答题1、根据自己的理解,回答ZooKeeper是什么,能用来做什么?答:ZooKeeper是一个分布式协调系统,为分布式服务提供一致性。可以用来做注册中心,分布式锁,Master选举,数据的发布与订阅等,其实质是实现了一个具有多层级的节点znode命名空间,每个节点都可以存放数据文件系统。2、简述ZooKeeper选举机制。答:ZooKeeperServiceIdidid;Zxid事务id,服务器中存放的最大数据id,越大越新;Epoch逻辑时钟-投票轮数,递增的。根据这个知道是哪一轮的投票;Server选举状态looking选举中leadingfollowingobserving不参与投票。ZooKeeper1)启动,先判断集群是否已经有leader了,如果有,就直接作为follower启动;2)如果处于选举状态,每台机器都在第一轮会投票给自己,并且获取其他机器的投票信息;3)收集到投票信息后,每台机器根据信息,先判断epoch,轮次大的胜出,然后选举zxid最大的,如果zxid一样大,选举serviceid最大的,并发起第二轮投票;4)如果超过半数的选票决出leader,选举结束,各个机器更改自己相应的状态否则重复第3步。14章单选题1ActieNaNo(AN和ayNaeN()DN(3s,10m)DNblock汇报DN信息2、关于JournalNode(JN)描述不正确是(C)QuorumJournalNodeManager(QJM)NameNode;ANNJournalNode;JournalNodeNameNodeSNN()QJM3、关于FailoverController(ZKFC:故障转移控制器)说法正确的是(B)A.当集群启动时,主备节点的概念是很模糊的,当ZKFC检查到任意一个节点是健康状态,直接将其设置为主节点。zkfcNNZKFCHANN。4、Hadoop和Hadoop生态圈的描述中,正确的是()HadoopHadoopHadoopHadoopHadoopHadoopHadoopZooKeeper、Flume、RedisHive、Flink等HadoopHadoop解析A.错误,Hadoop生态圈是指Hadoop框架及其保证其正常高效运行的其他框架B.正确C.错误,Redis、Flink不是D.错误,Hadoop生态圈含义大于Hadoop5、在Hadoop集群的配置文件中有如下两个配置,请问假如集群中有一个节点宕机,主节点namenode需要多长时间才能感知到()<property><name>erval</name><value>3</value></property><property><name>erval</name><value>2000</value></property>26秒34秒30秒20秒解析erval:datanode会按照此间隙(单位s)向namenode发送心跳,默认发送10次。erval:namenode按照此间隙(单位ms)检查datanode的相关进程,默认检查2次。HDFS集群掉线超时时长的计算公式是:timeout=10*erval+2*erval/1000接下来代入参数,套着公式进行计算10*3+2*2000/1000=34秒6eeerN)A.两台NN启动后都会去zk(zookeeper)进行注册,zk会分配主节点(Active)和备节点aB.主NN对外提供服务,备NN同步主NN元数据,以待切换,通过集群JN(JournalNode)。备用NN也会帮助主NN合并editsLog文件和fsimage产生
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年企业策划经理聘请合同协议书
- 2025年仿真绿植租赁协议
- 2025年合作协议确保
- 2025年古建筑维护加固项目协议范本
- 2025年租赁住宅策划权益优化协议
- 2025年住宅室内设计委托施工合同
- 2025年专有装饰优化协议书
- 2025年长期派遣工劳动合同范文
- 2025年创新成果转化与股权投资协议指南
- 2025年新版重型货车租赁协议
- 2024-2029年中国限幅器芯片行业市场现状分析及竞争格局与投资发展研究报告
- 医疗器械市场规划
- 安徽省合肥市庐阳区评价2023-2024学年六年级下学期小升初数学模拟试卷+
- 2024年3月山东省直监狱类面试题及参考答案全套
- 新产品研发工作总结汇报
- pi粉末成型工艺
- Optix-OSN3500智能化光传输设备业务配置手册范本
- swagelok管接头安装培训教程
- 公墓管理考核方案
- 把子肉店创业计划书
- 综合楼装修改造项目 投标方案(技术方案)
评论
0/150
提交评论