2023年hadoop常见笔试题答案

上传人：夫*** IP属地：北京上传时间：2023-02-03 格式：DOC 页数：10 大小：49.50KB 积分：12 举报 版权申诉

已阅读5页，还剩5页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

Ｈadoop测试题一.填空题，1分（41空），2分（４２空）共12５分(每空1分)datａｎｏde负责HDFS数据存储。(每空1分)HＤFS中的blocｋ默认保存3份。(每空１分)ResourｃeMaｎager程序通常与ＮameNode在一个节点启动。(每空1分)ｈadoop运营的模式有：单机模式、伪分布模式、完全分布式。(每空1分)Hadoｏp集群搭建中常用的4个配置文献为:ｃoｒｅ-site．ｘml、hｄfs-site.xml、ｍａpred-sitｅ.ｘml、yａrn－siｔe.xml。(每空２分)HDFS将要存储的大文献进行分割，分割后存放在既定的存储块中,并通过预先设定的优化解决,模式对存储的数据进行预解决,从而解决了大文献储存与计算的需求。(每空2分)一个ＨDFS集群涉及两大部分,即namenode与datanode。一般来说，一个集群中会有一个namenode和多个dataｎoｄｅ共同工作。（每空２分)nameｎｏde是集群的主服务器,重要是用于对HDFS中所有的文献及内容数据进行维护，并不断读取记录集群中daｔａnode主机情况与工作状态，并通过读取与写入镜像日记文献的方式进行存储。(每空２分)datanode在HDFＳ集群中担任任务具体执行角色,是集群的工作节点。文献被提成若干个相同大小的数据块，分别存储在若干个ｄatａnode上,datanode会定期向集群内ｎameｎoｄe发送自己的运营状态与存储内容,并根据namnode发送的指令进行工作。（每空2分）namenoｄe负责接受客户端发送过来的信息,然后将文献存储位置信息发送给cｌｉent,由clieｎt直接与datanode进行联系,从而进行部分文献的运算与操作。(每空１分)bｌock是HDFS的基本存储单元，默认大小是12８M。(每空1分)ＨDFS还可以对已经存储的Bｌock进行多副本备份，将每个Bｌｏcｋ至少复制到３个互相独立的硬件上,这样可以快速恢复损坏的数据。(每空2分)当客户端的读取操作发生错误的时候，客户端会向ｎａmenoｄe报告错误，并请求ｎamenode排除错误的datａnode后,重新根据距离排序，从而获得一个新的的读取途径。假如所有的ｄatanｏｄe都报告读取失败，那么整个任务就读取失败。(每空2分）对于写出操作过程中出现的问题，FSDatａOｕｔpuｔＳtrｅａm并不会立即关闭。客户端向Namｅnode报告错误信息,并直接向提供备份的dａｔanodｅ中写入数据。备份ｄaｔaｎode被升级为首选daｔａｎode,并在其余２个daｔanoｄｅ中备份复制数据。NａmｅNode对错误的ＤａｔａNｏde进行标记以便后续对其进行解决。(每空1分)格式化ＨDFS系统的命令为:hｄfsｎamｅnode–forｍaｔ。(每空1分)启动ｈdfs的shell脚本为:stａrt-dｆs.sh。（每空１分)启动yａrn的shｅll脚本为：staｒｔ－ｙarｎ．ｓh。(每空１分）停止hdfs的shell脚本为：ｓｔop-dfs.sh。(每空1分）hadoop创建多级目录(如:/a/b/c）的命令为:ｈadｏoｐｆｓ–ｍkｄｉr–ｐ/a/b/c。(每空1分)ｈadooｐ显示根目录命令为：hａdoopｆｓ–lsr。(每空1分)ｈadｏoｐ包含的四大模块分别是:Hadｏｏpcommon、HDFＳ、Mａpｒeduｃe、yarn。(每空1分)namenode默认的WebUI访问端标语为:50070。(每空1分）RｅsourceＭanａｇer默认的WebUI访问端标语为:8０88。(每空1分)historySｅrver默认的WebUI访问端标语为:1988８。(每空1分)修改blocｋsize大小的属性是:dfs.blocｋsｉze，在hｄfs-ｓｉtｅ.xｍl配置文献里。(每空1分)HＤFS中naｍenode的RPC端标语为：8０21,其作用是:接受Clienｔ连接的RPC端口,用于获取文献系统ｍetadaｔａ信息。(每空2分）Mapｐｅr类中有4个函数。(每空1分)默认NameNoｄe周期性从DaｔaNode接受心跳信号的时间间隔为:3s。(每空1分)haｄoop集群默认机架感知是启用的。是否对的：错误。(每空2分)HａdoopMap/RedｕcｅShufflｅ过程:iｎputspｌiｔ－－>ｍap函数—＞内存缓冲区Parｔitionsortcombineｓpill--＞mａp端mergｅ-->redｕce端copｙ—>meｒｇeｒedｕce函数。(每空2分）一个NodeManager可以同时运营最大reduce任务数（默认）：2。(每空2分）默认情况下，一个同时运营了namenode,secondaｒynａmｅnode和RｅsourceManａger的主节点,所使用的内存容量为3０00M。（每空2分）Ｈadooｐ集群中有三种作业调度HYPEＲLINK""＼o"算法与数据结构知识库"＼t＂_ｂlａnk＂算法,分别为FＩFO调度，计算能力调度和公平调度。(每空1分)HA产生的背景是：为了解决单NN也许出现宕机导致集群不可用或数据丢失的问题。(每空1分)通过Zｏokeｅpeｒ管理两个或者多个ＮaｍｅNｏde,使一个NameNｏdｅ为acｔiｖe状态,并且同步每个ＮN的元数据,假如actｉｖe状态的ＮN宕机后立即启用状态为ｓｔandbｙ状态的备用节点。(每空1分)ｊob是客户端需要执行的一个工作单元。(每空1分)Ｈadoop将作业提成若干个ｔａsk来执行,其中涉及：maptaｓk和rｅｄucetaｓk。（每空２分)coｍbiner是通过Reducer类来定义的。(每空２分)map任务将其输出写入到本地磁盘。(每空2分)rｅｄｕｃｅ的输出通常存储在HDＦＳ中以实现可靠存储。(每空２分)HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和。(每空2分)序列化用于分布式数据解决的两大领域为：进程间通信和永久存储。(每空2分）hadoｏp使用自己的序列化格式为：Ｗritable。二．简答题,3分(１7题)，５分（5题）共75分(3分)简要描述如何安装配置apacｈｅ的一个开源hadoｏp,只描述即可,无需列出具体环节，列出具体环节更好。答:1使用roｏt账户登录2修改IP3修改hｏｓt主机名4配置SSH免密码登录5关闭防火墙６安装JDK7解压ｈaｄoop安装包8配置ｈａdoop的核心文献haｄooｐ－eｎv.sh,core-sｉte.xml,mapred-site.ｘml,ｈｄfs－site.ｘｍl9配置ｈadｏop环境变量１0格式化hadoｏpnａmenｏde-formａt1１启动节点ｓｔarｔ－all.ｓh(3分）请列出正常的hadｏop集群中hａdoop都分别需要启动哪些进程,他们的作用分别都是什么,请尽量列的具体一些。答:namenｏde:管理集群,存储数据的原信息,并管理记录datanode中的文献信息。ｓｅcondarｙnamｅnode:它是nａmenode的一个快照,会根据confｉguｒａtioｎ中设立的值来ﻫ

决定多少时间周期性的去ｃp一下ｎameｎoｄe，记录naｍenode中的ｍetａdatａ及其它数据。Ｄatａnode：存储数据ReｓourceMａnager:ReｓｏｕrceManager负责集群中所有资源的统一管理和分派，它接受来自各个节点（NoｄeMaｎager)的资源报告信息，并把这些信息按照一定的策略分派给各个应用程序（事实上是ApplｉcaｔｉonＭａnageｒ)NｏdｅＭanager：是YＡＲN中每个节点上的代理,它管理HYＰEＲLINK＂"\ｏ"Hadoｏp知识库"＼t＂_ｂｌank＂Haｄoop集群中单个计算节点ﻩﻩ(3分)请写出以下的shell命令ﻩ（1）杀死一个job(2）删除ｈdｆs上的／tmp／aaa目录（３)加入一个新的存储节点和删除一个节点需要执行的命令答:（1)mapredjob-list得到job的id，然后执行mapredjob–ｋiｌｌjobId就可以杀死一个指定ｊobId的ｊob工作了。(2)haｄoopfs-rｍr/ｔmｐ/aaa或者hdfsdfｓ–rmr/tmp/aａａ(3）增长一个新的节点在新的节点上执行ﻩ ｈadoop－ｄaemoｎ．shｓtartdatanode 然后在主节点中执行hｄｆｓdfｓaｄmin-reｆrｅsｈＮoｄesﻩ删除一个节点的时候,只需要在主节点执行hdｆｓｄｆsadmｉn–refreshnodes（3分)请简述mapreduｃe中的combine和parｔitｉｏｎ的作用答:ｃomｂinｅr是发生在mａp的最后一个阶段，其原理也是一个小型的rｅduｃｅr，重要作用是减少输出到reduce的个数，减少rｅｄucer的输入,提高ｒedｕｃｅｒ的执行效率。Partｉtiｏn的重要作用就是指定输出到redｕｃe的个数的。（3分)hｄfs的体系结构答：HDFS采用了主从(Master/Slavｅ)结构模型，一个HＤFS集群是由一个NameNode和若干个DataNoｄe组成的。其中NａmeＮoｄｅ作为主服务器,管理文献系统的命名空间和客户端对文献的访问操作;集群中的DataNｏｄｅ管理存储的数据(3分)三个dａｔanode中当有一个ｄatａnoｄe出现错误时会如何？答：当有一个daｔaｎode出现错误的时候,nａmeｎode会将那个datanoｄｅ上的数据拷贝到其他的节点去进行存储。(3分)文献大小默认为６4M,改为1２8M有什么影响?答：更改文献的ｂlock块大小，需要根据我们的实际生产中来更改block的大小,假如blｏcｋ定义的太小,大的文献都会被切提成太多的小文献,减慢用户上传效率,假如blocｋ定义的太大，那么太多的小文献也许都会存到一个block块中,虽然不浪费硬盘资源，可是还是会增长nａmenｏde的管理内存压力。(3分)ＮａｍeNode与SeｃondarｙNameNode的区别与联系?答:secondａryＮameNode更像是Namenoｄe的一个冷备份,当nａmenｏｄe宕机之后,可以从SeｃondaryNａmｅnode上面恢复部分数据。（5分)在一个运营的hadooｐ任务中,什么是InpuｔSpｌｉt？答:ＩnpｕｔSpliｔ是MaｐReduce对文献进行解决和运算的输入单位,只是一个逻辑概念，每个ＩnpuｔSpｌit并没有对文献实际的切割，只是记录了要解决的数据的位置(涉及文献的pａth和hosts）和长度（由staｒt和lｅｎgth决定),默认情况下与block同样大。（３分)参考下列M/R系统的场景：ｈdfs块大小为6４MB，输入类为ＦｉｌeInputＦormａｔ,有3个文献的大小分别为64KB，６5MB,127MB，Haｄoop框架会把这些文献拆分为多少块？答：6４k-－---－-＞一个bｌｏck65ＭB-－－-＞两个文献：6４ＭＢ是一个blocｋ,1MB是一个bloｃk127ＭB－-->两个文献：64MB是一个blocｋ,６3ＭＢ是一个blｏck(5分）haｄooｐ中ReｃoｒｄReader的作用是什么?答:RecorｄerRｅader是一个接口,重要是用来读取文献的输入键值对的，我们也可以自定义输入的keｙ,ｖａlｕe对的读取规则。属于split和ｍａｐpeｒ之间的一个过程,将inpuｔspliｔ输出的行为一个转换记录,成为key－vａlｕe的记录形式提供应ｍａppeｒ(３分）Map阶段结束后,Hａdｏop框架会解决：Partitioｎinｇ,Sｈuｆflｅ和Sorｔ，在这几个阶段都发生了什么?答：Ｐartiｔion是对输出的keｙ，ｖalｕe进行分区,可以自定义分区，按照业务需求,将map的输出归分到多个不同的文献中将map的输出作为输入传给reducｅr称为sｈufｆｌeﻩsorｔ是排序的过程，将maｐ的输出,作为reduce的输入之前，我们可以自定义排序，按照kｅｙ来对map的输出进行排序(5分)假如没有定义partｉtioｎeｒ,那数据在被送达redｕcｅr前是如何被分区的?答：Partｉtiｏner是在ｍap函数执行cｏntｅxt.ｗｒite()时被调用。用户可以通过实现自定义的Ｐaｒtiｔｉoner来控制哪个kｅy被分派给哪个Ｒedｕcｅｒ。ｈaｄoop有一个默认的分区类，HａshPaｒtioer类，通过对输入的k２去hash值来确认maｐ输出的k２，ｖ2送到哪一个reduｃe中去执行。（3分)什么是cｏｍbｉｎer?答：combineｒ就是规约操作,通过对map输出的数量进行规约,可以减少reduｃe的数量,提高执行效率。coｍｂｉner的输入输出类型必须和ｍaｐｐｅr的输出以及redｕｃer的输入类型一致(3分)分别举例什么情况要使用ｃｏmｂiner，什么情况不使用？答：求平均数的时候就不需要用cｏmbinｅr,由于不会减少ｒeducｅ执行数量。在其他的时候,可以依据情况，使用ｃoｍbiner,来减少map的输出数量,减少拷贝到reducｅ的文献,从而减轻reｄｕce的压力,节省网络开销，提高执行效率(５分)简述Hadooｐ中ｒeplicａｔｉon（复本）放置策略?答：Ｈaｄooｐ的默认布局策略是在运营客户端的节点上放第一个复本;第二个复本放在与第一个不同且随机此外选择的机架中的节点上(离架）；第三个复本与第二个复本放在同一个机架上，且随机选择另一个节点。(5分)如何为一个hadoop任务设立mａpperｓ的数量？答：ｍap的数量通常是由ｈaｄｏop集群的DFS块大小拟定的，也就是输入文献的总块数,正常的map数量的并行规模大体是每一个Ｎode是1０~10０个，对于CPU消耗较小的作业可以设立Ｍａp数量为3００个左右,但是由于ｈａdoop的没一个任务在初始化时需要一定的时间,因此比较合理的情况是每个map执行的时间至少超过1分钟。具体的数据分片是这样的,InｐutＦormaｔ在默认情况下会根据hadoｏp集群的DＦS块大小进行分片,每一个分片会由一个mａp任务来进行解决,当然用户还是可以通过参数maｐred.mｉｎ.sｐｌｉt.siｚe参数在作业提交客户端进行自定义设立。尚有一个重要参数就是mapreｄ.map．tａskｓ,这个参数设立的map数量仅仅是一个提醒,只有当ＩnputFoｒmat决定了ｍap任务的个数比maprｅd．ｍaｐ.tasks值小时才起作用。同样,Ｍａp任务的个数也能通过使用JobConf的conｆ．setＮｕmMapTａｓｋs(inｔnuｍ)方法来手动地设立。这个方法可以用来增长ｍaｐ任务的个数，但是不能设定任务的个数小于Hadooｐ系统通过度割输入数据得到的值。当然为了提高集群的并发效率,可以设立一个默认的mａｐ数量，当用户的map数量较小或者比自身自动分割的值还小时可以使用一个相对交大的默认值,从而提高整体had

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2023年hadoop常见笔试题答案

文档简介

温馨提示

最新文档

评论

2023年hadoop常见笔试题答案

文档简介

温馨提示

最新文档

评论

相关文档