hadoop常见笔试题答案_第1页
hadoop常见笔试题答案_第2页
hadoop常见笔试题答案_第3页
hadoop常见笔试题答案_第4页
hadoop常见笔试题答案_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精选的文件Hadoop测试问题1 .填补问题,1分(41空),2分(42空)的订正125分datanode (每个空白点)负责HDFS数据存储。2 .默认情况下,HDFS block (每隔1分钟可用)保存3份。3.(每隔1分钟可用)资源管理器程序通常在与NameNode相同的节点上启动。4.(每个空闲点) hadoop操作的模式是独立模式、伪分散模式和完全分散。5 .构建Hadoop群集时经常使用的四个配置文件是core-site.xml和hdfs-site.xml、映射站点. XML、yarn站点. XML。6.(每2分钟空闲)分割HDFS蓄积的大文件,分割后保存在既定的存储器块中,通过预

2、先设定的优化处理,在模式下对蓄积的数据进行预处理,解决了大文件的蓄积和纠正运算的需要。7 .一个HDFS群集(每隔两分钟可用)包含namenode和datanode两大部分。 通常,一个namenode和多个datanode在一个群集中协同工作。8.(每2分钟空闲) namenode是集群的主服务器,主要维护HDFS的所有文件和内容数据,不断读取记录集群的datanode主机的状态和动作状态,镜像日志文件的读取和写入9.(每2分钟空闲时间) datanode在HDFS群集中负责执行任务的具体角色,是群集的工作节点。 文件被分割为相同大小的数据块,每个块存储在多个datanode中,datano

3、de定期向群集中的namenode发送自己的运行状态和存储内容,并按照来自namnode的命令进行运行。10.(空闲每2分钟) namenode接收从客户端发送来的信息,将文件存储位置信息发送给客户端,从客户端直接与datanode取得联系,进行部分文件的运算和操作。11.(空闲每分钟) block是HDFS的基本存储单元,默认大小为128M。12.(每隔一分钟可用) HDFS还可以多副本备份已存储的Block,并至少复制每个Block三个独立的硬件可以快速恢复损坏的数据。13 .如果客户端读取操作发生错误(每2分钟可用),客户端将向namenode报告错误,请求namenode排除有错误的d

4、atanode,然后按距离排序,以获取新的读取路径。 如果所有datanode都报告读取失败,则整个任务将失败。14.fsdata output stream不会立即关闭写入操作期间遇到的问题(每2分钟可用)。 客户端向Namenode报告错误消息,并将数据直接写入提供备份的datanode。 备份程式datanode升级到首选datanode,并将复制数据备份到两个其他datanode。 NameNode标记了错误的DataNode,以便以后处理。15.hdfsnamenode-format是用于格式化HDFS系统的命令(每隔一分钟可用)。16.(每分钟)启动hdfs的shell脚本是sta

5、rt-dfs.sh。17.(每分钟)启动yarn的shell脚本是start-yarn.sh。18.(每分钟)停止hdfs的shell脚本是stop-dfs.sh。19.Hadoop创建多级目录(例如,/a/b/c )的命令是hadoopfs-mkdir-p/a/b/c。20.Hadoop显示根命令(每隔一分钟可用)是hadoopfs-lsr。21.(每个可用点) hadoop中包括的四个大模块分别是hadoop公用、HDFS、Mapreduce和yarn。22.(每分钟) namenode的默认WebUI访问端口号为50070。23 .资源管理器的默认WebUI访问端口号为8088 (每隔1

6、分钟可用)。24.history server的默认WebUI访问端口号为19888 (每隔一分钟可用)。25 .更改块大小的属性(每分钟)位于hdfs-site.xml配置文件的dfs.blocksize中。26.HDFS的namenode的RPC端口号(每隔一分钟可用)是: 8021,用于接收客户端连接的RPC端口并获取文件系统的元数据信息。27.(每空闲2分钟) Mapper类有4个函数。28.(每分钟)缺省NameNode周期性地从DataNode接收心跳信号的时间间隔为3s。29 .已为hadoop群集启用默认机架准备(每隔一分钟可用)。 正确与否:错误。30.(每隔2分钟可用)硬件

7、映射/降级安全过程:输入剥离- -映射函数-内存缓冲区partitionsortcombinespill-映射侧合并- -反射侧复制-合并反射函数。31.(每2分钟可用)一个节点管理器可以同时执行的最大reduce任务数(默认值):2。32.(每2分钟可用)默认情况下,在同时运行namenode、secondarynamenode和ResourceManager的主节点上使用的内存为3000 M。33.(每空闲2分钟) Hadoop集群有三种作业调度算法,分别是FIFO调度、校正能力调度和公平调度。34.(每个可用点) HA的背景是为了解决单个NN宕机可能导致群集不可用或数据丢失的问题。35.

8、(每个空白点)使用Zookeeper管理两个以上的NameNode,将一个NameNode在活动状态下,使各NN的元数据同步,在活动状态的NN一旦瘫痪后,使状态为待机状态的代替节点有效。36.(每隔1分钟空闲) job是客户端需要运行的工作单位。37.(每分钟) Hadoop将作业分割为多个任务来执行,包括映射任务和递送任务。38 .组合器(每两分钟可用)由Reducer类定义。39.(每2分钟可用) map任务将其输出写入本地磁盘。40.(每2分钟可用) reduce输出通常存储在HDFS中,以提供可靠的存储。41.(每2分钟空闲时间) HDFS校正所有写入数据的校验和,并在读取数据时验证校

9、验和。42 .针对分布式数据处理(每隔两个可用分钟)被串行化的两个领域是进程间通信和持久性存储。43.(每2个空白点) hadoop使用自己的序列化格式作为Writable。2 .简单解答,3分(17题),5分(5题)的订正75分1. (3点)简要说明如何安装构成apache的开源的hadoop。 只要说明就可以。 不必列举具体的步骤,列举具体的步骤比较好。答案:以超级用户帐户登录2ip的变更更改主机主机名配置SSH无密码登录5关闭防火墙安装JDK解压缩hadoop安装软件包配置hadoop核心文件hadoop-env.sh、核心站点. XML、映射站点. XML和HDFS -站点. XML设

10、置hadoop环境变量10格式化硬件名称格式11启动节点start-all.sh2. (3点)列出在已知良好的hadoop群集中,每个hadoop需要启动哪个进程,每个进程的角色是什么。 请尽量详细列举。答案:namenode :管理集群、保存数据的原始信息,并管理datanode中记录的文件信息。辅助名称:这是名称的快照,基于在配置中设置的值多长时间周期性地去cp去namenode,决定记录namenode中的元数据及其数据。Datanode :存储数据资源管理器资源管理器负责集群中所有资源的集成管理和分配,从每个节点(节点管理器)接收资源报告信息,并根据特定策略对每个应用程序(执行节点管理

11、器: yarn中每个节点上的代理,用于管理Hadoop群集中的各个计算节点(3分)请写下面的shell命令(1)杀死任务(删除hdfs上的/tmp/aaa目录(3)添加新的存储节点,删除节点需要执行的命令答案:(1)mapred job -list获得作业的id,执行mapred job -kill jobId,可以杀死指定了作业id的作业作业。(2)硬件式fs-rmr/tmp/AAA或硬件式DFS-rmr/tmp/AAA(3)添加新节点,在新节点上运行硬件日程. sh开始日程然后在主节点上运行HDFS DFS管理更新节点如果要删除节点,只需在主节点上运行hdfsdfsadmin-refres

12、hnodes即可3. (3点)请简要叙述组合和分区在mapreduce中的作用答案:combiner发生在map的最后阶段,其原理也是小型的reducer,主要的作用是减少输出到reduce的个数,减少reducer的输入,提高reducer的执行效率。Partition的主要作用是指定输出到reduce的个数。4. (3点) hdfs的体系结构答案:HDFS采用主从(Master/Slave )结构模型,一个HDFS集群由一个NameNode和多个DataNode构成。 其中,NameNode管理作为主服务的文件系统名称空间和对客户端文件的访问操作,群集中的DataNode管理存储的数据5.

13、 (3点) 3个datanode中的1个datanode发生错误时会怎么样?答案:一个datanode发生错误时,namenode会将该datanode上的数据复制并保存到另一个节点。6. (3点)文件大小默认为64M,更改为128M会产生什么影响?答案:要更改文件的块大小,必须根据我们的实际生产来更改块大小。 如果block定义过小,则过大的文件会被分割成过小的文件,从而降低用户的上传效率。 如果block定义过大,则会将过小的文件保存在一个block块中7. (3分) NameNode和SecondaryNameNode的区别和联系?答案:辅助名称类似于Namenode的冷备份,可以在Na

14、menode停机后从辅助名称上恢复部分数据。8. (5分)正在执行的hadoop任务中,InputSplit是什么?答案:InputSplit是MapReduce进行文件处理和运算的输入单位,只是逻辑概念,各InputSplit不是实际切割文件,而是要处理的数据的位置(包含文件的path和hosts )和长度(start和9. (3点) hdfs块大小为64MB,输入类为FileInputFormat,三个文件大小分别为64KB、65MB、127MB,Hadoop框架将这些文件分割成多少块?答案:64k-两个封锁65MB-个文件: 64MB为阻塞,1MB为阻塞127MB-个文件: 64MB为阻塞,63MB为阻塞10. (5分) RecordReader在hadoop中的作用是什么?答案:RecorderReader是一个接口,主要用于读取文件的输入键值对。 您也可以自定义输入的key、value对的读取规则。 属于split和mapper之间的过程,变换记录inputsplit输出的行为,作为key-value的记录形式提供给mapper11. (3点) Map阶段结束后,Hadoop框架将处理分区、缩小和Sort。 在这些阶段发生了什么?答案:Partition可以对输出的key、value进行分区,定制分区,并根据业务需要将map的输出合并到多个不同的文件中将m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论