《Hadoop技术原理》课件-3.HDFS分布式文件系统_第1页
《Hadoop技术原理》课件-3.HDFS分布式文件系统_第2页
《Hadoop技术原理》课件-3.HDFS分布式文件系统_第3页
《Hadoop技术原理》课件-3.HDFS分布式文件系统_第4页
《Hadoop技术原理》课件-3.HDFS分布式文件系统_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop技术原理HDFS分布式文件系统HDFS简介01Hadoop的核心模块01hadoop的核心模块Common:封装大量的API,为其他模块做技术支持HDFS:hadoop的分布式文件系统,功能是存储海量数据YARN:分布式计算平台MapReduce:分布式计算框架HDFS简介02HDFS:HadoopDistributedFileSystem,是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础。支持海量数据的存储,成百上千的计算机组成存储集群,HDFS可以运行在低成本的硬件之上,具有的高容错、高可靠性、高可扩展性、高吞吐率等特征,非常适合大规模数据集上的应用。概念HDFS简介03分布式文件系统基于廉价的普通硬件,可以容忍硬件出错当系统中的某一台或几台服务器出现故障的时候,系统仍可用且数据保持完整大数据集(大文件)HDFS适合存储大量文件,总存储量可以达到PB,EB级HDFS适合存储大文件,单个文件大小一般在百MB级之上文件数目适中大型分布式计算的底层存储特征HDFS简介04优点高容错性数据自动保存多个副本副本丢失后,自动恢复适合批处理移动计算而非移动数据数据位置暴露给计算框架适合大数据处理GB、TB、甚至PB级数据百万规模以上的文件数量10K+节点流式文件访问一次性写入,多次读取保证数据一致性可构建在廉价机器上通过多副本提高可靠性提供了容错和恢复机制HDFS简介05缺点不适合低延迟数据访问比如毫秒级低延迟与高吞吐率不适合小文件存取占用NameNode大量内存寻道时间超过读取时间不适合并发写入、文件随机修改一个文件只能有一个写入者仅支持append(追加)HDFS基本架构02HDFS基本架构HDFS的组成01HDFS基本架构02NameNode的职责管理维护HDFS(管理DataNode上文件Block的均衡,维持副本数量)接收客户端的请求:上传、下载、删除文件等维护了两个非常重要的文件:edits文件(操作日志文件)-->记录操作日志(editlog)主要是在NameNode已经启动情况下对HDFS进行的各种更新操作进行记录,HDFS客户端执行所有的写操作都会被记录到editlog中fsimage文件-->HDFS的元信息(1)包含HDFS中的所有目录和文件信息(二进制格式)(2)对于目录来说,包含的信息主要有修改时间、访问控制权限等信息。(3)对于文件来说,包含的信息有修改时间、访问时间、访问控制、块大小和组成一个文件块信息等;HDFS基本架构03NameNode的职责查看Editsedits记录了HDFS的操作日志最新的操作日志:edits_inprogress****都是二进制HDFS提供一个工具:editsviewer日志查看器---->XMLHDFS基本架构04NameNode的职责查看FsimageHDFS的元信息:存在fsimage文件就跟edits文件在一起记录:数据块的位置、冗余信息、文件属性等也是一个二进制HDFS提供一个imageviewer---->文本或者xmlHDFS基本架构05DataNode的职责存储数据块负责客户端对数据块的IO请求DataNode定时和NameNode进行心跳通信,接受NameNode的指令。DataNode的数据块数据块大小:Hadoop1.x默认64MB,Hadoop2.x默认128MB查看数据块的大小上传数据,打印文件的Block报告:[root@single~]#hdfsfsck/user/hadoop/hadoop-2.7.3.tar.gz-files-blocksHDFS基本架构06网络拓扑网络拓扑用来描述跨网络传输数据速度快慢用距离概念来描述,距离越小,传输速度越快结论:

同机架上的任意2个节点之间的传输距离都是2

跨机架.上的任意2个节点之间的传输距离都是4

跨数据中心上的任意2个节点之间的传输距离都是6HDFS基本架构07机架感知与副本冗余存储策略HDFS基本架构08副本备份副本放置策略(HDFS的副本数默认是3个)1.第-块副本,如果数据在远程客户端上,那么选择距离最近的节点上传;数据已经在集群的某-一台服务器节点上了,那么就上传到这台节点上2.第二块副本,相对于第一块副本所在节点而言,选择跨机架上的任意-一个节点上传(从安全性考虑)3.第三块副本,相对于第二块副本所在节点而言,选择同机架上的任意-一个节点上传(从效率性考虑)4.假如副本数超过了3个,那第四块副本开始就没有任何放置策略可言了,完全随机HDFS基本架构09SecondaryNameNode的职责

定期地创建命名空间的检查点(CheckPoint)操作:把edits中最新的状态信息合并到fsimage文件中,防止edits过大。也可以做冷备,对一定范围内数据做快照性备份。HDFS基本架构10CheckPoint过程HDFS基本架构11SecondaryNameNode的工作条件只要达到以下两个条件之一就可以触发检查点操作每隔60分钟(node.checkpoint.period)当edits文件达到100万条事务(node.checkpoint.txns)HDFS基本架构12SecondaryNameNode检查点的作用SecondaryNameNode的主要作用是定期通过编辑日志文件合并命名空间镜像,以防止编辑日志文件过大,减少NameNode的启动的时间SecondaryNameNode一般要在另一台机器上运行,因为它需要占用大量的CPU时间与namenode相同容量的内存才可以进行合并操作。它会保存合并后的命名空间镜像的副本,并在namenode发生故障时启用。(冷备份)HDFS基本架构13HDFS启动过程HDFS访问方式03HDFS访问方式01通过WebConsoleNameNodeweb管理端口50070,可以查看文件系统概况,数据节点信息,快照,目录结构及文件属性等。HDFS访问方式02通过WebConsoleSecondaryNameNode端口为50090。NameNode入口地址,以及Checkpoint等信息。HDFS访问方式03通过Shell命令

查看操作命令详情[root@single~]#hdfsdfs查看管理命令详情[root@single~]#hdfsdfsadminHDFS访问方式04通过JavaAPI访问HDFS涉及到的Java类和包Configuration类该类的对象封装了配置信息FileSystem类文件系统类,可使用该类的方法树对文件/目录进行操作,一般通过FileSystem的静态方法get获得一个文件系统对象FSDataInputStream和FSDataOutputStream类HDFS中的输入输出流。分别通过FileSystem的open方法和create方法获得以上类均来自java包:org.apache.hadoop.fsHDFS访问方式05通过JavaAPI访问HDFS添

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论