《基于新信息技术的Hadoop大数据技术》 课件 项目5 搭建HDFS分布式集群_第1页
《基于新信息技术的Hadoop大数据技术》 课件 项目5 搭建HDFS分布式集群_第2页
《基于新信息技术的Hadoop大数据技术》 课件 项目5 搭建HDFS分布式集群_第3页
《基于新信息技术的Hadoop大数据技术》 课件 项目5 搭建HDFS分布式集群_第4页
《基于新信息技术的Hadoop大数据技术》 课件 项目5 搭建HDFS分布式集群_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop大数据技术——搭建HDFS分布式集群湖南软件职业技术大学HDFS架构设计与工作原理HDFS是什么

HDFS源于Google在2003年10月份发表的GFS(GoogleFileSystem)论文。它其实就是GFS的一个克隆版本。湖南软件职业技术大学HDFS(HadoopDistributedFileSystem)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。《TheGoogleFileSystem》2003年HDFS产生背景

随着数据量的不断增大,最终会导致数据在一个操作系统的磁盘中存储不下。那么为了存储这些大规模数据,就需要将数据分配到更多操作系统管理的磁盘中进行存储,但是这样会导致数据的管理和维护非常不方便,所以就迫切需要一种系统来管理和维护多台机器上的数据文件,实际上这种系统就是分布式文件系统,而HDFS只是分布式文件系统中的一种。湖南软件职业技术大学HDFS的设计理念来源于非常朴素的思想:理念

即当数据文件的大小超过单台计算机的存储能力时,就有必要将数据文件切分并存储到由若干台计算机组成的集群中,这些计算机通过网络进行连接。集群HDFS集群

HDFS作为一个抽象层架构在集群网络之上,对外提供统一的文件管理功能,对于用户来说就感觉像在操作一台计算机一样,根本感受不到HDFS底层的多台计算机,而且HDFS还能够很好地容忍节点故障且不丢失任何数据。HDFS设计理念湖南软件职业技术大学03010402简单的一致性模型在HDFS文件系统中,一个文件一旦经过创建、写入、关闭之后,一般就不需要再进行修改,这样就可以简单地保证数据的一致性。硬件故障的检测和快速应对通过大量普通硬件构成的集群中,硬件出现故障是常见的问题。HDFS文件系统一般是由数十台甚至成百上千台服务器组成,这么多服务器就意味着高故障率,但是HDFS在设计之初已经充分考虑到这些问题,认为硬件故障是常态而不是异常,所以如何进行故障的检测和快速自动恢复也是HDFS的重要设计目标之一。流式数据访问流式数据访问是HDFS选择的最高效的数据访问方式。流式数据访问可以理解为:读取数据文件就像打开水龙头一样,可以不停地读取。支持超大文件存储支持超大文件存储是HDFS最基本的职责所在。HDFS核心设计目标HDFS设计目标湖南软件职业技术大学HDFS系统架构湖南软件职业技术大学HDFS采用master/slave架构。一个HDFS集群包含一个单独的NameNode和多个DataNodeHDFS系统架构湖南软件职业技术大学FSImage和Editlog合并的详细步骤如下:HDFS优缺点

优点

高容错性

数据自动保存多个副本,HDFS通过增加多个副本的形式,提高HDFS文件系统的容错性,某一个副本丢失以后可以自动恢复。缺点

适合大数据处理

能够处理GB、TB、甚至PB级别的数据规模;能够处理百万规模以上的文件数量;能够达到10000个节点以上的集群规模。

流式文件访问

数据文件只能一次写入,多次读取,只能追加,不能修改;HDFS能保证数据的简单一致性。

可构建在廉价的机器上

HDFS提供了容错和恢复机制,比如某一个副本丢失了可以通过其他副本来恢复,从而保证了数据的安全性和系统的可靠性。

不适合低延时数据访问

比如毫秒级别的数据响应时间,这种场景HDFS是很难做到的。HDFS更适合高吞吐率的场景,就是在某一时间内写入大量的数据。

不适合大量小文件的存储

如果有大量小文件需要存储,这些小文件的元数据信息会占用NameNode大量的内存空间。这样是不可取的,因为NameNode的内存总是有限的。如果读取小文件的寻道时间超过文件数据的读取时间,它就违反了HDFS大数据块的设计目标。

不适合并发写入、文件随机修改

一个文件只能有一个写操作,不允许多个线程同时进行写操作;仅支持数据的append(追加)操作,不支持文件的随机修改。湖南软件职业技术大学HDFS读数据流程湖南软件职业技术大学HDFS读取数据的主要步骤如图所示:HDFS写数据的主要步骤如图所示:HDFS写数据流程湖南软件职业技术大学湖南软件职业技术大学HDFS高可用(HA)湖南软件职业技术大学

高可用(HighAvailability

,简称HA)为了整个系统的可靠性,我们通常会在系统中部署两台或多台主节点,多台主节点形成主备的关系,但是某一时刻只有一个主节点能够对外提供服务,当某一时刻检测到对外提供服务的主节点“挂”掉之后,备用主节点能够立刻接替已挂掉的主节点对外提供服务,而用户感觉不到明显的系统中断。这样对用户来说整个系统就更加的可靠和高效。HA机制产生的背景二是计划内的NameNode节点软件或硬件升级,导致集群在短时间内不可用。一是NameNode机器宕机,将导致集群不可用,重启NameNode之后才可使用;

HA机制产生

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论