云计算之HDFSppt课件_第1页
云计算之HDFSppt课件_第2页
云计算之HDFSppt课件_第3页
云计算之HDFSppt课件_第4页
云计算之HDFSppt课件_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1主要内容 Hadoop项目简介 HDFS体系结构 HDFS关键运行机制 Hadoop VS.Google分布式文件系统) Hadoop API Hadoop环境搭建2Hadoop项目简介 吃水不忘挖井人Doug Cutting简介:Lucene开源的全文检索包人)、 Nutch开源搜索引擎)、hadoop创始人。曾经在是雅虎搜索工程师,后面加入Cloudera,发展hadoop的企业级应用。一位盗火者,把高深的搜索引擎技术带给普通大众。3Hadoop项目简介 Apache的解决方案GFS-HDFS MapReduce-HadoopBigTable-HBase 4 HDFS为了做到可靠性rel

2、iability创建了多份数据块data blocks的复制replicas),并将它们放置在服务器群的计算节点中compute nodes),MapReduce就可以在它们所在的节点上处理这些数据了。Hadoop项目简介5HDFS体系结构 NameNodeMaster DataNodeChunksever6 一个名字节点和多个数据节点 数据复制冗余机制) -存放的位置机架感知策略) 故障检测 -数据节点 心跳包检测是否宕机) 块报告安全模式下检测) 数据完整性检测校验和比较) -名字节点日志文件,镜像文件) 空间回收机制 HDFS关键运行机制-保障可靠性的措施7HDFS关键运行机制-写文件流

3、程 客户端缓存 流水线复制 并发写控制 流程: 1.客户端把数据缓存到本地临时文件夹 2.临时文件夹数据超过64M,客户端联系NameNode, NameNode分配DataNode,DataNode依照客户端的位置被排列成一个有着最近物理距离和最小的序列 3.与序列的第一个数据服务器建立Socket连接,发送请求头,然后等待回应,依次下传,客户端得到回包,流水线建立成功, 4. 正式发送数据,以4K为大小传送8HDFS关键运行机制-读文件流程 客户端联系NameNode,得到所有数据块信息,以及数据块对应的所有数据服务器的位置信息 尝试从某个数据块对应的一组数据服务器中选出一个,进行连接选取

4、算法未加入相对位置的考虑) 数据被一个包一个包发送回客户端,等到整个数据块的数据都被读取完了,就会断开此链接,尝试连接下一个数据块对应的数据服务器,整个流程,依次如此反复,直到所有想读的都读取完了为止9HDFS VS. GFS 总体架构的比较 数据结构化管理组件:HbaseBigTable 并行计算模型:MapReduceMapReduce 分布式文件系统:HDFSGFS Hadoop缺少分布式锁服务ChubbyHBaseMapReduceHDFSBigTableMapReduceGFSHadoop云计算应用Google云计算应用10HDFS VS. GFS HDFS与GFS比较 中心服务器模

5、式的差异 GFS:多台物理服务器,选择一台对外服务,损坏时可选择另外一台提供服务 HDFS:单一中心服务器模式,存在单点故障 缘由:Hadoop缺少分布式锁服务11HDFS VS. GFS HDFS与GFS比较 子服务器管理模式差异 GFS:Chunk Server在Chubby中获取独占锁表示其生存状态,Master通过轮询这些独占锁获知Chunk Server的生存状态 HDFS:DataNode通过心跳的方式告知NameNode其生存状态 GFS中,Master损坏时,替补服务器可以快速获知Chunk Server的状态 HDFS中,NameNode损坏后,NameNode恢复时需要花费

6、一段时间获知DataNode的状态 在添加数据存储节点时,GFS的伸缩性较HDFS要好 缘由:Hadoop缺乏分布式锁服务12HDFS VS. GFS HDFS与GFS比较 HDFS具备安全模式 获知数据块副本状态,若副本不足,则拷贝副本至安全数目如3个) GFS不具备安全模式 副本损坏处理:API读取副本失败时,Master负责发起拷贝任务13HDFS VS. GFS HDFS与GFS比较 HDFS具备空间回收机制 文件删除时,仅删除目录结构 实际数据的删除在等待一段时间后实施 优点:便于恢复文件14HDFS API简单的HDFS API: hdfs.copyFromLocalFile(pa

7、th srcPath, path dstPath) 上传本地文件到HDFS的指定位置上eg: 1.Configuration config = new Configuration();2.FileSystem hdfs = FileSystem.get(config);3.Path srcPath = new Path(srcFile);4.Path dstPath = new Path(dstFile);5.hdfs.copyFromLocalFile(srcPath, dstPath); hdfs.create(path path) 创建HDFS文件1.Configuration conf

8、ig = new Configuration();2.FileSystem hdfs = FileSystem.get(config);3.Path path = new Path(fileName);4.FSDataOutputStream outputStream = hdfs.create(path);5.outputStream.write(buff, 0, buff.length);15HDFS API 常用的HDFS API:hdfs.rename(Path fromPath, Path toPath)重命名hdfs文件hdfs.delete(Path f, Boolean rec

9、ursive) 删除指定HDFS文件hdfs.exists(Path path)检查指定路径是否存在16HDFS -安防行业的应用前景 HDFS存储相对传统存储的优势 硬盘使用寿命 传统存储:硬盘每天24小时不停的读写,造成寿命锐减。 HDFS存储:多硬盘并行工作,负载均衡保证不会过度使用硬盘17HDFS -安防行业的应用前景 HDFS存储相对传统存储的优势 海量数据存储 传统存储:海量视频存储对硬盘要求过高,不能动态增加硬盘容量,扩展容量方便 HDFS存储:可以动态增加容量,容量抽象为没有上限,流式存储很适合视频数据。18HDFS -安防行业的应用前景 HDFS存储相对传统存储的优势 海量数据分析 传统存储:从海量视频数据存储中分析数据基本无法实现。 HDFS存储:和hadoop另外的MapReduce分布式计算架构配合,可以进行海量视频数据的分析。19HDFS -安防行业的应用前景 HDFS存储的缺点 实际存储数据比应存数据多 传统存储:一份数据只需要存储一份。 HDFS存储:一份数据需要至少两份的存储才能保证容错设计,造成实际存储大小比

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论