Hadoop大数据平台介绍.pptx_第1页
Hadoop大数据平台介绍.pptx_第2页
Hadoop大数据平台介绍.pptx_第3页
Hadoop大数据平台介绍.pptx_第4页
Hadoop大数据平台介绍.pptx_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop大数据平台介绍,目 录,HDFS介绍,Hadoop概述,MapReduce介绍,如何对大数据进行存储与分析呢?,系统瓶颈,存储容量,读写速度,计算效率,Google大数据技术,MapReduce,BigTable,GFS,革命性变化1:成本降低,能用PC机,就不用大型机和高端存储,小型机,大型机,磁盘阵列,革命性变化1:成本降低,能用PC机,就不用大型机和高端存储,革命性变化1:成本降低,能用PC机,就不用大型机和高端存储,革命性变化2:软件容错硬件故障视为常态,通过软件保证可靠性,革命性变化3:简化并行分布式计算,无须控制节点同步和数据交换,Map,Reduce,但是,Google只发表了相关的技术论文,没有开放源代码。,一个模仿Google大数据技术的开源实现来了。,为何取名Hadoop?,Hadoop是什么?,/,开源的,分布式存储 + 分布式计算平台,Hadoop的组成,包括两个核心组成:,HDFS:分布式文件系统,存储海量的数据,MapReduce:并行处理框架,实现任务分解和调度,Hadoop可以用来做什么?,搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务,搜索引擎,商业智能,数据挖掘,日志分析,Hadoop的优势,优势1:高扩展,优势2:低成本,优势3:成熟的生态圈,目 录,HDFS介绍,Hadoop概述,MapReduce介绍,HDFS基本概念,块(Block),NameNode,DataNode,HDFS的文件被分成块进行存储,HDFS块的默认大小是64MB,块是文件存储处理的逻辑单元,HDFS中有两类节点,NameNode 和 DataNode,NameNode是管理节点,存放文件元数据, 文件与数据块的映射表, 数据块与数据节点的映射表,HDFS体系结构,DataNode是HDFS的工作节点, 存放数据块,HDFS体系结构,HDFS中数据管理与容错,数据块副本,机架1,机架2,NameNode,Secondary NameNode,客户端,复制,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5,读取元数据,读取数据块,元数据更新,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,每个数据块3个副本,分布在两个机架内的三个节点,数据块副本,机架1,机架2,NameNode,Secondary NameNode,客户端,复制,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5,读取元数据,读取数据块,元数据更新,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,每个数据块3个副本,分布在两个机架内的三个节点,数据块副本,机架1,机架2,NameNode,Secondary NameNode,客户端,复制,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5,读取元数据,读取数据块,元数据更新,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,每个数据块3个副本,分布在两个机架内的三个节点,心跳检测,机架1,机架2,NameNode,Secondary NameNode,客户端,复制,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5,读取元数据,心跳消息,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,DataNode定期向NameNode发送心跳消息,心跳消息,心跳消息,心跳检测,机架1,机架2,NameNode,Secondary NameNode,客户端,复制,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5,读取元数据,心跳消息,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,DataNode定期向NameNode发送心跳消息,心跳消息,心跳消息,机架1,机架2,NameNode,Secondary NameNode,客户端,复制,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5,读取元数据,读取数据块,元数据更新,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,二级NameNode,二级NameNode定期同步元数据映射文件和修改日志 NameNode发生故障时,备胎转正。,Editlog,FsImage,HDFS中文件读写的流程,机架1,机架2,NameNode,Secondary NameNode,客户端,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5, 文件读取请求,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,HDFS读取文件的流程, 返回元数据, 读取数据块, 读取数据块, 读取数据块,机架1,机架2,NameNode,Secondary NameNode,客户端,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5, 文件拆分成块,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,HDFS写入文件的流程, 返回DataNodes, 写入数据块, 流水线复制, 更新元数据,HDFS的特点, 数据冗余,硬件容错, 流式的数据访问, 适合存储大文件,HDFS写入文件的流程,机架1,机架2,NameNode,Secondary NameNode,客户端,DataNode1,DataNode2,DataNode3,DataNode4,DataNode5, 文件拆分成块,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E, 返回DataNodes, 写入数据块, 流水线复制, 更新元数据,HDFS的特点,适用性和局限性,- 适合数据批量读写,吞吐量高,- 不适合交互式应用,低延迟很难满足,- 适合一次写入多次读取,顺序读写,- 不支持多用户并发写相同文件,目 录,HDFS介绍,Hadoop概述,MapReduce介绍,MapReduce原理,分而治之,一个大任务分成多个小的子任务(Map), 并行执行后,合并结果(Reduce),100GB 网站访问日志文件,找出访问次数最多的IP地址,map(),map(),map(),map(),map(),reduce(),reduce(),reduce(),input,map tasks,reduce tasks,output,Input split,shuffle,output,交换,日志切分,统计IP出现次数,中间结果合并,排序,日志,日志,日志,日志,日志,map(),map(),map(),map(),map(),reduce(),reduce(),reduce(),input,map tasks,reduce tasks,output,Input split,shuffle,output,交换,日志切分,统计IP出现次数,中间结果合并,排序,日志,日志,日志,日志,日志,IP1,IP1,IP1,IP1,IP1,IP2,IP2,IP2,IP2,IP2,IP3,IP3,IP3,IP3,IP3,X次,Y次,Z次, ,map(),map(),map(),map(),map(),reduce(),reduce(),reduce(),input,map tasks,reduce tasks,output,Input split,shuffle,output,交换,日志切分,统计IP出现次数,中间结果合并,排序,日志,日志,日志,日志,日志,IP1,IP2,IP3,X次,Y次,Z次,map(),map(),map(),map(),map(),reduce(),reduce(),reduce(),input,map tasks,reduce tasks,output,Input split,shuffle,output,交换,日志切分,统计IP出现次数,中间结果合并,排序,MapReduce的运行流程,基本概念,Job & Task,JobTracker,TaskTracker,Map TaskTracker,Reduce TaskTracker,JobTracker,客户端,TaskTracker1 DataNode1,TaskTreacker2 DataNode2,TaskTracker3 DataNode3,TaskTracker4 DataNode4,TaskTracker5 DataNode5,作业(Job),Reduce任务,A,C,D,A,E,B,C,E,D,A,C,B,D,B,E,Hadoop MapReduce体系结构,Map任务,状态更新,JobTracker的角色, 作业调度, 分配任务、监控任务执行进度, 监控TaskTracker的状态,TaskTracker的角色, 执行任务, 汇报任务状态,Map端,MapReduce作业执行过程,MapReduce Job,JobTracker,Scheduler,TaskTracker,TaskTracker,TaskTracker,TaskTracker,TaskTracker,Reduce端,数 据 片

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论