




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Hadoop大数据平台介绍目录HDFS介绍Hadoop概述MapReduce介绍如何对大数据进行存储与分析呢?系统瓶颈存储容量读写速度计算效率…Google大数据技术MapReduceBigTableGFS革命性变化1:成本降低,能用PC机,就不用大型机和高端存储小型机大型机磁盘阵列……革命性变化1:成本降低,能用PC机,就不用大型机和高端存储革命性变化1:成本降低,能用PC机,就不用大型机和高端存储革命性变化2:软件容错硬件故障视为常态,通过软件保证可靠性硬件故障软件高可靠性革命性变化3:简化并行分布式计算,无须控制节点同步和数据交换MapReduce但是,Google只发表了相关的技术论文,没有开放源代码。一个模仿Google大数据技术的开源实现来了。为何取名Hadoop?Hadoop是什么?/开源的分布式存储+分布式计算平台Hadoop的组成包括两个核心组成:HDFS:分布式文件系统,存储海量的数据MapReduce:并行处理框架,实现任务分解和调度Hadoop可以用来做什么?搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务搜索引擎商业智能数据挖掘日志分析Hadoop的优势优势1:高扩展优势2:低成本优势3:成熟的生态圈目录HDFS介绍Hadoop概述MapReduce介绍HDFS基本概念块(Block)NameNodeDataNodeHDFS的文件被分成块进行存储HDFS块的默认大小是64MB块是文件存储处理的逻辑单元HDFS中有两类节点NameNode和DataNodeNameNode是管理节点,存放文件元数据①文件与数据块的映射表②
数据块与数据节点的映射表HDFS体系结构机架1机架2NameNodeSecondaryNameNode客户端复制DataNode1DataNode2DataNode3DataNode4DataNode5读取元数据读取数据块元数据更新ACDAEBCEDACBDBEDataNode是HDFS的工作节点,存放数据块机架1机架2NameNodeSecondaryNameNode客户端复制DataNode1DataNode2DataNode3DataNode4DataNode5读取元数据读取数据块元数据更新ACDAEBCEDACBDBEHDFS体系结构HDFS中数据管理与容错数据块副本机架1机架2NameNodeSecondaryNameNode客户端复制DataNode1DataNode2DataNode3DataNode4DataNode5读取元数据读取数据块元数据更新ACDAEBCEDACBDBE每个数据块3个副本,分布在两个机架内的三个节点数据块副本机架1机架2NameNodeSecondaryNameNode客户端复制DataNode1DataNode2DataNode3DataNode4DataNode5读取元数据读取数据块元数据更新ACDAEBCEDACBDBE每个数据块3个副本,分布在两个机架内的三个节点数据块副本机架1机架2NameNodeSecondaryNameNode客户端复制DataNode1DataNode2DataNode3DataNode4DataNode5读取元数据读取数据块元数据更新ACDAEBCEDACBDBE每个数据块3个副本,分布在两个机架内的三个节点心跳检测机架1机架2NameNodeSecondaryNameNode客户端复制DataNode1DataNode2DataNode3DataNode4DataNode5读取元数据心跳消息ACDAEBCEDACBDBEDataNode定期向NameNode发送心跳消息心跳消息心跳消息心跳检测机架1机架2NameNodeSecondaryNameNode客户端复制DataNode1DataNode2DataNode3DataNode4DataNode5读取元数据心跳消息ACDAEBCEDACBDBEDataNode定期向NameNode发送心跳消息心跳消息心跳消息机架1机架2NameNodeSecondaryNameNode客户端复制DataNode1DataNode2DataNode3DataNode4DataNode5读取元数据读取数据块元数据更新ACDAEBCEDACBDBE二级NameNode二级NameNode定期同步元数据映射文件和修改日志NameNode发生故障时,备胎转正。EditlogFsImageHDFS中文件读写的流程机架1机架2NameNodeSecondaryNameNode客户端DataNode1DataNode2DataNode3DataNode4DataNode5①文件读取请求ACDAEBCEDACBDBEHDFS读取文件的流程②返回元数据③读取数据块③读取数据块③读取数据块机架1机架2NameNodeSecondaryNameNode客户端DataNode1DataNode2DataNode3DataNode4DataNode5①文件拆分成块ACDAEBCEDACBDBEHDFS写入文件的流程②返回DataNodes③写入数据块④流水线复制⑤更新元数据HDFS的特点①数据冗余,硬件容错②流式的数据访问③适合存储大文件HDFS写入文件的流程机架1机架2NameNodeSecondaryNameNode客户端DataNode1DataNode2DataNode3DataNode4DataNode5①文件拆分成块ACDAEBCEDACBDBE②返回DataNodes③写入数据块④流水线复制⑤更新元数据HDFS的特点适用性和局限性-适合数据批量读写,吞吐量高-不适合交互式应用,低延迟很难满足-适合一次写入多次读取,顺序读写-不支持多用户并发写相同文件目录HDFS介绍Hadoop概述MapReduce介绍MapReduce原理分而治之,一个大任务分成多个小的子任务(Map),并行执行后,合并结果(Reduce)100GB网站访问日志文件,找出访问次数最多的IP地址split0split1split2split3split4map()map()map()map()map()reduce()reduce()reduce()part0part1part2inputmaptasksreducetasksoutputInputsplitshuffleoutput交换日志切分统计IP出现次数中间结果合并排序日志日志日志日志日志split0split1split2split3split4map()map()map()map()map()reduce()reduce()reduce()part0part1part2inputmaptasksreducetasksoutputInputsplitshuffleoutput交换日志切分统计IP出现次数中间结果合并排序日志日志日志日志日志IP1IP1IP1IP1IP1IP2IP2IP2IP2IP2IP3IP3IP3IP3IP3X次Y次Z次……split0split1split2split3split4map()map()map()map()map()reduce()reduce()reduce()part0part1part2inputmaptasksreducetasksoutputInputsplitshuffleoutput交换日志切分统计IP出现次数中间结果合并排序日志日志日志日志日志IP1IP2IP3X次Y次Z次split0split1split2split3split4map()map()map()map()map()reduce()reduce()reduce()part0part1part2inputmaptasksreducetasksoutputInputsplitshuffleoutput交换日志切分统计IP出现次数中间结果合并排序MapReduce的运行流程基本概念Job&TaskJobTrackerTaskTrackerMapTaskReduceTaskMapTaskTrackerReduceTaskTrackerJobTracker客户端TaskTracker1DataNode1TaskTreacker2DataNode2TaskTracker3DataNode3TaskTracker4DataNode4TaskTracker5DataNode5作业(Job)Reduce任务ACDAEBCEDACBDBEHadoopMapReduce体系结构Map任务状态更新JobTracker的角色①作业调度②
分配任务、监控任务执行进度③
监控TaskTracker的状态TaskTracker的角色①执行任务②
汇报任务状态Map端MapReduce作业执行过程MapReduceJobJobTrackerSchedulerTaskTrackerTaskTrackerTaskTrackerTaskTrackerTaskTrackerReduce
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学术论坛的组织与协调
- 保安工作总结计划运动行业保安工作的场地秩序
- 2025年小型高效沼气装置项目发展计划
- 2025年标准个人借款合同样本
- 媒体关系建立与维护的技巧
- 骨骼健康教育的补钙新篇章
- 关注社会发展的2024年思政试题及答案
- 2025年地板购买合同范本
- 2025安全防盗门的购销合同
- 企业年度财务预算的编制技巧
- 2024-2030年全球及中国石榴花提取物行业发展动态及供需前景预测报告
- 幼儿园体育游戏对幼儿社交能力的影响
- 《STP营销战略概述》课件
- 英语语法点点通(新疆交通职业技术学院)知到智慧树答案
- 2024年四川省绵阳市中考语文试卷(附真题答案)
- 女性的中医养生保健
- 【论正当防卫的限度(论文)8400字】
- 《跨境直播运营》课件-跨境直播的内容组织
- 参加社会保险人员登记表
- (正式版)SH∕T 3541-2024 石油化工泵组施工及验收规范
- DB22-T5131-2022预拌盾构砂浆应用技术标准
评论
0/150
提交评论