15.《云计算(第三版)》配套PPT之十五:第5章 Hadoop 2.0 主流开源云架构(一)_第1页
15.《云计算(第三版)》配套PPT之十五:第5章 Hadoop 2.0 主流开源云架构(一)_第2页
15.《云计算(第三版)》配套PPT之十五:第5章 Hadoop 2.0 主流开源云架构(一)_第3页
15.《云计算(第三版)》配套PPT之十五:第5章 Hadoop 2.0 主流开源云架构(一)_第4页
15.《云计算(第三版)》配套PPT之十五:第5章 Hadoop 2.0 主流开源云架构(一)_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电子工业出版社《云计算(第三版)》配套课件云计算(第三版)CLOUDCOMPUTINGThirdEdition主编:刘鹏教授第5章Hadoop2.0主流开源云架构(一)本套PPT下载地址:/list.aspx?cid=20云计算的红宝书书籍购买地址:/item.html?itemID=1469775685&p=-1微信扫描二维码关注云计算头条电子工业出版社《云计算(第三版)》配套课件(包邮且有刘鹏教授亲笔签名)教授、博导、学科带头人,清华大学博士。现任中国云计算专家咨询委员会秘书长、中国信息协会大数据分会副会长、工业与信息化部云计算研究中心专家。主持完成科研项目25项,发表论文80余篇,出版专业书籍15本。获部级科技进步二等奖4项、三等奖4项。主编了国内第一本云计算教材《云计算》和第一本云计算编程书籍《实战Hadoop》。创办了知名的中国云计算()和中国大数据()网站。曾率队夺得2002PennySort国际计算机排序比赛冠军,两次夺得全国高校科技比赛最高奖,并三次夺得清华大学科技比赛最高奖。荣获“全军十大学习成才标兵”(排名第一)、南京“十大杰出青年”、江苏省“333高层次人才培养工程”中青年科学技术带头人、清华大学“学术新秀”等称号。刘鹏自从云计算的概念被提出,不断地有IT厂商推出自己的云计算平台,但它们都是商业性平台,对于想要继续研究和发展云计算技术的个人和科研团体来说,无法获得更多的了解,Hadoop的出现给研究者带来了希望。5.1引例5.2Hadoop2.0简述5.3Hadoop2.0部署5.4Hadoop2.0体系架构5.5Hadoop2.0访问接口5.6Hadoop2.0编程接口人均5TB5.1引例5.1.1问题概述5.1.2常规解决方案5.1.3分布式下的解决方案5.1.4小结5.1引例问题概述【例5-1】假设现有一些配置完全相同的机器cSlave0~cSlaveN,cMaster0,cMaster1,并且每台机器都有1个双核CPU,5GB硬盘。现有两个大小都是2GB的文件file0和file1。第一类问题,存储。问题①:将file0和file1存入两台不同机器,但要求对外显示它们存于同一硬盘空间。问题②:不考虑①,现有一新文件file2,大小为6GB,要求存入机器后对外显示依旧为一个完整文件。第二类问题,计算。问题③:在问题①下,统计file0和file1这两个文件里每个单词出现的次数。第三类问题,可靠性。问题④:假设用于解决上述问题的机器宕机了,问如何保证数据不丢失。85.1引例5.1.1问题概述5.1.2常规解决方案5.1.3分布式下的解决方案5.1.4小结5.1引例常规解决方案问题①解答取两台机器cSlave0和cSlave1,cSlave0存储file0,cSlave1存储file1。问题②解答将file2拆成两个大小分别为3GB的文件file2-a和file2-b,将file2-a存入cSlave0、file2-b存入cSlave1。5.1引例常规解决方案问题③解答步骤一,将cSlave1上的file1复制一份到cSlave0上,这样cSlave0上同时存有file0和file1。步骤二,编写一简单程序,程序里使用HashMap<String,Integer>,顺序读取文件,判断新读取的单词是否存在于HashMap,存在Integer+1,不存在则HashMap里加入这个新单词,Integer置为1,记此程序为WordCount。步骤三,将此程序WordCount放在cSlave0上执行,得出结果。问题④解答为每台机器都做磁盘冗余阵列(RAID),购买更稳定的硬件,配置最好的机房、最稳定的网络。115.1引例5.1.1问题概述5.1.2常规解决方案5.1.3分布式下的解决方案5.1.4小结上述方案并没有真正解决问题,下面介绍的分布式方案也是Hadoop的架构思路:Hadoop对于第一类存储问题,若能将多台机器硬盘以某种方式连接到一起,则问题迎刃而解。取机器cSlave0,cSlave1和cMaster0,采用客户-服务器模式构建分布式存储集群,让cMaster0管理cSlave0,cSlave1。cMaster0统一管理cSlave0~N存储空间cSlave0存储真实数据cSlave1存储真实数据cSlaveN存储真实数据……5.1引例分布式存储145.1引例分布式存储客户-服务器模式对内只要保证storemaster正常工作,我们很容易随意添加storeslave,硬盘存储空间无限大。统一存储空间,统一文件接口对外整个集群就像是一台机器、一片云,硬盘显示为统一存储空间,文件接口统一。分布式文件系统DistributedFileSystem,DFS≈Hadoop分布式文件系统HadoopDFS,HDFS15移动计算比移动数据更划算——来自Google论文17chinacstorchinacSlave0存储file0cstorchinacstorcSlave1存储file1<china,2><cstor,1>cSlave0处理file0cSlave1处理file1<china,1><cstor,1>分布式存储本地计算cSlave0处理汇总至本机数据<china,2><china,1>计算后得结果<china,3>cSlave1处理汇总至本机数据<cstor,1><cstor,2>计算后得结果<cstor,3>网络洗牌汇总计算结果存至DFS结果存至DFS存结果分布式计算5.1引例分布式计算185.1引例分布式计算本地计算(Map)洗牌(Shuffle)合并再计算(Reduce)19取新机器cMaster1,采用客户-服务器模式构建由机器cSlave0、cSlave1和cMaster1组成的分布式计算集群。cMaster1统一分配cSlave0~N计算任务cSlave0计算某一具体数据……cSlave1计算某一具体数据cSlaveN计算某一具体数据5.1引例分布式计算20cstorcstorchinacSlave0存储file0cstorchinacstorcSlave1存储file1<china,2><cstor,1>cSlave0处理file0<china,1><cstor,2>cSlave1处理file1处理本机数据处理本机数据分布式存储本地计算MapCMaster1计算主节点CMaster0计算主节点5.1引例分布式计算cSlave0最好是处理存于本机硬盘上的file0,而不是将file1从cSlave1调过来(通过网络)再处理file1,这就是所谓的“本地计算”。21如何能够实现“合并”过程也由多机执行?“洗牌”Shuffle规定将Key值相同的KV对,通过网络发往同一台机器。5.1引例分布式计算第一步每台机器将各自KV对中的Value连接成一个链表第二步各台机器可对<Key,ValueList>进行业务处理,称此过程为Reduce。第三步将得出的结果再存于DFS。容易看出,无论是Map、Shuffle还是Reduce,甚至是存储结果,在每个阶段都是并行的,整个过程则构成一个有向无环图(DAG)23245.1引例cstorcstorchinacSlave0存储file0cstorchinacstorcSlave1存储file1<china,2><cstor,1>cSlave0处理file0<china,1><cstor,2>cSlave1处理file1处理本机数据处理本机数据分布式存储本地计算shuffle<china,2><china,1>cSlave0处理汇总至本机数据计算后得结果<china,3><cstor,1><cstor,2>cSlave1处理汇总至本机数据计算后得结果<cstor,3>cMaster1计算主节点洗牌shuffle汇总计算Reduce结果存至DFS结果存至DFS存结果cMaster0存储主节点分布式计算只要保证存于cSlave0上的数据,同时还存在于别的机器上,即使cSlave0宕机,数据依旧不会丢失。冗余存储与冗余计算265.1引例冗余存储与冗余计算存储时计算时作用引入新机器cSlave2和cSlave3,将存于cSlave0的file0同样存储于cSlave2,存于cSlave1的file1同样存一份于cSlave3。cSlave0~3的计算任务统一由cMaster1指派。cMaster1选中先结束的那台机器的计算结果,并停止另一台机器里还在计算的进程通过冗余存储,不仅提高了分布式存储可靠性,还提高了分布式计算的可靠性。5.1引例5.1.1问题概述5.1.2常规解决方案5.1.3分布式下的解决方案5.1.4小结285.1引例小结现实中Hadoop的实现机制则更加复杂,但其架构的基本思路和本节很类似。分布式存储和分布式计算这两者间并没有关系,它们各自都可以独立存在。当MapReduce运行于HDFS上时,性能较好。本章未完待续百度排名首位的大数据资料和交流中心百度排名首位的云计算资料和交流中心终生免费的智能硬件大数据托管平台扫一扫,进入万物云终生免费的环境大数据共享平台扫一扫,进入环境云云创大数据

给您一步到位的解决方案!高校Hadoop教学科研一揽子解决方案云计算、大数据时代,社会亟需相关人才!而高校缺平台、缺人才、缺经验!怎么办?

建设一个Hadoop实验平台一套开源的Hadoop一体机和开发环境,详细的指导书籍和实验设计。

培养一支云计算师资队伍来自云计算高手的系列培训,

早在2010年就培训了全国第一批云计算师资力量。

营造一个大数据科研环境为科研提供技术支持,与大数据应用相结合,让科研迈上新台阶。了解详情学习云计算必须关注的公众号知名微信公众号推荐刘鹏看未来云计算头条云创大数据中国大数据微信号:chinacloudnj微信号:cstorbigdata资源丰富、分析深入、更新及时的云计算知识共享平台。微信号:lpoutloo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论