云计算(第三版)配套之16第5章Hadoop20主流开源云架构(二)_第1页
云计算(第三版)配套之16第5章Hadoop20主流开源云架构(二)_第2页
云计算(第三版)配套之16第5章Hadoop20主流开源云架构(二)_第3页
云计算(第三版)配套之16第5章Hadoop20主流开源云架构(二)_第4页
云计算(第三版)配套之16第5章Hadoop20主流开源云架构(二)_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

5.1引例5.2Hadoop2.0简述5.3Hadoop2.0部署5.4Hadoop2.0体系架构5.5Hadoop2.0访问接口5.6Hadoop2.0编程接口5.2Hadoop2.0简述5.2.1Hadoop2.0由来5.2.2Hadoop2.0相关工程5.2.3Hadoop应用35.2Hadoop2.0简述Hadoop2.0由来开源组织Apache成立开源搜索引擎工程NutchApache实现了Nutch版的NDFS和MapReduceNDFS和MapReduce移出Nutch,形成独立工程,称为Hadoop。工业界称Hadoop1.X及其以前的版本〔除外〕为Hadoop1.0,称Hadoop2.X及其以后版本为Hadoop2.02002年2004年2006年4将Hadoop2.0部署至集群后,通过调用Hadoop2.0程序库,能够用简单的编程模型来处理分布在不同机器上的大规模数据集。由于采用客户-效劳器模式,Hadoop2.0很容易从一台机器扩展至成千上万台机器,并且每台机器都能提供本地计算存储和本地计算。考虑到集群中每台机器都可能会出问题〔如硬件失效〕,Hadoop2.0本身从设计上就在程序层躲避了这些问题。5.2Hadoop2.0简述Hadoop2.0由来Hadoop2.0分布式存储〔HDFS〕分布式操作系统〔Yarn〕55.2Hadoop2.0简述Hadoop2.0由来Hadoop至少应当包含分布式存储和分布式计算两个模块,下面给出Hadoop1.0工程模块。HadoopCommon联系HDFS和MapReduce的纽带,它一方面为另外两组件提供一些公用jar包,另一方面也是程序员访问其他两模块的接口。HDFSHadoop的分布式文件系统。主要提供分布式存储效劳。HadoopMapReduce分布式计算框架。主要负责资源管理、任务调度和MapReduce算法实现。5.2Hadoop2.0简述5.2.1Hadoop2.0由来5.2.2Hadoop2.0相关工程5.2.3Hadoop应用7Hadoop云计算系统Google云计算系统HadoopHDFSGoogleGFSHadoopMapReduceGoogleMapReduceHBaseGoogleBigTableZooKeeperGoogleChubbyPigGoogleSawzall5.2Hadoop2.0简述Google云计算组件和Hadoop及其相关工程之间的对应关系:Hadoop2.0相关工程8ClouderaManager/AmbariHueBigTopAvroMahoutRHadoopHivePigImaplaSerachOozieHcataLogCassandraSqoopFlumeChukwaWebHDFSZookeeperMapReduceHbaseYarnHDFS5.2Hadoop2.0简述Hadoop2.0相关工程近几年工业界围绕Hadoop进行了大量的外围产品开发,以下图描述了各个产品工程之间的层次关系。5.2Hadoop2.0简述5.2.1Hadoop2.0由来5.2.2Hadoop2.0相关工程5.2.3Hadoop应用105.2Hadoop2.0简述Hadoop应用构建大型分布式集群数据仓库数据挖掘5.1引例5.2Hadoop2.0简述5.3Hadoop2.0部署5.4Hadoop2.0体系架构5.5Hadoop2.0访问接口5.6Hadoop2.0编程接口5.3Hadoop2.0部署5.3.1部署综述5.3.2传统解压包部署135.3Hadoop2.0部署部署综述安装方式简单易用烦琐易错隐藏了太多细节有助于读者深入理解Hadoop传统解压包方式Linux标准方式部署环境不需要与其他节点交互,不需要使用HDFS,直接读写本地的文件系统单机模式伪分布模式分布式模式在一台单机上运行,用不同的进程模仿分布式运行中的各类节点在不同的机器上部署系统145.3Hadoop2.0部署部署步骤制定部署规划准备机器准备机器软件环境下载Hadoop解压Hadoop配置Hadoop启动Hadoop测试Hadoop部署前工作部署Hadoop1〕硬件环境由于分布式计算需要用到很多机器,部署时用户须提供多台机器,至于提供几台,须根据“部署规划〞确定。实际上,完全模式部署Hadoop时,最低需要两台机器〔一个主节点,一个从节点〕,此外,硬件方面,每台机器最低要求有1GB内存,20GB硬盘空间。5.3Hadoop2.0部署准备环境165.3Hadoop2.0部署准备环境2〕软件环境大量的实践证明,在Linux环境下使用Hadoop那么更加稳定高效须注意的是新装系统〔CentOS〕的机器不可以直接部署Hadoop修改机器名添加域名映射安装JDK175.3Hadoop2.0部署关于Hadoop依赖软件SSH只是给sbin/start-yarn.sh等几个start-x.sh与stop-x.sh脚本使用Hadoop本身是一堆Java代码,而Java代码并不依赖SSH本节使用的Hadoop版本为稳定版CentOS版本为64位CentOS-6.5JDK版本为jdk-7u40-linux-x64.rpm5.3Hadoop2.0部署5.3.1部署综述5.3.2传统解压包部署5.3Hadoop2.0部署传统解压包部署【例5-5】195.3Hadoop2.0部署传统解压包部署1.制定部署规划此Hadoop集群需三台机器〔cMaster,cSlave0和cSlave1〕,其中cMaster作为主节点,cSlave0和cSlave1作为从节点。2.准备机器准备三台机器,它们可以是实体机也可以是虚拟机,假设使用虚拟机。3.准备机器软件环境205.3Hadoop2.0部署传统解压包部署4.下载Hadoop谷歌搜索“Hadoopdownload〞并下载,以joe用户身份,将Hadoop分别复制到三台机器上。5.解压Hadoop分别以joe用户登录三台机器,每台都执行如下命令解压Hadoop文件:6.配置Hadoop三台机器都要配置,且配置相同215.3Hadoop2.0部署传统解压包部署7.启动Hadoop首先,在主节点cMaster上格式化主节点命名空间其次,在主节点cMaster上启动存储主效劳namenode和资源管理主效劳resourcemanager。最后,在从节点上启动存储从效劳datanode和资源管理从效劳nodemanager8.测试Hadoop22Hadoop2.0部署通过上述单机部署和集群部署,可以看出,Hadoop本身部署起来很简单,其大量工作其实都是前期的Linux环境配置,Hadoop安装只是解压、修改配置文件、格式化、启动和验证,关于Linux命令问题,请参考Linux专业书籍。总结本章未完待续百度排名首位的大数据资料和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论