版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
5.1引例5.2Hadoop2.0简述5.3Hadoop2.0部署5.4Hadoop2.0体系架构5.5Hadoop2.0访问接口5.6Hadoop2.0编程接口5.2Hadoop2.0简述5.2.1Hadoop2.0由来5.2.2Hadoop2.0相关项目5.2.3Hadoop应用35.2Hadoop2.0简述Hadoop2.0由来开源组织Apache成立开源搜索引擎项目NutchApache实现了Nutch版的NDFS和MapReduceNDFS和MapReduce移出Nutch,形成独立项目,称为Hadoop。工业界称Hadoop1.X及其以前的版本(0.23.X除外)为Hadoop1.0,称Hadoop2.X及其以后版本为Hadoop2.02002年2004年2006年4将Hadoop2.0部署至集群后,通过调用Hadoop2.0程序库,能够用简单的编程模型来处理分布在不同机器上的大规模数据集。由于采用客户-服务器模式,Hadoop2.0很容易从一台机器扩展至成千上万台机器,并且每台机器都能提供本地计算存储和本地计算。考虑到集群中每台机器都可能会出问题(如硬件失效),Hadoop2.0本身从设计上就在程序层规避了这些问题。5.2Hadoop2.0简述Hadoop2.0由来Hadoop2.0分布式存储(HDFS)分布式操作系统(Yarn)55.2Hadoop2.0简述Hadoop2.0由来Hadoop至少应当包含分布式存储和分布式计算两个模块,下面给出Hadoop1.0项目模块。HadoopCommon联系HDFS和MapReduce的纽带,它一方面为另外两组件提供一些公用jar包,另一方面也是程序员访问其他两模块的接口。HDFSHadoop的分布式文件系统。主要提供分布式存储服务。HadoopMapReduce分布式计算框架。主要负责资源管理、任务调度和MapReduce算法实现。5.2Hadoop2.0简述5.2.1Hadoop2.0由来5.2.2Hadoop2.0相关项目5.2.3Hadoop应用7Hadoop云计算系统Google云计算系统HadoopHDFSGoogleGFSHadoopMapReduceGoogleMapReduceHBaseGoogleBigTableZooKeeperGoogleChubbyPigGoogleSawzall5.2Hadoop2.0简述Google云计算组件和Hadoop及其相关项目之间的对应关系:Hadoop2.0相关项目8ClouderaManager/AmbariHueBigTopAvroMahoutRHadoopHivePigImaplaSerachOozieHcataLogCassandraSqoopFlumeChukwaWebHDFSZookeeperMapReduceHbaseYarnHDFS5.2Hadoop2.0简述Hadoop2.0相关项目近几年工业界围绕Hadoop进行了大量的外围产品开发,下图描述了各个产品项目之间的层次关系。5.2Hadoop2.0简述5.2.1Hadoop2.0由来5.2.2Hadoop2.0相关项目5.2.3Hadoop应用105.2Hadoop2.0简述Hadoop应用构建大型分布式集群数据仓库数据挖掘5.1引例5.2Hadoop2.0简述5.3Hadoop2.0部署5.4Hadoop2.0体系架构5.5Hadoop2.0访问接口5.6Hadoop2.0编程接口5.3Hadoop2.0部署5.3.1部署综述5.3.2传统解压包部署135.3Hadoop2.0部署部署综述安装方式简单易用烦琐易错隐藏了太多细节有助于读者深入理解Hadoop传统解压包方式Linux标准方式部署环境不需要与其他节点交互,不需要使用HDFS,直接读写本地的文件系统单机模式伪分布模式分布式模式在一台单机上运行,用不同的进程模仿分布式运行中的各类节点在不同的机器上部署系统145.3Hadoop2.0部署部署步骤制定部署规划准备机器准备机器软件环境下载Hadoop解压Hadoop配置Hadoop启动Hadoop测试Hadoop部署前工作部署Hadoop1)硬件环境由于分布式计算需要用到很多机器,部署时用户须提供多台机器,至于提供几台,须根据“部署规划”确定。实际上,完全模式部署Hadoop时,最低需要两台机器(一个主节点,一个从节点),此外,硬件方面,每台机器最低要求有1GB内存,20GB硬盘空间。5.3Hadoop2.0部署准备环境165.3Hadoop2.0部署准备环境2)软件环境大量的实践证明,在Linux环境下使用Hadoop则更加稳定高效须注意的是新装系统(CentOS)的机器不可以直接部署Hadoop修改机器名添加域名映射关闭防火墙安装JDK175.3Hadoop2.0部署关于Hadoop依赖软件SSH只是给sbin/start-yarn.sh等几个start-x.sh与stop-x.sh脚本使用Hadoop本身是一堆Java代码,而Java代码并不依赖SSH本节使用的Hadoop版本为稳定版Hadoop-2.2.0.tar.gzCentOS版本为64位CentOS-6.5JDK版本为jdk-7u40-linux-x64.rpm5.3Hadoop2.0部署5.3.1部署综述5.3.2传统解压包部署5.3Hadoop2.0部署传统解压包部署现有三台机器,且它们都刚装好64位CentOS-6.5,安装系统时用户名为joe,请按要求完成:①修改三台机器名为cMaster,cSlave0和cSlave1,并添加域名映射、关闭防火墙和安装JDK。②以cMaster作为主节点,cSlave0和cSlave1作为从节点,部署Hadoop。【例5-5】195.3Hadoop2.0部署传统解压包部署1.制定部署规划此Hadoop集群需三台机器(cMaster,cSlave0和cSlave1),其中cMaster作为主节点,cSlave0和cSlave1作为从节点。2.准备机器准备三台机器,它们可以是实体机也可以是虚拟机,若使用虚拟机。3.准备机器软件环境三台机器都要完成:修改机器名、添加域名映射、关闭防火墙和安装JDK。205.3Hadoop2.0部署传统解压包部署4.下载Hadoop谷歌搜索“Hadoopdownload”并下载,以joe用户身份,将Hadoop分别复制到三台机器上。5.解压Hadoop分别以joe用户登录三台机器,每台都执行如下命令解压Hadoop文件:6.配置Hadoop三台机器都要配置,且配置相同215.3Hadoop2.0部署传统解压包部署7.启动Hadoop首先,在主节点cMaster上格式化主节点命名空间其次,在主节点cMaster上启动存储主服务namenode和资源管理主服务resourcemanager。最后,在从节点上启动存储从服务datanode和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2030年石墨烯磁记忆行业市场现状供需分析及投资评估规划分析研究报告
- 2024-2030年疝气修补装置行业市场现状供需分析及投资评估规划分析研究报告
- 2024-2030年电平转换器行业市场现状供需分析及重点企业投资评估规划分析研究报告
- 2024-2030年球棒行业市场现状供需分析及投资评估规划分析研究报告
- 2024-2030年物流中心产业市场发展分析及发展趋势与投资研究报告
- 2024-2030年燃气成套锅炉行业市场现状供需分析及投资评估规划分析研究报告
- 2024-2030年焊烟净化器行业市场发展分析与发展趋势及投资前景预测报告
- 2024-2030年热夹克行业市场现状供需分析及投资评估规划分析研究报告
- 2024年学校教师工作总结(三篇)
- 2024年多股东合作协议模板(四篇)
- 中国移动-安全-L3
- 新生儿疾病诊疗规范诊疗指南诊疗常规2022版
- 2023年四川高考数学(理)试题
- 带式输送机跑偏的处理方法
- 小学三年级八班家长会课件
- 服务员的礼仪礼节礼貌培训
- 2023年中国铁塔股份有限公司招聘笔试题库及答案解析
- “双减”背景下的小学英语作业优化设计PPT
- 核医学在血液与淋巴系统中的应用
- GB/T 12807-2021实验室玻璃仪器分度吸量管
- GB/T 10362-2008粮油检验玉米水分测定
评论
0/150
提交评论