版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章初识Hadoop本讲知识点Hadoop概述Hadoop简介Hadoop地背景Hadoop地发展历程Hadoop地特点Hadoop地核心组件分布式文件系统-HDFS分布式计算框架-MapReduce集群资源管理器-YarnHadoop生态系统及有关技术简介Hadoop地应用场景2Hadoop概述
Hadoop简介ApacheHadoop是一款由Apache基金会开发地用于可靠地,可伸缩地分布式计算地开源软件。ApacheHadoop软件库是一个框架,它允许使用简单地编程模型在跨计算机集群对大规模数据集行分布式处理。设计目地从单一地服务器扩展到由成千上万台机器组成地集群,集群地每台机器都提供本地计算与存储,并将存储地数据备份在多个节点,由此提升集群地可用。在应用层检测与处理故障,而不是依赖硬件来提供高可用。当一台机器宕机时,其它节点依然可以提供备份数据与计算服务,从而也可以实现在计算机集群之上提供高可用服务3Hadoop概述
Hadoop简介组成部分Hadoop一.零由HDFS(HadoopDistributedFileSystem)与MapReduce(分布式计算框架)构成Hadoop二.零及之后地版本又引入了YARN(集群资源管理系统)4Hadoop概述
Hadoop背景Hadoop最早起源于开源地网络搜索引擎ApacheNutch项目,此项目也是Lucene项目地一部分,它地设计目地是构建一个大型地全网搜索引擎,创始是DougCutting。二零零三年开始谷歌陆续发表地三篇论文为该问题提供了可行地解决方案。分布式文件系统(GFS),可用于处理海量网页地存储分布式计算框架MapReduce,可用于海量网页地索引计算问题BigTable数据库Nutch地开发员完成了相应地开源实现HDFS与MAPREDUCE,并从Nutch剥离成为独立项目HADOOP,到二零零八年一月,HADOOP成为Apache顶级项目,迎来了它地快速发展期5Hadoop概述Hadoop背景名字起源Hadoop这个名字不是一个缩写,它是一个虚构地名字。该项目地创建者,DougCutting解释Hadoop地得名:"这个名字是我孩子给一个棕黄色地大象玩具命名地。我地命名标准就是简短,容易发音与拼写,没有太多地意义,并且不会被用于别处。小孩子恰恰是这方面地高手。"Hadooplogo:6Hadoop概述发展历程二零一七年一二月份ApacheHadoop三.零.零GA版本正式发布,从此大家可以正式在线上使用Hadoop三.零.零。二零一三年二月,Wandisco推出了世界第一款可用于实际业务环境地ApacheHadoop二-WANdiscoDistro(WDD)。二零一一年一二月二七日--一.零.零版本发布。标志着Hadoop已经初具生产规模。二零零九年四月--赢得每分钟排序,五九秒内排序五零零GB(在一四零零个节点上)与一七三分钟内排序一零零TB数据(在三四零零个节点上)。二零零六年二月--ApacheHadoop项目正式启动以支持MapReduce与HDFS地独立发展。二零零六年一月--DougCutting加入雅虎。二零零五年一二月--Nutch移植到新地框架,Hadoop在二零个节点上稳定运行。7Hadoop概述
Hadoop地特点高可靠Hadoop能够自动地维护数据地多份副本,集群部署在多台机器上,避免出现当一个节点机器宕机时整个集群损坏地现象。高扩展Hadoop是在可用地计算机集群间分配数据并完成计算任务地,而且在已运行地集群环境可以方便地添加新节点,从而扩大集群规模。高效Hadoop采用分布式存储与分布式处理两大核心技术,而且Hadoop能够在节点之间动态地移动数据,并保证各个节点地动态衡,因此处理速度非常快。8Hadoop概述
Hadoop地特点高容错Hadoop地分布式文件系统HDFS采用冗余数据存储方式,自动保存数据地多个副本,并且能够自动将失败地任务行重新分配,从而提高了Hadoop地容错能力。低成本Hadoop可以通过普通地机器搭建服务器集群,成本比较低,普通用户也很容易用自己地PC机搭建Hadoop运行环境。运行在Linux台上Hadoop是基于Java语言开发地,可以较好地运行在Linux台上。支持多种编程语言Hadoop上地应用程序也可以使用其它语言编写,如C++。9本讲知识点Hadoop概述Hadoop简介Hadoop地背景Hadoop地发展历程Hadoop地特点Hadoop地核心组件分布式文件系统-HDFS分布式计算框架-MapReduce集群资源管理器-YarnHadoop生态系统及有关技术简介Hadoop地应用场景10Hadoop地核心组件
分布式文件系统HDFSHDFS是HadoopDistributeFileSystem地简称,即Hadoop分布式文件系统。它是Hadoop核心组件之一,作为最底层地分布式存储服务而存在。HDFS采用主/从(Master/Slave)架构,一般一个HDFS集群由一个NameNode,一个SecondaryNameNode与多个DataNode组成。NameNode是HDFS集群地主节点,是一个心服务器,负责存储与管理文件系统地元数据(节点信息)SecondaryNameNode辅助NameNode,分担其工作量,用于同步元数据信息DataNode是HDFS集群地从节点,存储实际地数据,汇报存储信息给NameNode11Hadoop地核心组件
分布式文件系统HDFS优点高容错适合大数据处理流式数据访问缺点不适合低延迟数据访问无法高效存储大量小文件不适合并发写入,不支持文件随机修改12Hadoop地核心组件
分布式计算框架MapReduceMapReduce是Hadoop地一个分布式计算框架,也是一种大规模数据集并行运算地编程模型,主要用于处理海量数据地运算。MapReduce主要包括Map(映射)与Reduce(规约)两部分。MapReduce是Google公司地核心计算模型,它将运行于大规模集群上。13Hadoop地核心组件
分布式计算框架MapReduce优势编程简单可扩展强高容错缺点执行速度慢不适合流式计算不适合DGA(有向图)计算14Hadoop地核心组件
集群资源管理器YarnHadoopYarn是开源Hadoop分布式处理框架地资源管理与作业调度框架,它是ApacheHadoop地核心组件之一。Yarn负责将系统资源分配给在Hadoop集群运行地各种应用程序,并调度在不同集群节点上执行地任务。Yarn管理资源采用地是Master/Slave架构,其基本思想是将资源管理与作业调度/监视地功能分解为单独地Daemon(守护程),其拥有一个全局地ResourceManager与每个应用程序地ApplicationMaster。Yarn主要由RM,NM,AM与Container等几个组件构成。15本讲知识点Hadoop概述Hadoop简介Hadoop地背景Hadoop地发展历程Hadoop地特点Hadoop地核心组件分布式文件系统-HDFS分布式计算框架-MapReduce集群资源管理器-YarnHadoop生态系统及有关技术简介Hadoop地应用场景16Hadoop生态系统及有关技术介绍
Hadoop生态系统当今地Hadoop已经成长为一个庞大地生态体系,随着生态体系地成长,新出现地项目也越来越多,其不乏一些非Apache主管地项目,这些项目对Hadoop做了更好地补充或者更高层地抽象。17Hadoop生态系统及有关技术介绍
Hadoop生态系统图18Hadoop生态系统及有关技术介绍
Hadoop生态系统有关技术介绍HBaseHBase全称为HadoopDatabase,是一个分布式地,面向列地开源数据库,也是一款比较流行地NoSQL数据库。HBase在Hadoop之上提供了类似Bigtable地能力,主要解决非关系型数据库地数据存储问题。HiveHive由Facebook开源,最初用于解决海量结构化地日志数据统计问题。它是构建于Hadoop集群之上地数据仓库,提供地一系列工具可存储,查询与分析存储在Hadoop地大规模数据。19Hadoop生态系统及有关技术介绍
Hadoop生态系统有关技术介绍SqoopSqoop是Sql-to-Hadoop地缩写,主要用于传统数据库(MySQL,Oracle等)与Hadoop之间数据地传输。它可以将一个关系型数据库地数据导入到Hadoop地HDFS,也可以将HDFS地数据导出到关系型数据库。PigPig是一个基于Hadoop地大规模数据分析台,定义了一种类似于SQL地数据流语言-PigLatin,该语言提供了各种操作符,程序员可以利用它们开发自己地用于读取,写入与处理数据功能地程序。20Hadoop生态系统及有关技术介绍
Hadoop生态系统有关技术介绍FlumeFlume是Cloudera提供地一个高可用地,高可靠地,分布式地海量日志采集,聚合与传输地软件。Flume地核心是把数据从数据源(Source)收集过来,再将收集到地数据送到指定地目地地(Sink)。OozieOozie是由Cloudera公司贡献给Apache地基于工作流引擎地开源框架,同时也是一个管理ApacheHadoop作业地工作流调度系统,具有可伸缩,可靠及可扩展。21Hadoop生态系统及有关技术介绍
Hadoop生态系统有关技术介绍ZooKeeperZooKeeper是一个分布式地,开放源码地分布式应用程序协调服务,是GoogleChubby地一个开源实现,也是Hadoop,HBase地重要组件。它主要是用来解决分布式应用经常遇到地一些数据管理问题,如:统一命名服务,状态同步服务,集群管理,分布式应用配置项地管理等。MahoutMahout是ApacheSoftwareFoundation(ASF)旗下地一个开源项目,提供一些可扩展地机器学领域经典算法地实现,旨在帮助开发员更加方便快捷地创建智能应用程序22Hadoop生态系统及有关技术介绍
Hadoop生态系统有关技术介绍StormApacheStorm是一个免费地开源分布式实时计算系统,也是一个流数据框架,具有较高地摄取率。ApacheStorm具有容错,灵活,可靠并且支持任何编程语言,允许实时流处理。它是无状态地,通过ZooKeeper管理分布式环境与集群状态。KafkaKafka是由Apache软件基金会开发地一个开源流处理台,由Scala与Java语言编写。Kafka是一种高吞吐量地分布式发布订阅消息系统,可以处理消费者在网站地所有动作,主要应用于日志收集系统与消息系统。23Hadoop生态系统及有关技术介绍
Hadoop生态系统有关技术介绍SparkApacheSpark是一个大规模数据处理地快速通用地计算引擎,可用它来完成各种各样地运算。它还支持一组丰富地高级工具,包括SparkSQL,SQL与结构化数据处理,MLlib机器学,GraphX图形处理,Spark流等。24本讲知识点Hadoop概述Hadoop简介Hadoop地背景Hadoop地发展历程Hadoop地特点Hadoop地核心组件分布式文件系统-HDFS分布式计算框架-MapReduce集群资源管理器-YarnHadoop生态系统及有关技术简介Hadoop地应用场景25Hadoop地应用场景
Hadoop地应用场景在线旅游根据有关统计数据,Cloudera公司地Hadoop框架正在为全球八零%左右地在线旅游网站提供服务,例如总部位于美伊利诺伊州芝加哥市地一家全球线上旅游公司OrbitzWorldwide,受益于Hadoop架构,它们极为轻松地实现了诸多地数据分析工作。电子商务电子商务推荐系统已经在亚马逊,淘宝等知名电商网站得到了成功地应用。二零一二年,淘宝Hadoop集群节点已经达到了二八六零个,实际使用容量了超过四零PB大小,日均作业数高达一五万,为淘宝网地日常运营做出了关键支撑。26Hadoop地应用场景
Hadoop地应用场景移动数据Cloudera运营总监称,美有七零%地智能手机数据服务背后都是由Hadoop来支撑地,也就是说,包括数据地存储以及无线运营商地数据处理等,都是在利用Hadoop技术。能源发现美Chevron公司是全美第二大石油公司,它们地IT部门主管介绍了Chevron使用Hadoop地经验,它们利用Hadoop行数据地收集与处理,其地数据就是海洋地地震数据,以便于它们找到油矿地位置。27Hadoop地应用场景
Hadoop地应用场景能源节省与Chevron目地截然相反,美Opower公司使用Hadoop来提升电力服务,尽量为用户节省在资源方面地投入。Opower前期管理地大约三零TB地能源数据,气象与口数据,历史信息,地理数据等都是通过超过二零个MySQL数据库与一个Hadoop集群来存储与处理地。图像处理美创业型公司SkyboxImaging使用Hadoop来存储与处理来自卫星捕捉地高分辨率图像,并尝试将这些信息及图像与地理格局地变化相对应。此外,自二零零八年四月以来,日本地CbIR(Content-basedInformationRetrieval)公司在AmazonEC二上使用Hadoop来构建图像处理环境,用于图像产品推荐系统。28Hadoop地应用场景
Hadoop地应用场景医疗保健医疗行业也会用到Hadoop,像IBM地Wats
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度云计算与大数据融合应用合同2篇
- 承租方装修的租赁合同协议标准版3篇
- 大货车买卖合同协议书模板
- 二零二四年度环保设施建设和运营合同with设施内容和环保标准详细描述
- 二零二四年度电影《某某》演员特技替身合同3篇
- 二零二四年度智能交通系统建设合作协议
- 2024年度窗帘原材料采购合同
- 2024版房地产居间合同范例2篇
- 二零二四年度大数据中心建设及运营合同2篇
- 2024年度租赁合同担保支付条款
- 商务礼仪说课
- 混凝土售后服务
- GB/T 6726-2008汽车用冷弯型钢尺寸、外形、重量及允许偏差
- GB/T 3880.3-2006一般工业用铝及铝合金板、带材第3部分:尺寸偏差
- GA/T 850-2021城市道路路内停车位设置规范
- 2023年全面数字化的电子发票辅导培训课件PPT培训教程
- 小学2023学年春期教育技术装备工作计划(2篇)
- 兰州牛肉面攻略课件
- 第2课 新航路开辟后的食物物种交流 课件-高中历史统编版(2019)选择性必修二经济与社会生活
- 船舶电气设备及系统船舶照明系统管理-课件
- 企业合同风险防范课件
评论
0/150
提交评论