《Hadoop技术原理》课件-1.初识Hadoop_第1页
《Hadoop技术原理》课件-1.初识Hadoop_第2页
《Hadoop技术原理》课件-1.初识Hadoop_第3页
《Hadoop技术原理》课件-1.初识Hadoop_第4页
《Hadoop技术原理》课件-1.初识Hadoop_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop技术原理初识Hadoop大数据概述01大数据技术概述01194619511956196119701974197919912001200320082011第一台计算机ENIAC面世磁带+卡片人工管理磁盘被发明,进入文件管理时代网络型SQLE-RGE公司发明第一个网络模型数据库,但仅限于GE自己的主机1960年代,IT系统规模和复杂度变大,数据与应用分离的需求开始产生,数据库技术开始萌芽并蓬勃发展,并在1990年后逐步统一到以关系型数据库为主导IBME.F.Dodd提出关系模型SQL语言被发明关系型数据库ORACLE发布第一个商用SQL关系数据库,后续快速发展数据仓库数据仓库开始涌现,关系数据库开始全面普及且平台无关,进入成熟期2001年后,互联网迅速发展,数据量成倍递增,量变引起质变,开始对数据管理技术提出全新的要求1946年,电脑诞生,数据与应用紧密捆绑在文件中,彼此不分Hadoop成为Apache顶级项目,重点支持海量数据分布式管理和分布式计算GFS谷歌发表论文介绍分布式文件系统数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出现使该领域进入了一个新的发展阶段大数据技术概述02数据量剧增→海量数据超过150亿个设备连接到互联网全球每秒钟发送290万封电子邮件每天有2.88万小时视频上传到YoutubeFacebook每日评论达32亿条,每天上传照片近3亿张,每月处理数据总量约130万TB预计2020年将增长到35ZBIDC全球数据量预测(1ZB

=1百万PB=10亿TB)大数据技术概述03大数据(BigData)正迅速成为最值得关注的IT领域之一2011年5月,EMCWorld2011大会主题“云计算相遇大数据”,EMC除了一直倡导的云计算外,还抛出"大数据"(BigData)概念2011年6月底,IBM、麦肯锡等众多国外机构发布"大数据"相关研究报告,予以积极跟进Google网站Bigdata关键词搜索及新闻引用量大数据技术概述04VolumeVelocityValueVariety大数据的定义大数据这一概念,首先要从"大"入手,"大"是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别。具有4V的,才是大数据大数据技术概述05大数据技术:指从各种各样类型的巨量数据中,快速获得有价值信息的技术。而解决大数据问题的核心是大数据技术。大数据技术要面对的基本问题,也是最核心的问题:就是海量数据如何可靠存储和高效计算。大数据技术概述06大数据技术的发展Google的“三驾马车”07传统存储方案集中式的存储,集中式的计算希望采购更高配置的机器来搭建系统,成本太高。对于更大规模存储和计算遇到瓶颈,扩展比较难Google的“三驾马车”08Googel的低成本之道不使用超级计算机,不使用存储(去IOE)大量使用普通的pc服务器,提供有冗余的集群服务Google的“三驾马车”09012003GFS022004MapReduce032006BigTable《TheGoogleFileSystem》《MapReduce:SimplifiedDataProcessingonLargeClusters》MapReduce:大型集群上的简单数据处理《Bigtable:ADistributedStorageSystemforStructuredData》Bigtable:一个分布式的结构化数据存储系统Google的“三驾马车”10Google思想一:GFS分布式文件系统客户端服务端Google的“三驾马车”11GFS分布式文件系统架构ChunkServer->块服务器Chunk->块Master-->主节点Google的“三驾马车”12Google思想二:MapReduceMapReduce采用“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个子节点共同完成,然后整合各个子节点的中间结果,得到最终的计算结果。简而言之,MapReduce就是“分散任务,汇总结果”Google的“三驾马车”13MapReduce运行原理Google的“三驾马车”14Google思想三:BigTableBigTable的数据模型,与MySQL比较RowKey相当于MySQL的主键,不能为空,可以重复。相同的rowkey是一行记录Google的“三驾马车”15Google思想三:BigTable数据模型ColumnFamily:列族Column:列RowKey:行键Timestamp:时间,数据的版本,越大,表示数据越新。Google的“三驾马车”16Google思想三:BigTableBigTable架构表中的行用分区管理。每个分区叫做一个”Tablet”。TabletServer存储多个TabletHadoop概述02Hadoop概述01Hadoop对Google三篇论文实现HDFS→GFSMapReduce→MapReduceHBase→BigTableHadoop概述02HDFS分布式文件系统HDFS:HadoopDistributedFileSystem,是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础。HDFS是对GFS论文的实现。客户端服务端Hadoop概述03HDFS分布式文件系统机架感知与副本冗余存储策略”实现最大化数据可靠性和可用性Hadoop概述MapReduce分布式计算技术Hadoop的MapReduce与Google公司的MapReduce论文所提的实现思路是一样的,都是根据“分而治之”的核心思想进行实现的。04Hadoop概述05Hbase数据库HBase是一个分布式的、面向列的开源数据库;HBase在Hadoop之上提供了类似于Bigtable的能力,HBase是对Google公司的BigTable论文的实现。表中的行用分区管理。每个分区叫做一个”Region”。RegionServer存储多个RegionHadoop概述06Hadoop发展简史Hadoop源自始于2002年的ApacheNutch项目——一个开源的网络搜索引擎并且也是Lucene项目的一部分。创始人DougCutting。DougCuttingHadoop概述07Hadoop发展简史起源于Nutch2008年4月,Hadoop打破世界纪录,成为最快排序1TB数据的系统,它采用一个由910个节点构成的集群进行运算,排序时间只用了209秒在2009年5月,Hadoop更是把1TB数据排序时间缩短到62秒。Hadoop从此名声大震,迅速发展成为大数据时代最具影响力的开源分布式开发平台,并成为事实上的大数据处理标准Hadoop概述08Hadoop发展简史ApacheHadoopHadoop概述09Hadoop发展简史ApacheHadoop版本演变Hadoop概述10Hadoop发行版本

Hadoop概述11Hadoop特性和适用场景

特性:扩容能力强成本低高效率可靠性适合场景:大数据分析离线分析不适合场景:少量数据复杂数据在线分析Hadoop生态圈03Hadoop生态圈01Hadoop实现了Google的三大论文,许多公司又针对性的开发了各自的功能组件,有效地扩充了Hadoop的功能,构成了Hadoop的生态圈。Hadoop生态圈02组件功能HDFS分布式文件系统YARN资源管理和调度器MapReduce分布式并行编程模型HBaseHadoop上的非关系型的分布式数据库HiveHadoop上的数据仓库Pig一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言PigLatinFlume一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统Sqoop用于在Hadoop与传统数据库之间进行数据传递Zookeeper提供分布式协调一致性服务AmbariHadoop快速部署工具,支持ApacheHadoop集群的供应、管理和监控Mahout提供一些可扩展的机器学习领域经典算法的实现Spark类似于HadoopMapReduce的通用并行框架OozieHadoop上的工作流管理系统Sto

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论