第5章-云计算的开源实现Hadoop_第1页
第5章-云计算的开源实现Hadoop_第2页
第5章-云计算的开源实现Hadoop_第3页
第5章-云计算的开源实现Hadoop_第4页
第5章-云计算的开源实现Hadoop_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第5章章 云计算的开源实现云计算的开源实现Hadoop25.1 Hadoop概述概述v 以MapReduce框架和Hadoop分布式文件系统(HDFS)为核心。v 同时包含Hive、HBase、Pig、Common、Avro、Chukwa等多个子项目的大数据处理平台。v 目前基本上已成为MapReduce实现的产业标准。v 在互联网领域得到了广泛的应用: Yahoo! 百度:搜索日志的分析和网页数据的挖掘工作 淘宝:存储并处理电子商务交易的相关数据35.2 Hadoop在云计算和大数据在云计算和大数据的位置和关系的位置和关系v Hadoop是构建云计算环境的一种分布式框架 HDFS采用了分布

2、式存储方式,提高了读写速度。 MapReduce 用以整合分布式文件系统上的数据。 采用存储冗余数据的方式保证了数据的安全性。 工业界大数据领域的事实标准 业界的使用和改进迭代进一步完善并推动了Hadoop的发展。45.3 Hadoop生态系统生态系统v 底层以HDFS和MapReduce为核心,上层为各种存储、计算、分析等应用系统,包括Common、Avro、Chukwa、Hive、HBase、Pig等。5Hadoop生态系统生态系统v HDFS:Hadoop分布式文件系统,用以实现分布式存储,是GFS的Java开源实现,运行在大型商业机集群。v MapReduce:分布式数据处理模型和执行

3、环境,运行在大型商业机集群,能够处理T级别及以上的数据。v Hbase:分布式、按列存储的数据库。HBase使用HDFS作为底层存储,同时支持MapReuce的批量式计算和随机读取。v Hive:是为提供简单的数据操作而设计的分布式数据仓库。Hive管理HDFS中存储的数据,提供了一种类似SQL语法的HiveQL语言进行数据查询(由运行时引擎翻译成MapReduce作业)。v Pig:大数据流处理系统,运行在HDFS和MapReduce的集群上,用来执行并行计算,检索大型数据集。6Hadoop生态系统生态系统v Mahout:基于MapReduce的大规模数据挖掘与机器学习算法库。v Zook

4、eeper:分布式协调系统,是Google Chubby的Java开源实现,是一种可靠的分布式协同(coordination)系统,可以用来构建分布式应用。 v Flume:一个分布式、可用性高的海量日志收集和传输系统。v Sqoop:数据转换系统,Hadoop环境下连接关系数据库和Hadoop存储系统的桥梁:可以将一个关系型数据库中的数据导入非关系型数据库中,也可以将非关系型的数据导入关系型数据库中。 v Ambari:Hadoop分布式集群配置管理工具,支持Hadoop集群的供应、管理和监控。Ambari充分利用一些已有的优秀开源软件,在分布式环境中实现集群式服务管理、监控和展示。7分布式

5、文件系统分布式文件系统HDFSv 主从架构模型系统,一个HDFS集群由一个Master节点和多个Slave节点构成。 Master节点:称为NameNode,用以管理整个文件系统命名空间和客户端对文件的访问 Slave节点:称为DataNode,用于真正存储数据。 HDFS的副本存放策略 将3个数据块副本(默认配置下)中的两个存放在同一个机架的不同节点上,另一个存放在另外一个机架的一个节点上。 在读取数据时,HDFS会尽量读取离客户端最近的副本。8分布式数据处理分布式数据处理MapReducev 一种并行计算模型,用于大规模数据集的并行运算。 Map函数把一个输入的键值对映射成同样为形式的中间

6、结果 把具有相同key值的value归纳起来形成一个value列表(这个过程称为Shuffle)并传递给reduce函数 reduce函数对这个value列表进行处理,输出形式为的最终结果。9分布式数据库分布式数据库HBasev 构建在HDFS之上的面向列的分布式数据库系统。 利用HDFS作为其文件存储系统 采用MapReduce框架处理海量数据 通过ZooKeeper进行集群管理。 HBase有别于关系数据库。 基于列的映射数据库,表示简单的键-数据的映射关系 只有简单的字符串类型 只提供插入、删除、查询、清空等简单操作,没有复杂的表和表之间的关联 基于列存储,每一列单独存放,数据就是索引

7、数据更新是通过时间戳增加了新的数据版本,历史数据仍然会保留 可伸缩性,通过简单的增加节点进行水平扩展10数据仓库数据仓库Hivev 一个基于Hadoop文件系统的开源数据仓库架构。 定义了类SQL的语言(HQL),通过HQL实现和SQL相似的操作。 对存储在HDFS中的大规模数据进行查询和分析。 Hive有别于关系数据库。 Hive的数据存储在HDFS中 Hive没有定义专门的数据格式,只需在定义表的时候指明数据中的列分隔符和行分隔符即可 Hive不支持对数据的改写和添加,所有数据在加载时就确定好 Hive中的数据查询是把HQL语句解析,最终转换成MapReduce任务进行处理 Hive具有高

8、扩展性11Hive、HBase、HDFS比较比较125.4 Hadoop的行业应用的行业应用vHadoop在百度的应用领域: 大数据挖掘与分析 日志分析平台 数据仓库系统 用户行为分析系统 广告平台等 百度的Hadoop集群规模: 超过数十个集群 单集群节点数目超过5000台 每天处理的数据量超过8000TB。 开发了HCE(Hadoop C+ Extend Systerm)系统 通过HCE对Streaming作业的排序、压缩、解压缩、内存控制进行了优化,并提供了C+版的MapReduce接口。13Hadoop的行业应用的行业应用vHadoop在阿里的应用领域: 数据平台系统、搜索支撑、广告系

9、统、数据魔方、量子统计、淘数据、推荐引擎系统等。 阿里的Hadoop集群-“云梯” 所有数据都在云梯上,在集群模式下实现数据共享,避免了重复的存储和计算。 自主研发的数据传输组件实时传输数据到Hadoop集群“云梯”,实现数据同步。 自主研发了iStream(流式计算引擎)、iCall(基于Thrift的分布式RPC服务) iStream可以自动感知流处理的进度快慢,智能调整计算节点的数量。 iStream承担了流式数据处理的角色,为搜索引擎提供实时增量数据。 MapReduce承担了全量或者批量数据处理的角色,为搜索引擎提供全量数据。14Hadoop的行业应用的行业应用vHadoop在中国联通的应用: 构建了全国集中的海量数据存储和查询系统 各个省份采集数据实时传送到北京的数据中心,实现移动通信用户上网记录集中查询与分析。 Hadoop在中国移动的应用-“大云” 使用BC-Hadoop在PaaS层部署大数据存储与分析平台 “大云”并行数据挖掘工具(BC-PDM)支持SaaS模式的海量数据并行处理、分析与挖掘,适用于经营决策、用户行为分析、精准

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论