




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一起认识HadoopCai目录引言Hadoop由来Hadoop发展Hadoop生态圈引言云计算的关键在于分布式计算和虚拟化。在虚拟化和云计算共同构成的架构里,虚拟化有效分离了硬件与软件,使人们将精力集中于软件提供的服务上,因此,虚拟化为云计算提供了坚定的基础。分布式计算则是云计算创造出的一种全新的计算模式,用作大规模数据处理,它是云计算的核心,也是云计算的发展趋势。大数据(bigdata)(巨量资料),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。Volume大量:像百度,淘宝,腾讯,Facebook,Twitter等网站上的一些信息,这肯定算是大数据了,都要存储下来。Variety多样:数据的多样性,是说数据可能是结构型的数据,也可能是非结构行的文本,图片,视频,语音,日志,邮件等。Velocity实时:大数据需要快速的,实时的进行处理。如果说对时间要求低,那弄几个机器,对小数据进行处理,等个十天半月的出来结果,这样也没有什么意义了。Veracity不确定:数据是存在真伪的,各种各样的数据,有的有用,有的没用。很难辨析。引言引言Volume——数据体量巨大。从TB级别,增长到PB级别。截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=1024TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=1024PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。Velocity——处理速度快,1秒定律。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。Variety——数据类型繁多,络日志、视频、图片、地理位置信息等等。类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,这些多类型的数据对数据的处理能力提出了更高要求。Veracity——只有真实而准确的数据才能让对数据的管控和治理真正有意义。引言Hadoop作为分布式计算的一种开源软件解决方案,也是当今最热门的分布式框架,为个人和企业提供一个可靠、可伸缩、低成本的云计算模式。Hadoop是适合大数据的分布式存储与计算平台。Hadoop是开源云计算平台。引言Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。低成本。与一体机、商用数据仓库以及QlikView、YonghongZ-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。Hadoop的由来Hadoop是适合大数据的分布式存储与计算平台作者:DougCutting受google公司三篇论文的影响Hadoop的由来Hadoop这个名字不是一个缩写,而是一个虚构的名字。创始人DougCutting解释Hadoop的得名:“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子恰恰是这方面的高手。”谷歌来自斯坦福BackRub项目,为了能够代表海量数据索引和巨大的信息量,安德森建议了“Googol”一词,指的是10的100次幂(方),代表互联网上的海量资源。但安德森在搜索该名字是否被注册时误打成了“google”。Googol是由美国数学家EdwardKasner9岁的侄子MiltonSirotta发明的。Hadoop的由来DougCutting被Yahoo!招安雇佣Apache基金会(版本线0.X,1.X,2.X。0.X是最稳定的)Cloudera使用下载最多的版本,稳定,有商业支持,在Apache的基础上打上了一些patch。Yahoo内部使用的版本,发布过两次,已有的版本都放在到了Apache上,后续不在继续发布,而是集中在Apache的版本上。Hadoop发展大事Hadoop生态圈发展路线传统的关系型数据库管理系统面对海量数据处理,逐渐无法胜任当前的需求。2003年以来,Google陆续推出了GFS、MapReduce、BigTable(谷歌“三宝”)等与可扩展、高性能的分布式数据处理框架相关的技术,实现了海量数据的并行处理,证明了它们在处理海量半结构化或非结构化数据的优越性。Hadoop生态圈发展路线Hadoop由DougCutting于2004年提出,它的原型和灵感来自于Google的MapReduce和GFS,是开源的分布式计算框架。2006年,随着DougCutting加入雅虎,Hadoop项目从Nutch(一个开源的网络搜索引擎)项目中独立出来,成为Apache基金会资助的顶级项目。随后,Hadoop经过七年积累,融入了R语言、Hive、Pig、Zookeeper、Cassandra、Chukwa、Sqoop等一系列数据库及工具,从一个科学项目逐渐发展成一个成熟的主流商业应用。Hadoop生态圈发展路线DougCutting于2009年离开Yahoo,加盟初创公司Cloudera,它是最早将Hadoop商用化的公司。如今,Cloudera、2011年从Yahoo剥离的Hortonworks、MapR在Hadoop领域形成三足鼎立之势。Hortonworks选择与红帽、微软等公司联手,希望借助开源社区和合作伙伴的力量壮大自己;Cloudera则与英特尔合作,瞄准高利润的大订单;MapR通过与EMC达成战略合作伙伴,致力于开发下一代性能强的Hadoop。同时,Zettaset、HStreaming、Hadapt等与Hadoop相关的新公司也获得投资,为市场带来最新技术。Hadoop生态圈发展路线Hadoop是一个能够对大量数据进行分布式处理的软件框架。相当于一个生态系统,或者可以看成一个操作系统XP,win7.HDFS和MapReduce为操作系统的核心,Hive,Pig,Mahout,Zookeeper,Flume,Sqoop,HBase等,都是操作系统上的一些软件,或应用。Hadoop生态圈HDFS(Hadoop分布式文件系统)源自于Google的GFS论文,发表于2003年10月,HDFS是GFS克隆版。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。Client:切分文件;访问HDFS;与NameNode交互,获取文件位置信息;与DataNode交互,读取和写入数据。NameNode:Master节点,在hadoop1.X中只有一个,管理HDFS的名称空间和数据块映射信息,配置副本策略,处理客户端请求。DataNode:Slave节点,存储实际的数据,汇报存储信息给NameNode。SecondaryNameNode:辅助NameNode,分担其工作量;定期合并fsimage和fsedits,推送给NameNode;紧急情况下,可辅助恢复NameNode,但SecondaryNameNode并非NameNode的热备。Mapreduce(分布式计算框架)源自于google的MapReduce论文,发表于2004年12月,HadoopMapReduce是googleMapReduce克隆版。MapReduce是一种计算模型,用以进行大数据量的计算。其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。MapReduce这样的功能划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。JobTracker:Master节点,只有一个,管理所有作业,作业/任务的监控、错误处理等;将任务分解成一系列任务,并分派给TaskTracker。TaskTracker:Slave节点,运行MapTask和ReduceTask;并与JobTracker交互,汇报任务状态。MapTask:解析每条数据记录,传递给用户编写的map(),并执行,将输出结果写入本地磁盘(如果为map-only作业,直接写入HDFS)。ReducerTask:从MapTask的执行结果中,远程读取输入数据,对数据进行排序,将数据按照分组传递给用户编写的reduce函数执行。Mapreduce处理流程以wordCount为例:Hive(基于Hadoop的数据仓库)由facebook开源,最初用于解决海量结构化的日志数据统计问题。Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。通常用于离线分析。Hbase(分布式列存数据库)源自Google的Bigtable论文,发表于2006年11月,HBase是GoogleBigtable克隆版HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同,HBase采用了BigTable的数据模型:增强的稀疏排序映射表(Key/Value),其中,键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问,同时,HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。数据模型:Schema-->Table-->ColumnFamily-->Column-->RowKey-->TimeStamp-->ValueZookeeper(分布式协作服务)源自Google的Chubby论文,发表于2006年11月,Zookeeper是Chubby克隆版。解决分布式环境下的数据管理问题:统一命名,状态同步,集群管理,配置同步等。Sqoop(数据同步工具)Sqoop是SQL-to-Hadoop的缩写,主要用于传统数据库和Hadoop之前传输数据。数据的导入和导出本质上是Mapreduce程序,充分利用了MR的并行化和容错性。Pig(基于Hadoop的数据流系统)由yahoo!开源,设计动机是提供一种基于MapReduce的ad-hoc(计算在query时发生)数据分析工具。定义了一种数据流语言—PigLatin,将脚本转换为MapReduce任务在Hadoop上执行。通常用于进行离线分析。Mahout(数据挖掘算法库)Mahout起源于2008年,最初是ApacheLucent的子项目,它在极短的时间内取得了长足的发展,现在是Apache的顶级项目。Mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout现在已经包含了聚类、分类、推荐引擎(协同过滤)和频繁集挖掘等广泛使用的数据挖掘方法。除了算法,Mahout还包含数据的输入/输出工具、与其他存储系统(如数据库、MongoDB或Cassandra)集成等数据挖掘支持架构。Flume(日志收集工具)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 养殖代办服务合同标准文本
- 个人酒水购销合同标准文本
- 俩人合伙开店合同标准文本
- 个人债务担保合同标准文本
- 供货结算合同标准文本
- 企业担保贷款合同标准文本
- 公司无息借款合同标准文本
- 公路维修项目合同范例
- 体育旅游与休闲产业的融合发展
- 中国2-联苯基二苯基磷酸酯行业市场供需态势及前景战略研判报告
- 2025年计算机二级考试题库350题含答案(WPS)
- 2025年山东省烟草专卖局公司招聘笔试参考题库含答案解析
- 《光电对抗原理与应用》课件第7章
- 2024版标本采集课件
- 自建房质量安全课件
- 沥青拌和站安全培训
- 江苏省事业单位综合知识和能力素质真题与答案解析
- 中职心理健康心理健康与职业生涯第七课
- 施工项目机械、办公、检测设备投入、进场计划及保证措施
- 盐城内河港大丰港区沪丰粮油码头工程环评报告表
- 能源公司风电场火灾事故应急预案
评论
0/150
提交评论