基于Hadoo的大数据处理关键技术综述_第1页
基于Hadoo的大数据处理关键技术综述_第2页
基于Hadoo的大数据处理关键技术综述_第3页
基于Hadoo的大数据处理关键技术综述_第4页
基于Hadoo的大数据处理关键技术综述_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于Hadoop的大数据处理关键技术综述大数据背景介绍ContentHadoop定义、特点大数据对系统的需求、大数据和云计算的关系大数据市场分析大数据处理的技术关键12Hadoop原理、优点Hadoop体系架构Hadoop核心设计:MapReduce、HDFS大数据背景介绍1定义

为了更为经济的从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术特点大数据对系统的需求大数据和云计算的关系Highperformance–高并发读写的需求

高并发、实时动态获取和更新数据HugeStorage–海量数据的高效率存储和访问的需求

类似SNS网站,海量用户信息的高效率实时存储和查询HighScalability&&HighAvailability–高可扩展性和高可用性的需求

需要拥有快速横向扩展能力、提供7*24小时不间断服务云计算改变了IT,而大数据则改变了业务云计算是大数据的IT基础,大数据须有云计算作为基础架构,才能高效运行通过大数据的业务需求,为云计算的落地找到了实际应用大数据市场分析2011年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。2012年-2016年,将迎来大数据市场的飞速发展。2012年中国大数据市场规模达到4.7亿元,2013年大数据市场将迎来增速为138.3%的飞跃,到2016年,整个市场规模逼近百亿。政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。由于各个行业都存在大数据应用需求,潜在市场空间非常可观。大数据处理的技术关键分析技术:数据处理:自然语言处理技术;统计和分析:地域占比,文本情感分析,A/Btest,topN排行榜;数据挖掘:建模,聚类,分类,排名;模型预测:预测模型,机器学习,建模仿真。存储技术:结构化数据:海量数据查询、统计、更新等操作效率低非结构化数据:图片、视频、word、pdf、ppt等文件存储,不利于检索,存储和查询半结构化数据:转换为结构化数据或者按照非结构化存储。大数据技术:数据采集:ETL工具;数据存取:关系数据库,NoSQL,NewSQL,等基础架构支持:云存储,分布式文件系统等;计算结果展现:云计算,标签云,关系图等。解决方案:Hadoop(MapReduce技术)、MongoDB、流计算(twitter的strom和yahoo!的S4)Hadoop大数据主要应用技术——Hadoop2Hadoop最先是由Apache公司在2005年引入的,起源于google开发的MapReduce和GoogleFileSystem(GFS)项目。Hadoop作为新一代的架构和技术,因为有利于并行分布处理“大数据”而备受重视。ApacheHadoop是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)等组成。Hadoop原理Hadoop原理假设系统每秒处理4000个文件处理4千万个文件=10000秒约为2.7小时处理4千万个文件处理400万个文件处理400万个文件处理400万个文件……切分成十台机器处理约为17分钟=约为17分钟=约为17分钟=结果合并输出优点可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。经济:框架可以运行在任何普通的PC上。可靠:分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。高效:分布式文件系统的高效数据交互实现以及MapReduce结合LocalData处理的模式,为高效处理海量的信息作了基础准备。不适合存储小文件(不建议)大量的随机读(不建议)对文件的修改(不支持)应用模式为:write-once-read-many存取模式Hadoop体系架构MapReduceHBasePigChuKwaHivePig是一个个基于于Hadoop的大规规模数数据分分析平平台,,Pig为复杂杂的海海量数数据并并行计计算提提供了了一个个简易易的操操作和和编程程接口口hive是基于于Hadoop的一个个工具具,提提供完完整的的sql查询功功能,,可以以将sql语句转转换为为MapReduce任务进进行运行Chukwa是基于于Hadoop的集群群监控控系统统,由由yahoo贡献ZooKeeper:高效效的,,可扩扩展的的协调调系统统,存储和和协调调关键键共享享状态态HBase是一个个开源源的,,基于于列存存储模模型的的分布式式数据据库MapReduce是一种种编程程模型型,用用于大大规模模数据据集((大于于1TB)的并并行运算HDFS是一一个个分分布布式式文文件件系系统统。。有有着着高高容容错错性性的的特特点点,,并并且且设设计计用用来来部部署署在在低低廉廉的的硬硬件件上上,,适适合合那那些些有有着着超超大大数数据据集集的的应应用用程程序序ZooKeeperMapReduceMap:任任务务的的分分解解Reduce:结结果果的的汇汇总总两大大核核心心设设计计HDFSNameNode:文文件件管管理理DataNode:文文件件存存储储Client:文文件件获获取取Hadoop核心心设设计计MapReduce————映射射、、化化简简编编程程模型型((分分而而治治之之))1.根据输入入数据的的大小和和参数的的设置把把数据分分成splits,每个split对于一个个map线程。2.Split中的数据据作为Map的输入,,Map的输出一一定在Map端。3.Map的输出到到Reduce的输入的的过程(shuffle过程):第一阶段段:在map端完成内内存->排序->写入磁盘盘->复制第二阶段段:在reduce端完成映映射到reduce端分区->合并->排序4.Reduce的输入到到Reduce的输出最后排好好序的key/value作为Reduce的输入MapReduce是一种编编程模型型,用于于大规模模数据集集的并行行运算。。Map(映射))和Reduce(化简)),采用用分而治治之思想想,先把把任务分分发到集集群多个个节点上上,并行行计算,,然后再再把计算算结果合合并,从从而得到到最终计计算结果果。多节节点计算算,所涉涉及的任任务调度度、负载载均衡、、容错处处理等,,都由MapReduce框架完成成,不需需要编程程人员关关心这些些内容。。HDFS——分布式文文件系统统什么是分分布式文文件系统统?分布式文文件系统统是指文文件系统统管理的的物理存存储资源源不一定定直接在在本地节节点上,,而是通通过计算算机网络络与节点点相连。。分布式式文件系系统设计计基于客客户机/服务器模模式,一一个典型型的网络络可能包包括多个个供用户户访问的的服务器器。用户户可以在在任意一一台客户户机上访访问其他他机器的的文件系系统。为什么需需要分布布式文件件系统??高扩展能能力:HDFS采用元数数据中心心化管理理,然后后通过客客户端暂暂存数据据分布减减小元数数据的访访问压力力;高可用性性:一是是整个文文件系统统的可用用性,二二是数据据的完整整和一致致性。数数据完整整性通过过文件的的镜像和和文件自自动修复复来解决决;弹性存储储:可以以根据业业务需要要灵活地地增加或或缩减数数据存储储以及增增删存储储池中的的资源,,而不需需要中断断系统运运行;HDFS——分布式文文件系统统NameNode可以看作作是分布布式文件件系统中中的管理理者,存存储文件件系统的的meta-data,主要负负责管理理文件系系统的命命名空间间,集群群配置信信息,存存储块的的复制。。DataNode是文件存存储的基基本单元元。它存存储文件件块在本本地文件件系统中中,保存存了文件件块的meta-data,同时周周期性的的发送所所有存在在的文件件块的报报告给NameNode。Client就是需要要获取分分布式文文件系统统文件的的应用程程序。HDFS是一个高高度容错错性的分分布式文文件系统统,能提提供高吞吞吐量的的数据访访问,非非常适合合大规模模数据集集上的应应用。HDFS的高可用用性NameNode挂了怎么办?系统采用双NameNode节点分布管理设计方案,支持分布式的元数据服务器,支持元数据自动日志功能,实现用户数据和元数据的备份和自动恢复,当一台服务器发生宕机时,其管理功能可以有另外的服务器接管,系统可以正常运行,对外提供服务。NameNodeNameNode是用来管理文件系统命名空间的组件

一个HDFS集群只有一台active的NameNode一个HDFS集群只有一个命名空间,一个根目录NameNode上存放了HDFS的元数据元数据保存在NameNode的内存当中,以便快速查询1G内存大致可以存放1,000,000个块对应的元数据信息按缺省每块64M计算,大致对应64T实际数据Datanode•一个数据块在DataNode以文件存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。•DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。•心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳,则认为该节点不可用。增加DataNode节点后?系统平台增加新节点之后,系统自动在所有节点之间均衡数据。系统后台根据忙闲程度,自动发起,占用很少系统资源,无需人工干预,实现数据均衡分布。HDFS具体操作作文件写入入:1.Client向NameNode发起文件件写入的的请求2.NameNode根据文件件大小和和文件块块配置情情况,返返回给Client它所管理理部分DataNode的信息。。3.Client将文件划划分为多多个文件件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论