版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2015.6.15基于Hadoop的大数据处理关键技术综述大数据背景介绍ContentHadoop定义、特点大数据对系统的需求、大数据和云计算的关系大数据市场分析大数据处理的技术关键12Hadoop原理、优点Hadoop体系架构Hadoop核心设计:MapReduce、HDFS大数据背景介绍1定义 为了更为经济的从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术特点大数据对系统的需求大数据和云计算的关系High performance 高并发读写的需求高并发、实时动态获取和更新数据Huge Storage 海量数据的高效率存储和访问的需求类似SNS网站,海量用户
2、信息的高效率实时存储和查询High Scalability & High Availability 高可扩展性和高可用性的需求需要拥有快速横向扩展能力、提供7*24小时不间断服务云计算改变了IT,而大数据则改变了业务云计算是大数据的IT基础,大数据须有云计算作为基础架构,才能高效运行通过大数据的业务需求,为云计算的落地找到了实际应用大数据市场分析2011年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。2012年-2016年,将迎来大数据市场的飞速发展。2012年中国大数据市场规模达到4.7亿元,2013年大数据市场将迎来增速为138.3%的飞跃,到2016年,
3、整个市场规模逼近百亿。政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。由于各个行业都存在大数据应用需求,潜在市场空间非常可观。Hadoop大数据主要应用技术Hadoop2Hadoop最先是由Apache公司在2005年引入的,起源于google开发的MapReduce和Google File System(GFS)项目。Hadoop作为新一代的架构和技术,因为有利于并行分布处理 “大数据”而备受重视。 Apache Hadoop 是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。 H
4、adoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)等组成 。Hadoop原理 优点可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。经济:框架可以运行在任何普通的PC上。可靠:分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。高效:分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备。 不适合存储小文件 (不建议)大量的随机读(不建议)对文件的修改(不支持)应用模式为:write-once-read-many存取模式Hadoop体系
5、架构MapReduceHBasePigChuKwaHivePig是一个基于Hadoop的大规模数据分析平台,Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口hive是基于Hadoop的一个工具,提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行Chukwa是基于Hadoop的集群监控系统,由yahoo贡献ZooKeeper:高效的,可扩展的协调系统,存储和协调关键共享状态HBase是一个开源的,基于列存储模型的分布式数据库MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算HDFS是一个分布式文件系统。有着高容错性的特点,并且设计用
6、来部署在低廉的硬件上,适合那些有着超大数据集的应用程序ZooKeeperMapReduceMap:任务的分解Reduce:结果的汇总两大核心设计HDFSNameNode:文件管理DataNode:文件存储Client:文件获取Hadoop核心设计HDFS分布式文件系统什么是分布式文件系统?分布式文件系统是指文件系统管理的物理存储资源不一定直接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统设计基于客户机/服务器模式,一个典型的网络可能包括多个供用户访问的服务器。用户可以在任意一台客户机上访问其他机器的文件系统。为什么需要分布式文件系统?高扩展能力:HDFS采用元数据中心化管理,然后通
7、过客户端暂存数据分布减小元数据的访问压力;高可用性:一是整个文件系统的可用性,二是数据的完整和一致性。数据完整性通过文件的镜像和文件自动修复来解决;弹性存储:可以根据业务需要灵活地增加或缩减数据存储以及增删存储池中的资源,而不需要中断系统运行;HDFS分布式文件系统NameNode可以看作是分布式文件系统中的管理者,存储文件系统的meta-data,主要负责管理文件系统的命名空间,集群配置信息,存储块的复制。DataNode是文件存储的基本单元。它存储文件块在本地文件系统中,保存了文件块的meta-data,同时周期性的发送所有存在的文件块的报告给NameNode。 Client就是需要获取分
8、布式文件系统文件的应用程序。 HDFS是一个高度容错性的分布式文件系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。Datanode 一个数据块在DataNode以文件存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode 的心跳,则认为该节点不可用。增加Data
9、Node节点后? 系统平台增加新节点之后,系统自动在所有节点之间均衡数据。系统后台根据忙闲程度,自动发起,占用很少系统资源,无需人工干预,实现数据均衡分布。HDFS具体操作文件写入:1. Client向NameNode发起文件写入的请求2. NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。3. Client将文件划分为多个文件块,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。文件读取:1.Client向NameNode发起文件读取的请求2.NameNode返回文件存储的DataNode的信息。3. Client读取文件信息。Client1Client2DataNode节点NameNode1NameNode2NFS服务器正常运行状态单点失效状态HBASE分布式数据存储HBase Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统;HBase位于结构化存储层,HDFS
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 淮阴师范学院《体育课程与学科教学论》2021-2022学年第一学期期末试卷
- 淮阴师范学院《绿色化工》2023-2024学年第一学期期末试卷
- 淮阴师范学院《钢琴弹唱(2)》2021-2022学年第一学期期末试卷
- 淮阴师范学院《Hadoop大数据技术》2023-2024学年期末试卷
- 淮阴工学院《仪器分析》2021-2022学年第一学期期末试卷
- 淮阴工学院《土木工程材料》2021-2022学年第一学期期末试卷
- DB3711-T 152-2024荒山造林技术规程
- 文书模板-人才培养计划的制订方案
- 人事行政培训企业文化塑造与践行考核试卷
- 未来教育中的在线测评与反馈考核试卷
- 公务员2021年国考《申论》真题(地市级)及参考答案
- 新教科版小学1-6年级科学需做实验目录
- 2024秋期国家开放大学专科《高等数学基础》一平台在线形考(形考任务一至四)试题及答案
- DPtech-FW1000系列防火墙系统操作手册
- 思想道德与法治课件:第五章 第二节 吸收借鉴优秀道德成果
- 习惯一积极主动
- 村级一村一品实施方案
- TPO26听力题目及答案
- 高压线安全防护专项施工方案(完整版)
- 时栅位移传感技术讲解
- 灯具施工方案(完整版)
评论
0/150
提交评论