版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据与hbase应用
关于hadoop与hbase的介绍和开发应用周勇沂2014年10月16日目录2大数据与HADOOP介绍1HDFS介绍2Hbase介绍3Hbase应用431、WINDOWS进程间通信方式
第一章大数据与HADOOP介绍第一章HADOOP介绍41、大数据的背景与定义日益信息化的时代5大数据的定义与特征“Bigdataisdatathatexceedstheprocessingcapacityofconventionaldatabasesystems”
O’ReillyRadar,“WhatIsBigData?”,January2012所谓大数据,就是用现有的一般技术难以管理的大量数据的集合----野村综合研究所大数据顺应大规模信息化到新阶段而诞生的
数据库革命性运动NoSQL(NoSQL=NotOnlySQL)不同的NoSQL场景不同,可比性不高原则:
解放思想,事实求是6巨量GBTBPBEBDaily~Historical种类多WebAPPSocialNetworkEmail…半结构XMLLogClickstreamxDR…实时Real-timeNearreal-time大数据的挑战7※一个关系型数据库的表数据量上亿时★分区★分表★分库※导致上层复杂度提高,成本倍增IO天花板,非线性单机计算大数据对系统的需求★Highperformance–高并发读写的需求
高并发、实时动态获取和更新数据★HugeStorage–海量数据的高效率存储和访问的需求
类似SNS社会性网络服务网站,海量用户信息的高效率实时存储和查询★HighScalability&&HighAvailability–高可扩展性和高可用性的需求 需要拥有快速横向扩展能力、提供7*24小时不间断服务8第一章HADOOP介绍92、HADOOP起源和特点Hadoop的创立和演进10谷歌三大论文
GFS(2003)
SanjayGhemawat(美国工程院士) (GFS,MR,Bigtable) HowardGobioff Shun-TakLeung
map/reduce(2004)
DeanJeffrey(美国工程院士)
(Adsense,pb,News,Codesearch) SanjayGhemawat
Bigtable(2006)
FayChang DeanJeffrey
SanjayGhemawat...DougCutting和YahooLucene->Nutch->Hadoop大数据主要应应用技术——Hadoop可扩展:不论是存储的的可扩展还是是计算的可扩扩展都是Hadoop的设计根本。。经济:框架可以运行行在任何普通通的PC上。可靠:分布式文件系系统的备份恢恢复机制以及及MapReduce的任务监控保保证了分布式式处理的可靠靠性。高效:分布式文件系系统的高效数数据交互实现现以及MapReduce结合LocalData处理的模式,,为高效处理理海量的信息息作了基础准准备11大数据主要应应用技术——HadoopHadoop作为新一代的的架构和技术术,因为有利利于并行分布布处理“大大数据”而备备受重视。ApacheHadoop是一个用java语言实现的软软件框架,在在由大量计算算机组成的集集群中运行海海量数据的分分布式计算,,它可以让应应用程序支持持上千个节点点和PB级别的数据。。Hadoop是项目的总称称,主要是由由分布式存储储(HDFS)、分布式计计算(MapReduce)等组成12Hadoop解决了什么么难题?13简单地想想看看,假设我们们需要读一个个10TB的数据集,怎怎么办?在传统的系统统上,这需要要很长时间,,因为硬盘的的传输速度是受限的的。一个简单单的办法是将将数据存储在在多个磁盘上上,同时从多个磁盘并并行读取数据据,这将大大大减少读取时时间Hadoop的基本概念念14分布式存储HDFS文件分块自行备份分布式计算Map/Reduce函数式设计((map/reduce)第一章HADOOP介绍153、MapReduceHadoop解决了什么么难题?16化整为零,分分片处理;本地化计算,并行IO,降低网络通通信MapReduce———映射、化简编编程模型171.根据输入数据据的大小和参参数的设置把把数据分成splits,每个split对于一个map线程。2.Split中的数据作为为Map的输入,Map的输出一定在在Map端。3.Map的输出到Reduce的输入的过程程(shuffle过程):第一阶段:在在map端完成内存->排序->写入磁盘->复制第二阶段:在在reduce端完成映射到到reduce端分区->合并->排序4.Reduce的输入到Reduce的输出最后排好序的的key/value作为Reduce的输入,输出出不一定是在在reduce端。MapReduce是一种编程模模型,用于大大规模数据集集的并行运算算。Map(映射)和Reduce(化简),采采用分而治之之思想,先把把任务分发到到集群多个节节点上,并行行计算,然后后再把计算结结果合并,从从而得到最终终计算结果。。多节点计算算,所涉及的的任务调度、、负载均衡、、容错处理等等,都由MapReduce框架完成,不不需要编程人人员关心这些些内容。181、WINDOWS进程程间通信方式式第二章HDFS介绍HDFS—分布式文件系系统19NameNode可以看作是分分布式文件系系统中的管理理者,存储文文件系统的meta-data,主要负责管管理文件系统统的命名空间间,集群配置置信息,存储储块的复制。。DataNode是文件存储的的基本单元。。它存储文件件块在本地文文件系统中,,保存了文件件块的meta-data,同时周期期性的发送送所有存在在的文件块块的报告给给NameNode。Client就是需要获获取分布式式文件系统统文件的应应用程序。。HDFS是一个高度度容错性的的分布式文文件系统,,能提供高高吞吐量的的数据访问问,非常适适合大规模模数据集上上的应用。。HDFS特点20★可扩展,只只需添加服服务器★健壮性,高度容错性性,文件删除恢恢复机制★机架感知★数据冗余,副本机制★负载均衡★适合流式访访问,一次写入,多次读取★默认块大小小64MB,适合PB级以上数据据的存储和和处理★MapReduce分布式计算算框架,利用存储节节点的CPU资源HDFS优缺点21HDFS优点:★适合大数据据处理(支支持GB,TB,PB级别的数据据存储,支支持百万规规模以上的的文件数量量)★适合批处理理(支持离离线的批量量数据处理理,支持高高吞吐率))★高容错性((以数据块块存储,可可以保存多多个副本,,容易实现现负载均衡衡)HDFS缺点:★小文件存取取(占用namenode大量内存)),1百万个文件件,至少300M内存★不支持并发发写入(同同一时刻只只能有一个个进程写入入,不支持持随机修改改)★多用户写入入,任意修修改文件★低延时(几几十毫秒)),它是为为高数据吞吞吐量设计计的HDFS——分布式文件件系统22HDFS架构分析HDFS——分布式文件件系统23HDFS——分布式文件件系统24HDFS文件读取流流程HDFS——分布式文件件系统25文件写入流流程261、WINDOWS进程间通通信方式第二章HBASE的介绍Hbase简介27★来源于FayChang所撰写的Google论文“Bigtable”★HBase–HadoopDatabase分布式存储储系统★高可靠性★高性能★面向列★可伸缩★可在廉价PCServer上搭建Hadoo生态环境28底层HDFS为HBase提供了可靠靠的文件存存储MapReduce为它提供了了高性能的的计算Pig和Hive提供了HBase的查询功能能,Hive提供的方法法类似与SQL语句Sqoop提供了Hbase与关系数据据库的导入入导出功能能Zookeeper提供了协调调以及failover功能.Hbase架构291商品目录就就是一张大大表(Bigtable),由商品编编号(key)和装商品的的木箱(ColumnFamily列族)组成。2一个编号下下商品(如某辆单车车的零件),最好只用用一种规格格箱子就装装完,但某某些零件大大小差别过过大,不得得不使用多多种箱子(多个列族)3此大型超市市总部(HMaster)以楼层为租租赁的基本本单位,每每层成为一一个销售分分区(HRegion)。此大型型超市租用用了好多栋栋分布在全全球各地的的购物大楼楼(HRegionserver),并托管了了商品的存存储和搬运运。超市总总部(HMaster)只管理到销销售分区(HRegion),并记录在一一张地址本本上(放在内存上)4每层楼销售分分区(HRegion)都放一定范围围编号的商品品,如果这个个范围编号的的商品过多了了,就会再租租多一层楼来来存储(分裂裂)HBase架构304,购物大楼(HRegionserver)只有一个大门门口负责登记记人员进出(Hlog);进门后可以通通往各个层楼楼,每个楼层层就是一个销销售分区(HRegion)5,关于一个销销售分区(Hregion)a,每层楼根据商商品木箱(列族ColumnFamily)的规格多少,,分为多个专专卖店(Store)b,每个专卖店(Sotre),由促销仓(放内存上的Memstore)和0个或多个普通通仓(放hfile上的Sotrefile)组成HRegionServer入库过程简介介31Hstore分流简介32Client写入->存入MemStore,一直到MemStore满->Flush成一个StoreFile,直至增长到到一定阈值->出发Compact合并操作->多个StoreFile合并成一个StoreFile,同时进行版版本合并和数数据删除->当StoreFilesCompact后,逐步形成成越来越大的的StoreFile->单个StoreFile大小超过一定定阈值后,触触发Split操作,把当前前RegionSplit成2个Region,Region会下线,新Split出的2个孩子Region会被HMaster分配到相应的的HRegionServer上,使得原先先1个Region的压力得以分分流到2个Region上hfile文件格式33hfile文件由6部分组成:datablock,metablock(可选),fileinfo,datablockindex,metablockindex,trailer。datablock存储了表数据据,metablock存储了布隆过过滤器索引数数据,fileinfo存储了本文件件的相关信息息,index存储了datablock和metablock的索引数据,,trailer存储了本文件件的相关信息息。341、WINDOWS进程程间通信方式式第三章HBASE的应用HBaseShell35名称命令表达式创建表create'表名称','列名称1','列名称2','列名称N'添加记录put'表名称','行名称','列名称:','值'查看记录get'表名称','行名称'查看表中的记录总数count'表名称'删除记录delete'表名','行名称','列名称'删除一张表先要屏蔽该表,才能对该表进行删除,第一步disable'表名称'第二步drop'表名称'查看所有记录scan"表名称"查看某个表某个列中所有数据scan"表名称",['列名称:']更新记录就是重写一遍进行覆盖Hbase编程36封装好的HbaseDAO例子importcom.etrans.lib.db.hbase.dao.TrackDaoImpl;privateGpsTrackvo=newGpsTrack();★方式一TrackDaoImpltrackDao=newTrackDaoImpl();trackDao.openTable(false,1024*1024*32);trackDao.insert(vo);//增、改为同一一接口trackDao.list(startKey,endKey,selectedColSet,filter);trackDao.closeTable();trackDao=null;★方式二TrackDaoImpltrackDao=newTrackDaoImpl();trackDao.insert(vo);trackDao.list(startKey,endKey,selectedColSet,filter);trackDao=null;Hbase编程37※TrackDaoImpl操作对象如何何初始化★初始化表名StringCONST_TABLE_NAME=“track";★对象与hbase表字段映射关关系@OverridepublicvoidinitSchema(){addHbaseCol(newHbaseCol("artistName","an"));addHbaseCol(newHbaseCol("year","ye",true));addHbaseCol(newHbas
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电动食品处理机市场发展预测和趋势分析
- 2024年度仓储物流合作合同
- 2024年度北京市房产项目融资合同
- 2024年度北京二手汽车租赁合同
- 2024年度南京市固体废弃物处理合同
- 2024年度技术服务合同详细范本
- 2024年度无人机遥感服务合同
- 2024年度城市更新项目合同
- 2024年度企业数字化转型合同
- 2024年度园林绿化劳务分包合同
- 新版入团志愿书表格(含申请书范本)
- 人教版九年级化学第一至四单元测试卷及答案
- 室内各类管道维修施工方案
- 矩阵连乘问题《算法分析与设计》
- 英文介绍中国饺子-PPT
- 平方差公式【省一等奖】
- 我国工伤认定的法律问题探究分析 法学专业
- 医院膳食服务规范
- 违法发放贷款罪
- 烤漆房管理制度
- 播音主持外部技巧:停连重音语气节奏课件讲义
评论
0/150
提交评论