




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、概概2.3HBase与RDBMS对 RegionServer上下线过4.HBase提供的接应用示小参考资1. 1.1HBase1.21. 1.1HBase1.2HBase HBaseHadoopDatabase,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase 技术可在廉价PC Server 上搭建起大规模结构化HBase是 Bigtable的开源实现,类似 BigtableGFS 作为其文件存储系统,HBase利用HadoopHDFS作为其文件 系统; MapReduce来处Bigtable中的海量数据,HBase同样利用HadoopMapReduce来处理HBase中
2、的海量数据; Bigtable 利用 Chubby 作为协同服务,HBase Zookeeper 作为对应。上图描述了 Hadoop EcoSystem 中的各层系统,其中 HBase 位于结构化Hadoop HDFS 为HBase 提供了高可靠性的底层提供了高性能的计算能力,Zookeeper 为HBase 提供了稳定服务和failover 机制。此外, Pig 和Hive 还为HBase 提供了语言支持,使得在HBase 上进行数据统计处理变的非常简单。 Sqoop 则为HBase 提供了方便的RDBMS 数据导入功能,使得传统数据库数据 的数据可直接通过Hadoop2.3HBaseRDB
3、MShadoop 一样,Hbase 目标主要依靠横向扩展,通过不断增加廉价的 每个 cell 中的数据可以有多个版本,默认情况下版本号自动分配,是单元格 2HBase如上表所示,key1,key2,key3 是三条的唯一的 row key 值,columnFamily1、 2HBase如上表所示,key1,key2,key3 是三条的唯一的 row key 值,columnFamily1、 这个列族下包括两列,名字是column1和column2,t1:value1,t2:value2是由rowkey1和 columnFamily1、column1唯一确定的一个单元cell。这个cell中有两
4、个数据,value1和 value2。两个值的时间戳不一样,分别是 t1、t2,HBase 会返回Rownosql数据库们一样,rowkey是用来检索 的主键。 hbasetable中的行,只Row key (Row key)可以是任意字符串(64KB,实际应用中长度一般10-100bytes)hbase ,row key 保存为字节数组。 时,数据按照Row key的字典序(byte order)排序 。设计 key 时,要充分排序 这个特性,将经常一起的行 放到一起。(位置相关性 以RowKey+ColumnFamily+ColumnQualifier+Time来定位ValueRowkey
5、keykey ,字典序对0行的一次读写是原子操作 courses ,字典序对0行的一次读写是原子操作 coursesHBaserowcolumnscellcell一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64hbase()cell(包括存贮和索引)负担,hbase 由row key,column(=+), 唯一确定的单元。cell 中的数据3HBase3.1HBase下图 3.1 是 HBase 系统架构图, 主要是由 nt、Zookeeper、HMaster ZookeeperQuorum ZookeeperQuorum中除了 了ROOTHMaster的地址,HRegionS
6、erver也会把自己 ZookeeperHMasterHRegionServer的健康状态。此外,也可以使用 Zookeeper 解决 HMaster 的单点问题。 所有Region实 Election 机制保证总有一个 Master 运行,HMaster 在功能上主要负责Table Region 的管理类操作,C nt与HMasterRPC;对于数据读写类操作,C nt与HRegionServerRPC。3.2原 3.2原 中最 的模块,具体组成请看下图 3.2HRegionServer HRegion 对象,每个HRegion对应了Table中的一个Region,HRegion中由多个HS
7、tore组成。每个 HStore对应了Table中的一个ColumnFamily的 ,可以看出每个 ColumnFamily其实就是一个集中的 IO 特性的column放在一个Column Family管理HRegionServer的负载均衡,调整RegionRegionSplit后,负责新Region 来越多的HRegion来越多的HRegionHRegion 是HBase 中分布式和负载均衡的最小单元,如下图 3.4 所示,不同 HRegion可以分布在不同的HRegionServer上,但一个HRegion不会拆分到多个Server3.4Region图HRegion 虽然是分布式 的最小
8、单元,但不是 的最小单元。如下图 3.5 所示,事实上,HRegionHStoreHStoreColumnFamily,StoreMemStoreStoreFile StoreFile HFile格式保存在 过一定阈值后,会触发Split操作,同时把当前RegionSplit2个RegionRegion3.3HBase 在HadoopHDFSHFileHBase中KeyValue格式,HFileHadoopStoreFile3.3HBase 在HadoopHDFSHFileHBase中KeyValue格式,HFileHadoopStoreFileHFile做了轻量级包装,即StoreFile底
9、层就是HLogFile,HBase中WAL(WriteAheadLog)格式,物理上是的Sequence3.3.1DataBlock1个Region2Region3.6描述了CompactionSplit在理解了上述HStore 的基本原理后,还必须了解一下WAL(Write Ahead Log)的功 无法避免系统出错或者宕机,因此一旦HRegionServer 意外退出,MemStore 中的内存数是一个实现WALMemStore的同时,也会写一份数据到HLog文件中(HLog文件格式见后续),HLog文件定期会滚动出新的,并删除旧的文件(已持分别放到相应region 的 region re
10、gion 的 HLog中的数据到MemStore中,然后flush到StoreFiles的keyMetaBlockIndex(可选的):MetaBlockTrailer的keyMetaBlockIndex(可选的):MetaBlockTrailer 段一个 key3.7 , 了每个Data块和Meta3.3.2 HLog(WAL 3.3.2 HLog(WAL 号的BlockScanBlockData以外就是一个个KeyValue 对拼接而成,坏。后面会详细介绍每个KeyValue 对的开始是两个固定长度的数值,分别表示Key 的长度和 Value 的长度。紧接着是 Key,开始是固定长度的数值
11、,表示RowKey 的长度,紧接着是 RowKey,然后是固定长度的数值,表示FamilyFamilyQualifier,然后是两个固定长度的数值,表示TimeSt KeyType(Put/Delete)。Value3.4 关键算法/3.4.1Region定3.10 Region 上图 3.9 中示意了 HLog 文件的结构,其实HLog 文件就是一个普通的 Hadoop Sequence File,Sequence File 的Key 是HLogKey 对象,HLogKey 中归属信息,除了table 和 region 名字外,同时还包括 sequence number 和 timest H
12、able 3.4.2 Store StoreFile region检查数据是否与schema将更新写入WAL Store中全部的StoreFileMemStore3.4.3RegionServer1. regionserverregionserverregion server 2. regionserver 1. master,获得当前可用的regionserver 1. master,获得当前可用的regionserver 2master split region server 参与)群中总是有一个master在提供服务,还有一个以上的master 4.HBase 处理HBase令行工具,最
13、简单的接口,适合HBase, 5. 应用 简单讲解下HBase help hbase 提供了一个 5. 应用 简单讲解下HBase help hbase 提供了一个 54建立一个表格 查看当前HBase这里grad 对于表来说是一个列,course 对于表来说是一个列族, 这个列族由两个列 math 和art 组成,当然的需要在 course 中建立computer,physics等相应的列添加入course列族,需要注意的是列族下面的列也是可以没有名字的,如 grad 列族。 加入一行数据,zkbgrad的列名为” (8)查看scores表中所有数据courses加入一行数据,zkbgrad的列名为” (8)查看scores表中所有数据courses(9)删除scores 常用的操作命令有6. 小 7. 参考HBaseTheDefinitiveGuideHBase HBase in Action(HBas
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 项目管理者的关键技能分析试题及答案
- 财务管理中的行为金融学应用试题及答案
- 财务分析与监控试题及答案2025
- 项目角色与影响力评估试题及答案
- 2025年税收政策变化试题及答案
- 社团立项课题申报书
- 项目管理考试中常见误区及试题答案
- 微生物检测进展动态试题及答案
- 解读注册会计师考试各科目的意义试题及答案
- 2025年注册会计师考试必学技巧试题及答案
- vsd负压引流护理个案
- 低空经济产业园建设项目经济效益和社会效益分析
- 第1课 精美绝伦的传统工艺 课件 2023-2024学年赣美版初中美术八年级下册
- JCT 2777-2023 公路工程用泡沫混凝土 (正式版)
- 不锈钢的电镀工艺流程
- 汽车展览策划方案
- 钢材抗拉强度不确定度
- 5.1《阿Q正传(节选)》同步练习(解析) 2022-2023学年统编高中语文选择性必修下册
- 学习正确的床上用品清洁与消毒流程
- 竹、木(复合)地板工程施工工艺
- 【环氧树脂复合材料研究进展文献综述6000字】
评论
0/150
提交评论