《基于新信息技术的Hadoop大数据技术》 课件 项目10 HBase集群安装配置_第1页
《基于新信息技术的Hadoop大数据技术》 课件 项目10 HBase集群安装配置_第2页
《基于新信息技术的Hadoop大数据技术》 课件 项目10 HBase集群安装配置_第3页
《基于新信息技术的Hadoop大数据技术》 课件 项目10 HBase集群安装配置_第4页
《基于新信息技术的Hadoop大数据技术》 课件 项目10 HBase集群安装配置_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop大数据技术——HBase分布式数据库湖南软件职业技术大学HBase概述HBase是什么HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,利用HBase技术可在廉价的PCServer上搭建大规模结构化存储集群。HBase是GoogleBigTable的开源实现,与Google的BigTable利用GFS作为其文件存储系统类似,HBase则利用Hadoop的HDFS作为其文件存储系统。Google运行MapReduce来处理Bigtable中的海量数据,而HBase则利用Hadoop的MapReduce来处理HBase中的海量数据。GoogleBigtable利用Chubby作为协同服务,而HBase则利用Zookeeper作为协同服务。湖南软件职业技术大学无模式:同一个表的不同行可以有截然不同的列。面向列:HBase是面向列的存储和权限控制,并支持列独立索引。容量巨大:单表可以有百亿行、数百万列。高可靠性:HBase提供了预写日志(WAL)和副本(Replication)机制,防止数据丢失。稀疏性:表可以设计得非常稀疏,值为空的列并不占用存储空间。扩展性:HBase底层文件存储依赖HDFS,它天生具备可扩展性。高性能:底层的LSM(Log-StructuredMergeTree)数据结构和RowKey有序排列等架构上的独特设计,使得HBase具备非常高的写入性能。HBase的特点湖南软件职业技术大学HBase模型及架构HBase逻辑模型湖南软件职业技术大学HBase中的一个表有若干行,每行有很多列,列中的值可以有多个版本,每个版本的值称为一个单元格,每个单元格存储的是该列不同时间的值。HBase表的逻辑模型如图所示。

表HBase

是一种列式存储的分布式数据库,其核心概念是表(Table)。与传统关系型数据库一样,HBase

的表也是由行和列组成,但

HBase

同一列可以存储不同时刻的值,同时多个列可以组成一个列簇(ColumnFamily),这种组织形式主要是出于HBase存取性能的考虑。

行健Rowkey

既是

HBase

表的行键,也是

HBase

表的主键。HBase

表中的记录是按照RowKey的字典顺序进行存储的。在HBase中,为了高效地检索数据,需要设计良好的Rowkey来提高查询性能。因为Rowkey

会被冗余存储,所以长度不宜过长,Rowkey

过长将会占用大量的存储空间同时会降低检索效率。其次

Rowkey

应该尽量均匀分布,避免产生热点问题(大量用户访问集中在一个或极少数节点,从而造成单台节点超出自身承受能力)。另外需要保证Rowkey的唯一性。

列簇HBase表中的每个列都归属于某个列簇,一个列簇中的所有列成员有着相同的前缀。比如,列anchor:和anchor:my.look.ca都是列簇anchor的成员。列簇是表的schema的一部分,必须在使用表之前定义列簇,但列却不是必需的,写数据的时候可以动态加入。一般将经常一起查询的列放在一个列簇中,合理划分列簇将减少查询时加载到缓存的数据,提高查询效率,但也不能有太多的列簇,因为跨列簇访问是非常低效的。

单元格HBase中通过RowKey和Column确定的一个存储单元称为单元格(Cell)。每个单元格都保存着同一份数据的多个版本,不同时间版本的数据按照时间顺序倒序排序,最新时间的数据排在最前面,时间戳是

64

位的整数,可以由客户端在写入数据时赋值,也可以由RegionServer自动赋值。HBase逻辑模型HBase物理模型湖南软件职业技术大学在物理上,表是按列列簇分开存储的。HBase的列是按列簇分组的,HFile是面向列的物理文件,可以存放行的不同列,一个列簇的数据存放在多个HFile中,最重要的是一个列簇的数据会被同一个Region管理,物理上存放在一起。表8-1为列簇contens物理模型,表8-2为列簇anchor物理模型。HBase物理模型湖南软件职业技术大学

HBase表中的所有行都是按照RowKey的字典顺序排列,在行的方向上分割为多个Region。Region是HBase数据管理的基本单位,数据移动、数据的负债均衡以及数据的分裂都是以Region为单位来进行操作。Region的切分方式如图所示。HBase物理模型湖南软件职业技术大学

Region是HBase中分布式存储就和负债均衡的最小单元。不同的Region会分布到不同的RegionServer上,Region的负债均衡如图所示。HBase物理模型湖南软件职业技术大学Region虽然是分布式存储的最小单元,但并不是存储的最小单元。Region由一个或多个Store组成,每个Store保存一个ColumnFamily。每个Store又由一个MemStore和零至多个StoreFile组成。MemStore代表写缓存,StoreFile存储在HDFS之上。Region的组成结构如图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论