下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Hadoop平台搭建与应用项目2Hive环境搭建与基本操作PAGE68PAGE69HRegionServer宕机如何处理?(1)ZooKeeper会监控HRegionServer的上下线情况,当ZK发现某个HRegionServer宕机之后会通知HMaster进行失效备援;(2)该HRegionServer会停止对外提供服务,就是它所负责的region暂时停止对外提供服务;(3)HMaster会将该HRegionServer所负责的region转移到其他HRegionServer上,并且会对HRegionServer上存在内存中还未持久化到磁盘中的数据进行恢复;(4)这个恢复的工作是由WAL重播来完成,这个过程如下:①WAL实际上就是一个文件,存在/hbase/WAL/对应RegionServer路径下。②宕机发生时,读取该RegionServer所对应的路径下的WAL文件,然后根据不同的region切分成不同的临时文件recover.edits。③当region被分配到新的RegionServer中,RegionServer读取region时会进行判断是否存在recover.edits,如果存在则进行恢复。2.请描述HBase读写流程?(1)读操作如下:①HRegionServer保存着Meta表以及表数据,要访问表数据,首先Client先去访问Zookeeper,从Zookeeper里面获取Meta表所在的位置信息,即找到这个Meta表在哪个HRegionServer上保存着。②接着Client通过刚才获取到的HRegionServer的IP来访问Meta表所在的HRegionServer,从而读取到Meta,进而获取到Meta表中存放的元数据。③Client通过元数据中存储的信息,访问对应的HRegionServer,然后扫描所在HRegionServer的Memstore和Storefile来查询数据。④最后HRegionServer把查询到的数据响应给Client。(2)写操作如下:①Client先访问Zookeeper,找到Meta表,并获取Meta表元数据。②确定当前将要写入的数据所对应的HRegion和HRegionServer服务器。③Client向该HRegionServer服务器发起写入数据请求,然后HRegionServer收到请求并响应。④Client先把数据写入到HLog,以防止数据丢失。⑤然后将数据写入到Memstore。⑥如果HLog和Memstore均写入成功,则这条数据写入成功⑦如果Memstore达到阈值,会把Memstore中的数据Flush到Storefile中。⑧当Storefile越来越多,会触发Compact合并操作,把过多的Storefile合并成一个大的Storefile。⑨当Storefile越来越大,Region也会越来越大,达到阈值后,会触发Split操作,将Region一分为二。3.如何提高HBase客户端的读写性能?(1)开启Bloomfilter过滤器,开启Bloomfilter比没开启要快得多。(2)HBase对于内存有特别的需求,在硬件允许的情况下配足够多的内存给它(3)通过修改hbase-env.sh中的exportHBASE_HEAPSIZE=3000#默认为1000(4)增大RPC数量通过修改hbase-site.xml中的hbase.regionserver.handler.count属性,可以适当的放大RPC数量,默认值为10有点小。请描述HBase实时查询的原理。实时查询,可以认为是从内存中查询,HBase的机制是数据先写入到内存中,当数据量达到一定的量(如128M),再写入磁盘中,在内存中,是不进行数据的更新或合并操作的,只增加数据,这使得用户的写操作只要进入内存中就可以立即返回,保证了HBaseI/O的高性能。HBase如何导入数据?(1)通过HBaseAPI进行批量写入数据;(2)使用Sqoop工具批量导数到HBase集群;(3)使用MapReduce批量导入:通常MapReduce在写HBase时使用的是TableOutputFormat方式,在Reduce中直接生成Put对象写入HBase。(4)HBaseBulkLoad的方式:利用HBase数据按照HFile格式存储在HDFS的原理,使用Mapreduce直接生成HFile格式文件后,RegionServers再将HFile文件移动到相应的Region目录下。6.请描述HBase的存储结构?HBase中的每张表都通过行键(RowKey)按照一定的范围被分割成多个子表(HRegion),默认一个HRegion超过256M就要被分割成两个,由HRegionServer管理,HRegionServer管理哪些HRegion由Hmaster分配。HRegion存取一个子表时,会创建一个HRegion对象,然后对表的每个列族(ColumnFamily)创建一个Store实例,每个Store都会有0个或多个StoreFile与之对应,每个StoreFile都会对应一个HFile,HFile就是实际的存储文件,因此,一个HRegion还拥有一个MemStore实例。7.HBase适用于怎样的情景?(1)半结构化或非结构化数据对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用HBase。2)记录非常稀疏RDBMS的行有多少列是固定的,为Null的列浪费了存储空间。而HBase为Null的Column不会被存储,这样既节省了空间又提高了读性能。3)多版本数据根据Rowkey和Columnkey定位到的Value可以有任意数量的版本值,因此对于需要存储变动历史记录的数据,用HBase就非常方便了。业务上一般只需要最新的值,但有时可能需要查询到历史值。4)超大数据量当数据量越来越大,RDBMS数据库撑不住了,就出现了读写分离策略,通过一个Master专门负责写操作,多个Slave负责读操作,服务器成本倍增。随着压力增加,Master撑不住了,这时就要分库了,把关联不大的数据分开部署,一些join查询不能用了,需要借助中间层。随着数据量的进一步增
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 服装厂承包合同正规版模板
- 单位购房指标转让协议
- 2024年普通公路桥隧养护技术培训班结业考试试题
- 结算时应避免雷区
- 浙江省宁波市高三下学期二模技术试题-高中信息技术
- 安徽省阜阳市20232024学年高二下学期期末教学质量统测语文试卷
- 2024年安徽高考历史真题试卷
- 人教部编版八年级语文上册国行公祭为佑世界和平 【教学课件】
- 混搭风格装修合同
- 第七章-热力学基础
- 少数民族朝鲜族民俗介绍
- 2024年环磷酰胺原料药项目申请报告
- 鸟的天堂(课件)五年级上册语文
- 安全防护用品采购管理制度
- MOOC 陶瓷装饰·彩绘-无锡工艺职业技术学院 中国大学慕课答案
- 人教版《烛之武退秦师》课件(共42张)
- 中医定向透药治疗在临床上的应用试题及答案
- 老小区消防改造工程施工方案
- 《布的基本知识》课件
- (高清版)TDT 1031.6-2011 土地复垦方案编制规程 第6部分:建设项目
- 全国高中化学优质课大赛《氧化还原反应》课件
评论
0/150
提交评论