2024HBase in Practice-性能、监控及问题解决_第1页
2024HBase in Practice-性能、监控及问题解决_第2页
2024HBase in Practice-性能、监控及问题解决_第3页
2024HBase in Practice-性能、监控及问题解决_第4页
2024HBase in Practice-性能、监控及问题解决_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

HBaseinPractice首先讲一下针对IOIOHBase也有很HDDIOHDDHBaseHBase提供了很多方法,第一个就是Compaction限流,基本思想就是限制它每秒能写出的数据量,在1.1.0版本以上才能使用,对于1.3.0版本分界线以上以下配置不同,具体配置如上图所示。你可以设置其吞吐的上限和下限,也可以设置平峰期的限制。我们进行限流肯定其他的应用,如spark等。Flush限流是在1.3.0版本以上支持的,其实主要的IO来源就是Compaction和Flush,配置与Compaction比较像。值得注意的是限流不能过低,如flush就会delay,内存会膨胀,如果膨胀超过一定区域就会blockingupdate,会出现写allstoresmainStoreCFflushPer-CFFlush1.1.01.1.0-2.0CFmainStore16Mflushflush。后flushCF现CF过多,因此也会有下限值控制,也是16M。使用这个功能也需要注意,开启这个功能有很多数据是不flush,但是如果出现故障,replay的数据会变多,在HBase中有个参optionalcacheflushinterval,可以设置过多长时间强制flush一次,还有一个flush1.0log都是12块硬盘,如果用一个WAL(writeaheadlog),HDFS是三个副本,虽然能将吞吐一个regionserver配置4个WAL,测试性能会提升20%。版本低于1.2.0:replication存在问题,vider->multiwall,hbase.wal.regiongrouping.strategy->boundedhbase.wal.regiongrouping.numgroupsWAL是依据你的盘确定,IO能力是否充足。WALSSDSSDStoragePolicy,但该功能在2.0版本上才有。对不同的CF设置不同的Storage需要支持StoragePolicy配置,如果生成的文件都是HDD,会影响读取的性能。ONE_SSDHDFSclientSSDbackport。对于混合磁盘环境(SSDHDD),WALONE_SSD,CFONE_SSDSSDMergeMVCCandSequenceId能问题:branch-1.01.0.3branch-1.4.0ASYNC_WALBucketCachekey1.2.0如果远程读SSD,需要考虑网络开销,ONE_SSD策略+HDFS远程读开销尤其大。排队时间。TotalCallTimeRegionServerserverHBaseserver数据看起来没问题,这种情况需要业务debug客户端的问题,例如是否业务程序GC,或者客户端是不是网络出口存在拥塞。TotalCallTime等于ProcessCallTime加上TimeserveractivehandlerQueueCallTime请求是从队列出来后处理。ActiveHandler在1.4.0版本以前是没有读写分离监控的。读写分离的好处就是Handler打满到底是读出问题还是写出问题就可以很容易监控。RPC队列长度也可以判断机器是否出问题了,RPC连接数很高也是消耗系统资源。上图是我们监等这些都会监控。需要说明的是对latency的监控,HBase出问题到底是文件系统出问题故障的话HBase肯定会受影响,因次对于putWALsynclatency,对于get要监控HDFSpreadlatency,Scan请求监控HDFSreadlatency。对于HDFSpread/readlatency的监控指标需要1.4.0版本以上才有。如果发现Get请求latencyHDFSpreadlatencyHDFS须对p999高的RegionServer一一排查。第三个就是内存相关的指标,GC相关的监控指标对于排查问题作用未必很大(是否存在GCGCPauseTimeWithoutGCGC1.4.0hangCPU等,都会导致进程堵塞。再一个就是对BlockCache/MemStoreSize的监控,如何监控Hfile数过多,一方面可以监控blockingupdate的频率,另一方面是看MemStoreSize是否变大了。BlockCache1.3.0datametametablock命中率一般都很高,访问频率也很高,如果不区分开metadata,cachedatablock65meta率基本是100%。regionserverhandlerregionServerregionstaleRegionServerIO器已经出问题,因为出问题的请求没有汇报给server,另外如果机器资源耗尽,新的请求serverservermetrics务,但是master还是可以服务。接下来讲一下日志的排查,首先关于慢请求。如发现一个server的999时间很长,第一反RegionServerresponseTooSlow会打印任何有关processingtime、row等具体信息的,因此请关注HBASE-16033/HBASE-16972这两个JIRA。会打印详细信息,前面一个截图是对普通请scanscanbranch-以上,branch-以上,或1.3.0以上版本。在自己的版本还做了一Upstreamlongprocesstime还是longqueueTimelongprocesstime会导致一系列的longqueueTime。如果不区分会看到很多responseTooSlow,但是你并不知道出现的问题是什么。当然还需那如果请求处理时间很接近但未到达10秒,比如8秒,对于这种慢请求怎么debug?这regionServerjstackhandlerwaitwaitClientsinglebatchbatchhbasebackoffp

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论