版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
HBaserowkeyregionregionregion会在物理机器上,保证是一个均衡的状态。首先它也是一套标准的存储架构。他的Hmaster主要负责简单的协调服务,比如region的转移,均衡,以及错误的恢复,实际上他并不参与查询,真正的查询是发生在region刚才提到HBase里面有很多column-family列族,没个列族在一个region里对应一个store,storestorefilemenstoreHBase虑把文件写入menstore里面,随着menstore里面的数据满了之后,会把数据分发到磁storefilememstorelmstree。然后,数据是采用append方式写入的,无论是插入,修改,删除。实际上都是不断的appendio,提高了写入性能,当然的话,它的底层的话是建立在hdfs之上。我们贝壳使用HBase是非常多的。这边也搭建了一套系统,部署在我们机器上,目前我们借助HBase实现一套多维分析,比如用户的画像,还有日志统计分析等这几个方面。上这个状态量是非常大。我们使用HBase来存储这些数据。其实这个模型是非常适合HBase存储的模型,比如说,对于房源轨迹的存储我们做了如下row-keyId+时间+操作类型。value的话,就是具体操作的值。为了保证HBase序列的均衡性,我们对Id加一个md5,HBaseKylin。为什么会选KylinKylin是一个molap用的是Kylin。KylinApacheKylinHadoopSQL(OLAP)eBayInc.开HivesqlHBase这就依赖于HBase的计算。提供路由功能,解析sql语句,转化为具体的HBase命令。KylinCubeCubold,其实这个逻辑也非常简单,比如已经知道查询的叫做,cube。其中每一种组合叫做Cuboid。首先定义一张原始表,有两个维度,year和city。在定义一个指标,比如总价。下面是所有的组合,刚才说到Kylin里面有很多cuboid组合,比如说前面三行有一个cuboid:00000011组合,他们在HBase中的RowKey就是cuboid加上各维度的取值。这里面会Rowkeysellrowkey对HBase的压力会非常大,所有通过一个字典编码去减少长度,通过这种方法,就可以把kylin中的计算数据存储到HBase中。KylinKylinKylinKylin无限容量队列,针对特定cube的优先调度,权限的管理,重试任务执行,实现任务的并比如说性能问题,cube优化前端页面,简化配置,提升管理效率。右边是我们自主创建cube的过程。HBase我们优化也是针对这个链路做优化,第一步:Kylin及各类应用,由HBase调用,HBaseProfileCPUABAB,然后时序会从左到右。上面的每个箭头,是每个堆栈的切片,on-CPU表示你的代码正在运行,off-cpu表示你的代这里讲一个优化实例,之前某一个查询服务,当时发现,并发的时候CPU满载,用火焰图做一个采样分析,左上角是一个认证模块加密算法,他消耗百分之七八十的CPU资源,下使用了一套Base的加密算法,这套算法对CPU的消费非常高,实际上在内网环境上,对MD5间大大降低了。通过对比,提升了四五倍的qps。右边是火焰图的创造者。GCHBase是内存消耗的大户,它分为两部分,一个是写入的时候,里那个一个是cache。他们对内存的消耗是非常大,我们这边对Java的堆开到了将近100g左右,如果使用CMSG1,G1regionregionG1100ms,他能够通过预测算法,能够预算到在alwayspretouchjava间,下面是G1算法的。可以看到得到了很好的缩短。HBaseIOHBaseIOIOHBase上也会有有一些策略,比如ALL_SSD,(F副本全部放在SSD上)ONE_SSD(一个副本放在SSD上)。目前,我们把HBase核心业务和预写日志用ALL_SSD这种策略上,一些重要业务会使用ONE_SSD,普通的话,使用村纯硬盘就可以了。SSDhadoopSSD以在架构上增加了SSD-FIRST策略,优先读取远程SSD。另外就是HBase的读写分离,原生HBase可以生成队列树和线程树,想很多读写请求和scanscan分组,比如80%负责读,15%负责写,5%负责scan。HBasewasdSSDIO差别很大,绿色的这条线,代表的是qps这条线。大家可以看到,最开始全部使用硬盘的概一点五倍。整体提升了10倍的qps,同时延迟也是大幅度下降。Cached主要做文件系统缓存使用的。下面是解决问题的一个流程。systemtappage下角是计算结果。如果硬盘是SSD的话,效果会更好一点。另外一个就是HBase在多处理器上的问题,这是大多数情况下都会遇到的问题,传统的多CPUCPU都是对称NUMACPUCPUCPU,这种设计的话,在内存应用的话,比较友好。但是对HBase和re
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 配电设备改造工程
- 2024年高中语文 第五单元 写作任务指导-学写演讲稿教案 新人教版必修下册
- 2024-2025学年高中数学 第五章 三角函数 5.2.1 三角函数的概念 第2课时 三角函数的性质教案 新人教A版必修第一册
- 湖南省株洲景炎学校七年级地理上册 2.3 世界的地形教案 湘教版
- 八年级生物上册 第五单元 第四章 第二节《细菌》教案 (新版)新人教版
- 总体交通规划设计合同(2篇)
- 雨棚使用年限合同(2篇)
- 汉字课件 博客
- 故事坐井观天课件
- 寒号鸟课件讲解
- 第七届全国茶业职业技能竞赛(评茶师)考试题库(含答案)
- 新教科版四上科学3.5《运动与摩擦力》教案(新课标)
- 支教教师考核登记表
- 中国融通资源开发集团有限公司社会招聘笔试
- 初中历史九年级上册《基督教的兴起与传播》教育教学课件
- 护理中断事件的风险及预防
- 六年级语文上册部编版第六单元教材分析及所有教案
- 2024年纪念会计法实施周年会计知识百题竞赛
- 建筑施工合同钻孔引孔
- 企业数字化转型战略协议
- 2024年山东春季高考考试标准33英语考试标准
评论
0/150
提交评论