阿里HBase的数据管道设施技术_第1页
阿里HBase的数据管道设施技术_第2页
阿里HBase的数据管道设施技术_第3页
阿里HBase的数据管道设施技术_第4页
阿里HBase的数据管道设施技术_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、阿里HBase的数据管道设施技术技术创新 变革未来内容大纲数据导入场景HBase Bulkload功能HImporter系统数据导出场景HExporter系统数据导入应用场景数据导入需要考虑的问题异构数据源多周期性调度导入效率多集群下的数据 一致性ClusterAClusterB01数据导入未完成更适合由平台解决Bulkload介绍Bulkload优势:高吞吐不需要WAL避免small compaction支持离线构建HFileBulkloadMemStoreHFileHFileHFileApplication codeputflushHFile是只读文件LSM TreeB+TreeBulkl

2、oad导入导入逻辑作为插件合入同步中心可调度适配多种异构数据源按HBase分区对源数据进行分区避免Split一个分区对应一个task一个task一个线程Original DataPartitionedData同步中心分区排序Write to hdfsHBase 分区分布BulkloadHBaseHDFS数仓多集群导入单元化部署模式下的导入很难保证多个任务同时完成,导致一定时间窗口 内数据不一致调度后的运行环境不一致网络延迟不一致失败重试集群部署对业务不透明需要配置多个任务集群迁移需要重新配置任务逻辑集群导入易用性一致性分区排序编码压缩多任务模式重复配置,不透 明难保证需要执行两次两次逻辑集群模

3、 式配置一次,迁移 无感知毫秒执行一次,但分区数量变 多一次线上遇到的问题扩展性资源利用率研发效率监控作业单机运行压缩消耗大量CPU快速迭代 在线热修复业务统计 性能监控HImporterHImporter是用于辅助数据同步的中间层HFile的构建,加载逻辑下沉到HImporter优势分布式水平扩展,同一个作业的不同任务可以调度到HImporter的不同worker节点提高资源利用率,将压缩等CPU密集操作下降到HImporter快速迭代,HImporter的运维和迭代与同步中心独立独立监控,HImporter可按照自己的需求实现监控HImporter提高Bulkload稳定性支持本地化率HD

4、FS默认随机放置提高本地化率可减少网络IO感知存储类型HDFS默认选择同一介质感知表存储类型支持混合存储HImporter 功能迭代表属性感知混合存储新压缩编码表级别副本数保证本地化率将Hfile写入到分区所在服务器,保证本地化率和存储特性, 对一些rt敏感的业务效果明显支持轻量计算支持MD5,字符串拼接等函数安全隔离避免对外暴露HDFS地址支持Task级别重试HImporter 业务统计作业数 2万/天导入数据量 1.5PB/天增量数据导出场景增量数据导出需要考虑的问题早期方案对NN节点造成很大压力无法应对主备切换日志热点处理能力低HExporter1.0HExporter1.0优势主备流量

5、切换不影响数据导出识别数据来源,过滤非原始数据独立的同步时间流保障数据按有序时间分区Dump到数据仓库复用HBase replication框架降低开发工作量复用HBase的监控,运维体系HExporter1.0 优化减少拓扑网络中的数据发送备库避免向Exporter发送重复数据远程辅助消化器空闲的机器帮助消化热点避免发送小包HExporter在接收到小包后,等待一段时间再处理同步通道配置隔离实时消费链路和离线消费链路可以采用不同的配置数据发送前压缩HExporter1.0 业务统计采集集群数 57个采集任务数 554个日常峰值 6GB/s集团业务蚂蚁金服业务HExporter1.0问题举例:

6、午餐和晚餐时间,业务写入流量产生高峰,离线同步延迟数据的发送与在线写入争抢资源,发送赶不上写入找空闲机器辅助?不一定有扩容?资源浪费,周期长思路:如果离线同步的资源可以和在线资源隔离,利用离线大池子可以削峰填谷开发一个功能用了2天,升级HBase集群用了2周升级慢的原因是Hbase是有状态的,升级过程不能影响线上业务稳定性HBase集群数量多思路:Exporter的worker是无状态的,如果把所有逻辑都放在Exporter,那么升级、扩容会简单快速HExporter2.0Export ServiceConsumerRegister/UnregisterList logsLog life cycleCreateState change (Writing = Closed = Finished)Log cleanLog EntryFilesytem,PathClusterID, ServerName, CreateTime, HExporter 2.0AliHBase数据通道中间层(HImporter,HExporter)核心价值易扩展 分布式水平扩展高可靠 自主识别主备切换,封装对HBase访问迭代快 架构解耦,快速迭代稳定无状态,节点对等云数据库

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论