![混布数据库Hubble技术概述_第1页](http://file4.renrendoc.com/view/7ab78e147a5f5e39f35d7a1cd0aaa195/7ab78e147a5f5e39f35d7a1cd0aaa1951.gif)
![混布数据库Hubble技术概述_第2页](http://file4.renrendoc.com/view/7ab78e147a5f5e39f35d7a1cd0aaa195/7ab78e147a5f5e39f35d7a1cd0aaa1952.gif)
![混布数据库Hubble技术概述_第3页](http://file4.renrendoc.com/view/7ab78e147a5f5e39f35d7a1cd0aaa195/7ab78e147a5f5e39f35d7a1cd0aaa1953.gif)
![混布数据库Hubble技术概述_第4页](http://file4.renrendoc.com/view/7ab78e147a5f5e39f35d7a1cd0aaa195/7ab78e147a5f5e39f35d7a1cd0aaa1954.gif)
![混布数据库Hubble技术概述_第5页](http://file4.renrendoc.com/view/7ab78e147a5f5e39f35d7a1cd0aaa195/7ab78e147a5f5e39f35d7a1cd0aaa1955.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、技术创新,变革未来混布数据库Hubble技术概述混布数据库Hubble深植于场景需求变化趋势万物互联,数据海量,非结构化,实时分析需求高Transaction dataEngagement dataObserving data一、生产方式变化应用系统生产数据人的行为生产数据二、数据量级变化三、数据类别变化四、数据价值变化TB级千万级记录/天PB级10亿级记录/天ZB级千亿级记录/天结构化结构化、半结构化结构化、半结构化、非结构化(占比高达90%)单一业务应用只需离线分析流程业务应用离线分析为主,实时分析为辅混合业务应用需要实时分析避免事故机器生产数据7*24小时产生数据从决策层到服务层,一对一
2、服务精准营销业务系统 产生数据ETL处理KPI仪表盘领导决策Before:管理驾驶仓-面向决策Now:个性化驾驶仓-面向服务感知客户关注客户洞察客户服务客户及时反馈 个性营销数据库实时数据可视化呈现千人一面千人千面一人千面混布数据库对混布HTAP数据库的完美诠释Gartner 对HTAP数据库给出了明确的定义: HTAP数据库需要同时支持OLTP和OL AP场 景。基于创新的计算存储框架, 在同一份数据上 保证事务的同时支持实时分析, 省去了费时 的ETL过程。实时交易系 统OLTP复杂分析 OLAP人工智能 MLSQLFileVectorHTAP数据库Hubble什么是HTAP?为什么是HT
3、AP?Hubble完美诠释HTAP!演进路线HDFS存储混合存储AP/TP 混合引擎AI-Native用户HDFS存储混合存储AP引擎TP引擎用户统一入口AP存储TP存储AP引擎TP引擎用户统一入口阶段一AP、TP混布阶段二融合存储阶段三融合引擎& AI-Native三个阶段技术实现与优化名称中文描述Dataspace数据空间是一个分布式空间,通常一张表对应一个dataspace,一个dataspace对应多个Shard,dataspace可以是独占的存储空间也可以是非独占 空间。Exclusivespace独占空间是dataspace的一种,可以通过dataspace中的一个属性来描述,通常
4、这个空间会在磁盘上有独占的存储目录,与其他空间是物理隔离的, 独占空间包含多个shard,所有的shard属于同一个dataspace,属于同一张表。Non- exclusivespace非独占空间是dataspace的一种,可以通过dataspace中的一个属性来描述,会与其他非独占空间的dataspace共用磁盘目录,通过逻辑来隔离,非独 占空间会包含多个shard,多个shard可能属于多个dataspace,属于多张表。Diskstorage磁盘存储1个diskstorage指的就是一个磁盘目录,也就是一个存储的实例。Diskstorage1(目录1)Diskstorage2(目录2)
5、Diskstorage N(目录N)磁盘Diskstorage1(目录1)磁盘1Diskstorage2(目录2)DiskstorageN(目录N)Diskstorage1(目录1)磁盘2Diskstorage2(目录2)DiskstorageN(目录N)Diskstorage1(目录1)磁盘NDiskstorage2(目录2)DiskstorageN(目录N)服务器Shard1(规则1)Shard2(规则2)Shard N(规则N)Diskstorage存储分配服务器1磁盘1Diskstorage1(目录1)Diskstorage2(目录2)shard1shard2shard3shard7s
6、hard8shard9”磁盘2Diskstorage3(目录1)Diskstorage4(目录2)shard4shard5”shard6”shard10shard11shard12”服务器3磁盘1Diskstorage9(目录1)Diskstorag10(目录2)Shard1”Shard2”Shard3”Shard7”shard8Shard9磁盘2Diskstorag11(目录1)Diskstorag12(目录2)Shard4”shard5shard6shard10”shard11shard12服务器2磁盘1Diskstorage5(目录1)Diskstorage6(目录2)shard1sha
7、rd2shard3Shard7shard8”shard9磁盘2Diskstorage7(目录1)Diskstorage8(目录2)shard4shard5shard6shard10shard11”shard12Dataspace1非独占空间图例:Dataspace2非独占空间Dataspace3独占空间假定有3台服务器,每台服务器有两块磁盘,总共有3张表: 表1对应 Dataspace1表2对应 Dataspace2表3对应 Dataspace3表1 为非独占空间,有2个shard分别是shard1和shard4表2 为非独占空间,有4个shard分别是shard2、shard3、shard5
8、、shard6 表3 为独占空间,有6个shard分别是 shard7、shard8、shard9、shard10、 shard11、shard12从图中可以看到表1 和 表2共用一个磁盘目录,表3单独占用了一个磁盘目录ShardShardShard说明:可以建表时自定义shard各个副本的存储格式,格式选择 有:列存、KV、MIX等,意思是Shard的数据存储格式可 以与Shard 、 Shard是不同的。Shard与其副本之间通过Raft协议做数据复制每个副本的数据格式可以做变更默认表的副本数为3,默认表的3个副本存储格式都是KV样例说明(示例):建表语句指定不同的存格式Create ta
9、ble sky( id int,address varchar(50)with( replication=3,- 副本1KV存储- 副本2列存- 副本3 KV存储rep1-store=KV,rep2-store=COLUMN, rep3-store=KV,shard-count=12);更新shard副本存储格式alter table sky change store set rep3-store=MIX; - 更新副本3存储格式为MIX另外还有对shard的操作,如shard的下线、上线、切分、合并、检查、修复等先关 维护功能。潜在优势:逻辑上的一份数据支持了客户多样化的需求。真正的减少了数
10、据的搬家。混合存储例子基于LSM Tree储存结构流程说明:客户端通过不同的接口访问形式,直接访问主服 务节点服务主服务节点收到服务请求进行分析处理,分配到 不同的分配服务节点执行分片服务节点收到执行请求,进行sql解析处理 并执行SQL计划SQL执行服务底层存储数据进行处理访问,并反 回处理结果数据分片索引index_id为自增索引可以删除、修改等操作存储和索引在同一个dataspace中KeyIndex_id,NULL-byte,二级索引列,主键列索引字段为索引的IDValue主键在key的起始位置存储和索引在同一 个Dataspace中KV索引倒排索引复合索引、索引选 择评分机制使用最
11、匹配的索引映射查 询数据索引混合负载资源管理实时获取每个s h a r d s e r v e r c p u 的使用 情况以及每个任务c p u 资源占用 情况内存管理实时获取每个s h a r d s e r v e r 内存的使用 情况以及每个任务c p u 资源占用 情况F I F O S c h e d u l e r 先进先出F a i r S c h e d u l e r 公平调 度每个单独的任务可以指定优先 级调度模式CPU管理资源管理产品特性改变传统架构、优化大数据架构传统业务应用存在问题节点无法水平动态扩展对于大数据量的支撑比较受限采用分库分表实现,实施人员业务技术能力要
12、求高技术能力限制,TP,AP分离,数据冗余存储,数据应用迁移搬家,耗时,效率低架构体系大数据 Hadoop 平台架构,数据采用 Hive、 Hbase,ES 和 solr 数据库等架构体系IOE架构,数据采用 oracle、mysql,TD 和 mpp 数据库等存在问题原生API开发实施难度大。大数据体系SQL工具Hive性能缓慢复杂场景多组件组合应用,数据冗余存储多 副本,运行效率低大数据业务应用多源异构、超高实时并发、全部SQL标准多源异构超高实时并发全部SQL标准在企业级数据 处理领域支持OLTP 高并发事务的服务应用;支持OLAP的实时数据仓库服务;支持海量数据分析处理,即席探查的服务
13、应用。统一服务入口,接入各类数 据库源系统,自由编写SQL, 实现数据访问服务,无需将 数据完全搬迁,即可以现有 数据即席分析探查。利用分布式技术架构, 支持上千万用户在线实 时高并发修改与查询, 服务个性化数据服务应 用支持SQL99标准,封装多种 查询调用接口,方便系统对 接服务应用,实现传统场景 无缝迁移,降低生态合作伙 伴参与大数据开发的门槛。场景和案例事务交易 、数据仓库、大数据领域事务交 易领域数据仓 库领域大数据 领域最终 用户 收益传统关系数据库的升级核心交易系统升级、优化传统数据仓库, 构建实时数仓。满足时效性、并发性需求支持海量(PB级)数据的存储、处理 及分析,升级替换H
14、adoop生态组件满足易用性,低门槛需求大规模+实时+高并发:打破“不可能”,实现业务梦想实时高并发+事务一致性:突破国产化性能低的现状,有力支持国产+安可降低人力资源(业务实现、运维)成本:仅SQL要求系统快速上线整体逻辑贷中实时反欺 诈业务应用贷中实时交易欺诈 规则判断应用实时营销业务 应用SAS营销业务整体 迁移支持分行实时统计 业务应用信用卡业务即席查 询和数据统计分析 业务进件审批反欺 诈业务应用进件审批多维规则 实时判定应用TP业务场景促发卡、促激活 和渠道类应用实 时分析AP业务场景客服运营数据处 理和分析某大型股份制银行基础大数据平台六大类业务应用场景支撑系统上线业务效果实现了
15、每天千万级交易数据数据实时并发入库; 接近100 个复杂欺诈规则分析毫秒返回分析结果。在实时反欺诈场景中:在实时营销场景中:在实时审批场景中:实现5000 多个标签灵活组合查询分析, 精准命中数据毫秒级输出查询结果。支持100 多个节点的大数据平台秒级数据同步。支撑50 多个维度数据复杂规则分析, 毫秒级返回分析结果, 支撑实时进件审批业务,同时支撑1 万多家分支行, 上千家营业厅的实时汇总统计分析的业务应用。某商业银行全量数据交易系统痛点现状终端用户无法获取全量数据服务。AI分析建模需要用户全量历史数据也无法提 供。用户核心系统采用oracle架构体系,目前只 能提供13个月内的数据服务应用
16、;13月个之前的数据存储在带库系统和数据 仓库系统;带库系统无法提供高并发数据服务应用;数据仓库系统数据已经进行了加工,无法提 供原始数据.项目实施架构综合前置图形前端手机网银外围系统核心业务 系统A核心业务 系统A核心业务 系统Aoracle数 据库oracle数 据库oracle数 据库EMC高端存储核心业务 系统B核心业务 系统BHubble 数据库Hubble数 据库X86服务存储“四双架构”实现系统高可用性为了满足金融行业A类核心系统 灾备要求,本系统在生产和灾备两 中心采用“双中心 双集群 双活 双 服务应用”的四双架构,构建高可 用应用系统。两集群间服务、数据 独立,互相同步,保
17、持高可用。X86服务 存储数据入库:1、源头库种类多,包括Oracle、MySQL、Gbase甚至还有FTP;2、数据量大,日数据量超过5亿条;查询响应:1、同时服务于省厅的统计分析和地市一线干警;2、从批处理向即席查询转变,查询结果时间要求5秒。海量数据服务需 求 & 痛 点项目实施架构凭借数据库超高性能,将新的感知网数据 通过实时方式入库到Hubble数据库(每天 超过5亿条);分别为上层统计分析应用与一线干警提供 数据服务,并对接到前端应用;通过将原先的业务库数据统一汇聚到 Hubble数据库,构建用户的实时数仓,在 只改变数据库接口指向的前提下使用 Hubble支撑原有业务;数据整合快
18、速查询统计实时同步&更新实施入库感 知网数据每天超过5亿条;同时支撑分析应 用与业务应用, 实现查询服务1 秒级响应;汇聚公安各 业 务 系 统 1400张表单;通过灵活的扩展能力、高效的读写/查询性能等优势顺利解决用户对于存储效率、高并发查询效率,同时还要具备便于扩容,并做到同时兼顾业务读写与统计分析的问题; 帮助用户将感知网数据融入到日常办件工作中,在提高案件侦破率的同时也减少了办 件的时间。实施效果A I - N a t i v e 支持SQLVolcano ModelVectorized ModelCompiled ModelPull BasedBatch Pull BasedPush Baseddistrubuted storagecurrent workload monitorhistory monitor infoClassification/Forecasting model负载识别-与AI结合负载判断AI-Native利用Hubble数据库技术优势,集成AI模型特征SQL代码实现, 让AI模型应用更高效方便insert into db1.user_infoselect analyze_udf(user_code, user_name) as user_classification, seria
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年普通整流管芯片项目可行性研究报告
- 2025至2031年中国带棚架松式络筒机行业投资前景及策略咨询研究报告
- 2025年室内型电子显示屏幕项目可行性研究报告
- 2025年吨包装机项目可行性研究报告
- 2025至2031年中国丁维钙粉行业投资前景及策略咨询研究报告
- 2025年三氯乙基磷酸酯项目可行性研究报告
- 2025至2030年香水木大双龙船项目投资价值分析报告
- 2025至2030年中国铝条插角件数据监测研究报告
- 2025至2030年线性增压内压力试验机项目投资价值分析报告
- 2025至2030年环氧树脂地坪面层涂料项目投资价值分析报告
- 牛津书虫系列1-6级 双语 4B-03.金银岛中英对照
- 2024-2025学年深圳市南山区六年级数学第一学期期末学业水平测试试题含解析
- 2024-2030年中国免疫细胞存储行业市场发展分析及竞争形势与投资战略研究报告
- 工贸行业企业安全生产标准化建设实施指南
- 机械基础(少学时)(第三版) 课件全套 第0-15章 绪论、带传动-气压传动
- T-CACM 1560.6-2023 中医养生保健服务(非医疗)技术操作规范穴位贴敷
- 07J912-1变配电所建筑构造
- 锂离子电池串并联成组优化研究
- 人教版小学数学一年级下册第1-4单元教材分析
- JTS-215-2018码头结构施工规范
- 大酒店风险分级管控和隐患排查治理双体系文件
评论
0/150
提交评论