移动云:构建下一代云原生数仓_第1页
移动云:构建下一代云原生数仓_第2页
移动云:构建下一代云原生数仓_第3页
移动云:构建下一代云原生数仓_第4页
移动云:构建下一代云原生数仓_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

构建下一代云原生数仓01移动云分析型数据库发展历程02海山数仓的架构和理念03海山数仓的核心技术及演进趋势04移动云的实践与未来展望移动云分析型数据库移动云数据库的发展历程移动云数据库团队十年前正式诞生,以实现数据库核心技术自主可控为目标,目前已构建完整产品和市场体系,并实现大规模商用。苏州研发中心2014云能力中心2020•启动云改,转型云计算服务商2024•云原生进阶,发布海山数据库2.0•启动算力网络数据库探索和研究•基于开源启动商业版产品打造•集团内部推广和应用•海山数据库1.0发布我们认为数据库的下一阶段:从云计算到算力网络L1容器化部署无资源预占、全球分布、任务式服务无资源预占、水平和垂直扩展资源预占、计算存储分别扩展资源预占、计算存储—体扩展b云原生数据库的进化方向:更深层次的解耦、更灵活的感知调度移动云数据库布局移动云一站式云原生数据库服务事务型数据库事务型数据库分析检索OLAP数据库生态工具NoSQLNoSQL库数据库统一云平台底座数据库统一云平台底座•移动云基于K8s构建云原生数据库底座,全线产品达云原生L1级•自研海山数据库系列,采用存算分离架构,并全面向Serverless演进•在中国移动算力网络战略下,大力探索算力网络数据库,积极推进相关技术以及行业标准制定•24年9月发布《中国移动算力网络数据库白皮书》分析型数据库:从湖到仓Oracle2000年2005年2017年ApacheDoris2021年DataBendFoxLake第四代:第一代:第一代:第二代:BC-Hadoop移动云产BC-RDB-HybridBCBC-Hadoop移动云产BC-RDB-HybridBC-HugeTableLakehouse海山数仓02海山数仓的架构和理念海山数仓的设计理念实时数仓引擎物化视图、向量化引擎、行列混存、CBO优化器极致性价比存算分离、multi-warehouse数据集成生态海山数仓的架构设计接入层服务层计算层台•高性能数仓引擎基于Starrocks内核构建高性能计算引擎。支持向量化引擎、CBO优化、物化视图、智能缓存等能力。•存算分离架构基于Starrocks实现存算分离能力,计算存储独立的扩展,支持无状态计算节点,持久化存储基于对象存储,通过本地缓存加速;实现多个计算实例共享数据存储,降低存储冗余和同步开销。•统一管控云平台对各类数据库进行统—抽象和封装,形成算网数据库管控底座;提供适配算力网络模式的新型数据库资源供给能力。支持MySQL协议,兼容SQL99/2003,支持多种外部数据源、联邦查询能力,兼容Iceberg、Hudi等开放数据湖格式。海山数仓的核心技术与存算一体和存算分离的支持云原生架构存算一体和存算分离的支持Multi-Warehouse支持LocalStorageLocalStorageLocalStorageWarehouse1Warehouse2Warehouse3-共享存储LocalStorageLocalStorageLocalStorageWarehouse1Warehouse2Warehouse3-共享存储•公有云场景支持存算分离架构,具备更好资源弹性;私有云场景支持存算一体架构,具备更健壮架构•持久化存储基于对象存储,降低约80%存储成本,容量可弹性扩展至PB级•本地SSD提供缓存加速能力,大部分缓存命中查询性能与存算一体持平•计算/存储资源独立扩展,有效提升资源利用率•多个Warehouse共享一份数据,避免集群间数据复制成本•不同Warehouse应用在不同的业务负载。计算资源可以进行物理隔离•具备完备的多租户权限控制(RoleBasedAccessControl)数据库云平台-新一代云原生数据库管理架构通过对多数据库的拓扑结构、高可用性、数据一致性保护和运维操作进行领域模型建模,数据库云平台可以从中抽象出数据库容器化管理标准,可以让数据库开发者以声明式和配置式的方式接入和高效管理多种数据库类型•数据库容器化,将数据面和管理面功能分离后,不仅将数据库生命周期管理标准化,也将运维和管理能力进行标准化•在管理面将运维操作和经验自动化和平台化,提供丰富的数据库Day-2运维功能;实现标准化监控系统的接口和数据格式,通过插件机制可扩展支持将可观测性数据写入到监控系统、日志系统及消息中间件等,并提供丰富的可视化面板•在数据面将数据库映射到位于四个层次的对象上:Cluster、Component、InstanceSet和Instance,形成了分层的架构,通过这些API定义组件的拓扑关系、启动的依赖顺序及引用关系等Zero-ETL提升数据集成能力在数据分析的场景中,通常分析型数据库本身不生产数据,数据来源于业务系统的输入。在传统数据分析应用中,ETL相关的工作量占比达到70%Zero-ETL服务海山数仓旨在实现事务处理和数据分析—体化,交易型数据库数据能够—键同步海山数仓旨在实现事务处理和数据分析—体化,交易型数据库数据能够—键同步到分析型数据库,实现建仓成本的降低和入仓效率的提升功能完备••支持MySQL整库全、增量—体同步•支持动态Schema变更:增加列、删除列、新增表•支持多源合并能力卓越性价比••服务Serverless化,根据负载动态分配资源及并行度•全量同步20w条/s,增量同步5w条/s,对比业界竞品3w条/s•同步延时低于15s,对比业界竞品延时5min学习型索引:通过机器学习模型来替代传统数据库索引结构,学习型索引通过使用机器学习模型来预测键的位置,从而减少索引的大小和访问次数,提高查询效率。在云原生分析型数据库场景,学习型所以可以降低对对象存储的访问开销,从而显著提升查询效率。云原生学习型位图索引云原生下位图索引的困境自适应分组的学习型位图索引云原生学习型位图索引云原生下位图索引的困境自适应分组的学习型位图索引04移动云的实践与未来展望实践案例:移动中间号业务电显示均为中间号,为滴滴、美团、阿里、腾讯、京东等超500家头部企业提供服务。中间号平台通过广州、呼和浩特两个资源池承载全国的务间号业务,采用云MySQL承载话单数据,每天基于话单数据进行运营分析查询。存量数据量约7TB,日增数据量约1亿条。业务痛点:从离线数仓到实时数仓:自建数仓仅能做到T+1非实时分析,无解决方案•实时数据分析场景通过Zero-ETL将南北方MySQL数据•数据同步时延•查询性能实践案例:设计院融基平台中国移动设计院融基平台聚焦解决质量、成本、效率和安全四大核心据仓库建设、数据分析和汇总分析等需求,承载调度云、门户云、用户云和设计院云的MySQL、PG的数据共享和贯通查询需求需求,存量数据量约7亿条,存储约3TB,日增数据量约1000万条。业务痛点:离线数仓和实时数仓共存,技术栈繁杂,维护成本不断提升;自建数仓无法满足PostgreSQ建设方案•实时同步),•离线/在线分析基于Multi-warehouse使用•数据源扩展海山数仓支持PostgresSQL/MySQ实践案例:苏州银行建设效果苏州银行实时场景承载各业务分析场景需求,业务总数据量约2PB,每日数据500G左右。基于现有建设情况,存在痛点:1,采集数据源较多,方式不统一;2,数据分析延迟高,难以满足实时性要求;3,多套技术栈资源和维护成本高。建设效果清洗聚合物化视图物化视图化视图OceanBase•实时数仓,端到端延时低于1分钟•基于主键模型大幅提升实时数据查询性能2.x倍•基于物化视图实现多层面逻辑视图嵌套,降低数仓各层级之间数据处理延时•湖仓一体架构降低离线数据迁移和存储成本清洗聚合物化视图物化视图化视图OceanBase•实时数仓,端到端延时低于1分钟•基于主键模型大幅提升实时数据查询性能2.x倍•基于物化视图实现多层面逻辑视图嵌套,降低数仓各层级之间数据处理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论