版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、敏捷数据中台技术实践目录企业数据处理发展史敏捷中间件实践数据中台实践 数据治理探索数据中台思考目录企业数据处理发展史敏捷中间件实践数据中台实践 数据治理探索数据中台思考企业数据处理发展史2018年 数据中台2016年 敏捷中间件2019年 自治平台数据库阶段数据仓库阶段数据平台阶段数据治理阶段数据中台阶段第一阶段第二阶段第三阶段第四阶段第五阶段RDBMS存储过程Hive/RDBMSETL/调度报表/BI存储多样性计算多样性需求多样性统一复用自助数据治理数据资产目录企业数据处理发展史敏捷中间件实践数据中台实践 数据治理探索数据中台思考敏捷中间件 时代背景:数仓时代问题:产品线A产品线B产品线C应
2、用数据 仓库计算存储网络应用数据 仓库计算存储网络应用数据 仓库计算存储网络数据时效慢、需求处理慢、场景应变慢、技术成本高、人力成本高、沟通成本高 架构:敏捷中间件 定义与体系敏 捷 大 数 据方 法 论敏捷大数据中间件敏捷大数据理念敏捷大数据实践敏捷大数据方法论需求分析验证阶段架构设计选型阶段实施测试调优阶段上线部署迁移阶段管理运维监控阶段敏捷大数据中间件dbus 数据采集wormhole 实时处理moonbox 计算服务davinci 可视应用敏捷大数据理念组件化平台化产品化本地化标准化接口化配置化可视化统一化开放化管控化自助化自动化智能化平民化敏捷大数据(Agile Big Data),
3、 即在敏捷理念原则指导下,构建 出一系列通用中间件,和一整套 大数据应用全生命周期方法论, 以支撑更轻量、更灵活、更低门 槛、更快迭代的大数据实践。敏捷中间件数据流转架构数据源层集成层总线层流式处理层存储层数据服务层应用层关系数据库日志文件服务终端用户程序数据采集平台DBus消息总线kafka流式处理平台Wormholedruid/kylin/es/mongokudu/cass/hbase/chhdfs/hive计算服务平台Moonbox其他应用可视化应用 Davincidb2/oracle/mysql数据仓库jupy/zepp/sas/r/hue敏捷中间件数据采集平台DBusDB2dbusk
4、afkaOracleMySQLMongoDB日志文件UMSDBus(数据采集平台),是一个DBaaS(Data Bus as a Service)平台解决方案。DBus面向大数据项目开发和管理运维人员,致力于提供数据实时采集和分发解决方案。平台采用高可用流式计算框架,提供海量数据实时传输,可靠多路消息订阅分发,通过简单灵活的配置, 无侵入接入源端数据,对各个IT系统在业务流程中产生的数据进行汇集,并统一处理转换成通过JSON描述的UMS格式,提供给不同下游客户订阅和消费。DBus可充当数仓平台、大数据分析 平台、实时报表和实时营销等业务的数据源。功能特性无侵入方式接入多种数据源海量数据实时传输
5、自动感知数据源Schema变更初始加载和独立加载可靠多路消息订阅分发实时监控&预警可视化后台管理系统支持分表数据汇集多租户支持敏捷中间件数据采集平台DBusMasterSlavebinlogHeartbeat 心跳预警 监控Log Agent (Logstash/Flume/Fil ebeat/)Processor 算子处理FileExtractor 日志抽取Stream 流式转换Dispatcher 分发预处理Kafka Topic (Schema 1)Kafka Topic (Schema N)Full Puller 全量拉取Full Splitter 分片UMS通知告警 监控展示元数据变
6、更通知全量拉取增量拉取敏捷中间件流式处理平台WormholeWormhole(流式处理平台),是一个SPaaS(Stream Processing as a Service)平台解决方案。Wormhole面向大数据项目开发和管理运维人员,致力于提供数据流式处理解决方案。平台专注于简化和统一开发管理流 程,提供可视化的操作界面,基于配置和SQL的业务开发方式,屏蔽底层技术实现细节,极大降低了开发门槛,使得大数 据流式处理项目的开发和管理变得更加轻量敏捷、可控可靠。kafkawormholedb2/oracle/mysqlkudu/cass/hbasehdfs Log/csvdruid/kylin
7、/es/mongoUMSbackfill敏捷中间件流式处理平台WormholeKafka Topic (UMS1N)Kafka Topic (UMS2N)HDFSESWormhole RiderLookup (lookup ns)HDFS(state store)Wormhole StreamWormhole FlowWormhole FlowWormhole FlowWormhole Job (backfill)Wormhole Job幂等Sink通过id判断是否写入通过op决定写入方式写入前合并行快照写入采用批量方式支持数据最终一致性HDFS小文件分片直接落txt/csv文 件设置大小阈值
8、,小则append,大则新建设置时间阈值,超出 则新建文件Flow漂移可以控制flow从一个stream中漂移到另一 个stream中会自动调整合适的 offset为自动化运维提供接 口服务多Flow支持一个source ns和一个 sink ns唯一定义flowflow关注从哪到哪做 什么flow是一种虚拟化逻 辑概念,支持单物理stream同时跑多flow动态指令flow实时感应zk指令 并动态生效,无需重 启stream根据zk配置动态加载 topic业务时间策略可以设置时间对齐timeout和处理策略通过hdfs parquet维 护中间state数据source nssink nsD
9、ata Store敏捷中间件计算服务平台MoonBoxMoonbox(计算服务平台),是一个DaaS(Data Virtualization as a Service)平台解决方案。Moonbox面向数据仓库工程师/数据分析师/数据科学家等,致力于提供数据虚拟化解决方案。既可 作为数据应用底层数据查询计算统一入口,也可作为逻辑数据仓库与现有数据仓库互补。用户只需 通过统一SQL服务调用和Moonbox交互,即可透明屏蔽异构数据系统异构交互方式,轻松实现跨异 构数据系统透明混算。db2/oracle/mysqlkudu/cass/hbasehdfs/hive/clickhousemoonboxd
10、ruid/kylin/es/mongoREST APIJDBC/ODBC功能特性虚拟化能力支持多源异构系统无缝混算(目前支持 MySQL、Oracle、Kudu、HBase、 Cassandra、 MongoDB、Elasticsearch、HDFS、Hive等)语言交互支持统一扩展SQL语法查询操作支持两种写出模式:Merge、Replace支持两种交互模式:Batch模式、Adhoc模式支持多形式注册UDF/UDAF支持三种调用方式:REST服务、JDBC连接、ODBC连接元数据 支持导入动态元数据 支持统一元数据获取服务优化策略支持查询替换支持复杂算子下推支持整体快速下推支持临时表缓存用
11、户体系支持多租户用户体系支持灵活多角色定义数据安全支持认证登录支持表/列权限、读/写权限和UDF/UDAF权限支持加载安全策略其他功能支持CLI工具和Zeppelin支持YARN调度器资源管理支持Crontab表达式注册定时任务敏捷中间件开源赋能 DBus(625 star):/BriData/DBus Wormhole(574 star):/edp963/wormhole Moonbox(254 star):/edp963/moonbox Davinci(1027 star):/edp963/davinci开源社区微信群2000+用户开源企业使用用户包括微众银行、百信银行、中原银行、PPMo
12、ney、 顺丰、华润万家、亚信科技、360、凯声文化、金拱 门、盖茨集团、依图科技等几十家以上企业目录企业数据处理发展史敏捷中间件实践数据中台实践 数据治理探索数据中台思考数据中台实践企业现状 阶段:数仓阶段或者数据平台阶段 目标:想做好大数据,让数据赋能 思考:做成什么样,如何做企业关注 降本 增效 提质数据中台实践目标快省准平台化,透明封装复用技术组件自助化,简单配置,月=天实时化,驱动业务增长,天=分ADX统一化,统一数据湖归集和出口管理化,元数据、数据地图、血缘资产化,模型管理让数据可信赖自助化,节省时间就是节省成本平台化,成熟技术组件高复用度精细化,集群资源可估可查可量化敏捷统一平民
13、化自助轻量数据中台实践功能结构数据后台存储引擎 计算引擎数据采集实时数据加工数据服务数据模型数据主题数据集市主数据可视化产品行为分析产品数据指标产品画像产品数据血缘数据质量数据地图元数据数据查询数据安全数据生命周期数据推荐产品数据触达产品数据产品数据治理数据中台中台仓库基础技术能力批量数据加工任务调度数据湖标签数据数据归集数据申请数据枢纽数据工坊实时作业编排批量作业编排平台管理租户/资源管理权限/安全管理数据中台实践组件架构数据源层集成层数据处理层存储层数据服务层应用层关系数据库日志文件服务终端用户程序数据采集平台 DBusdruid/kylin/es/mongokudu/cass/hbase
14、/chhdfs/hive其他应用可视化应用 Davincidb2/oracle/mysql数据仓库jupy/zepp/sas/r/hue调度系统 Triangle计算服务平台 Moonbox流式处理平台 Wormhole数据枢纽DataHub计算服务平台 Moonbox流式处理平台 Wormhole数据工坊DataWorks调度系统 Triangle数据枢纽DataHub计算服务平台Moonbox数据中台实践数据湖DBusWormholeHDFSOracle维基百科对数据湖的定义:数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、 分析及传输。c
15、sv/json数据湖MysqlFilesODSDW/DM数据同步数据源数据仓库数据湖特点:p 存储所有变化数据(非快照)p 可重放数据变化p 可计算任意时刻快照p 减少对数据源的影响数据中台实践数据枢纽模块DataHubsas/r/zepp jupyterdataworksdvDE-数据工程师DU-数据用户appadxmgtdatamgtdatahubdbuswhmbkafkakafkawhkuduwhmbmb数据源数据源数据源tria实时历史实时增量实时快照批量快照mb逻辑快照数据源数据源DO-数据拥有方DA-数据分析师AU-APP用户parquet实时数据湖hdfs log数据中台实践数据
16、工坊用户角度:统一数据视图统一功能视图统一SQL语法数据中台角度:适配各个中间件功能适配各个中间件数据权限体系适配各个中间件用户体系数据中台实践行为分析埋点数据预处理数据分析业务A_SDK业务B_SDK神策_SDKWormhole行为分析平台神策系统ClickHouse3.预处理配置加载3.预处理配置加载1.数据采集2.数据消费5.数据消费4.数据预处理6.数据分析数据中台实践用户画像:整体结构画像服务画像标签仓库标签加工实时批量画像同步实时批量多个标签树多个画像数据中台实践用户画像:标签仓库实时(Wormhole)批量(调度+跑批)标签仓库实时标签(HBase/KUDU)批量标签(Parqu
17、et)用户维度技术维度标签树G1_1G1_2G2_1标签A 标签BG2_2标签X 标签Y标签C 标签E 标签TG1_3G3_1标签F 标签M 标签NG3_2标签PIDABCX1a1b1c1x1IDTMN1t1m1n1IDEF1e1f1IDPY1e1y1选中标签 编写SQL数据工坊数据中台实践用户画像:画像+画像服务用户维度技术维度标签树G1_1G1_2G2_1标签A 标签BG2_2标签X 标签Y标签C 标签E 标签TG1_3G3_1标签F 标签M 标签NG3_2标签P选中标签 配置规则画像服务画像(ES/Redis)IDAXM1a1x1m1数据工坊根据用户查标签 根据标签查用户API(画像ID
18、+Version)标签仓库同步数据中台实践 数据应用:精准营销(实时)APP触达平台用户画像平台推荐平台业务系统1-1.行为驱动3. 读取画像数据5-1. 推荐数据4. 推荐数据5-2.推荐数据实时规则引擎 Wormhole1-2.业务驱动1. 配置触发规则2. 配置触达规则2.推荐请求3.配置推荐规则营销平台目录企业数据处理发展史敏捷中间件实践数据中台实践 数据治理探索数据中台思考自治平台时代背景数据源层数据集成层数据总线层数据处理层数据存储层数据服务层数据应用层结构化数据非结构化数据数据集成与总线数据处理分析型存储服务型存储数据应用数据产品数据服务数据源质量问题模型方法论缺失、不统一; 数据无法打通、指标口径乱数据资产运营缺失、不明确元数据管理缺失;数据编码不统一、非标准化;数据地图缺失;数据归属管理缺失主数据建设缺失端到端数据血缘缺失数据质量管理缺失;数据安全管理不健全;数据生命周期管理缺失数据治理依然是难题,过于依赖于组织、业务
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 智慧校园静压桩施工合同
- 影视道具木工施工合同
- 火车供电设备窗改造协议
- 酒店管理招投标授权书
- 安全生产调整合同
- 物流管理教师招聘协议模板
- 污水泵房扩建与改造工程合同
- 人工智能招投标会签规范
- 知识产权运营招投标科研申请表
- 二手房贷款承诺:银行审批流程
- 《丝绸服饰文化》课件-第一讲丝绸的起源与发展
- GB/T 44133-2024智能电化学储能电站技术导则
- 2024年四川省内江市中考英语试题(含答案)
- JGJ31-2003 体育建筑设计规范
- 管理学中的实证研究方法
- (完整版)小学生卫生常识课
- 股权协议书和合伙人协议书
- DZ∕T 0382-2021 固体矿产勘查地质填图规范(正式版)
- 音乐鉴赏(西安交通大学) 知到智慧树网课答案
- 苏科版初中生物试讲演课面试
- 服装企业安全台账2
评论
0/150
提交评论