![2022年企业数据中台整体介绍及建设方案_第1页](http://file4.renrendoc.com/view/c51234f113200696db9889c14b081c5e/c51234f113200696db9889c14b081c5e1.gif)
![2022年企业数据中台整体介绍及建设方案_第2页](http://file4.renrendoc.com/view/c51234f113200696db9889c14b081c5e/c51234f113200696db9889c14b081c5e2.gif)
![2022年企业数据中台整体介绍及建设方案_第3页](http://file4.renrendoc.com/view/c51234f113200696db9889c14b081c5e/c51234f113200696db9889c14b081c5e3.gif)
![2022年企业数据中台整体介绍及建设方案_第4页](http://file4.renrendoc.com/view/c51234f113200696db9889c14b081c5e/c51234f113200696db9889c14b081c5e4.gif)
![2022年企业数据中台整体介绍及建设方案_第5页](http://file4.renrendoc.com/view/c51234f113200696db9889c14b081c5e/c51234f113200696db9889c14b081c5e5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、企业数据中台整体介绍及建设方案8/13/2022什么是数据中台数据中台怎么建设数据中台产品怎么选数据中台案例介绍8/13/2022企业大数据面临什么样的问题01混乱的、困惑的数据口径不统一数据视角不一致02渴望的、不满足的每个岗位都希望得到数据的支撑很多种智能的应用都需要数据的支撑03基础不牢、价值不高的底层建设严重匮乏高价值数据难以产生当前的数据业务价值低下04零散的、孤立的、分散的业务越向前越不准确数据被业务模块割裂数据定义不清晰数据对不上Product and technologyDesign and planningOrganization system 设计 规划 技术 产品 组织
2、体系数据资源数据治理数据建模数据指标大数据平台开发套件规划可视化分析引擎业务职责数据策略规范运维数据运维8/13/2022企业选择什么样的大数据起点规范小数据中心无序小数据中心规范有序的全域数据中心(数据中台)无序大数据中心8/13/2022数据中台解决什么问题用一切数据业务化企业完整数据解决方案解决数据“存”、“通”、“用”难题数据中台,是基于分布式数据平台之上,根据行业客户的业务场景量身定制的一整套数据智能解决方案,基于“互联网+”时代的数据价值思考,赋能企业,提升竞争力通存一切业务数据化连接数据孤岛8/13/2022数据中台有什么本事数据规范:数据标准化,指标体系数据建模:数据域,逻辑模
3、型,物理模型数据管理:主数据,元数据、数据质量,数据安全数据共享:数据地图,数据接口企业数据资产可视化企业IT资源可视化智能报表开发与共享大屏可视化展现与监控标签体系管理:静态标签、动态标签(算法标签),标签生命周期管理全景洞察:用户画像,商品画像,商圈画像精准营销:人群筛选,智能推荐,广告投放规则管理:业务规则配置,预警监控多来源:RDBMS,Hadoop,文本、接口.多结构:结构化、半结构化、非结构化多方式:批量、实时整合打通:IDMapping,整合统一数据业务化数据资产管理采集整合分析挖掘数据可视化自助交互式分析:智能报表,整合分析丰富的算法库:数据预处理,分类、聚类,关联,预测数 据
4、 中 台8/13/2022数据中台与传统数仓有什么区别分布式数据平台传统数仓以单机关系型数据库离线分析为主;数据中台以分布式引擎架构,同时支持离线计算/实时计算/即时计算/智能计算数据源丰富性传统数仓以业务数据库的结构化数据为主;数据中台涵盖业务数据、日志数据、行为埋点数据、IoT数据、爬虫数据、外部数据等建设模式方法论传统数仓往往采用自顶向下的建设模式,以明确的业务分析驱动,延续性低;数据中台采用自底向上的方式,结合业务需求变化不断迭代升级数据开发一站式传统数仓往往将ODS、EDW和ETL开发切割到不同厂商工具实现;数据中台则主张一站式可视化数据开发,借助分布式技术的力量简化数据加工处理的过
5、程数据资产在线化传统数仓的数据管理和治理,往往花费大量精力,最终形成的是离线的规范和文档;数据中台则强调元数据管理统一入口的自动化和数据资产管理的在线化数据应用创新传统数仓以某个业务主题的BI报表和决策支持为主,目的性单一,烟囱式建设;数据中台则主张全域数据打通数据孤岛,释放业务方数据应用创新的能量8/13/2022数据中台长什么样8/13/2022数据中台体现什么样的企业核心价值全面梳理数据资产构建全域数据中心落地战略和组织保障培养业务创新的土壤数据资产管理在线化形成数据人才成长的摇篮通过业务的不断滋养打造业务和数据的闭环8/13/2022企业怎么规划大数据发展蓝图数据应用建设数据可视化大屏
6、经营指标体系建设实体标签体系建设大数据应用开发坎精准营销智慧选址零售参谋智慧门店数据化咨询数据管理组织 指标梳理与现状分析标签梳理与现状分析数据应用规划兑数据中台建设规划数据资源规划数据质量评估3ONE中台方法论震数据中台建设数据同步数据建模数据萃取数据采集与质量治理离用户中心产品中心其他中心日志数据采集外部数据爬取行为数据采集大数据数据质量治理业务数据质量治理基础数据质量治理数据治理8/13/2022企业信息化数据化展望上帝 = 全知 + 全能全知 = 数据 + 算法数据应用结构化交易数据内部数据 基础数据外部数据 半结构、非结构数据决策者业务人员管理者机器/应用角色更多的指标更快的指标隐藏
7、在背后的指标数据化信息化step1step2step3step4step1step2step3step4办公自动化大量应用与部署 ERPSoa系统的大量内部集中 Esb集团管控portal应用中台分布式自研发业务产生数据会计电算化财务报表业务报表企业编码规范BI分析管理驾驶舱数据中心数据挖掘数据治理大数据数据中台数据应用AI数据智能信息化与数据化互动数据化的成果是数据、是价值8/13/2022什么是数据中台数据中台怎么建设数据中台产品怎么选数据中台案例介绍8/13/2022方法论整体规划,分布实施,数据中台是一个经过不断循环、反馈而使系统不断增长与完善的过程,这是区别于系统生命周期法的主要特点
8、。产品+工具大数据分布式计算平台、数据开发套件、数据质量管理工具、数据地图管理工具数据模型管理工具、API管理工具等。实施流程一整套体系化的数据中台建设实施流程,包括需求调研、需求分析、架构设计、数据与应用开发、部署和测试运维等。数据中台体系涵盖整个数据中台解决方案框架图,既包含数据技术平台,也包含数据开发、数据模型、数据资产和数据产品应用。通过建设数据中台建立数据资产体系,规模化服务业务,保证数据质量,更大限度的发挥数据价值。数据中台建设思路8/13/2022分析明确业务需求,业务建模,与现有系统匹配。部署基础设施安装或升级。集成整体环境测试联调上线调研包含机会评估和企业评估两项服务设计设计
9、数据仓库和数据应用技术体系架构,完成详细设计开发数据仓库ETL 的设计、模型开发和单元测试,数据产品开发管理元数据、数据质量、容量规划、优化性能问题、1357246数据中台实施路径8/13/2022客户行业的了解行业成功案例和经验总结培训资料、交流问题以及调查问卷的准备客户的组织结构和工作流程客户当前的业务系统和主要功能客户各系统之间的关系、数据内容及状况客户主要的应用报表的解释准备工作通过原型收集需求后,完成分析模型描述数据产品需求说明书业务调研系统调研成果输出细致分析整理客户报表及业务系统数据构建数据产品或分析模型的原型图问卷调查会议沟通电话沟通数据中台实施路径调研8/13/2022数据中
10、台实施路径分析:以业务为驱动现状分析确定、分解分析主题确定指标体系确定分析角度确定维度层次目前的业务发展情况?经营管理现状?系统的数据源和数据质量怎么样?主题是否还需要分解?每个主题的分解目标是什么?每个分析主题包括哪些关键分析指标?包括哪些衍生物指标?这些指标从哪些维度进行分析?这些维度包含哪些层次?维度的聚合方式是什么?以业务为导向结构化分析,逐步细化形成需求文档8/13/2022数据中台实施路径设计:方法论数据标准化数据规范定义从业务源头标准化技术内核工具化规范定义、建模研发、调度运维、元数据驱动智能化半自动化-智能化规划计算和存储技术驱动数据连接基于超强ID识别技术连接数据技术内核工具
11、化超强ID识别、高效标签生产、业务驱动技术价值化孤岛-高质量-高价值主题式数据服务主题逻辑表屏蔽复杂物理表统一但多样化数据服务一般查询+OLAP分析+在线服务跨源数据服务屏蔽多种异构数据源全流程一体化从数据采集到数据服务全链路通向上多样化赋能场景通用产品+行业产品+专享产品向下屏蔽多计算引擎公共云+专有云+私有云双向联动业务与产品&技术协同互助OneDataOneIDOneService8/13/2022数据中台实施路径设计:数据仓库模型设计概念模型设计确定主题确定主题域的边界物理模型设计确定存储结构(存储时间、存储空间利用率和维护代价)确定索引结构(专用的、复杂的、文档的)确定存放位置(归并
12、、冗余、建立数据序列)优化存储分配(块大小、缓冲区大小、个数等)逻辑模型设计粒度层次划分事实量度确定数据分割策略(数据量、分析的实际情况、简单易用)结构模型确认8/13/2022ADS个性化指标加工:不公用性;复杂性(指数型、比值型、排名型指标)基于应用的数据组装:大宽表集市、横表转纵表、趋势指标串CDMCDM层又细分为DWD层和DWS层,分别是明细宽表层和公共汇总数据层DWD:以维度模型方法基础,采用维度退化手法,减少事实表和维度表的关联 DWS:加强指标的维度退化,采取更多宽表化构建公共指标层,提升公共指标的复用性ODS同步:结构化数据增量或全量同步结构化:非结构化(日志)结构化处理累积历
13、史、清洗:根据数据业务需求及稽核和审计要求保存历史数据、数据清洗操作数据层数据应用层公共维度模型层数据中台实施路径设计:基于OneData的数据模型分层设计8/13/2022数据采集平台实时数据源采集方式定时数据源采集方式数据计算平台阿里云数加大数据平台袋鼠云RDOS分布式大数据计算平台数据中台工具产品数据质量模块数据模型模块API平台模块标签工厂 数据应用平台应用微服务和数据库环境部署产品监控工具部署开发环境生产环境数据中台环境搭建开发环境和生产环境严格一致数据中台实施路径部署8/13/2022数据模型性能优化数据模型性能调整和优化数据模型测试针对开发后的ETL脚本进行自测和交叉测试数据备份
14、和恢复开发数据备份与恢复程序增量数据加载开发日常增量加载的程序和处理流程历史数据加载开发历史数据加载的程序和处理流程ETL开发数据定时/实时同步,建立DW/OLAP分析模型数据中台实施路径开发:数据仓库开发8/13/2022数据测试测试历史数据加载程序和流程测试日常数据加载程序和流程数据正确性测试数据模型性能测试应用测试单元测试接口测试功能测试集成测试性能测试接口测试功能测试用户体验测试数据中台实施路径集成8/13/2022数据标准管理数据质量管理元数据管理工作流管理组织数据与信息标准化委员会数据管理人数据所有人数据生产人数据使用人IT 支持团队考核指标责任评价标准执行评价政策执行评价评价标准
15、数据类型数据格式业务分类真实性定义及时性定义完整性定义技术元数据流程评价与考核流程考核指标建立/维护流程标准建立/维护流程组织建立/维护流程评价与考核业务含义一致性定义平台安全等级权限定义数据存储业务元数据管理元数据数据全生命周期数据安全管理数据标准数据创建数据质量元数据数据移动数据共享数据安全数据停用审计定义保留策略数据认责数据中台实施路径管理:数据管理体系8/13/2022什么是数据中台数据中台怎么建设数据中台产品怎么选数据中台案例介绍8/13/2022数据中台实施路径集成拥抱开源基于Spark/Flink/Tensorflow兼容 CDH/HDP/TDH/EM R贡献 FlinkX/jL
16、ogstash/Str eamSQL私有化&公有云部署支持PB级大数据不依赖特定IAAS模块组合计算引擎&应用引擎开发套件&治理套件报表引擎&数据应用引擎自有研发能满足客户离线和实时等计算需求,通过不同产品组合能满足多数大数据用户的需求。但是是闭源体系。公有云服务为主按需购买大数据服务,初期价格不高,但是5年成本比较高。要求数据上云,对企业数据安全制度是挑战绑定产品体系化自主开发的产品化体系,产品之间的耦合度很多高,功能强大但是要配套使用阿里公有云大数据服务(数据能上云的客户,推荐阿里公有云)袋鼠数栈产品系统(希望本地化部署客户,推荐数栈)8/13/2022数栈:企业级一站式数据中台PaaS业
17、务中台数据应用数据化运营可视化大屏舆情监控精准营销个性化推荐数据源RDBMS日志文件ElasticSearchFTPHBaseDT.Trace智能实时全域基础服务数据应用引擎数据API集群部署运维监控多租户隔离多集群管理日志分析EasyLog分析引擎大屏引擎EasyV数据计算引擎RD-OSClouderaFusionInsightEMR数据开发套件数据集成实时任务开发任务运维离线任务开发数据仓库主题域用户主题域交易主题域商品主题域数据治理套件数据质量数据地图数据模型数栈产品第三方产品8/13/2022数栈多租户管理计算任务租户A任务租户B任务租户A任务租户B任务租户C任务虚拟机节点1节点2节点
18、3节点4节点5节点6节点7租户A租户B租户C物理机1物理机2物理机3物理机通过资源队列方式实现资源隔离支持计算节点粒度的多租户管理支持cpu+内存组合粒度的多租户管理支持按照资源池的百分比/固定值进行资源分配租户A租户B租户C用户租户管理平台IAAS资源管理平台8/13/2022数据的实时清洗、归并、结构化数仓的补充和优化用户行为预警、AppCrash预警、服务器攻击预警内容投放、无线智能推送、实时个性化推荐等实时计算相关指标反馈及时调整决策数据化运营活动实时直播大屏实时流计算实时ETL监控预警实时在线实时报表系统对用户行为或相关事件实时监测和分析,基于风控规则进行预警8/13/2022数栈-
19、开发套件:大数据的“视窗操作系统”开源生态兼容兼容CDH、HDP、EMR等第三方开源分布式计算引擎全生命周期覆盖全链路覆盖数据价值释放过程,支持实时、离线和智能计算可视化操作界面 屏蔽底层复杂的分布式计算引擎,基于Web的开发平台,提高开发效率数据输入任务开发与调度任务状态监控数据资产管理数据模型规范数据输出实时/离线/智能分布式计算引擎8/13/2022数栈-开发套件屏蔽底层分布式开源引擎的复杂性,以更加友好、便捷、可视化的方式提供一站式数据开发工作台协作开发任务调度类型依赖支持SQL、MR、PySpark、Python、Shell、Tensofrflow、MxNet等多种不同类型任务和临时
20、查询,满足SQL查询、自定义函数、机器学习、深度学习、外部功能调用等不同场景开发需求支持工作流,便捷完成整个ETL链路的开发自主研发的DTEngine内核,支持复杂的调度与依赖配置内置130多种系统函数,充分满足不同场景的任务配置自动解析SQL并Th成推荐的任务,简化依赖配置流程支持自定义参数,灵活满足不同计算场景需求愉悦的WebIDE编程体验,支持代码自动补全、列模式编辑、主题切换等统一的代码提交、资源管理和函数管理,一站式完成数据开发任务完善的任务锁机制和代码历史版本支持,充分满足团队协作式开发的趋势8/13/2022数栈-开发套件:分布式高性能同步引擎FlinkX数据同步在不同存储系统中
21、起到“桥梁”的作用,是数据中台的基础核心功能支持多种不同的异构存储系统数据,插件化架构可随时支持更多的新数据源需求底层基于Flink分布式架构,支持大容量、高并发同步,相比单点同步性能更好,稳定性更高FlinkX源码已由数栈研发团队贡献给开源社区,详情请参考:/DTStack/flinkxZdal支付宝分布式数据库中间件,支持MySQL、Oracle、DB2分库分表架构OracleSQLServerHDFSHiveHBasePostgr eSQLMongoDBRedisSElastic SearchODPFTPMySQLZdal21FlinkXFlinkX读取写入存储存储存储存储存储8/13/
22、2022数据开发-可视化的调度与依赖配置自主研发的数据任务调度引擎(DTEngine),单台虚拟机最高支持万级别任务的复杂调度1 ,让数据加工更流畅可视化的调度周期、任务依赖配置,支持多种调度参数,充分满足开发过程中的各种需要多种调度周期多种依赖模式支持复杂的任务间DAG依赖可视化配置支持任务自依赖模式多种调度参数为使任务自动周期运行时能动态适配环境变化,开发套件内置4种系统调度参数,满足绝大多数场景的任务配置需求,同时可支持灵活的自定义参数配置支持分钟、小时、天、周、月多种调度周期的可视化配置1:测试环境的硬件配置:4核8G内存的虚拟机8/13/2022数据地图:可视化的数据资产管理随着企业
23、发展,数据规模逐渐增长,对已有数据资产的管理会越来越重要数据地图基于租户级别提供统一的数据管控体系,包括完善的数据授权模块,提升平台的数据安全性类目体系基本管理血缘关系脏数据管理生命周期操作记录权限管理对新建、删除、变更表结构等操作自动记录,实现数据操作踪迹可查询根据任务、脚本等因素自动建立血缘关系,提高数据异常问题排查速度,实现数据链路的可查询、可跟踪对同步任务产Th的脏数据统一查看与管理租户间数据严格隔离租户内支持表级权限授权和审批流程,保障数据安全覆盖全部数据的自动化Th命周期管理,提高存储系统利用效率,降低存储成本支持多级类目管理,确保数据资产能够分门别类,便于后续的查找和维护自动更新
24、平台中表的元数据,记录表名、字段、分区、存储等信息,同时支持数据预览8/13/2022数据模型:3步实现规范化数据中台开发数据模型内置经过阿里实战检验的OneData规范,也支持不同行业的建模规范配置,将传统的人工经验+人工约定模式改为系统化规范方式基础配置模型设计检测中心规范化模型层级(ODS/DWD/DWS)主题域(销售、库存、用户)刷新频率(天、周、月)增量定义(全量、增量)模型Th成规则字段级原子指标衍Th指标表级规则生成模型检测模型不规范原因分析字段检测字段不规范原因分析层级主题域+刷新频率自定义+示例:ODS_sales_D_customAnaly8/13/2022数据质量:十年实
25、践经验沉淀的多种校验规则数据质量组件支持常用的关系型数据库和大数据存储,可基本覆盖绝大多数质量校验场景目前已应用于中金易云、茅台、蓝光地产等多个项目数据源OracleSQLServerPostgreSQLHiveMaxComputeMySQL目前支持6种数据源,满足大多数场景下的质量校验需求支持的数据源校验规则基于阿里数据Th产的实战经验,内置20余种校验规则支持表级、字段级2类规则质量报告支持字段级、表级校验报告,具备历史数据统计功能,辅助定位数据质量的问题根源8/13/2022分析引擎:海量数据即系查询产品特 点实时OLAP引擎十亿级别数据聚合,秒级响应多种预聚合模式开箱即用兼容jdbc协
26、议,使用便捷采用spark计算引擎+carbondata存储格式使用场 景满足灵活的数据探索需求对接BI系统,实现多维分析标签平台,实时创建人群对接业务系统,满足海量数据高并发,低延迟查询需求8/13/2022数据API:简单易用1准备好数据库2开发数据库连接代码3开发API逻辑代码5搭建HTTP服务器6部署API接口服务7服务运维扩容缩容4开发API鉴权&流控逻辑1.准备好数据库2.配置API查询逻辑传统模式下,开发一个接口服务需要的步骤:基于Serverless架构的数据API开发一个接口服务只需2步:数据API采用Serverless架构,用户只需关注API本身的查询逻辑,无需关心运行环
27、境等基础设施,数据服务会为您准备好计算资源,零运维成本8/13/2022什么是数据中台数据中台怎么建设数据中台产品怎么选数据中台案例介绍8/13/2022中金易云出版发行大数据平台8/13/2022中金易云出版发行大数据平台8/13/202210000+零售门店40+发行集团2000+出版集团图书推荐、活动推荐销售对比分析,降低产品滞销、库存积压获取行业风向科学的采购模式、发货及营销方式获知及时的销售数据、选题数据针对一线市场情况实时调整策略以大数据思维方法论重构出版发行行业,打通“经络”,让生态转起来!项目背景8/13/2022阿里云:大数据计算能力行业专家:行业深度理解袋鼠云:全面丰富的大数据能力统一数据应用服务(数据同步-搜索引擎+多维分析)数据计算与存储离线计算实时计算采集/接入爬取ERP数据文件豆瓣亚马逊基础数据公共数据采购仓储营销交易商品客户萃取数据作者出版社读者发行集团终端门店书目数据研发数仓规划数据建模规范定义数据研发调度运维数据资产资产分析数据目录数据权限数据查找选题助手出版端门
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 五年级下册数学听评课记录《 分数加减法简便运算》人教新课标
- 八年级道德与法治下册第二单元理解权利义务第四课公民义务第二框依法履行义务听课评课记录(新人教版)
- 湘教版数学九年级上册《4.4解直角三角形的应用(1)》听评课记录
- 人教版历史八年级下册第15课《钢铁长城》听课评课记录
- 天天练习-四年级上册口算练习
- 七年级下学期语文教学工作总结
- 苏教版小学数学三年级上册口算试题全套
- 苏教版四年级数学下册期末复习口算练习题三
- 沪科版八年级数学下册听评课记录《第17章一元二次方程数17.2一元二次方程的解法(第3课时)》
- LED屏幕安装协议书范本
- 华为携手深圳国际会展中心创建世界一流展馆
- 2023版思想道德与法治专题2 领悟人生真谛 把握人生方向 第3讲 创造有意义的人生
- 全过程工程咨询服务技术方案
- 小报:人工智能科技科学小报手抄报电子小报word小报
- GB/T 41509-2022绿色制造干式切削工艺性能评价规范
- 企业生产现场6S管理知识培训课件
- 五年级下册数学课件 第10课时 练习课 苏教版(共11张PPT)
- 三年级道德与法治下册我是独特的
- 土木工程毕业设计(论文)-五层宿舍楼建筑结构设计
- 青年卒中 幻灯
- 典型倒闸操作票
评论
0/150
提交评论