数据中台介绍_第1页
数据中台介绍_第2页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据中台方案汇报第一部分什么是数据中台数据中台的由来阿里启动中台战略的起因是一次商务拜访。2015年中,马云拜访了芬兰赫尔辛基的手游公司Supercell,税前利润15亿美元的公司。其最令人熟知的作品包括了《卡通农场》、《部落冲突》、《海岛奇兵》、《部落冲突:皇室战争》《荒野乱斗》,2016年6月,腾讯以86亿美元收购了Supercell的84.3%股权,此时Supercell不超过200人。通过游戏中台将游戏开发过程中公共、通用的游戏素材和算法整理起来,可以同时支持几个小团队在几周时间内研发出一款新游戏,并能鼓励员工充分试错。数据中台的由来08年09年10年11年12年13年14年15年OracleHadoopOdps基础设施发展组织架构淘宝商城(天猫)共享业务事业部(业务中台)聚划算数据平台事业部(数据中台)大中台、小前台战略数据应用BI淘数据Data

1.0“描述过去,看结果;看了,然后呢”Data

2.0“数据驱动业务,野蛮生长、重复建设、孤岛烟囱”Data

3.0“更多数据驱动业务、更多活数据云和端互通流动应用、数据质量”搜索广告风控个性化推荐生意参谋聚石塔TCIF量子统计IdMapping数加SkyBridge御膳房数据时代StormBase中台战略FlinkMaxCompute企业大数据面临什么样的问题零散的、孤立的、分散的0102混乱的、困惑的03渴望的、不满足的04基础不牢、价值不高的业务越向前越不准确数据被业务模块割裂数据口径不统一数据视角不一致数据定义不清晰数据对不上每个岗位都希望得到数据的支撑很多种智能的应用都需要数据的支撑底层建设严重匮乏高价值数据难以产生当前的数据业务价值低下企业数据应用演进路径1.02.03.0数据服务4.0业务需求为导向少量的统计分析建立数据理念数据仓库建设业务需求驱动数据业务融合业务场景驱动数据应用闭环统计分析决策支持数据驱动企业数据应用演进路径阶段应用场景数据需求参与方价值体现存储计算数据组织Data1.0、Data2.0“描述过去,看结果;看了,然后呢”报表明确业务(决策)IT(实施)面向业务人员的辅助决策数据库选型:Oracle、Mysq等面向业务主题的指标体系报表明确业务(决策)IT(实施)面向业务人员的辅助决策数据仓库选型:Teradata、GreenPlum等面向业务主题的指标体系Data2.0“数据驱动业务,野蛮生长、重复建设、孤岛烟囱”单一智能决策业务应用场景明确系统(决策)业务和IT(实施)面向业务系统的优化升级Hadoop生态选型:开源Hadoop、CDH、HDP等面向业务主题的指标体系(准实时、预测类指标)Data3.0“更多数据驱动业务、更多活数据互通流动应用、统一数据服务”多元化场景:报表、产品推荐、个性化信息推送、客户健康管理、核保核赔、风控迭代系统(决策)业务和IT(实施)面向业务创新与快速需求响应Hadoop生态选型:开源Hadoop、CDH、HDP等面向场景驱动的数据资产体系数据中台定义数据中台是一种战略选择和组织形式,通过有型的产品支撑和实施方法论,解决大企业面临的数据孤岛、数据维护混乱、数据价值利用低的问题,依据企业特有的业务和架构,构建一套从数据汇聚、开发、管理、到资产服务的体系,源源不断地把数据变成资产并服务于业务的,形成可持续让企业数据用起来的机制,让数据可见、可懂、可用、可运营。数据中台定位赋能业务中台和前台,实现业务增值(用户留存/产品销量/商品库存)。数据中台的三大能力全域的数据融合形成全域视角:全集团各业务单元数据的融合,以往是单一视角的看业务问题,现在可以全域视角去看业务的提升。全域的数据资产管理:现有问题:有哪些数据没人能说的清楚,更别说用起来。未来实现:数据资产的发现、数据资产的管控、数据资产的评估、数据资产的运营。全面的数据价值交换:数据提供统一的服务能力为各业务赋能,同时可以根据各数据源的贡献情况进行数据计量,按此可以进行业务线之间的财务结算,可以更直观的感受到数据资产的价值。数据中台通过整合数据、产品与技术,形成共享服务体系,为敏捷型前台业务部门提供支撑,最终达到:数据从零散到统一、从成本中心到资产中心、从数据孤岛到数据融通、从给数式服务到业务主题式服务。数据中台的价值降低数据计算成本与数据存储成本。降低因大量重复建设及数据体系不一致等导致的人力成本的浪费。将数据当成一种必须产生价值的资产加以构建和管理降低成本实现了统一标准和快速响应一份数据满足多种服务需求满足多场景下对响应速度的需求企业数据统一共享服务,数据成为了资产而非成本提高效率业务数据化数据资产化资产业务化促进数据价值化解决了企业中各个数据相关开发团队各自为政的问题,促使组织管理更加扁平化解决了因组织迅速膨胀、员工众多造成的管理不善和效率低下问题促进组织优化数据中台具备强大的数据规整能力,能够极大的提高从数据采集、数据资产化到数据应用的工作效率,推动现有业务的优化和新业务的开展。推动业务创新第二部分数据中台怎么建企业数据中台实施方略数据中台建设方略以用促通以通带存以存训算以算利用“用”:通过某一业务切入点,寻找数据中台建设的核心应用抓手;“通”:基于业务切入点进行相关数据的打通,将原来看似没有关系的数据进行连接,构建基础资产体系,形成全新的数据视角;“存”:数据一旦形成一个价值点,通过数据应用实现数据的流动交互,从而使更多的数据被存储上来,并形成“活”的数据,源源不断供应到平台中;“算”:通过吸引更多的数据实现数据资产体系的逐步完善,寻找更多的业务应用场景,进行数据的深度挖掘计算,建立数据应用闭环,数据越用越有价值;注:数据中台的规划一定要着眼于未来,从大处着手;落地时要从小场景进行切入,找到最能体现数据价值的地方,逐渐完善能力;随着存储、计算需求的增加,逐步加大投入;应用回到场景,价值在场景得到验证,最终形成闭环。企业数据中台实施步骤调研盘点业务盘点数据盘点场景盘点平台搭建底层选型大数据开发平台资产管理平台数据服务平台数据建设数据汇聚公共数据建设数据标签建设价值场景客群画像精准营销风险控制…持续运营场景推广长效运营数据闭环中台战略顶层规划组织架构体系架构运营机制企业数据中台实施步骤:调研盘点010203数据积累情况调研对各业务领域涉及的系统名称、数据库类型、已积累的数据内容等进行分析;对积累的数据类型、数据更新频次、数据标准情况、数据质量情况等进行分析;对数据的管理现状、数据的使用情况等进行分析;数据中台建设规划根据业务需求进行缺失数据内容补充规划;根据调研情况制定数据汇聚、加工策略,进行数据资产化建设规划;对数据资产化建设和数据应用场景所需技术支撑进行规划;数据及业务应用问题分析对业务数据使用过程中的痛点问题进行分析;对未来业务应用的数据支撑需求进行分析;对基于数据资产化建设过程中识别的新的数据应用场景进行分析;企业数据中台实施步骤:平台搭建数据中台基础设施统一数据存储计算平台统一数据资产建设工具解决大数据量存储计算问题,主要包括结构化、非结构化数据的分布式存储和离线计算、实时计算、即席计算、在线计算、算法建模等,主要是以Hadoop生态体系为代表的分布式存储计算框架为主。解决数据资产建设过程中数据交换、数据开发、数据资产管理、数据服务的问题,提高了数据开发、数据管理、数据应用效率,构建数据应用基础设施。企业数据中台实施步骤:数据建设关系型数据库Oracle、SqlServerMySQL、Postgresql………….数据仓库Hive、ODPS、Greenplum………….NoSQLHBase、MongDB、OTS……….消息中间件Kafka、ZeroMQ文件EXCEL、CSV、TXT其他爬虫、埋点、日志、检索引擎………..统一数据存储计算平台高性能计算存储HANA文件存储HDFS、OSS等数据汇聚:通过统一数据交换中心进行增量离线、实时数据汇聚,将相关数据逐步汇聚至统一数据存储、计算平台,形成ODS原始数据层。企业数据中台实施步骤:数据建设统一数据层建设:以维度建模为理论基础进行传统数仓建模,构建总线矩阵,划分业务板块、定义数据域、业务过程、维度、度量、修饰类型、修饰词、时间周期、派生指标,进行维表、明细事实表、汇总事实表模型设计与开发。企业数据中台实施步骤:数据建设标签体系构建:标签从数据加工而来,是对某一对象属性、特征的刻画,是具有业务含义或对业务有指导意义的数据定义,是能够为业务所使用并产生价值的加工后的数据。【数据】:业务系统提供的数据字段【标签】:给业务使用的指标特征,业务能看得懂,用的起来的数据【类目】:方便寻找标签的类目结构标签有三种类型:1.原始数据标签(客户原始提供的数据表中字段,经过清洗标准化)性别、年龄、生日、收货地址、终端机型2.统计数据标签(客户原始数据通过ETL加工,例如求和、平均等函数运算)结算行为上的属性:消费频次、消费总金额、客单价、消费时间段偏好、平均等待时长等商品上的属性:品类偏好等3.算法数据标签(客户原始数据经过算法模型计算后的高级标签)工作地(根据收货地址推算),是否是租客、消费能力(低、中、高),消费特征(促销铭感,消费果断、财大气粗等)企业数据中台实施步骤:价值场景构建标签设计完成之后形成后台标签类目,在业务应用是通过标签的申请、组装,形成场景化前台标签类目,结合数据引擎能力,通过“标签+引擎”快速生成服务于业务的应用形态,主要有API服务接口和可视化两种常见形态。标签目录(绑定表)申请标签我的标签标签组创建标签组选择标签数据应用能力前台类目数据应用A……应用服务API标签+引擎=生成服务场景化自由组合、动态生成【资产安全】标签审批后台类目数据交换任务对应数据目录,标签目录通过绑定表实现,分前后台目录,前台目录和业务场景绑定,后台类目相对固定企业数据中台实施步骤:持续运营统一数据平台市场运营业务数据沉淀风险控制业务数据沉淀市场营销业务数据沉淀统一存储数据资产服务业务赋能价值点曝光更多业务赋能业务数据回流业务数据回流第三部分数据中台建设工具支撑数据中台整体技术架构数据中台Hadoop计算层IaaS层数据开发平台业务应用层决策支持大数据营销投资收益跟踪BI分析运营大屏流程监控信用风险控制创新应用资产共享平台大数据开发门户异构网络异构数据源可视化配置数据同步数据开发离线数据开发发布部署运维监控实时数据开发发布部署运维监控智能调度基线告警一键运维运维监控数据建模规范数据研发规范发布运维规范数据标准管理元数据管理数据质量数据血缘数据资产管理数据分级管理敏感数据脱敏数据访问审计数据安全管理数据服务上架数据服务申请调用访问审计数据工具/服务管理数据资产管理平台用户中心角色管理权限审批用户管理用户角色管理权限控制数据权限环境隔离开发角色管理开发角色管理数据资产体系产品标签体系客户标签体系企业标签体系……….服务引擎发布服务引擎授权需求下发数据服务引擎管理数据服务HANA算法库资源包环境隔离云基础设施数据开发平台:数据汇聚多数据源同步异构网络同步可视化界面插件化扩展Oracle主库Oracle备库MySQL主库MySQL备库MsSQL主库MsSQL备库数据源HiveHbaseOther数据平台数据同步OracleReaderMsSQLReaderMySQLReaderGPWriterHiveWriterHbaseWriterOtherReaderOtherWriter数据从业务库流向数仓的在线、离线存储,支持BI分析以及数据算法挖掘数据智能适配业务人员操作控制UI端支持20多种多源、异构数据的汇集、可以支持离线、实时的数据接入,支持以插件化、热插拔的方式对数据源进行扩充数据开发平台:数据开发成熟的数据开发平台,支持市面几乎所有底层平台,具备多种工具能力,通过可视化图形界面操作,顺利完成各种数据开发工作,方便的任务、配置、调度等工作。离线开发、实时开发、算法开发HiveHadoopSparkMaxComputeApache社区版CDH星环Transwarp……OracleGreenplumKafkaFlumeHbasePythonShell……丰富的大数据组件可视化工作流开发拖拽式算法开发异构系统统一管理多人并行协同将复杂的作业拆分成一个个小任务,简化代码的逻辑,降低维护成本。组件化设计,可以支持新的存储计算组件加入准入管理、认可用户才可使用。资源管理,资源池划分。内置丰富算法框架、算法包、函数包,提升开发效率任务流模式扩展性资源控制内置包支持异构平台统一管理,SQL、SHELL、PYTHON、MR、DFS、HIVE、SPARK、SPARKSQL等多种节点类型支持多人协同开发,集成开发环境,通过统一的开发环境及管理,提高开发效率支持脚本、函数、资源,可以开发引擎、调用内置算法包等1、提交发布申请2、发布审核3、审核通过后,自动复制到生产环境离线开发实时开发算法开发数据开发平台:数据开发离线开发实时开发算法开发数据开发平台:数据开发开发中心提供图形化开发界面.支持多租户.支持开发、测试、准生产环境在线切换输出支持RDS、ES、Kafka、Hbase、Kudu、Mysql支持SQL语法检测资源控制支持应用准入管理,只有认证用户方可提交作业至集群资源管理工具中指定的资源池中运行.支持资源管理,允许用户提交登记的资源申请以内的应用,超过登记的资源需求应予以拒绝。提供Rest等服务接口,允许经认证的第三方通过REST接口方式提交作业至集群中运行运维中心实时展示任务运行的拓扑图,查看作业吞吐指标、节点性能指标和Kafka管理、数据接入模块打通,实现应用级数据端到端的完整流向监控集成YARN的作业运行状态监控支持流处理应用延迟、吞吐等性能阀值设置及异常告警支持kafka等消息中间件Topic在线管理,包括在线启停,支持滚动重启、新增Topic、修改数据保留时长、查看Topic详情等支持Topic中消息的元数据管理,包括查看Schema定义、数据结构、数据类型等多计算引擎支持Flink、SparkStreaming、Storm全SQL驱动,将数据源(kafka、hbase、字典)注册表、转化、sink都以表的形式操作.多表关联,实时流与事实表、维度表、字典表的连接对Flink除自身的提供的UDF外,将和HiveUDF打通离线开发实时开发算法开发数据开发平台:数据开发逻辑回归、贝叶斯模型、支持向量回归、隐马尔可夫模型等分词词库(百万级)、实体识别、文本序列分析、文本相似度分析、情感分析、自动摘要、主题分析等决策树、K-means、支持向量机、随机森林、贝叶斯分类器、模拟退火法、神经网络等网络流、二分图、Dijkstra、算法最短路径算法、Prim算法、Sollin算法、Kruskal算法等文本语义算法分类聚类算法关系图论算法回归预测算法集成TensorFlow、Caffe、XGBoost等多种机器学习框架,可插件式扩展

数据开发平台:数据开发配套工具告警管理可视化运维基线控制作业调度机制智能识别依赖关系同时支持依赖和定时调度节点失败时,下游节点不再执行1、运行情况概览,实时查看成功、失败、运行中、等待的任务状态;2、查看关键任务等待资源情况,必要时人工干预;3、支持一键重跑、置成功、补数据、重跑下游等运维功能;4、一键查看运行日志;多个任务打包到一个基线,进行统一的资源与告警管理。根据基线优先级动态调整资源分配。对基线完成时间进行预测,出现延迟告警,及时通知相关运维值班人员提前介入。开发测试预发生产环境级联可以自定义配置单一环境(生产)、常规模式(开发、生产)、严格环境(开发、测试、预发、生产)、外包环境(外包人员开发、内部员工开发、测试、预发、生产)等模式。平台以环境级联方式灵活支持企业各类环境需求,方便对资源、权限的控制和隔离。短信、电话等触发规则升级条件报警恢复

统计分析数据资产管理与数据服务数据资产管理与数据服务所有数据治理、数据管理方案,通过工具落地来保障执行。可视化元信息管理工具,满足用户对海量数据的元信息检索、标注、数据口径标准化等诉求,有效提高企业数据资产管理效率通过工具和组织,保障标准的执行。把数据标准融入到数据建模、数据开发、数据质量等过程,在工具以及流程上落实标准,而不仅仅是放在文档上,并通过组织保障结合考核监控标准的执行。表级、字段级、应用级血缘追溯管理质量规则引入数据标准,质量检查参与到任务调度与报警,发现质量问题及时告警修复,并自动生成质量报告数据模型与数据标准、数据质量、数据开发流程结合,保障模型的规范通过规范管理表的生命周期,避免存储资源的浪费,提高系统资源使用效率,确保系统安全稳定高效运行。数据分级管理,可以做到指标、字段级的安全管理。数据模型数据质量元数据数据血缘数据安全生命周期数据标准数据资产管理与数据服务展示标签建设形成的数据资产的业务血缘链路,解决“数据从哪里来?数据被谁用了?谁的数据最有价值,贡献最大?”的问题。数据资产管理与数据服务安全的使用数据资产建设数据资产数据引擎创建API发布APIAPI上线监控审计数据建设方数据需求方申请权限获取ACCESSTOKEN获取服务列表调用服务使用情况统计授权有哪些数据资产使用效果评估反馈根据反馈情况调整修改注册登录第四部分数据中台案例介绍工业制造数字化转型案例【痛点】:阿米巴核算数据无法实时指导管理改善【方案】:建设阿米巴大数据平台某制造业上市公司:构建阿米巴大数据平台,通过数据实时驱动管理【业务效果】:每日自动生成经营核算数据,数据实时驱动管理改善阿米巴核算体系:构建500+阿米巴核算标签,可多维度对比分析挖掘数据价值成本降低:2018年,环比上年同等营业额下,经营管理成本降低20%数据多源异构分散于SAP、EHR、益模等多个系统,涉及销售、采购、生产、物流、人事、财务等业务部门现有阿米巴核算表生成时间长分析颗粒粗,人工投入多经营数据无法每日呈现,实时指导管理改善通过阿米巴大数据平台,实现数据自动汇聚及清洗加工建立阿米巴标签类目体系(涉及员工、经营单元、产品、原材料、设备、费用、人力成本、收入等)通过阿米巴大数据平台每日核算数据实时展现,指导经营改善利用算法模型与深度挖掘,实现经营预测集团型企业数据中台建设【痛点】:集团多业务发展,也复杂,IT信息化复杂,寻求数字化转型,【方案】:构建集团的数据中台,基于数据中台为业务提供更强大的支撑,完成数字化转型国内知名TOP10的地产集团:建立集团地产业务的投资营销分析管理平台,支撑投资决策集团多业态,IT独立建设,形成数据孤岛缺乏数据资产建设、数据应用的理念及方法论

缺乏建设数据中台的先进的、体系化工具根据集团现有的业务及数据情况,结合地产、互联网行业内的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论