![数据仓库数据平台与数据中台对比_第1页](http://file2.renrendoc.com/fileroot_temp3/2021-7/25/caaac38c-fd06-4d1d-a503-0d6503068a93/caaac38c-fd06-4d1d-a503-0d6503068a931.gif)
![数据仓库数据平台与数据中台对比_第2页](http://file2.renrendoc.com/fileroot_temp3/2021-7/25/caaac38c-fd06-4d1d-a503-0d6503068a93/caaac38c-fd06-4d1d-a503-0d6503068a932.gif)
![数据仓库数据平台与数据中台对比_第3页](http://file2.renrendoc.com/fileroot_temp3/2021-7/25/caaac38c-fd06-4d1d-a503-0d6503068a93/caaac38c-fd06-4d1d-a503-0d6503068a933.gif)
![数据仓库数据平台与数据中台对比_第4页](http://file2.renrendoc.com/fileroot_temp3/2021-7/25/caaac38c-fd06-4d1d-a503-0d6503068a93/caaac38c-fd06-4d1d-a503-0d6503068a934.gif)
![数据仓库数据平台与数据中台对比_第5页](http://file2.renrendoc.com/fileroot_temp3/2021-7/25/caaac38c-fd06-4d1d-a503-0d6503068a93/caaac38c-fd06-4d1d-a503-0d6503068a935.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库数据平台与数据中台对比在大数据时代,凡是AI类项目的落地,都需要具备数据、算法、场景、计算力 四个基本元素,缺一不可。处理大数据已经不能仅仅依靠计算力 就能够解决问 题,计算力只是核心的基础,还需要结合不同的业务场景与算法相互结合,沉淀 出一个完整的智能化平台。数据中台就是以云计 算为数据智能提供的基础计算 力为前提,与大数据平台提供的数据资产 能力与技术能力相互结合,形成数据 处理的能力框架赋能业务,为企业 做到数字化、智能化运营。目前,外界与业内很多人对于数据中台的理解存在误区,一直只是在强调技术的 作用,强调技术对于业务的推动作用,但在商业领域落地的层面上,更多时候技 术的发展和
2、演进都是需要跟看业务走,技术的发展和 进步需要基于业务方的需 求与数据场景应用化的探索来反向推动。这个 也就是为什么最近知乎、脉脉都 在疯传阿里在拆”大中台”?个人猜 想,原因是没有真正理解中台的本质,其实 阿里在最初建设数据中台的目的主要是为了提升效率和解决业努匹配度问题, 最终达到降本増效,所以说拆是假的,在拆的同时一定在“合,拆啲一 个方 面是企业战略布局层面上的规划,架构升级,如果眼界不够高,格局不 够 大,看到的一定只是表面;另一方面不是由于组织架构鹿大而做”拆”的动作,而是只有这样才能在效率和业务匹配度上,做到最大利数据中台 出现的意义在于降本增效,是用来赋能企业沉淀业务能力,提
3、升业务效率,最终 完成数字化转型。前一篇数据中台建设的价值和意义,提到过企业需要根据自 身的实际情况,打造属于自己企业独有的中台能力。因为,数据中台本身绝对是不可复制的,从BCG矩阵的维度结合各家市场资 源、市场环境、市场地位以及业务方向来看,几乎所有企业的战略目标都是不 一样的。如果,有人说能把中台卖给你、对于中台的解读只讲技术,不讲业 务,只讲产品,不讲业务,不以结合企业业务目标来解决效率和匹配度为目的 的都有耍流氓嫌疑。数据中台的使命和愿景是 让数据成为如水和电一般的资 源,随需获取,敏捷自助,与业努更多连接,使用更彳氐成本,通过更高效率的 方式让数据极大发挥价值,推动业务创新与变革。为
4、了进一步统一大家的认知,更加清晰的认识数据中台出现的意义,本篇按顺序 介绍如下:数据中台演进的过程数据仓库、数据平台和数据中台的概念数据仓库、数据平台和数据中 台的架构数据仓库、数据平台和数据中台的区别与联系01数据中台演逬的过程从数据处理的维度来聊一聊数据中台经历的四个阶段:数据库阶段、数 据仓库 阶段、数据平台阶段、数据中台阶段。1、数据库阶段:OLTP (事务处理)是传统的尖系型数据库的主要应用,主要是基本的、日常的事务处理,记录即时的增、删、改、查。比如银行交易、电商交 易等2、数据仓库阶段:数据仓库系统的主要应用主要是OLAP (联机分析处 理),支持复杂的分析操作,侧重决策支持,并
5、且提供直观易懂的查询结果。 比如复杂的动态报表分析、用户价值分析等3、数据平台阶段:其实,目前业界并没有对大数据平台做统一的定义,一般情 况下,只要使用了 Hadoop/Spark/Sto rm/Flink等这些分布式 的实时或者离 线计算框架,建立计算集群,并在上面运行各种计算任务,具有数据互联互 通、支捋多数据集实时同步、支持数据资源管理、实现多源异构数据的整合管 控;提供完善的大数据分析基础运行环境,提供统一二次开发接口等能力的, 就算的上理解上的大数据平台。主要是为了解决大数据存储计算+数据应用管 理+任务监控+数据资产管理+开发管理+可视化报表需求等4、数据中台阶段:指具有全域级、可
6、复用的数据资产中心与数据能力中心, 对海量数据进行采集、计算、存储、加工,同时统一标准和口径,提供干净、 透明、智慧的数据资产与高效、易用的数据能力来,能够对接OLTP (事务处理)和OLAP (报表分析)的需求,从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理、可追溯、可规避重复建设,强调的是数据业务化的能力与曾待久化 8)邹的黄EfiiH1. 数据库阶段电商创业早期启动非常容易,门槛相对来说较低,试错成本较少。三五个小伙伴 组个小团队做一个可以下单的前端页面云上搭几台服务器再加上一个MySQL 数据库,形成一个简单的OLTP系统,就可以给用户去使用,它的主要作用用于 保证数据
7、持久化存储和简单商品交易查询。现在估计很多小型电商与小程序创业者的初期都是这么干的,甚至找个外包团队 做完就开始对于市场试错。原因很简单,从ROI来看,项目前 期业务数据量不 大,简单的GB级别,每天的订单和流量数都比较少,后端数据库只要做简单的 单条数据的查询和展示就能够满足了需求,根本就没有什么高并发,批量处理等 高深技术,就连做在初期做数据统计/分析用Excel就足于满足需求当用户、商品和流量上升的时候,可以采取两种过渡方案。方案一是对于查询速 度慢、性能不足,升级单机配置,通过缓存优化+数据库优化(SQL语句优化、SQL索弓|优化、分库分表、SQL脚本优化)+内存优化+线程池优化+使用
8、NIO 通信机制+阻塞队列(程序优化),虚拟机(docker ) +SSD+合适的10模 型等方式对单机配置做最大 性能上的优化;方案二是改变原有的模式,加服务 器和多个业务数据库,对数据库表进行分库分表加单索引、双索引以支撑业务交 易的稳定和高 并发,通过这种方式来支撑业务数字和指标,同样可以快速的从业 务数据库里查询出来。最终,随着客户、订单和外部流量的逐步上升,数据量从GB发展成TB级别,数据库通过普通查询存在较大的压力,只能做升级改造,于是就有了数据仓库的谨生。 KAit-Up 力升.80化分祐式NtwSQI. HTAP XTPaO3含)2000*MM2”rforaui UtX74 ?
9、1 MM Stfwc IW- Mcrmh SQL tetwr ltHtaMlM4- MFMmeASftWR70KalesDILh升OLAWE 术砒1bb可na2rior内冃CH 件牝分殖试WwSQI.MTAR (OITPAOIAPilft) 2WO-LB&* A*ot w20- 2、数据仓库阶段随看业务指数级的增长,数据量增长的同时公司的组织架构慢慢变得庞 大、复 杂,面临的问题也越来越多,越来越深入。公司上层尖心的问题,从最初简单的 想知道”昨天、今天的GMV、”上周的PV、UV是多少”某品类商品的环比、 同比的增长比例是多少”,慢慢演化到希望通过数据进行精细化运营和用户的价 值模型分析。希
10、望通过数据统计/分析/挖掘,分析出用户在某种特定的使用场景 中,比如”1825岁女 性用户在过去三个月对服装类商品的购买行为与节假日 促销活动之间的矢系”。当公司运营和高层,提出此类非常具体的case,希望通过数据统计/分析/挖掘对 公司运营决策起到尖键性作用的问题,其实是很难从业务数 据库从直接调取出 来。原因是由于数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般 存储在线交易数据,为捕获数据而设计,在设计上数据库是尽量避免冗余,一般 采用符合范式的规则来设计。比如,业务数据库中的数据结构是为了完成商品交 易而设计的,不是为了查询和分析的便利设计的。数据仓库存储的一般是历史数 据
11、,为分析数据而设计,在设计上 是有意引入冗余,采用反范式的方式来设计。 数据库和数据仓库两个基本的元素都有维表和事实表。(维表是看问题的角度, 比如时间,部门、人,维表放的就是这些东西的定义,事实表里放看要查询的数 据,同时有维表的ID )。因此,数据仓库的出现,并不是要取代数据库,而是为了更好的做数据分析和报 表需求分析,主要处理OLAP (联机分析处理)需求。但是,随看客户、订单和外部流量的逐步上升,数据量从TB发展成PB级别,原来 的技术架构越来越不能支持海量数据处理,这时候又有了数据平台的诞生。3、数据平台阶段第一、企业业务系统过多,彼此数据没有打通。涉及分析数据的过程当中,需要 先从
12、各个系统寻找到相应的数据,然后提取数据进行整合打通,才能做数据分析。在这个过程中人为进行整合出错率高,分析效果不及时,导致整体的效率低下, 数据迁移、数据同步的滞后与错误;第二、业务系统压力大,架构相对笨重,做 数据分析计算消耗资源很大。需要通过将数据抽取出来,经过独立服务器来处理 数据查询、分析任务,来释放业务系统的压力;第三、性能问题,公司业务越来越复杂,数据量越来越大。历史数据的积累严 重,数据没有得到使用。原始数据系统不能承受更大数据量的处 理时,数据处 理效率严重下降。于是,通过整合Hadoop/Spark/Stom/Flink等分布式的离线与实时计算框 架,建立计算集群,并在上面运
13、行各计算任务,搭建大数据平台,使得平台 具有数据互联互通、支持多数据集实时同步、支持数据资源管理,实现多源异 构数据的整合管控能力;可以提供完善的大数据分 析基础运行环境,提供统一 二次开发接等能力的,用这些能力来解决大数据存储与计算问题,提升数据 分析效率以及用户画像系统/推荐/搜 索/广告系统的运用落地。4、数据中台阶段数据量的指数级增长,从PB发展成EB级别,为了更好的赋能业务,企业启动 中台战略,打通各个业务线的数据,整合汇集数据,在底层通过技术手段解决 数据统一存储和统一计算问题,在数据服务层通过数据服务化的Data API的 方式,打通数据平台和前台的业务层对接,结合算法,把前台业
14、务的分析需求和 交易需求直接对接到中台来,通过数据中台处理和逻辑运算,然后在反向赋能 业务,真正做到意义上的一切 业务数据化,一切数据业务化。数据仓库、数据平台和数据中台概念数据仓库是为企业所有级别的决策制定过程,提供所有类型数据 支持的 战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。可以为 需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 是一个相对具体的功能概念,是存储和管理一个或多个主题数据的集合,为业务 提供服务的方式主要是分析报表数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据 基础平台,变成一个集数据接入、数据处理、数据存储、
15、查询检索、分析挖掘等、 应用接等为一体的平台,为业务提供服务的方式主要是直接提供数据集数据中台是全域级、可复用的数据资产中心与数据能力中心,可 以提供 干净、透明、智慧的数据资产与高效、易用的数据能力,使得业务能够数字化运营,为业务提供服务的方式主要是提供数据服务能力RApacheE3厲线计算实时计算RDBMS数据仓库果构(Data Warehouse Architecture )【数据仓库架构图】1、采集层从各种数据源中采集数据和存储到数据到存储在基于Hadoop分布式 文件系统 HDFS上,期间做ETL操作。其中数据采集一般采用Flume收集日志,采用 Sqoop将RDBMS以及NoSQL
16、中的数据同步到HDFS上数据源主要有:日志数据(服务器日志+系统日志等)+业务数据库(Mysqk Oracle等)+埋点数据(服务端埋点+移动端埋点数据等)+其他数 据(Excel手工录入的数据、合作伙伴提供的接口数据、第三方爬虫数据、合 法购买的第三方数据等)2、存储与分析层主要有离线计算+实时计算存储系统:基于Hadoop分布式 文件系统对采集层的数据进行存储消息系统:加入Kafka防止数据丢失 离线计算:是对实时性要求不高的部分,通常将计算结果保存在Hive中 实时计算:使用Spark Streaming. Storm消费Kafka中收集的日志 数据,然 后通过实时计算,将结果保存在Re
17、dis中机器学习:用Spark MLlib提供的机器学习算法3、共享层通过离线和实时计算的数据分析与计算后的结果存储在数据共享层,做数据共 享层,主要做数据分发和调度中心。因为通过Hive、MR、Spark. SparkSQL分 析和计算的结果,是存储在HDFS上,业务和应用不可能直接从HDFS上获取 数据。其中使用Kylin作为OLAP引拿做多维度分析4、数据应用报表展示+数据分析+即席查询+数据挖掘5、任务调度与监控piMtOiiiiiiiiiilijMNoSQl._.1HBase列拭如1Pig分折工M,1Hivef姻稣JStom & FlmkSparkmrw ZZ W土HDFS分布式文件
18、系轨结构化帰半B38化邹结构化皈ggmi Hzn数据平舍架构(Data Platform Architecture )【数据平台架构图】1、采集层基于Hadoop分布式文件系统对采集层的数据进行存储。结构化数据:通过两种途径抽取并存放到HDFS分布式文件系统中,能 够序列化的数据,直接存放到HDFS中;不能够序列化的数据,通过数据整理后 统一存放在分布式数据库环境中,再经过序列化后和整理后还不能序列化的数 据一样直接存放到HDFS中;半结构化和非结构化数据:各种日志数据(通常序列化半结构化数 据)直接存放到HDFS中;点击流和数据接口中的数据(通常序列化半结构化数据)直接存放到HDFS中;非结
19、构化的数据直接存放到HDFS中2、数据层方面,把相尖业务结构化数据和有一定格式尖系的半结构化的数据存放在Hadoop Hive数据仓库中,基于业务需求,按照特定的业务主题域进行数据集市的构建;另一方面把相尖业务中半结构化的数据直接存 放在HDFS分布3、计算层离线计算+实时计算4、应用层可视化数据分析报表+搜索/推荐/广告具体的场景应用5、任务调度与监控106 小二.RSW BI小二社食大介数邂资严直理OJi计算与存储平台人 msg,系体系內容幣曲1体系休系1以业务阳細萃取标为架构剛* (Onelg系)1以业务板块业SSt分析维度为架构构曲(OneDataag )直向应用及幵畝徒级8諷务中间件
20、(OneService)出戸I mtnTT 、n sirA nn aanrs nraqiM nrunnHn riAarirmW/1 Tninri辻交普能切醐发渔子解忱争切阿里数拯中台架构(Ali Data Desk Architecture )【阿里数据中台架构图】1、为了保证快速、高效、高质量数据接入,建立统一数据质量管理平台+数据能 力中心2、通过数据采集和接入为切入角度,按照业态接入内部数据(比如淘宝、天 猫、盒马等)+外部数据(爬虫数据、第三方合作数据、埋点数据等)3、把数据抽取到计算平台,通过以“业务板块+业务过程+分析维度“为架构去构建”数据共享中心”,构建OneData体系4、在
21、数据共享中心的上层,以业务/自然对象+萃取标签”为架构构 建”数据唯 一中心”,构建OnelD体系,打通消费者数据体系、企业 数据体系、内容数据 体系等5、经过深度加工后,得到干净、透明、智慧的数据赋能产品与业务线;通过 统一的数据服务中间件OneService供统一数据服务,让一切业务数据 化,一切数据业务化04数据仓库数据平台和数据中台的区别与联系数据仓库、数据平台和数据中台的区别与联系:Is在概念层面上数据平台和数据中台的技术能力都是基于数据仓库发展而来没,在数据 建设理 论上一脉相承,他们处理的对象都是海量数据,服务目的、商业价值也同意类 似。其实中平台和中台,两者在能力上都有对外都提供Open API 服务。方面,中台是业务应用,不具体代表看某种技术,它不是最终用户能直接使 用的,必须结合企业的各个数据业务场景;另一方面,平台是不带有业务特征 性质的,主要汇集其他人的能力,整合成平台的能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 28海的女儿说课稿-2023-2024学年四年级下册语文统编版
- 2 我是什么(说课稿)-2024-2025学年统编版语文二年级上册
- 2024-2025学年高中生物 专题2 微生物的培养与应用 课题2 土壤中分解尿素的细菌的分离与计数说课稿3 新人教版选修1
- 2025国有土地使用权出让协议合同
- 2025有限公司股权转让合同
- Module 1 Unit 2 Changes in our lives Listen and say Listen and enjoy (说课稿)-2024-2025学年沪教牛津版(深圳用)英语六年级下册
- 2025城市供用气合同
- 潍坊耐火混凝土施工方案
- 加气轿车出售合同范例
- 8《安全记心上》(第一课时)说课稿-2024-2025学年道德与法治三年级上册统编版
- 腰椎间盘突出症课件(共100张课件)
- DB50T 662-2015 公交首末站规划设计规范
- 《工程力学》课程教学大纲
- 2024至2030年中国女装行业市场发展监测及投资前景展望报告
- 海洋工程装备制造经济效益和社会效益分析报告
- 7.1.2 直观图的画法-【中职专用】高一数学教材配套课件(高教版2021·基础模块下册)
- 皮肤癣菌病的分子诊断工具
- SL+575-2012水利水电工程水土保持技术规范
- 《炼油与化工企业设备完整性管理 体系要求》
- SYT 6968-2021 油气输送管道工程水平定向钻穿越设计规范-PDF解密
- 医院优质服务提升方案及措施
评论
0/150
提交评论