2023年一文读懂数据仓库、数据平台、数据中台、数据湖的概念和区别_第1页
2023年一文读懂数据仓库、数据平台、数据中台、数据湖的概念和区别_第2页
2023年一文读懂数据仓库、数据平台、数据中台、数据湖的概念和区别_第3页
2023年一文读懂数据仓库、数据平台、数据中台、数据湖的概念和区别_第4页
2023年一文读懂数据仓库、数据平台、数据中台、数据湖的概念和区别_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一文读懂数据仓库、数据平台、数据中台、数据湖的概念和区别我们常常听到别人谈论数据仓库、数据平台、数据中台、数据湖的相关概念,它们都与数据有关系,但它们之间又有什么区分,下面我们将围绕数据仓库、数据平台、数据湖和数据中台的概念、架构、使用场景进行介绍。

一、数据仓库

1.数据仓库概念

数据仓库由比尔·恩门(BillInmon,数据仓库之父)于1990年提出,主要功能是将企业系统联机事务处理(OLTP)长期壁垒的大量数据,通过数据仓库理论支持所持有的数据存储结构,做有系统的分析整理。

随着企业的进展,业务系统的数据不断激增,这些存储在企业业务数据库中(也就是关系型数据库Oracle,MicrosoftSQLSever,MySQL等)数据会随着时间的积累越来越多,会使业务数据库会有肯定的负载,导致业务系统的运行效率低,且这些数据中有很大一部分是冷数据,而我们业务系统一般对我们近期的数据,也就是热数据调用的比较频繁,对冷数据使用频率较低。

同时随着企业数据驱动业务概念的兴起,企业需要将各业务部门的业务数据提取出来进行数据分析与挖掘,帮助高层进行分析与决策,但各部门需求的数据种类千差万别,接口错综简单,过多的数据查询脚本以及接口的接入导致业务数据库的稳定性降低。

为了避开冷数据与历史数据的积压对我们业务数据库效能产生影响,企业需要定期将冷数据从业务数据库中转移出来存储到一个特地存放历史数据的仓库里面,各部门可以依据自身业务特性对外供应统一的数据服务,这个仓库就是数据仓库。

2.数据仓库特点

数据仓库(DataWarehoese)的特点:面对主题的、集成的、稳定的、反映历史数据变化的。

面对主题的:数据仓库是用来分析特点主题域的,所以说数据仓库是面对主题的。例如,电商行业的主题域通常分为交易域、会员域、商品域等。集成的:数据仓库集成了多个数据源,同一主题或产品相关数据可能来自不同的系统不同类型的数据库,日志文件等。稳定的:数据一旦进入数据仓库,则不行转变。数据仓库的历史数据是不应当被更新的,同时存储稳定性较强反映历史数据变化的:数据仓库保存了长期的历史数据,这点相对OLTP的数据库而言。由于性能考虑后者统筹保存近期的热数据。3.OLTP与OLAP

1)OLTP与OLAP概念

数据处理大致可以分成两大类:联机事务处理OLTP(on-linetransactionprocessing)、联机分析处理OLAP(On-LineAnalyticalProcessing)。

OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持简单的分析操作,侧重决策支持,并且供应直观易懂的查询结果。

2)OLTP与OLAP区分

OLTP系统强调数据库内存效率,强调内存各种指标的命令率,绑定变量,并发操作等。OLAP系统则强调数据分析,强调SQL执行市场,磁盘I/O,分区等。

3)OLAP与数据仓库的联系

OLAP和数仓的关系是依靠互补的,一般以数据仓库作为基础,既从数据仓库中抽取出具体数据的一个子集并经过必要的聚集存储到OLAP存储中供数据分析工具读取。

4.数据仓库的作用

数据仓库将来自不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析,数据仓库是包含多种数据的存储库,并且是高度建模的。

如下图所示:各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面对主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,详细用户(决策层)查看DM生成的报表。

什么是ETL?(extraction-transformation-load抽取-转换-加载)

传统的数据仓库集成处理架构是ETL,利用ETL平台的力量,E=从源数据库抽取数据,L=将数据清洗(不符合规章的数据)、转化(对表根据业务需求进行不同维度、不同颗粒度、不同业务规章计算进行统计),T=将加工好的表以增量、全量、不同时间加载到数据仓库。

什么是ELT?(extraction-load-transformation抽取-加载-转换)

大数据背景下的架构体系是ELT结构,其依据上层的应用需求,随时从数据中台中抽取想要的原始数据进行建模分析。

ELT是利用数据库的处理力量,E=从源数据库抽取数据,L=把数据加载到目标库的临时表中,T=对临时表中的数据进行转换,然后加载到目标库目标表中。

ELT对比ETL的优势:

资源利用率的提升:ELT主要通过数据库引擎来实现系统的可扩展性(尤其是当数据加工过程在晚上时,可以充分利用数据库引擎的资源)。任务运行效率的提升:ELT可以保持全部的数据始终在数据库当中,避开数据的加载和导出,从而保证效率,提高系统的可监控性。并行处理优化:ELT可以依据数据的分布状况进行并行处理优化,并可以利用数据库的固有功能优化磁盘I/O。可扩展性增加:ELT的可扩展性取决于数据库引擎和其硬件服务器的可扩展性。性能优化:通过对相关数据库进行性能调优,ETL过程获得3到4倍的效率提升一般不是特殊困难。数据仓库系统的作用能实现跨业务条线、跨系统的数据整合,为管理分析和业务决策供应统一的数据支持。数据仓库能够从根本上关心你把公司的运营数据转化成为高价值的可以猎取的信息(或学问),并且在恰当的时候通过恰当的方式把恰当的信息传递给恰当的人。以下图为例:

数据仓库的作用主要体现在企业决策、分析、方案和响应以下几个方面:

数据仓库针对实时数据处理和非结构化数据处理力量较弱,以及在业务在预警猜测等方面应用有肯定的限制。

二、数据平台

1.数据平台概念

大数据时代,数据平台一般被称之为大数据平台。

狭义上的数据平台:是为了解决数据仓库不能处理非结构化数据和报表开发周期长的问题,所以先撇开业务需求、把企业全部的数据都抽取出来放到一起,成为一个大的数据集,其中有结构化数据、非结构化数据等。当业务方有需求的时候,再把他们需要的若干个小数据集单独提取出来,以数据集的形式供应给数据应用。

广义的大数据平台:广义的大数据平台通常被给予更多的使命,以处理海量数据存储、计算及不间断流数据实时计算、离线计算、智能推举、交互式查询、数据湖构建等场景为主的一套基础设施。典型的包括基于Hadoop生态构建的大数据平台。供应易于部署及管理的Hive、Spark、HBase、Flink、StarRocks、Iceberg、Alluxio等开源大数据计算和存储引擎。

狭义的数据平台和传统的数据平台(数据仓库)功能全都,区分只是技术架构和数据容量方面的不同。

广义上的大数据平台是数据湖的基座,供应易于部署和管理的泛Hadoop生态及其他存储计算引擎的PaaS平台,助力企业构建企业级数据湖技术架构。

Tip:本文以狭义的数据平台进行对比,这里不对狭义的数据平台做过多概述。

三、数据中台

1.数据中台概念

数据中台的起源:2022年年中,马云带领阿里巴巴集团高管访问了一家芬兰的小型嬉戏公司Supercell。这家仅有不到200名员工的小型嬉戏公司竟制造了高达15亿美元的年税前利润!而Supercell之所以能够支持多个团队快速、灵敏地推出高质量的嬉戏作品,其强大的中台力量功不行没。

因此,在访问Supercell的旅程结束之后,马云打算对阿里巴巴的组织和系统架构进行整体调整,建立阿里产品技术和数据力量的强大中台,构建“大中台,小前台”的组织和业务体制。

数据中台的主要目的:解决企业在进展过程中,由于数据激增与业务的扩大而消失的统计口径不全都、重复开发、指标开发需求响应慢、数据质量低、数据成本高等问题。通过一系列数据工具(元数据中心、数据指标中心、数仓模型中心、数据资产中心-资产质量/治理/平安、数据服务中心等),规范数据供应链的各个环节。

2.数据中台特点

数据中台特点:以一种标准的、平安的、牢靠的、统一的、共享的、解耦的、服务化的方式支持前端数据的应用。

3.数据中台作用

(阿里数据中台规律架构图)

(数据中台产品力量图)

数据中台通过对企业内外部多源异构的数据采集、建设、管理、分析和应用,使数据对内优化管理提高业务价值,对外进行数据合作让业务价值得到释放,使之成为企业数据资产管理中枢。数据中台建立后,会形成数据API服务,为企业和客户供应高效各种数据服务。

数据中台对一个企业的数字化转型和可持续进展起着至关重要的作用。数据中台为解耦而生,企业建设数据中台的最大意义就是应用与数据之间的解耦,这样企业就可以不受限制地按需构建满意业务需求的数据应用。

构建了开放、敏捷、可扩展的企业级统一数据管理和分析平台,将企业内、外部数据随需关联,打破了数据的系统界限。

利用大数据智能分析、数据可视化等技术,实现了数据共享、日常报表自动生成、快速和智能分析,满意企业各级部门之间的数据分析应用需求。

深度挖掘数据价值,助力企业数字化转型落地。实现了数据的名目、模型、标准、认责、平安、可视化、共享等管理,实现数据集中存储、处理、分类与管理,建立大数据分析工具库、算法服务库,实现报表生成自动化、数据分析灵敏化、数据挖掘可视化,实现数据质量评估、落地管理流程。

四、数据湖

1.数据湖概念

数据湖起源:数据湖的起源,应当追溯到2022年10月,由Pentaho的创始人兼CTO,JamesDixon所提出,他提出的目的就当时历史背景来看,其实是为了推广自家产品Pentaho。当时核心要解决的问题是传统数据仓库报表分析面临的两个问题:

只使用部分属性,这些数据只能回答预先定义好(pre-determined)的问题。数据被聚合了,最低层级的细节丢失了,能回答的问题被限制了。而我们当前所争论的数据湖,已经远远超过了当时JamesDixon所定义的数据湖,各厂商之间也对数据湖有了更多的不同定义。

1)AWS

Adatalakeisacentralizedrepositorythatallowsyoutostoreallyourstructuredandunstructureddataatanyscale.Youcanstoreyourdataas-is,withouthavingtofirststructurethedata,andrundifferenttypesofanalytics—fromdashboardsandvisualizationstobigdataprocessing,real-timeanalytics,andmachinelearningtoguidebetterdecisions.

“数据湖是一个集中式存储库,允许您以任意规模存储全部结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析–从掌握面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。”

2)微软

AzureDataLakeincludesallthecapabilitiesrequiredtomakeiteasyfordevelopers,datascientists,andanalyststostoredataofanysize,shape,andspeed,anddoalltypesofprocessingandanalyticsacrossplatformsandlanguages.Itremovesthecomplexitiesofingestingandstoringallofyourdatawhilemakingitfastertogetupandrunningwithbatch,streaming,andinteractiveanalytics.

“Azure的数据湖包括一切使得开发者、数据科学家、分析师能更简洁的存储、处理数据的力量,这些力量使得用户可以存储任意规模、任意类型、任意产生速度的数据,并且可以跨平台、跨语言的做全部类型的分析和处理。数据湖在能关心用户加速应用数据的同时,消退了数据采集和存储的简单性,同时也能支持批处理、流式计算、交互式分析等。”

3)阿里云

“数据湖是统一存储池,可对接多种数据输入方式,您可以存储任意规模的结构化、半结构化、非结构化数据。数据湖可无缝对接多种计算分析平台,依据业务场景不同,可以选择相应的计算引擎对数据湖中存储的数据进行数据处理与分析,从而打破孤岛,挖掘业务价值。”

2.数据湖内容

数据湖中包括来自于关系型数据库中的结构化数据(行和列)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如email、文档、PDF等)和二进制数据(如图像、音频、视频)。

3.数据湖的特点

统一的数据存储,存放原始的数据。支持任意结构的数据存储,包括结构化、半结构化、非结构化。支持多种计算分析,适用多种应用场景。支持任意规模的数据存储与计算力量。目标都是为了更好,更快的发觉数据价值。4.数据湖能够解决的问题

1)数据湖整体架构

最底下是分布式文件系统;

其次层是数据加速层。数据湖架构是一个存储计算彻底分别的架构,假如全部的数据访问都远程读取文件系统上的数据,那么性能和成本开销都很大。假如能把常常访问到的一些热点数据缓存在计算节点本地,这就特别自然的实现了冷热分别,一方面能收获到不错的本地读取性能,另一方面还节约了远程访问的带宽。

第三层就是Tableformat层,主要是把一批数据文件封装成一个有业务意义的table,供应ACID、snapshot、schema、partition等表级别的语义。

最上层就是不同计算场景的计算引擎了。开源的一般有Spark、Flink、Hive、Presto、HiveMR等,这一批计算引擎是可以同时访问同一张数据湖的表的。

2)数据湖能解决哪类问题

数据分散,存储散乱,形成数据孤岛,无法联合数据发觉更多价值。

这方面来讲,其实数据湖要解决的与数据仓库是类似的问题,但又有所不同,由于它的定义里支持对半结构化、非结构化数据的管理。而传统数据仓库仅能解决结构化数据的统一管理。

在这个万物互联的时代,数据的来源多种多样,随着不同应用场景,产出的数据格式也是越来越丰富,不能再仅仅局限于结构化数据。如何统一存储这些数据,就是迫切需要解决的问题。

3)存储成本

数据库或数据仓库的存储受限于实现原理及硬件条件,导致存储海量数据时成本过高,而为了解决这类问题就有了HDFS/对象存储这类技术方案。数据湖场景下假如使用这类存储成本较低的技术架构,将会为企业大大节约成本。结合生命周期管理的力量,可以更好的为湖内数据分层(冷温热存放在不同的存储介质:HDD、SSD、MEM),不用纠结在是保留数据还是删除数据节约成本的问题。

4)SQL已经无法满意的分析需求

越来越多种类的数据,意味着越来越多的分析方式,传统的SQL方式已经无法满意分析的需求,如何通过各种语言自定义贴近自己业务的代码,如何通过机器学习挖掘更多的数据价值。

5)存储/计算扩展性不足

传统数据库等在海量数据下,如规模到PB级别,由于技术架构的缘由,已经无法满意扩展的要求或者扩展成本极高,而这种状况下通过数据湖架构下的扩展技术力量,实现成本为0,硬件成本也可控。业务模型不定,无法预先建模。

传统数据库和数据仓库,都是Schema-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论