




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库数据集市数据湖数据中台这些概念
这几年的数据领域出现好多的概念,例如:人工智能、物联网、边缘计算、
数据治理、数据湖、数据中台……可谓是"百花齐放"!一时间大家都在提新概
念,但却不是所有人都清楚到底意味着什么。
"人家都数据中台了,你还在做数据报表""人家都数据湖了,你还
在搞数据仓库""阿里"拆中台"了,中台难道不香T"..•…
到底为什么要做数据湖/数据中台,有什么价值呢?孰优孰劣?究竟我的公司
是不是也要做数据中台/数据湖吗,这是随之而来的问题。
事物总是在不断演化的,唯一不变的就是变化。今天就和大家展开讨论数据
仓库、数据湖和数据中台这几个概念之间的藕断丝连。
01数据仓库
1988年,为解决企业的数据集成问题,IBM的两位研究员创造性地提出了一
个新的术语:数据仓库(DataWarehouse)。到了1992年,后来被誉为“数
据仓库之父”的比尔•恩门给出了数据仓库的定义,二十多年后的今天他的
定义依然没有被时代淘汰。我们来看看他是怎么定义的:
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化
的数据集合,用于支持管理中的决策制定。
对于数据仓库的概念我们可以从两个层次予以理解:
首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的
操作型数据库;
其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重
组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
简单的理解,其实就是为了进行OLAP,把分布在各个散落独立的数据库孤岛
整合在了一个数据结构里面,称之为数据仓库。
A数据仓库逻辑架构
原来各个数据孤岛中的数据,可能会在物理位置(比如沃尔玛在各个州可能
都仃臼己的数据中心)、存储格式(比如月份是数值类型,但但大气7能是
字符类型)、商业平台(不同数据库可能用的是0rac1e数据库,有的是微软
SQLServer数据库)、编写的语言(Java或者Scale等)等等各个方面完全
不同,数据仓库要做的工作就是将他们按照所需要的格式提取出来,再进行
必要的转换(统一数据格式)、清洗(去掉无效或者不需要的数据)等,最
后装载进数据仓库。
自从数据仓库出现之后,信息产业就开始从以关系型数据库为基础的运营式
系统慢慢向决策支持系统发展。这个决策支持系统,其实就是我们现在说的
商务智能即BI。可以这么说,数据仓库为OLAP解决了数据来源问题,数据
仓库和OLAP互相促进发展,进一步驱动了商务智能的成熟。
数据仓库是一个功能概念,是将企业的各业务系统产生的基础数据,通过维度建
模的方式,将业务数据划分为多个主题(集市)统一存储,统一管理。
应用场景:一般都是作为商业智能系统、数据仪表盘等可视化报表服务的数据源。
02数据集市
数据仓库之父比尔•恩门说过一句话叫“IT经理们面对最重要的问题就是到底
先建立数据仓库还是先建立数据集市”,足以说明搞清楚这两者之间的关系是
十分重要而迫切的。通常在考虑建立数据仓库之前,会涉及到如下一些问题:
采取自上而下还是自下而上的设计方法
企业范围还是部门范围
先建立数据仓库还是数据集市
建立领航系统还是直接实施
数据集市是杳相互独立
数据集市可以理解为是一种〃小型数据仓库”,它只包含单个主题,且关注范
围也非全局。数据集市可以分为两种:
一种是独立数据集市,这类数据集市有自己的源数据库和ETL架构;
另一种是非独立数据集市,这种数据集市没有自己的源系统,它的数
据来自数据仓库。当用户或者应用程序不需要/不必要/不允许用到整个数据
仓库的数据时,非独立数据集市就可以简单为用户提供一个数据仓库的子集。
数据集市是一个结构概念,它是企业级数据仓库的一个子集,主要面向部门级业
务,并且只面向某个特定的主题。
应用场景:数据集市是数仓之上更聚焦的业务主题合集,更偏向于应对业务数据
快速高效应用的需求,一般用于商业智能系统中探索式和交互式数据分析应用
03数据湖
2010年,Pentaho首席技术官JamesDixon创造了“数据湖”一词。他把数
据集市描述成一瓶清洗过的、包装过的和结构化易于使用的水。而数据湖更
像是在自然状态下的水,数据流从源系统流向这个湖。用户可以在数据湖里
校验,取样或完全的使用数据。
这个也是一个不精确的定义。数据湖还有以下特点:
从源系统导入所有的数据,没有数据流失。
数据存储时没有经过转换或只是简单的处理。
数据转换和定义schema用于满足分析需求。
数据湖能给企业带来多种能力,例如,能实现数据的集中式管理,在此之上,
企业能挖掘出很多之前所不具备的能力。
另外,数据湖结合先进的数据科学与机器学习技术,能帮助企业构建更多优
化后的运营模型,也能为企业提供其他能力,如预测分析、推荐模型等,这
些模型能刺激企业能力的后续增长。
未经处理和包装的原生状态"水库"
A数据湖示意图
数据湖是一种数据存储理念,存储企业各种各样的原始数据的大型仓库,包括结
构化、非结构、二进制图像、音频、视频等等。
应用场景:以大数据技术为基础有多样化数据结构海量大数据存储需求,也可作
为数据仓库或者数据集市的数据源。
04数据中台
数据中台是指通过企业内外部多源异构的数据采集、治理、建模、分析,应
用,使数据对内优化管理提高业务,对外可以数据合作价值释放,成为企业
数据资产管理中枢。数据中台建立后,会形成数据API,为企业和客户提供
高效各种数据服务。
数据服务(DataAPI)
数据目录数据标签数据分析数据开放
数据计算数据存储
批量离线计算传统数据仓库
内存计算一分布式关系数据库
在线流式计算分布式NoSQL数据库
机器学习模型训练分布式文件系统
数据采集
即t数据
ERPMES实时数据文档图户
△数据中台架构图
数据中台整体技术架构上采用云计算架构模式,将数据资源、计算资源、存
储资源充分云化,并通过多租户技术进行资源打包整合,并进行开放,为用
户提供“一站式”数据服务。
利用大数据技术,对海量数据进行统一采集、计算、存储,并使用统一的数
据规范进行管理,将企业内部所有数据统一处理形成标准化数据,挖掘出对
企业最有价值的数据,构建企业数据资产库,提供一致的、高可用大数据服
务。
数据中台不是一套软件,也不是一个信息系统,而是一系列数据组件的集合,
企业基于自身的信息化建设基础、数据基础以及业务特点对数据中台的能力
进行定义,基于能力定义利用数据组件搭建自己的数据中台。
数据中台是一个逻辑概念,为业务提供服务的主要方式是数据API,它包括了数
据仓库,大数据、数据治理领域的内容。
应用场景:是将数据服务化提供给业务系统,目的是将数据能力渗透到业务各个
环节,不限于决策分析。
05各种概念对比
ODSVS数据仓库VS数据集市
操作型数据库(ODS)、数据仓库(DW或EDW)、数据集市(DM)是目
前标准数仓结构的三个核心组件。
对比项ODSEDW
核心目的数据集中数据存储
保留源系统业务逻辑的前数据整合重定义,1
提下,将上游数据的数据源造成定义不统一
主要工作内容
格式按数仓要求统一,并业务规则统一,消1
作简单的数据清洗统间壁垒;
剔除数据冗余,提
与检索性能
服务对象EDW全局
数据有效性
主要关注点数据全面性
数据精确性
数据有效周期永久永久或长期
三范式规则
数据设计规则沿用源系统规则法律法规、行业规:
观业务规则
ODS用作所有原始数据的临时存储区域,这些数据即将进入数据仓库进行数
据处理。我们可以将其想象成仓库装卸码头,货物在此处交付、检查和验证。
在ODS中,数据在进入仓库前可以被清理、检查(因为冗余目的),也可检查
是否符合业务规则。在ODS中,我们可以对数据进行查询,但是数据是临时
的,因此它仅提供简单信息查询,例如正在进行的客户订单状态。
数据集市通常是数据仓库的子集;它的数据通常来自数据仓库,尽管还可以
来自其他来源。数据集市的数据专门针对特定的用户(例如销售团队),以便
他们能够快速找到所需的数据。通常,数据保存在那里用于特定用途,例如
财务分析。
数据集市也比数据仓库小得多,它们可以容纳数十千兆字节,相比之下,数
据仓库可以存储数百千兆字节到PB级数据,并可用于数据处理。数据集市可
从现有数据仓库或其他数据源系统构建,你只需设计和构建数据库表,使用
相关数据填充数据库表并决定谁可以访问数据集即可。
数据仓库VS数据湖
数据仓库与数据湖从存储对象上来讲,主要区别在于:
数据仓库则用于存储来自多个来源的结构化数据。
数据湖的不同之处在于它可存储非结构化、半结构化和结构化数据。
数据仓库
能处理所有
主要处理历史的、结构化的数据,而且这些数
构化数据,
据必须与数据仓库事先定义的模型吻合。
于数据源系
处理结构化数据,将它们或者转化为多维数拥有足够强
据,或者转换为报表,以满足后续的高级报表型的数据,
及数据分析需求。使用。
数据仓库通常用于存储和维护长期数据,因此数据湖通常
数据可以按需访问。有很高概率
的运营需求
数据仓库vs数据湖vs数据中台
大数据时代,数据量越来越多,数据形式日益复杂,而以数据仓库为代表的、
现有的数据存储和处理技术无法满足海量、多样的数据处理需求的背景下产
生的。"数据湖”是将复杂的事物具象化,偏技术一些,以一个形象的名字,
反应了它在大数据存储和大数据处理方面的优势和能力。
数据湖作为一个集中的存储库,可以在其中存储任何形式(结构化和非结构
化)、任意规模的数据。在数据湖中,可以不对存储的数据进行结构化,只
有在使用数据的时候,再利用数据湖强大的大数据查询、处理、分析等组件
对数据进行处理和应用。因此,数据湖具备运行不同类型数据分析的能力。
数据中台从技术的层面承接了数据湖的技术,通过数据技术,对海量、多源、
多样的数据进行采集、处理、存储、计算,同时统一标准和口径,把数据统
一之后,以标准形式存储,形成大数据资产层,以满足前台数据分析和应用
的需求。
数据中台更强调应用,离业务更近,强调服务于前台的能力,实现逻辑、算
法、标签、模型、数据资产的沉淀和复用,能更快速的相应业务和应用开发
的需求,可追溯,更精准。
对比项数据仓库数据中
存储结构主题式
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年心理治疗师资格考试真题及答案
- 2025年特殊心理辅导师考试试题及答案解析
- 2025年通信工程技术人员考试试卷及答案
- 2025年文化产业与政策研究专项考试试卷及答案
- 2025年社区经济发展实务考试题及答案
- 2025年企业管理案例分析能力考试试卷及答案
- 2025年临床医学专业统考试题及答案解析
- 2025年国际关系与外交考试卷及答案
- 2025年航空服务专业技能考核试卷及答案
- AI赋能防灾减灾与生态环境保护的策略及实施路径
- 中国可穿戴医疗设备项目创业计划书
- 2025年高考物理广西卷试题真题及答案详解(精校打印)
- CJ/T 345-2010生活饮用水净水厂用煤质活性炭
- 国开电大【管理英语3单元自测1-8答案】+【管理英语4形考任务单元自测1-8答案】
- GB/T 45630-2025系统与软件工程架构描述
- 施工现场消防安全应急预案
- 2025年全国司法警察学院考试试卷及答案
- 2025年环境监测技术考试试卷及答案
- 2025年重庆市公务员录用考试《行测》真题及答案解析
- 2025-2030中国液体肥料行业市场发展分析及发展趋势与投资研究报告
- 2024-2025成都各区初二年级下册期末数学试卷
评论
0/150
提交评论