数据治理:数据架构的前世今生_第1页
数据治理:数据架构的前世今生_第2页
数据治理:数据架构的前世今生_第3页
数据治理:数据架构的前世今生_第4页
数据治理:数据架构的前世今生_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据治理:数据架构的前世今生

01数据架构的起源

追根溯源是一个数据人的底层思维逻辑,因此,我们先说一

说数据架构的起源(来源也行,一个意思)。其实,我们现

在IT行业经常说的软件架构、系统架构、XX架构的核心思

想都是从建筑行业学来的,架构的英文单词

“Architecture”其本身就是“建筑学、建筑物、结构构

造”的意思。在DAMA-DMB0K2中指出“数据架构”是“企业

架构”的一个重要的组成部分。而提到企业架构,它是起源

于IBM公司系统杂志的一篇文章“Aframeworkfor

informationsystemsarchitecture”,这篇文章的作者

JohnZachman,是业内公认的企业架构理论的首创者,而他

提出企业架构的理论就是我们熟知的“Zachman框架”!简单理

解,建筑学就是研究如何将一堆砖头、水泥、钢筋等建筑材

料按照一定的结构搭建起来,形成满足人们生活、工作所需

的各式建筑物。实际上,Zachman老先生的企业架构思想也

是源自于“建筑学”,其本质的原理都是从现状向目标迁移

的过程。因此,企业架构包含了当前架构、目标架构、迁移

计划和IT路线图。

Sequencing

Plan

Targ

Archite

关于企业架构,除了Zachman框架之外,还有联邦企业架构

框架(FEA)、国防部架构框架(DODAF)、UDPM、UAF等,

当然还有非常流行的一一Togaf框架。每个企业架构框架的

管理原则都涉及推动有关业务战略及其如何通过IT实现未

来目标。通常,企业架构是由四个基本的相互关联的专业领

域构成:O

业务架构:定义了组织的业务战略、企业治理、组

织机构和关键业务流程;

应用架构:为要部署的应用系统之间的交互以及它

们与组织核心业务流程的关系提供蓝图,并为集成业务

功能公开的服务接口;

数据架构:描述了组织的逻辑和物理数据资产以及

相关数据管理资源的结构;

技术架构:描述了支持部署核心任务关键型应用程

序所需的硬件、软件和网络基础设施;

如数据架构的演进

作为企业架构的组成,数据架构在不同时代,其形态也是不

一样,它是随着信息技术的不断发展而向前演进的。1、单

体应用架构时代在信息化早期(上世纪80年代),企业信

息化初步建设,信息系统以单体应用为主,例如:早期的财

务软件、OA办公软件等。这个时期还没有数据管理的概念还

在萌芽期,数据架构比较简单,主要就是数据模型、数据库

设计,满足系统业务使用即可。

应用程序1

系统1系统2系统3

2、数据仓库时代随着信息系统使用,系统的数据也逐步积

累起来。这时候,人们发现数据对企业是有价值的,但是割

裂的系统导致了大量信息孤岛的产生,严重影响了企业对数

据的利用。于是,一种面向主题的、集成的、用于数据分析

的全新架构诞生了,它就是数据仓库。与传统关系数据库不

同,数据仓库系统的主要应用是OLAP(On-LineAnalytical

Processing),支持复杂的分析操作,侧重决策支持,并且

提供直观易懂的查询结果。这个阶段,数据架构不仅关注数

据模型,还关注数据的分布和流向。

数据源数据使用

CRM系统

ERP系统

■数据挖掘

其他系统

数据报告

3、大数据时代

大数据技术的兴起,让企业能够更加灵活高效地使用自

己的数据,从数据中提取出更多重要的价值。与此同时,

在大数据应用需求的驱动下,各类大数据架构也在不断

发展和演进着,从批处理到流处理,从大集中到分布式,

从批流一体到全量实时。

(1)传统大数据架构之所以叫传统大数据架构,是因为其

解决的是数据仓库、BI应用的性能瓶颈问题,数据分析业务

没有发生任何变化,主要是技术上的升级。传统大数据架构

从结构上与数据仓库基本一致,还是分为三个部分:数据采

集、数据处理、数据输出与展示。

图:传统大数据架构,来源:51CT0栗子哥《从传统大数据架构到Lambda架构

到Kappa架构》

相比传统数据仓库,传统大数据架构是基于hadoop的

各类组件构建的,例如:数据存储用HDFS,数据采集

用Sqoop>Flume>Kafka等,数据处理用MapReduce、

Hive、Spark等,大数据技术的应用使得数据处理的性

能得到了巨大提升。

(2)Lambda架构Lambda是大数据架构中举足轻重的一个大

数据架构,Lambda的数据通道分为两条分支:实时流和离线。

实时流依照流式架构,保障了其实时性,而离线则以批处理

方式为主,保障了最终一致性。Lambda架构总共由三层系

统组成:批处理层(BatchLayer),速度处理层(Speed

Layer),以及用于响应查询的服务层(ServingLayer)o

图:Lambda架构,来源:51CT0栗子哥《从传统大数据架构到Lambda架构到Kappa

架构》

Lambda架构灵活,可以适用多种应用场景,但在也存

在着一些不足,实时层和离线层模块冗余、维护复杂。

(3)Kappa架构Kappa架构在Lambda的基础上进行了优化,

将实时和流部分进行了合并,将数据通道以消息队列进行替

代。Kappa架构解决了Lambda架构需要维护两套分别跑在

批处理和实时计算系统上面的代码的问题,全程用流系统处

理全量数据。

图:Kappa架构,来源:51CT0栗子哥《从传统大数据架构到Lambda架构到Kappa

架构》

大数据时代,我们以上介绍的几种大数据架构,虽然名字中

都含有“数据架构”四个字,但是和我们今天要讲的数据架

构还不完全是一回事,大数据架构准确来说,应该叫大数据

技术架构,而数据架构是用来承接业务的,技术是其实现手

段。技术架构会影响数据架构,但不论技术如何变迁,数据

架构的本质并没有变,它始终都是数据模型、数据流向、数

据分布和数据处理方式的综合体现。

03数据管理中的数据架构

关于数据架构的定义其实在业内并没有形成统一的认知,不

同人对于数据架构的理解或许都是不同的,这一点我们其实

可以从几个权威的数据管理体系中窥见一二。1、

DAMA-DMB0K2中的数据架构在DAMA的数据管理知识体系指南

(DMB0K2)中对数据架构的定义是:“识别企业的数据需求

(无论数据结构如何),并设计和维护总蓝图以满足这些需

求。使用总蓝图来指导数据集成、控制数据资产,并使数据

投资与业务战略保持一致”。其主要包含两个部分:企业数

据模型、数据流设计、数据价值链、实施路线图。

数据架构

定义:识别企业的数据需求(无论数据结构如何).并设il

使用总蓝图来指导数据集成、控制数据资产.并使数据投粉

目标:

•别数据存储和处理需求

•设计结构和计划以满足企业当前和K期的数据需求

•战略性地为组织做好准备,快速发展其产品、服务和数力

业务驱动因索

输入:活动:

•企业架构I.建立企业数据架构(I,)

•业务架构(1)评估现有数据架构规范

・IT标准和目标(2)制定路线图

•数据策略(3)管理项目中的企业需求

2.与其他企业架构集成(。)

得给者.参与者:

・'企业•架构师

•企业数据架构师

•数据管理专员•数据建模师

•专业领域专家

•数据分析师

技术驱动因索

图:Dama数据架构,来源《DAMA数据管理知识体系指南2.0》(1)企业数

据模型:企业数据模型是一个整体的、企业级的、独立实施

的概念或逻辑数据模型,为企业提供通用的、一致的数据视

图。企业数据模型包括数据实体(如业务概念),数据实体

间的关系、关键业务规则和一些关键属性,它为所有数据和

数据相关的项目奠定了基础。(2)数据流设计:定义数据

库、应用、平台和网络(组件)之间的需求和主蓝图。这些

数据流展示了数据在业务流程、不同存储位置、业务角色和

技术组件间的流动。(3)数据价值链:DMB0K2中没有明确

交代,笔者理解就是基于企业核心业务价值链的数据分布和

流向,与数据流设计是一致的。

(4)实施路线图:描述了架构3〜5年的发展路径。考

虑到实际情况和技术评估,路线图和业务需求共同将目

标架构变为现实。企业架构实施路线图包括:高层次里

程碑事件、所需资源、成本评估、业务能力工作流划分。

2、DCMM中的数据架构在国标《数据管理能力成熟度评估模

型(DCMM)》中,数据架构是DCMM的8大领域之一,它对

数据架构的定义是:“通过组织数据模型定义数据需求,指

导数据资产的分布控制和整合,部署数据的共享和应用环

境,以及元数据管理的规范”。在DCMM中,数据架构包含

了数据模型、数据分布、数据集成与共享、元数据管理四个

部分内容。

数据架构

(1)数据模型:使用结构化的语言将收集到的组织业务经

营、管理和决策中使用的数据需求进行综合分析,按照模型

设计规范将需求重新组织。数据模型包括:主题域模型、概

念模型、逻辑模型和物理模型。

(2)数据分布:针对组织级数据模型中的数据定义,明确

数据在系统、组织和流程等方面的分布关系,定义数据类型,

明确权威数据源,为数据相关工作提供参考和规范。(3)

数据集成共享:建立组织内各应用系统、各部门之间的集成

共享机制,通过组织内部数据集成共享相关制度、标准、技

术等方面的管理,促进组织内部数据的互联互通。(4)元

数据管理:主要是关于元数据的创建、存储、整合与控制等

一整套流程的集合。

3、华为的数据之道在《华为数据之道》一书以及华为很多

公开材料中,并没有明确给出数据架构,而是给出了信息架

构的概念:“是指以结构化的方式描述在业务运作和管理决

策中所需要的各类信息及其关系的一套整体组件规范。”从

定义上看,华为给出的信息架构和我们所说的数据架构是十

分相识的,它包括了数据资产目录、数据标准、数据模型、

数据分布四个部分。

I数据资产目录

崛分达

对的分类和定义

•厘清数据资产

•是建立数据模型的输入系

信息架构

数据标准

•是业务定义的规范

•统一语言,消除歧义动的:

•为资产梳理提供标•iRSi

准的业贻义和规则

•定6

图:信息架构,来源《华为数据治理之旅》

(1)数据资产目录:通过分层结构的表达,实现对数据的

分类和定义,建立数据模型的输入,形成完善的企业资产地

图,也在一定程度上为企业数据治理、业务变革提供了指引。

基于数据资产目录可以识别数据管理责任,解决数据问题争

议,帮助企业更好地对业务变革进行规划设计,避免重复建

设。(2)数据标准:数据标准定义公司层面需共同遵守的

属性层数据含义和业务规则,是公司层面对某个数据的共同

理解,这些理解一旦确定下来,就应作为企业层面的标准在

企业内被共同遵守。(3)数据模型:是从数据视角对现实

世界特征的模拟和抽象,根据业务需求抽取信息的主要特

征,反映业务信息(对象)之间的关联关系。

(4)数据分布:定义了数据产生的源头及在各流程和

IT系统间的流动情况。

DAMA的DMB0K2、国标的DCMM、华为的数据之道是当下业界

认可的三个主流据管理体系。可以看到,在这三个体系中关

于数据架构的定义和内容都不相同。那么,您认为的数据架

构应该是什么?或者说,您认为以上三个数据管理系统中,

哪个数据架构更合理、更符合企业管数、用数的?接下来,

我们聊聊数据架构的底层逻辑!

04数据架构的底层逻辑

在遥远的原始社会,人类过着穴居野处的生活,为了适应自

然,抵御猛兽,原始社会的人类会利用一些大树或者直接在

地上用树枝树叶搭建一些简易的房子或栅栏。这个时候,人

类建筑架构的思维模式已经开始萌芽。从原始部落的穴居野

处、茅屋蓬草,到如今的钢筋水泥、高楼林立,建筑架构的

发展,本质是一部人类对居住环境的功能和性能不断追求的

发展史。相比建筑业,IT行业还是一个年轻的行业,它的一

些理论体系都是从传统行业中引进而来的,包括我们今天聊

的“架构”。架构思维的底层逻辑是将一个复杂的系统,从

多个维度分解为多个架构元素,并定义这些元素之间的接口

和交互关系、集成机制。按照“燧增定律”,架构的本质就

是就是对系统进行有序化重构,不断减少系统的“燧”,使

系统不断进化。而这里,所谓的“牖”就是构成软件的相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论