数据中台数据模型建设方案V2_第1页
数据中台数据模型建设方案V2_第2页
数据中台数据模型建设方案V2_第3页
数据中台数据模型建设方案V2_第4页
数据中台数据模型建设方案V2_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三方小数据是在线交互,交换数据量较大、定期或一次性大批

应用高实时性要求低实时性要求量数据要求

S(^P/南TP上TP4O^BC/jfc>BC

*I二

服务

API接口模式发布订阅模式数据库模式

模式

数据服务2

元数据安全及自身管理服务策略管理

共享安全管

认证鉴权访问队列管控

权限管理负载均衡访问会话管控

日志管理统计分析访问过程管控

服务运行监控访问缓存管控

数据中台数据模型建设方案

目录

第1章综述...................................................3

1.1项目背景........................................................3

1.2建设目标........................................................3

1.2.1数据资产自动汇聚、一键发布...................................3

1.2.2数据资产可视、可用、可管理...................................4

1.2.3数据质量可控、可视、可追溯...................................5

1.3建设思路........................................................5

第2章建设方案...............................................7

2.1采集层..........................................................7

2.1.1采集适配模块..................................................7

2.1.2数据处理适配器................................................7

2.1.3数据采集策略的定制管理........................................8

2.1.4数据补采...................................................10

2.1.5采集调度模块.................................................11

2.2数据模型层...................................................20

2.2.1建模方法思路.................................................21

2.2.2数据模型分层架构设计.........................................24

2.3数据治理功能..................................................26

2.3.1统一数据标准管理.............................................26

2.3.2统一数据建模.................................................26

2.3.2.1统一数据加工...............................................27

2.3.3统一数据资产.................................................27

2.3.4统一数据质量管理.............................................27

2.3.4.1统一数据共享与开放.........................................28

2.4能力开放.......................................................29

2.4.1数据资产开放.................................................29

2.4.2指标开放.....................................................29

2.4.3数据服务超市.................................................29

2.5网管迁移方案..................................................30

2.5.1BI工具.......................................................30

2.5.2话务及数据专业报表明细整理...................................33

第1章综述

1.1项目背景

在20年集团网络工作部署,明确提出构建网络中台,推进业务拉通和数据共

享。打造数据业务化、业务数据化、技术通用化的网管中台架构体系。以业务与

数据治理为核心,存量系统共性能力按需解耦改造、新增能力遵循分层架构建设。

1.2建设目标

针对本次系统接管与替换,在整体架构上考虑以中台支撑现有系统的发展,

基于智慧平台构建的OSS数据中台,实现数据专业整合,打通专业信息壁垒和数

据孤岛,提升数据规范化水平。实现数据集中存储和业务逻辑的数据处理,包括

按时间粒度和维度组合的数据汇总。同时数据中台中的数据可根据需要封装后直

接对上层应用开放。

1.2.1数据资产自动汇聚、一键发布

•数据资产多手段自动汇聚

通过三种手段实现数据处理相关的接口、模型、任务、服务、指标各环节元

数据及血缘关系的自动获取,同时发布为数据资产。

/血缘关系自动获取,自动获取数据实体间的上下游信息,字段之间转换

关系。

/血缘关系登记录入:在无法自动获取血缘关系的场景下,提供血缘关系

登记录入界面,以补充完整数据血缘关系。

/元数据登记录入:支持数据实体的批量录入功能,能够满足物理实体及

其元数据信息的快速创建。

•数据资产一键发布

依托统一的元数据库,将开发完成的标签、指标数据一键发布到标签库、指

标库、。

标签库:展现企业的标签数据,用于包括开发人员、业务人员、运维人员理

解系统标签库的现状,支撑其进行数据订阅使用、生命周期管理等应用。

指标库:展现企业的指标数据,用于包括开发人员、业务人员、运维人员理

解系统标签库的现状,支撑其进行数据订阅使用、生命周期管理等应用。

1.2.2数据资产可视、可用、可管理

•强化元数据管理能力

将数据开发过程和元数据登记录入过程融合,实现元数据信息的自动录入。

•实现数据开发的统一管控

数据生产各环节的开发工作基于数据管理模块实现各环境的元数据信息自

动获取,并同步给其他应用系统,确保应用系统的元数据信息与数据管理模块一

致。

•数据资产应用审批

确保数据资产安全,上层应用或用户申请数据使用时,需要通过流程审批。

•数据对内开放信息完整

提供样例数据查询,字段级统计数据查询,以方便开发人员选择所需数据资

产。

1.2.3数据质量可控、可视、可追溯

•数据标准落地

结合湖南移动网络运维与业务发展要求,梳理适合本地的数据标准,并基于

数据管理模块完成数据标准的IT落地。

•数据血缘关系可视

通过数据生产各环节的元数据信息自动获取,形成端到端的数据血缘关系,

通过可视化手段呈现数据血缘关系。

•端到端数据质量监控

依托数据标准与数据血缘关系的构建建立数据质量稽核告警与端到端可视

化呈现机制,质量情况可监控,可量化。

1.3建设思路

系统整体分为数据采集层、数据模型层、能力开放层及功能域。

•数据采集层:采集层采用模块化设计思想,从业务功能上分为采集适配器、

数据处理层、采集调度层、数据共享层四个层次,并通过系统自身管理模块

实现自身的业务逻辑控制和管理,通过多维监控和质量管理,实现对系统平

台的实时多角度监控与数据质量管理;同时,开放标准化的外部管理接口,

以实现对外的可管理性。业务功能层面,每层只需要关心本层的数据、业务

逻辑和业务实现,层与层之间通过标准接口进行交互,能更好地实现系统的

可扩展性。

•数据模型层:结合业界规范和多年的0数据数据建模经验,综合考虑了数据

特点、存储方式、处理效率、处理复杂度、访问效率及模型扩展性等方面,

采用了模型分层设计的思想,分为原始数据层、基础数据层、融合信息层、

应用数据层四层,实现了数据源和加工处理过程的分离,保证了数据流向清

晰,提高了数据访问效率等。

•能力开放层:主要提供发布订阅模式、异步模式、同步模式等不同模式的数

据开放共享。

•数据治理功能域:提供对数据的统一治理能力,主要包括数据标准管理、元

数据管理、数据资产管理、数据安全管理和数据质量管理等能力。

第2章建设方案

2.1采集层

2.1.1采集适配模块

采集适配模块实现网元直连网管接口采集和OMC北向接口适配采集;采集适

配器层接收采集任务,实现与设备侧的接口协议适配,从设备侧获取原始数据,

进行数据采集,采集适配器的功能组成如下:协议适配、数据获取,并支持被动

接收设备侧发送的数据。采集的源数据通过适配器北向接口向上共享。

采集适配器支持实时数据、非实时数据;协议接口类型支持文件接口、数据

库接口、指令接口、Syslog接口、NetFlow接口、SNMP接口、C0RBA接口等主流

网管接口类型,同时支持接口类型的扩展。

系统提供采集适配器的注册、动态加载及注销功能,并提供采集、处理适配

器参数配置界面,以及适配器状态查看功能。并对适配器进行手工的状态变更,

比如启动、停止、重启等操作。

2.1.1.1采集过程数据检测

能够及时检测设备侧发送过来的文件准备好消息通知或者原始数据准备情

况,数据准备好消息接收到后立即进行采集;数据始终未达到设定的完整标准,

也能把部分准备好的数据进行采集,可配合厂商侧的情况,尽最大可能完整及时

的采集数据。

2.1.2数据处理适配器

数据处理适配器接收调度中心的数据处理命令,将采集适配器生成的数据进

行处理、关联运算,通过ETL过程将数据录入到数据库中。

数据处理适配层接收处理任务,对数据进行解析、格式化,并根据需要进行,

风暴抑制、数据上报、KPI指标计算。原始数据、格式化数据、KPI指标均可以

推送到数据共享层,可以文件、数据库、消息等方式进行传送和保存。可以有选

择地提供告警数据过滤能力。

2.1.3数据采集策略的定制管理

根据第三方应用,或者定制的配置、性能和告警数据的特性,采用不同的策

略利用导航方式创建采集流程,描述了在何时到何地采集什么样的数据。

以向导式根据不同业务需求创建合适的采集策略。

根据性能、配置和告警数据的特性,采用不同的策略创建流程,明确创建过

程,降低用户输入错误率。

导航留页上策略创ITx

采集性诜数据采集告警数据

性能数密T为指标S3B.采集频率昭育.15分钟或者1小时一次等.分为

定制实时.定时、翩味需触发却通过CORBAK务接收来自设备的消息迸行告警数娓的采集比较特殊,启动一个服芬后,桁实时采集告警数据,因此采

B吸.期任务是转移到欧宪的控制上.

定期a:时一时扈期笫起诵已法备的消上M沙妥年怙能妥窑法亲眼务

采集配售数据©WLAN数据(AP、一级热点、二级热点)

配置源散据T为每天采集一次,并且是周期发旻语求.判新生源使用情况.更超忙.超闲AP.进行WLAN精确选点:

经分数据(用户终端、话单、流员数据、用户套餐信息)信令数据

用于分析用户行为,用户定驻小区."使用情况.遂行针对性营精策崎;定义了两个西局之间的信台通道:

创建策略的步骤有采集数据(数据源和数据集)、处理数据(标准化)和制

定策略。描述了在何时到何地采集什么样的数据。

开始采祟数据浊理取据制定策略结束

。法理数君源创斌数君惠

名林:专业:改选援*^3:s«

SUB淖类里片业采案期议眼明电>)

eqewaweFTP知FTP正案

©时事务-大性隙(1S分会)FTP梯FTP正常

0_穹牙K・:*r・LTE-OMCFTP秘FTP正常100

OR«iffx*LTE-OMC

2逢我空A

ma「:租KMCme3v±

酸曳三,性暖■S3□»

•HP

王tfis:用户名:

e«::

下一步

目录:

是加依E9

首先选择数据源,即到何地采集,也可以直接创建一个新

数据源。主要是通过FTP服务方式获取报告,但不限于此。

之所以采用服务的方式进行描述,而不是OMC,是因为通

用性更好,扩展性更强。

开贴采渠数据处理数据制定案略结束

数据簸

£>«LlMmMPortVI10•

EF«EutranR«U<onVt10.

EutraOTddV110-4-M

ENBEpRpOy»S1v&«VI10g

瘠3EICSdpMMKV110

HSSM*n4gtdEi«(r«ntVIXMIS

SdpM»KVI10

X^^sFuctwn.VI10

X-^4>cbon_V1tS

L1**-U

其次选择数据集,即采集的什么数据。娄媚集是根据集团

规范预先定义好,他包括了哪些报告,一个报告中应该具

备哪些count,所以需避免策略创建过程中的滥用,否则不

利于规范化进程。

开妫采集数据>迦理数据制定猿略结束

对采黑的18告ifi行尿8化

.屋•••;.•.

■•

薮搪菜革的重三不标活臬豆否W菜生转藉迸行格会花界

理。如果报告已经是标准文件格式,则可以不需要标准化

处理。

开始采・蚁据制定桀88

〃握示

创it性竭育息接收■务一消副歌发机制

名称:采■要R:/动,自动生成一个相

丽的主动的

【ORX件:满美•••

9RA重型:定打

B3B硒:«15^

3HB状者:Si*状态图电,持

失败*X»:3次叫L30田失效S.台。

中心更断.创建卿00B不察襄.

■^取S:60小

策・史袤0震说.

采集超时时长:200秒

柒集任务失败时长:300陟

请求

!数据采集的最后一个环节是制定策略,当前是采用消息触

;发机制,实时性更高。

:CORBA服务是作为一个消息触发器而存在,与FTP服务分

!离,采集任务将具有更好的通用性,从而达到“定时或者

;消息触发一个任务流程执行"的统一^。

I________________________________________________________________________________________________________________________

2.1.4数据补采

当任务执行失败后,具有对某个环节进行一定的重做能力,包括重新采集和

数据处理环节的重做;补采主要是指自动补采的能力,根据补采的规则进行任务

级别的补采。

2.1.5采集调度模块

采集调度模块实现对各类采集任务的统一调度管理;

(1)根据策略,生成相应的任务,进行分发。

(2)接收适配器发送来的采集任务执行情况查看请求,如:采集节点的内

存、CPU、磁盘占用率,采集节点当前正在运行任务的情况。

(3)接收自动补采模块发送的任务信息,然后对该任务进行分发。

(4)任务的重做或补采:当任务执行失败后,具有对某个环节进行一定的

重做能力,包括重新采集和数据处理环节的重做;补采主要是指自动补采的能力,

根据补采的规则进行任务级别的补采。

(5)通过消息通道,发送任务消息到采集适配器。

(6)负载均衡策略,保持各采集适配器负荷基本均衡,进行动态的负载分

担,可以参考采集适配器硬件配置、CPU占用率、内存总量、内存占用率和采集

机空闲线程数、任务负载权重等信息。

(7)在采集适配器出现异常后,能够把未执行完成的任务重新执行。

(8)容灾能力:包括三种级别的容灾,即任务、适配器实例和调度中心容

灾。任务级别的容灾是指当适配器实例宕机时,该适配器实例中的任务可以切换

到其他适配器实例中执行;适配器实例级别的容灾是指当一个适配器实例宕机

时,该适配器的其他实例可以接管任务的执行;调度中心级别的容灾是指一个调

度中心服务宕机后,其他调度中心服务可接管调度工作。

2.1.5.1采集策略接收

接收从数据共享层下发的策略信息,并把这些策略信息保存。这里的策略是

指:采集的任务,该去哪个范围去采集,用什么频率去采集等。

采集目标网元资源与综合资源数据信息相关联,能够自动识别、同步网元信

息,并能自动化完成采集关联动作。

2.1.5.2任务生成

根据策略数据生成任务,任务中包含采集源标识、指标组列表、采集的起始

时间、结束时间、网元信息、任务唯一标识。具有任务启停功能,即对已经停止

或需要启动的采集任务,在界面上单击启动按钮,启动采集任务,对已经在运行

的采集任务单击停止按钮,停止采集任务。

2.1.5.3任务分发

接收任务生成模块生成的任务,进行分发。接收状态监控模块发送来的采集

任务执行情况查看请求,如:采集节点的内存、CPU、磁盘占用率,采集节点当

前正在运行任务的情况。接收自动补采模块发送的任务信息,然后对该任务进行

分发;通过消息通道,发送任务消息到采集适配器。

任务分发能够判断系统是否支持分布式软件部署,并能够依据各采集节点的

负荷忙闲情况每次总是优先选择负荷最低的采集节点下发采集任务,以实现计算

资源的负荷分担。

(1)接收任务生成模块生成的任务,进行分发。

(2)接收适配器发送来的采集任务执行情况查看请求,如:采集节点的内

存、CPU、磁盘占用率,采集节点当前正在运行任务的情况。

(3)接收自动补采模块发送的任务信息,然后对该任务进行分发。

(4)通过消息通道,发送任务消息到采集适配器。

(5)负载均衡策略,保持各采集适配器负荷基本均衡,进行动态的负载分

担,可以参考采集适配器硬件配置、cpu占用率、内存总量、内存占用率和采集

机空闲线程数、任务负载权重等信息。

(6)在采集适配器出现异常后,能够把未执行完成的任务重新执行。

下图描述了性能、配置和告警数据采集的整体调度过程,分为两个阶段:消

息触发和任务运行。

管理平台

策略创建I

生成调度策略

,消息通知的控制流*执行任务的控制流

该架构包含了同步和异步的采集机制,异步方式的分离,有利于采集过程的

统一。

具备负载均衡调度能力。可以通过采集机资源空闲优先等(根据排队任务数、

CP负荷、内存占用率、10等)策略选择合适的适配器实例完成数据的采集。

统一采集系统采用负载均衡管理实现采集节点的扩展和任务的均衡分配,但

当单个或多个采集节点由于突发原因出现高负荷时,按照正常的动态分配和扩展

机制会造成高负荷节点向其他采集节点波及,影响其它正常采集节点,进而导致

整个采集层效率下降,请详细描述该问题的解决方法。

系统采用分布式云部署,调度也是云调度。在负载均衡过程中,系统采用最

优适配器算法,即根据采集机负荷的评估动态选择合适的适配器实例,可以有效

的利用分布式资源,从而高效的进行任务调度,确保采集任务的及时、高效。

;n

调度中心与适配器方便的进行热插拔式的升级扩容。

新增的调度中心可即时分担调度工作,升级则可以将原来的重启,可实现

24小时运行服务。

新增的适配器实例可即时分担采集工作,升级则可以将原来的重启,可实现

24小时运行服务。

适配器

此两者容灾的能力将使整套架构均能达到每一层的扩容能力,即任何一层中

的服务都可以随时增加,而不会对系统运行造成致命的影响。

系统支持采集任务迁移功能,迁移1000个任务所需时间:0.1秒左右。

2.1.5.4自动补采

接收状态监控模块发送的采集任务执行情况,自动判断数据是否完整,在数

据不完整情况下根据设定的补采策略,重新生成采集任务,发送这些任务给任务

分发模块,重新采集数据。补采策略中包含某采集源的指标组在不完整情况补采

次数、补采时机等信息。补采的机制要支持周期补采、自定义补采或基指数补采,

同时支持手工进行补采。

当任务执行失败后,具有对某个环节进行一定的重做能力,包括重新采集和

数据处理环节的重做;补采主要是指自动补采的能力,根据补采的规则进行任务

级别的补采。

当统一采集系统与单个或多个采集源中断,造成一定数量的采集数据积压

时,以告警采集为例,当出现采集源中断情况时,往往经过自动补采,过段时间

会自动重连上采集源,但是由于告警量比较大,会造成短时间的告警数据大量过

来,首先采集适配器与处理适配器是分布式部署的,各自的环境并不互相依赖,

而且,处理适配器采用分布式云计算方法,已经足以处理数据积压情况下的数据

处理,所以,统一采集平台会既确保当前数据的采集正常,又有效将历史积压数

据正常采集处理。

2.1.5.5状态监控

对下发到采集机上的采集任务的执行情况监控,如有某一采集任务某次采集

有问题,及时进行处理保证数据采集的连续性。

实时监控任务全生命周期各个环节:未下发任务、正在执行的任务和异常结

束的任务,提供单个任务的流程拓扑图,端到端查看相应环节的执行情况。

“KMEHWW

当出现异常任务时,系统除支持自动补救以外,还可以进行手工的补救以及

分环节的补救。

2.1.5.6采集节点负荷异常的影响范围控制

系统考虑了采集的数据分级,在紧急情况下能保证高级别数据的采集完备

性;对于采集节点的负荷也进行分级监控,采集的新增、调整、停止也充分考虑

到各个采集机的负荷情况,调整机制完备;极限情况下,低级别采集任务的停止、

或是否新增能够提示管理员进行干预,同时支持未干预条件下的自动执行机制,

机制合理、安全。

2.1.5.6.1高安全平台容灾机制

调度中心池可承载多个调度中心,从而达到调度中心级别容灾。

可以为一个适配器启动多个实例,从而达到适配器级别容灾。

适配器

此两者容灾的能力将使整套架构均能达到每一层的容灾能力,即任何一层

中的设备宕机都不会对系统运行造成致命的影响。

2.1.5.6.2更高效负载均衡能力

系统采用最优适配器算法,即根据采集机负荷的评估动态选择合适的适配

器实例,可以有效的利用分布式资源,从而高效的进行任务调度,确保采集任

务的及时、高效。

tnspur

2.1.5.6.3热插拔式升级和扩容能力

新增的调度中心可即时分担调度工新增的适配器实例可即时分担采集

作,升级则可以将原来的重启,可工作,升级则可以将原来的重启,

实现24小时运行服务。可实现24小时运行服务。

适配器

适配器

适配器实例

此两者容灾的能力将使整套架构均能达到每一层的扩容能力,即任何一层

中的服务都可以随时增加,而不会对系统运行造成致命的影响。

2.2数据模型层

结合业界规范和多年的大数据建设经验,浪潮提供完整、合理、准确的数据

模型建设方案。

L建立统一和标准的业务定

义和数据组织.统一实体,统

一命名,统一规范实体属性和

2、建立全局数据视图,覆盖

资源、业务、客户、运维等层

面及各层面之间的关联关系.

•采用了模型分层设计的思想

综合考虑了数据特点、存储方式、处理效率、处理复杂度、访问效率及模型

扩展性等方面,采用分层的模型设计思想,按照原始数据层、基础数据层、融合

信息层和应用数据层建设。

•“自顶向下”和“自底向上”相结合的建模方法

采用“自顶向下"和“自底向上”相结合的建模方法,对数据模型体系结构

分层设计。

•遵循“概念模型-逻辑模型-物理模型”的三阶段五步实施法

每层模型通过概念-逻辑-物理的三个阶段,按照概念模型设计、数据源系统

评估、逻辑模型设计、物理模型设计与实施、模型验证与优化的五个步骤进行实

施落地。

•逻辑分层、物理分布式存储的模型存储设计

基于数据的分层模型结构,结合实际技术选型,数据采用逻辑分层,物理分

布式存储的方式,并对典型数据的处理流程、访问流程进行设计规划。

•合理的模型存储计算部件选择

结合各层数据的特点(数据量、访问频度、存储周期等)和各项技术的特性

(存储、计算、查询、扩展等方面),对各层模型的存储计算部件进行合理

规划。

2.2.1建模方法思路

数据中台数据建模的基本思想:

•采用概念模型、逻辑模型、物理模型三阶段建模方式;

•自顶向下”方式为主,从业务需求出发,分析研究业务需求

中的业务场景,提炼业务数据,界定系统的数据范围,划分主题域,

对业务数据进行分类,构建抽象实体,最终梳理出业务实体,以及实

体之间的关联关系,通过实体及实体间关系表示业务规则;

•“自底向上”方式为辅,从源系统入手,研究和识别源系统

内的数据实体,并对数据实体进行分类;将实体以及实体的分类结果

与“自顶向下''方式梳理出的结果进行对比,验证建模结果的合理性,

并进行修正;

•“自顶向下”和“自底向上”两种方式相互协作,不断迭代

演进,逐级细化,构建出数据模型;

•充分考虑未来的业务分析需求,对于一些通用概念和结构采

用相同的模型设计,从而保证了公用和未来扩展的需求;

•遵循业界通用标准和方法论(SID),保证模型的适用性;

2.2.1.1模型设计思路

遵循模型设计规范要求,采用“自顶向下”和“自底向上”相结合的建模

方法。根据业务需求设计应用层模型,根据数据源模型设计ODS、BDS、CIS

层模型,在CIS69ADS间实现数据的结合。

数据源原始数据层基础数据层融合信息层应用数据层

数据源系统业务分析指标

清洗

汇总

归f指标含义及算法

指标也

接口方式整合分析维度

2.2.1.2模型设计原则

•标准化、规范化原则

数据模型应遵从统一的主题域划分和实体命名规则,保证模型的标准化和

规范化;

•先进性原则

要求逻辑模型在设计上吸收业界、国内外优秀的建模经验与方法,确保模

型的先进性;

•一致性原则

数据模型的设计要能够确保数据的一致性,消除各数据源的数据不一致

性,以保证数据模型内的信息是关于整个企业一致的全局信息;

•扩展性原则

要求数据模型具备良好的可扩展性,支持对模型的迭代性演进。当业务需

求提出新问题或有新的数据加入模型时,要求数据模型能够确保现有的数据和

应用都不发生改变,更不得导致系统崩溃;

•自上而下的设计与自下而上的验证原则

数据模型是为业务分析服务的,所以在创建模型时,应以业务需求为驱动。

根据业务需求采用自上而下的方法设计并实现数据模型,并且采取迭代演进的

模式,逐步丰富数据模型,逐步求精。同时,为了验证设计与实现的合理性与

正确性,要求以实际数据对模型进行自下而上的验证;

•简单可识别原则

实体命名等要遵循简洁、能直接识别出业务意义的原则。

2.2.1.3数据建模步骤

数据建模五步法如下:

概念模型设计数据源系统评估造辑模型设计物理模型设计与实施模型验证与优化

,分析业务需求,/评估数据质量与,明确逻毒模型实,建立物理模型,,按照业务需求对模型

确定运围定义提供能力,进行体、属性、主键映射文档;生成的支撵能力、效率等

/生成指标桀,区字段属性取舍、.关联建模语句、数据进行验证

分基本指标、衍跆«确定实体加载算映射脚本/优化调整模型结构,

生指标,作为业,明确接口规范法,新墙、修改,执行脚本进行物形成最终模型

秀元数据梳理,确定业务模型理模型落地

,明确接口鬻求

•概念模型设计:

1.分析业务需求,确定范围定义,确定概念模型

2.生成指标集,区分基本指标、衍生指标,作为业务元数据梳理

3.明确接口需求

•数据源系统评估

1.评估数据质量与提供能力,进行字段属性取舍、整合

2.明确接口规范

3.确定业务模型

•逻辑模型设计

1.明确逻辑模型实体、属性、主键、关联

2.确定实体加载算法,新增、修改

•物理模型设计与实施

1.建立物理模型,映射文档;生成建模语句、数据映射脚本

2.执行脚本进行物理模型落地

•模型验证与优化

1.按照业务需求对模型的支撑能力、效率等进行验证

2.优化调整模型结构,形成最终模型

2.2.2数据模型分层架构设计

2.2.2.1分层架构设计原则

结合业界规范和多年的大数据建设经验,综合考虑了数据特点、存储方式、

处理效率、处理复杂度、访问效率及模型扩展性等方面,采用了模型分层设计的

思想,分为原始数据层、基础数据层、融合信息层、应用数据层四层,实现了数

据源和加工处理过程的分离,保证了数据流向清晰,提高了数据访问效率等。

xxx^M

应用数据

(ADS)

融合信息

(CIS)

(BDS)

原始数据

(ODS)

•原始数据层

1.作为数据缓冲区,减少对数据源系统压力;便于问题回溯及数据

重新处理

2.与数据源的模型保持一致

•基础数据层

1.做为稳定的基础数据层,主要做归一化处理(数据的清洗、关联

整合、编码统一据单位统一等),

2.采用实体-关系建模,模型遵循第三范式

•融合信息层

1.存储汇总数据,为用户自主分析应用提供支撑

2.采用维度建模方式,支持星型模型和雪花模型;其中业务相关性

较高的数据合并为宽表

•应用数据层

1.对汇总数据层数据进行重新组织满足部门、地市、专题个性化需

求,快速响应用户需求。

2.采用反范式的建模方式

2.2.2.2数据模型分层设计

基于数据的分层模型结构,结合实际技术选型,数据采用逻辑分层,物理分

布式存储的方式。

HadoopS^

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论