江苏公司集中性能管理系统技术数据共享平台分册v_第1页
江苏公司集中性能管理系统技术数据共享平台分册v_第2页
江苏公司集中性能管理系统技术数据共享平台分册v_第3页
江苏公司集中性能管理系统技术数据共享平台分册v_第4页
江苏公司集中性能管理系统技术数据共享平台分册v_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、目录前言V1范围12文件13术语2总体架构44.5数据共享平台的数据数据共享平台的数据与计算架构4与计算技术要求5数据共享平台的技术架构实现8总体技术架构实现8数据共享平台的系统架构10数据共享平台与周的. 115数据装载层技术要求.....5.7.2概述12装载数据源13数据分发及加载能力要求14接口适配14插件管理14数据分发15数据加载缓存15支持主动检测与补采机制15数据 ET

2、L 技术要求16通用要求16数据抽取17数据. 17数据转换17数据加载17数据关联整合及归一化处理18数据装载层管理能力要求18任务. 19任务调度19可视化管理19数据装载层据管理20据配置20据驱动205.8数据质量管理206数据处理层技术要求.1数据处理层技术架构21基础数据层设计要求22基础数据层基本内容22I6.2.2基础数据层建模要求.2数据仓库层设计要求23数据仓库层基本内容23数据仓库层建模要求23数据处理层据管理24据配置24据驱动247据管理25据管理范畴25据的定义25据管理目标25据管理范畴26

3、据管理模块主要功能27据基本功能27据的基本维护27据变更管理28据检索28据统计2...4.1用户使用据情况统计29据权限管理29据分析功能29血统分析29影响分析29据应用功能30指标库管理30..1.2.指标属性要求30指标属性扩展30管理30据31据31据31管理32指标...4.2.3.NoSQL RDBMSOLAP7.

4、2.4.3数据对周边功能的支持3.....据管理功能32指标与外部系统间的订阅管理32指标与报表间指标与报告间指标与应用专题间管理33管理33管理34数据质量管理348.4概述34数据质量模块管理目标35数据质量体系及管理35数据质量管理功能37II数据质量概览37应用者视图37维护者视图37视图定制能力3.....8.

5、...数据质量. 37数据质量规则配置38规则配置38核查规则配置38数据质量运行环境数据源. 38. 39. 39数据处理过程. 39关键指标40数据质量告警40数据质量分析40数据质量问题处理41数据质量评估41数据源接口质量评估42数据质量知识库管理43数据质量对外服务43数据质量接口功能43数据质量对外服务接口439数据共享技术要求43共享目标及架构43共享对象及主要内容45服务于数据共享平台的上层应用45服务于外部系统4...29.2.

6、2.3告警与故障管理系统45无线网络优化平台46经营分析系统4.39.49.5数据共享模式及接口方式46消息交换模式46发布订阅模式46数据库模式47数据共享对象、内容、模式及接口方式对应. 47数据共享管理功能要求49数据生命周期管理501011数据安全管理51敏感数据加密511.4数据. 51数据加密传输51数据操作审核52III表结构修改52修改52大数据统计5.211.4.3要求53112.3.2概述53大数据技术53数据通讯技术要求53资源同

7、步到大数据计算平台要求53大数据分析典型场景56技术要求56模型要求5613系统管理技术要求57..313.3.213.3.313.3.4系统管理技术要求概述57系统安全技术要求57生产环境与开发测试环境分离要求57主机系统安全管理要求58网络安全管理要求58系统备份技术要求59备份内容59备份要求59备份方式59备份管理5914编制历史60IV前言本标准对江苏移动集中性能管理系统数据共享平台进行了抽象和描述,江苏移动集中性能管理系统数据共享平台集中各类网络运行指标数据,面向网元、网络、业务和客户,支撑对容量、质量、业务发展和运

8、维效率的全面分析。本标准是江苏移动集中性能管理系统数据共享平台技术规范系列规范之一,该系列规范目前的结构、名称如下:本标准由江苏移动网络部提出,网络部归口。本标准起草:江苏移动网络部本标准主要起草人:、庆祖良、等。V序号类别编号规范名称1技术规范P01_001移动江苏公司集中性能管理技术规范-应用平台分册2P01_002移动江苏公司集中性能管理技术规范-数据共享中心分册3P01_003移动江苏公司集中性能管理技术规范-数据接口分册45671范围数据共享平台总体技术要求总体架构、数据装载、数据处理、数据共享、系统间接口、系统安全管理和系统备份的技术要求等。总体架构要求数据装层、数据处理和数据应用

9、三大模块,数据装载主要是对各专业统计与告警数据、Mc/Gn/Gb/LTE 信令数据、工单数据、测试记录、MR 数据、资源及话单数据的接入与装载,数据处理是为上层应用提供根据模型的大数据并行计算与功能,数据应用主要是数据根据业务应用功能进行呈现。数据仓库能力要求基本技术要求、可用性和可靠性要求、可管理性要求、安全性要求、互操作性要求。基本技术要求是指支持基本数据类型、并行处理、海量数据、星型、分析,并发和分区等功能;可用性和可靠性要求是指数据库的高可用、动态资源/负载管理功能;可管理性技术要求单点完成整个数据库系统的管理和维护、可视化管理、动态内存分配,支持对性能不佳的进行跟踪和,提供优化建议;

10、数据安全性技术要求:数据库角色、用户组的认证与管理、数据加密、通过安全对数据库端口管理;互操作性要求:良开发性,支持主流异构数据库的直接,支持主流格式文件的数据导入。数据处理能力大数据的关联与整合、数据 ETL、数据汇总与计算、任务调度、任务。数据共享要求主要描述数据共享共享功能的服务对象、共享方式及基础管理性要求。2文件下列文件中的条款通过本标准的而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不勘误的内容)或修订版均不适用于本标准,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的文件,其最新版本适用于本标准。13术语下列术语、定义适用于:2术语名词

11、术语解释据描述数据的数据(data about data),主要是描述数据属性(property) ,用来支持如指示数据来源、数据类型、数据有效期和有效性等属性的管理和应用等功能。数据质量管理通过获取数据共享平台各环节的数据质量信 息,结合据库中的有关检查规则,对各个环节的数据质量情况进行,并及时向数据质量报告。ETL特指从数据到数据共享平台的数据抽取、转换和加载。数据仓库(DW)数据仓库原子级别的数据和轻度汇总的数据, 是面向的、集成的、性的、随时间不断变化(不同时间)的数据集合数据集市数据集市(Data Mart) ,也叫数据市场,是数据仓库的一个子集,只面向某个特定的 。为了解决灵活性和

12、性能之间的 ,数据集市就是数据仓库体系结构中增加的一种小型的部门或工作组级别的数据仓库。OLAP 分析联机分析处理 OLAP(On-Line Analytical Processing)。OLAP 是使分析、管理或执行能够从多角度对进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类技术。OLAP 的目标是满足决策支持或者满足在环境下特定的和报表需求,它的技术是维这个概念3ODMOperation Data M,运营数据模型GIS地理系统 (GIS, Geographic Information System) 是一种基于计算机的工具,它可以将数据位置进行关联成图和分析。 GIS 技术

13、把地图这种独特的视觉化效果分析功能与的数据库操作(例如和统计分析等)集成在一起大数据大数据(big data),或称巨量数据,指的是所涉及的数据量规模巨大到无法透过目前主流 工具, 在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 大数据的 4V特点:Volume、Velocity、Variety、Veracity。传统数据指传统的类统计数据。如话务网统计数据DashBoard(DashBoard),是将多个仪表、图表、报表等内容整合在一个页面上进行显示的工具MPP海量并行处理架构 (Massive Parallel Processing), 代表有:EMC 的

14、Greenplum(基于 Postgresql 的分布式数据库)和 HP 的 Vertica(基于列式的分布式数据库)4总体架构4.1 数据共享平台的数据与计算架构图1 数据共享与计算架构图数据共享平台从数据角度,整体划分为三个逻辑层次:基础数据层(明细数据ODM,大数据明细和传统数据)、数据仓库(维度汇总数据DW)、数据共享层(共享数据临时DS)。数据装载处理:从数据源到数据后,通过不同的装载处理,把数据加载至数据缓冲(STG),以便于数据整合处理。对于数据量比较大的明细数据(信令、话单、DPI 等)将数据分发到多台机器上进行并行 ETL 处理,提高数据4传统数据计算与 大数据计算与传统数据

15、测试工单统计资源用户终端大量明细数据DPI信令话单数据源数据加载数据分发原始数据原始原数原始始数业务传统原始数据数据数据ETL数据关联与整合、加载细粒度统计数据用户粒度统计数据存传统网元级数基础数据层数据库计算并行计算汇总历史数据维度汇总数据数据共享缓存数据共享数据临时数据的处理效率。对于传统数据(告警、业务统计数据、工单等)通过数据加载进行到传统数据缓冲层。数据缓存(STG):对于进入系统的数据进行缓存。目的是出现数据问题时,能够方便数据问题核查、数据补救等。大量明细数据以文件进行缓存,传统数据可以采用文件或数据库方式进行缓存。数据整合处理:完成数据的 ETL 过程。对于大量明细数据,除了基

16、本的 ETL处理,还要从公共资源数据中同步与关联(用户、资源、终端数据)以便于数据聚合处理。对于传统数据,数据种类多,需要通过 ETL 过程得到分析所需要的归一化数据。基础数据层(明细数据ODM):通过分布式海量的、最细粒度、整合关联处理以后的数据,以便于基于明细数据的并行计算,生成各种维度的汇总计算数据。数据聚合处理:通过数据模型进行的分析、汇总与计算。对于大数据的计算结果有两种输出方式:1、大数据的部分计算会与传统的性能具有相同的维度、统计对象,要将这类计算的结果与传统的性能统计相关的数据进行整合,同时输出给维度汇总数据库中。2、大数据计算出的而传统不可能计算得出的数据,如用户行为数据、终

17、端数据、互联网应用业务数据,直接入汇总数据 DW。数据仓库(维度汇总数据DW):长时间数据聚合之后的分析数据,以便于满足数据共享和上层应用的要求。数据共享层(DS):保存需要基于明细大数据进行计算得出的结果数据,用于共享给应用层使用。4.2 数据共享平台的数据与计算技术要求从逻辑上,数据共享平台的数据层次分为四层:一、数据缓存层1、应完成对以下数据的:原始信令码流,XDR 数据,及其它原始性能统计,保存时长 2 天。52、数据缓存层的数据,一方面可以提高接口的健壮性,另一方面还可以通过事后的原始信令跟踪,提供辅助的故障定位和局部优化能力。3、数据的1、2 之要求。二、基础数据层各类数据特性而定

18、,不做强制性要求,但应满足上述1、主要完成信令 XDR 数据以及现有专业长为 30 天。性能统计数据的,保存时2、基础数据层除了完成明细数据的计算功能。之外,还承担了部分的细粒度汇总3、数据的和计算,应基于分布式数据库技术构建,要求具备强大的垂直扩展及横向扩展能力,以便能够适应因业务发展所带来的数据量增长。4、数据加载能力应满足日数据增量的需求,并能够合理配置数据加载时间窗口,以免影响日常的业务应用以及库内计算任务的执行等。5、数据加载能力的设计应考虑到业务峰值及未来扩展等因素,从而预留一定的能力冗余。6、对于业务发用户数。及库内作业运行而言,系统应能够满足至少 300 以上的并7、对于详单级

19、级,原则上绝大部分,在并发任务数小于 50 的情况下,响应时间应在秒响应时间应在 8 秒以下。对于复杂关联(3-5 个表且涉及到大规模表的关联运算),在并发任务数小于 10 的情况下,原则上大部分响应时间应在分钟级。8、应支持运行常用的数据挖掘算法和工具。9、应支持数据导出功能。如果在系统整体方案中,设计由上层数据仓库层接收本层的数据计算结果,本层数据导出能力应满足上层数据装载的性能要求。10、应支持对关键系统资源的合理,以确保对外数据共享的可靠性。应能够对权限和安全相关的操作进行有效。三、数据仓库层1、主要完成维度汇总数据的和计算,时长为 360 天。62、数据仓库层应完成库内汇总计算,并支

20、持各类明细和复杂关联(自定义)功能。3、数据的和计算架构,应兼顾 OLTP 及 OLAP 的需求特点,并要求具备强大的垂直扩展及横向扩展能力,以便能够适应因业务发展所带来的数据量增长。4、数据加载能力应满足日数据增量的需求,并能够合理配置数据加载时间窗口,以免影响日常的业务应用以及库内计算任务的执行等。5、数据加载能力的设计应考虑到业务峰值及未来扩展等因素,从而预留一定的能力冗余。6、对于业务及库内作业运行而言,系统应能够满足至少 1000 以上的并发用户数。7、对于详单级秒级,原则上绝大部分,在并发任务数小于 200 的情况下,响应时间应在响应时间应在 8 秒以下。对于复杂关联(3-5 个表

21、且涉及到大规模表的关联运算),在并发任务数小于 10 的情况下,原则上大部分响应时间应在分钟级。8、应支持运行常用的数据挖掘算法和工具。9、应支持数据导出功能。10、应支持多个应用共享数据并按需求进行有效的,同时应可以做到存储资源、计算资源、I/O 资源灵活按需分配。此外,从用户层面,应能够对权限和安全相关的操作进行有效。四、数据共享层1、主要为 1 周。应用层基于明细大数据的计算需求产生的结果数据。周期2、应支持数据导出功能。如果在系统整体方案中,设计由上层数据集市接收本层的数据计算结果,本层数据导出能力应满足上层数据装载的性能要求。3、应支持对关键系统资源的合理,以确保对外数据共享的可靠性

22、。应能够对权限和安全相关的操作进行有效。74.3数据共享平台的技术架构实现4.3.1 总体技术架构实现数据共享平台采用层次化、松耦合、面向开放共享的技术架构,以支撑丰富的上层应用、便于快速开发实现,同时,利于引入新的应用开发商,兼顾共性与个性,实现“百花齐放、百家”的局面,“多、快、好、省”地推进性能管理的系统建设。数据共享平台层次化、松耦合、面向开放共享的技术架构主要体现在:l以数据装载与数据处理为,形成统一的数据共享平台层,面向应用的实际需求和建模需要,提供标准、一致、完整、统一的数据,减少数据冗余,从最基础层面保障向不同应用供给同类数据的一致性;l数据共享平台中的数据,无论是原始详单数据

23、,还是归一化的基础数据、维度汇总数据,均可通过标准化的共享方式提供给内外部应用使用,使应用开发着眼于现实需求的实现,而非数据本身;数据共享平台技术架构如下图所示:图2 数据共享平台技术架构实现图18数据共享平台技术架构涉及到的有:数据装载、基础数据层、数据仓库、数据共享层四个部分。数据装载:完成数据共享平台南向接入的各种数据源,不同数据源特征不同,应用不同的装载技术,将其加载到基础数据层。通过传统数据 ETL 技术接入传统数据;应用分布式数据装载和数据流接入技术完成 Mc/Gn/Gb/的大量明细数据 XDR 的接入。基础数据层(明细数据ODM):数据共享处理与的部分,大数据与传统数据数据源的上

24、报周期、频率、特征不同,因此分两个通道进行处理。大数据可采用分布式计算及技术(例如:MPP、Hadoop)完成大数据的明细(原始用户的详单数据),根据业务需求定义的数据模型应用并行计算技术,完成各种维度的数据计算与汇总,并将其结果到维度汇总数据中。传统数据采用技术(比如:传统数据库/MPP 等)技术完成对传统数据的,根据业务需求定义的数据模型应用数据库技术完成计算,生成各种维度的数据计算与汇总,并将其结果到维度汇总数据中。数据仓库(DW):数据共享平台的维度汇总数据的较长周期,并向共享层提供数据,采用数据库技术(比如:传统数据库/MPP 等)技术完成支持共享层的各种维度的数据提取与计算。数据共

25、享(DS):面向应用大数据计算需求的临时。数据共享平台技术架构涉及到的模块如下:数据分发及加载:接入数据共享平台南向各种数据源,将数据向三个行分发。把大数据根据一定的关键分发到数据关联整合模块;把传统数据分发给数据 ETL,对此类数据根据数据装载准则进行抽取、转换、加载处理。数据缓存:对于大数据采用分布式文件的方式进行缓存,对于传统数据采用数据库方式缓存。数据关联整合:采用内存计算技术完成大数据的 XDR 与资源、用户、终端等数据的关联,为基础数据层提供正确、全面、准确的最细粒度的数据。数据 ETL:根据数据模型定义的数据抽取、转换准则对传统数据进行处理。大数据明细和传统数据:同基础数据层。9

26、并行计算和数据库计算:根据业务应用需求和数据模型的要求,进行各种维度的数据汇总与计算。维度汇总数据:同数据仓库层。共享数据:同数据仓库层。4.4数据共享平台的系统架构图3 数据共享平台架构图数据共享平台架构由数据装载、数据处理、应用功能、据管理、数据质量管理和系统管理组成。数据处理由数据计算与、数据共享子模块组成。各模块的技术要求参见 4.1、4.2、4.3 的相关章节描述。104.5数据共享平台与周的图4 数据共享平台与周的图根据集团规划,移动提供 4+1 系统,分别是性能管理系统、资源管理系统、网优平台、告警与故障管理系统 4 个系统和运维管理系统。江苏移动根据实际情况,性能管理系统分为数

27、据共享平台和上层应用系统进行建设。数据共享平台从告警与故障系统中获取历史告警数据。并根据业务与功能所要求有性能预警数据提供给告警与故障系统,以便于产生相关的工单,解决数据共享平台发现的潜在的网络与业务质量等方面的问题数据共享平台从资源管理系统中获取资源配置数据、集客业务开通工单、勘察工单等数据,以便于数据共享平台进行数据关联与整合处理。数据共享平台从运维管理系统中获取工单,对工单数据与其他数据进行关联分析与整合处理,提高运维管理系统中工单的处理效率。同时将数据共享平台发现的问题分发到运维管理系统进行任务派单。数据共享平台为网优平台提供 MR 和性能数据,支持网络优化。数据共享平台从 Mc 信令

28、监测、Gn/Gb 数据业务监测获取信令的 XDR;从自动路测、自动拨测系统获取测试数据;从话务、数据、传输11获取告警、性能统计数据;从 BSS 系统获取用户属性、异常话单和投诉数据;从终端库获取终端。5数据装载层技术要求5.1概述图5 数据装载层在总体架构中的位置数据装载层定义了数据从数据到基础数据库中所进行的数据采集、分发、归一化、转换及数据规则。数据装载层的位置如上图中虚线所示,其主要负责从数据获取数据共享平台所需要的原始数据,依据数据来源及类型的不同采用不同的接口适配器进行,然后通过数据分发及加载能力进行处理:1. 对于获取的信令 XDR 数据,经数据关联整合后进入“大数据明细”库或者

29、直接参与数据处理层的并行计算;原始信令码流,可通过的原始信令分发模块将原始信令装载至数据处理层进行短期。2. 对于信令以外的传统通过数据 ETL 过程,进行数据库;数据,经数据分发及加载模块接口获取后及转换后加载到数据处理层的“传统数据”12从数据进行数据抽取、数据转换和数据加载时应该要迅速并尽量减小对数据、网络和数据仓库环境的影响。数据装载层的技术:南向数据源接口适配、实时数据分发、大数据量环境下“数据分发及加载”能力的实现,以及数据 ETL 过程。下文将对上述能力做出详细要求。5.2 装载数据源数据共享平台的至少会涉及 16 类跨专业、跨平台的数据源,数据装载层实现对不同类型、不同数据内容

30、的获取,总结如下表所示:13序号数据内容数据来源接口适配方式1LTE XDR 详单LTE 信令平台WebService+FTP(非实时)2Mc XDR 详单Mc 信令监测系统WebService+FTP(非实时)3Gn/Gb XDR 详单Gn/Gb 数据业务监测WebService+FTP(非实时)4CMNet 上网CMNetWebService+FTP 或/ODBC52G/TD 话务统计数据话务WebService+FTP 或/ODBC6数据统计数据数据WebService+FTP 或/ODBC7传输统计数据传输WebService+FTP 或/ODBC8LTE 话务统计数据话务WebSer

31、vice+FTP 或/ODBC9告警及告警统计数据告警及故障管理系统WebService+FTP 或/ODBC10基础资源数据资源管理系统WebService+FTP 或/ODBC11工单EOMS/网络支撑WebService+FTP 或/ODBC12MR 及相关统计数据无线网优WebService+FTP 或/ODBC13用户属性及话单相关系统WebService+FTP 或/ODBC14路测测试路测WebService+FTP 或/ODBC15拨测测试拨测WebService+FTP 或/ODBC16各类终端终端库WebService+FTP 或/ODBC5.3 数据分发及加载能力要求5.

32、3.1接口适配数据加载层南向要支持以下接口方式:1. 文件接口文件接口须采用 HTTP、FTP 等标准传输协议。要支持 csv/txt/xml 等多种文件格式,的频率需要满足月、日、小时、分钟等多种周期粒度的数据。2. 数据库接口支持通过/ODBC 的方式从数据的数据库表或视图进行数据的抽取,进行抽取时,可以根据数据量大小、网络情况、系统负荷等情况,采用抽取或者增量方式抽取。3. 消息接口消息接口的实现应支持 Web Service 技术、支持 MQ 标准的消息队列技术、支持 socket 技术等。5.3.2插件管理数据装载层的南向适配需支持插件化的方式实现,并提供完善的适配插件管理功能,可通

33、过插件的插拔(新增或卸载)来实现能力的平滑扩展。插件需具备:llllll数据源协议适配负荷管理跨平台部署日志配置管理插件生命周期管理(插件能够态安装、开启、关闭、更新和卸载)等能力此外,系统应具备一些常用的插件,但不限于:ll本地文件获取插件FTP 数据源获取插件14lll数据库数据获取组件数据过滤插件数据分发插件5.3.3 数据分发数据分发功能应支持实时数据分发和非实时数据分发两种模式。实时数据分发指从各信令系统获取的XDR 数据实时透传给数据处理层,用于实时指标计算;非实时数据分发指对的非实时数据源的数据的转发。数据分发应具备以下能力:lll实时数据实时数据过滤分发、过滤规则可配置5.3.

34、4 数据加载缓存数据加载缓存是指获得的非信令类数据在分发过程完成后进行缓存的过程,以供后续的 ETL 过程使用。信令类数据在数据分发过程完成,信令类数据要求有缓存,用于与基础资源数据、终端及用户基础进行关联整合。对该数据加载过程,需具备:llll支持实时装载支持批量数据装载数据获取不能对数据源的系统处理性能和数据安全造成影响;数据加载要求能够对重复数据进行去重处理;对不能加载的错误,要求能够指出错误,在加载文件中的位置和错误的字段等;5.3.5 支持主动检测与补采机制l主动检测15主动检测可检测数据源端数据完整性,检测到数据完整后主动发送触发的消息。主动检测需要具有较高效率,最大限度降低由于检

35、测造成的数据源侧负荷。检测功能主要检测任务生成和检测任务执行。检测任务生成需可配置,可对检测对象、检测周期、经验时间点等参数进行配置。数据装载层支持对指定的数据进行补充的功能,在没有收到数据的情况下,系统可以通过定时的方式进行补采。考虑到当前数据源侧的数据质量的不因素,主动检测应当能够对数据源侧的数据入库时间戳/文件时间戳进行识别,对于变化的数据应当具备重新的能力。也可以通过对数据源侧的数据库日志进行跟踪,感知数据变化从而触发。l数据智能补采根据数据的完整性情况和数据补采策略,能够自动重新发起任务,把数据重新进行,保证数据的完整性,最大限度和数据源侧保持一致。l人工补采在发现到数据整时支持手工

36、进行补采。5.4 数据ETL技术要求5.4.1 通用要求在设计 ETL 时,需要详细计算并考虑 ETL 的处理性能,时间窗口,以及各个ETL 任务在各台物理主机上的分布。需具备统计模块对 ETL 的整个过程进行有效的和统计,提供 GUI界面对 ETL 各个任务的处理情况进行统计和,例如每个 ETL 任务的状态、处理的条数、处理某个任务所用的时间、出错的情况等。165.4.2 数据抽取从数据分发及加载模块获取数据,加载到传统数据缓冲区。数据缓冲区可以采取文件方式或者数据库方式;如果采用数据库方式则需要对临时数据和正式数据。5.4.3 数据数据负责对“脏数据”进行剔除,消除数据的不一致。“脏数据”

37、不规则数据、不符合事实数据,如:取值范围、完整性规则、拼写检查等。对于数据过程要求具备完善的日志功能,日志内容需要数据的,被的数据存放到哪里和被的数。在据管理中已经对数据的基础值域范围进行了描述,数据模块可以从据管理模块中获取相关进行数据处理。5.4.4 数据转换数据转换主要如下三个方面:l统一网据编码,将不同数据源的同一网元的数据集中转换成统一格式编码;ll转换数据类型,对与目标数据类型不一致的数据进行转换;转换数据格式,对与目标数据格式不一致的数据进行转换。在该模块的程序日志中,需要数据转换的和数。数据转换算法应当可被据管理模块识别并。5.4.5 数据加载数据完成转化后通过数据加载加载到传

38、统数据库中。加载后,删除缓冲区中相应数据,并写进日志文件。装载入库策略支持增量入库、入库方式。ll增量入库:只把到的新数据入库;入库:采取把数据库中数据先删除库方式。17数据加载要支持:lll装载日志,加载数和加载时间戳;装载;装载异常管理:装载数据晚到时要求采用后补数据的流程启动运行。晚到的数据直接触发后补数据流程,数据重新计算后再进行后续过程。5.5数据关联整合及归一化处理对于获取的原始信令 XDR 数据,在被装载到数据处理层的大数据库之前,进行相应的数据,然后结合传统及数据提供的基础资源(:用户、GSM 资源、TD 资源、LTE 资源、URL 资源、APP 资源、终端资源等)进行数据转换

39、过程(如资源回填及关联整合等 ID 统一、数据格式转换、数据类型转换动作),形成格式标准的详单数据,通过数据批量并行加载至大数据库。图6 数据共享关联整合及归一化处理5.6 数据装载层管理能力要求数据装载层需要发起大量的任务,并会启动后续的转换、加载等任务,要求该层具备完备的任务管控能力。:ll任务任务调度18l可视化管理5.6.1 任务数据装载层应当具备对当前系统已经执行和正在执行的各项、转换、装载等任务的能力,即可以通过可视化的界面对各任务的启动时间态、执行结果、结束时间等进行实时。应当能够对任务队列深度进行,当出现异常应当能够给出相应告警。对于执行不的任务应当详细日志,并给出相应的告警。

40、5.6.2 任务调度任务调度能够对各类任务进行配置、启动、跟踪。同时,具备任务联动能力,即可以将多个任务通过流程组装成一个联合任务,各任务之间相互制约,任务调度管理能够根据各任务的态、结果来自动的启动后续任务,任务间并发及串行两种模式。要求各任务的配置应当为可视化的配置。对于任务启动至少定时启动和条件启动两种模式。同时管理员进行任务的手动执行。5.6.3 可视化管理数据加载层应当具备可视化的配置管理能力,即可以通过图形化界面对不同的数据源选择不同的适配器进行,并对不同的数据源根据实际需要,可视化的配置需要的数据范围和相应的约束条件。对于数据源侧的数据配置应当从据库中获取被侧据,并在模块的配置界

41、面中通过可视化界面进行范围的选取。数据加载层需提供管理界面,可基于该界面,完成如下功能:l资源:直观查看任务的运行状态包含任务资源占用情况,服务器资源使用情况等19ll属性配置:要求可对各类数据源的相关属性配置进行。属性配置修改:要求可对各类数据源的相关属性配置进行修改。5.7数据装载层据管理数据装载层应基于据来运行,在数据共享平台的据管理模块配置并驱动任务的运行数据装载过程。据管理需遵从江苏移动集中性能管理系统数据共享平台据管理规范。5.7.1据配置数据加载层中对于对象及其属性的配置在据管理中进行配置。相关配置,并不限于以:ll文件的数据结构描述。字段、字段顺序等文件字段的数据结构描述。字段

42、长度、精度、范围、是否可空等l文件字段是否参与后续计算。根据据端到端的配置,如果相关字段并不参与后续计算,可在数据加载层进行过滤不传至数据处理层。5.7.2据驱动在过程中,根据据中定义的数据结构进行动态任务的生成。将原始数据按照配置的数据格式进行与加载,并交由后续数据处理层进行数据计算和。5.8 数据质量管理数据装载层需要对及转换、加载过程中的数据质量进行管理和。对数据质量进行量化的测量,实现数据质量评价,具体要求参见江苏移动集中性能管理系统数据共享质量管理规范。6数据处理层技术要求数据处理层主要数据处理、数据以及支撑数据共享等功能。通过标20准化的逻辑模型完成数据仓库中数据的功能,并通过数据

43、挖掘等技术,进行数据,形成和知识,为外部数据需求提供数据服务,内部的应用提供各种数据和,满足上层业务应用需求。6.1 数据处理层技术架构图7 数据处理技术架构图数据共享平台的数据处理基础数据、数据仓库、数据集市,实现了大数据和传统数据的,从而满足应用层不同的业务需求,并通过数据共享模块满足外部业务对数据的需求。依据数据来源与类型的不同,数据处理层采用的技术有:并行计算、数据库计算。并行计算:并行计算是指同时使用多种计算资源解决计算问题的过程。并行计算的主要目的是快速解决大型且复杂的计算问题,主要有以下计算特征:uuu将计算任务分离成离散部分,有助于同时解决;随时并及时地执行多个程序指令;多计算

44、资源下解决问题的耗时要少于单个计算资源下的耗时。在数据处理时并行计算主要体现在数据从基础数据层的大数据明细向维度汇总数据汇总、计算的过程。大数据明细主要保存关联整合后的话单数据、信令数据、DPI 数据等大数据,以及传统的资源、终端、用户等基本,总体数据量非常大,用普通的计算,远远不能满足数据的计算需求,数据时效。并行计算技术很解决了大21数据的处理、计算的时效问题,及时汇总明细数据,为数据仓库层提供维度汇总数据,以便快速的响应业务需求,支撑上层应用。数据库计算:数据库计算是指利用数据库本身的计算能力,进行数据的ETL 过程,主要指型数据库。型数据库主要通过 SQL 来实现计算能力,可以通过自身

45、的过程进行数据计算,也可以通过脚本进行数据处理的封装,实现数据处理,如 Perl 脚本、shell 脚本等。数据处理时的数据库计算主要体现在数据从传统数据明细向维度汇总数据汇总、计算的过程里,主要有以下过程:u 数据抽取从传统数据里获取数据,为后续的转换提供数据基础。数据抽取方式采用数据库直连的方式。u 数据转换已经抽取出来的目标数据,进行数据转换。u 数据装载对已经转换后的数据装载至数据仓库层中。6.2基础数据层设计要求6.2.1 基础数据层基本内容基础数据层主要大数据明细和传统数据明细两部分。l大数据明细大数据明细主要保存关联整合后的话单数据、信令数据、DPI 数据等大数据,以及传统的资源

46、、终端、用户等基本,大数据明细层为后续的数据汇总计算提供数据基础,并可以根据具体业务需要,对应用层进行支撑,提供明细数据的等。大数据明细数据按照最细粒度进行。l传统数据明细传统数据明细主要各专业数据、路测数据、拨测数据等,为后续的数据汇总计算提供基础。同时大数据明细经过计算后的与传统相关的各种性能统计数据,根据实际业务需求,也可以进传统数据明细层,供后续数22据汇总分析使用。传统明细数据按照最细粒度进行。6.2.2 基础数据层建模要求1)参考 SID中分域的建模,构建基础数据层模型的域。采用 NGOSS提出的自顶向下逐步分解的,抽象出各域管理的主要实体;同时在数据上参照 CMOSS2.0 的数据规划;2) 应用实体-建模,以实体、属性和为组织单元,构建和表示数据模型;3) 满足第三范式做为模型的设计准则;详细建模要求见“数据共享建模规范”相关章节。6.3 数据仓库层设计要求6.3.1 数据仓库层基

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论