综合分析系统技术规范元数据管理分册_第1页
综合分析系统技术规范元数据管理分册_第2页
综合分析系统技术规范元数据管理分册_第3页
综合分析系统技术规范元数据管理分册_第4页
综合分析系统技术规范元数据管理分册_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中国移动综合分析系统技术规范-元数据管理分册业务需求版本号:V2.0.0中国移动通信有限公司2010-06前 言本技术方案由中国移动通信有限公司提出并归口。本方案起草单位: 中国移动通信集团公司网络部本方案主要起草人: 唐世萍、邱佳、沈萌、赵佳、陈燕琦、姚旭、方胜、孔祥凯、刘鸣东、丁朝阳、李荣盛等本方案解释单位:中国移动通信集团公司网络部目 录1范围62引用文件73术语和缩略语83.1术语83.2缩略语84元数据管理104.1元数据管理范畴10元数据的定义10元数据管理目标10元数据管理范畴11元数据管理内容12数据源端元数据13ETL元数据13数据仓库元数据14OLAP元数据14上层应用元数

2、据144.2元数据管理模块体系架构15功能架构15元数据获取层16元数据存储层17元数据功能层17元数据应用层17技术架构174.3元数据管理模块主要功能19元数据基本功能19元数据的基本维护19元数据变更管理19元数据查询20元数据统计20元数据质量管理204.3.1.5.1.元数据一致性检查204.3.1.5.2.元数据关系健全性检查204.3.1.5.3.元数据属性检查21元数据权限管理22元数据分析功能224.3.2.1血统分析22影响分析22数据映射分析23差异分析23实体关联分析234.4元数据管理模块对外接口23外部元数据读取接口23外部元数据写入接口24元数据对外服务接口254

3、.5用元数据的模块周边接口图274.6元数据管理模块技术要求28元数据获取28元数据获取方式28元数据自动获取管理功能29SQL脚本自动解析304.6.1.3.1.SQL解析功能过程304.6.1.3.2.SQL脚本标准规范31元模型维护管理34元数据管理模块系统集成34系统集成35界面集成35功能集成35数据集成354.7附录一 元模型管理36元模型概述36CWM模型概述36综合分析系统元模型36基础层元模型374.7.3.1.1.对象模型包374.7.3.1.2.基础服务包38采集转换层元模型41数据层元模型434.7.3.3.1.数据仓库元数据434.7.3.3.2.数据仓库管理元数据4

4、3访问层元模型444.7.3.4.1.OLAP包454.7.3.4.2.数据挖掘包454.7.3.4.3.信息可视化包46其他可选元模型474.8附录二 FAQ47数据订阅为何不纳入元数据管理?47为何没有相关元模型分册?47为何管理元数据本期暂不考虑?47附图目录附图1.CWM对象模型层的主要内容15附图2.CWM的基础层元模型16附图3.数据挖掘元数据领域关联图23附图4.综合分析系统元数据管理模块功能结构图25附图5.综合分析系统元数据管理模块技术结构图27附图6.综合分析系统元数据管理模块边界接口图28附图7.元数据获取方式图29附图8.SQL脚本自动解析获取元数据过程32附图9.元数

5、据服务接口技术实现图401 范围中国移动综合分析系统技术规范,定义中国移动综合分析系统的系统架构、关键技术、逻辑模型、源系统接口、元数据与数据质量管理、系统管理与安全管理和技术要求。2 引用文件下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。3 术语和缩略语3.1 术语下列术语、定义适用于本规范:术语代码术语名词术语解释服务台也称为帮助台,IT服务管理与用户的接口,受理并处理用户的服务请求。

6、事件管理和帮助台一起组成事件处理流程,有效解决各类IT突发事件,尽快恢复IT服务。问题管理寻求IT故障的根源,解决存在问题的流程,能消除或减少IT事件的发生。配置管理管理各IT资产系统(配置元素,CI)的流程,包括相互间的关联与依赖关系。变更管理对变更请求进行记录、跟踪与管理的流程,消除或减少IT变更对生产环境和系统的影响和风险,保证变更的平稳运行。监控管理完成对平台部件、应用的统一监控、统一维护,包括集中监测和故障定位与管理。运维管理包括帮助台/事件管理,配置管理,问题管理和变更管理等流程,作为业务支撑网网管分阶段实施所建议的第一阶段。服务管理业务支撑网网管分阶段实施所建议的第二阶段,在企业

7、的IT环境中了解业务的IT服务级别需求,以此定义双方同意的服务级别,并通过标准的流程进行服务级别的监视,汇报和改进,最终实现量化管理, 实现连续的质量改进循环,把IT部门建设成为真正的服务中心。3.2 缩略语下列缩略语适用于本规范:缩写英文描述中文描述RESTRepresentational State Transfer表述性状态转移XMIXML Metadata InterchangeXML元数据交换OLAPOn-line Analysis Process在线分析处理ETLExtraction Transformation Loading抽取、转换和加载DWData Warehouse数据仓

8、库CWMCommon Warehouse Metamodel公共仓库元模型4 元数据管理4.1 元数据管理范畴4.1.1 元数据的定义元数据是描述数据的数据(data about data),主要是描述数据属性(property)信息,用来支持如指示数据来源、数据类型、数据有效期和有效性等属性的管理和应用等功能。元数据的描述范畴包括领域概念(Domain Concepts)、领域关系(Domain Roles)、领域规则(Domain Rules)的、领域语义(Semantics)和知识(Knowledge)。4.1.2 元数据管理目标中国移动的OSS2.0的数据管控体系(DMA)规划中对数据

9、管控提出了数据要透明、数据质量可评估、可建立数据质量考评体系、数据可管理四大管理要求。综合分析系统通过引入元数据管理来实现数据管控体系(DMA)中的数据要透明和可管理的要求,同时为建立数据质量考评体系和数据质量可评估提供支持。元数据管理的具体目标包括:1. 实现元数据的全程统一管理把分散在不同系统、不同工具、不同人员中的元数据信息进行统一管理,实现数据从业务层至技术层的全面贯通。具体至综合分析系统,要完成系统的采集平台、ODM-DB、ETL、数据仓库、OLAP、应用和呈现整个过程的元数据管理;从而使得技术人员和业务人员可以统一地对综合分析系统中的元数据进行维护、监督、探查和实现元数据的调用。2

10、. 实现数据透明管理要求通过对数据源定义、目标定义、转换规则等相关的关键信息的管理,达到数据透明的管理目标,具体包括的数据结构透明、数据含义透明、数据转换规则透明等。3. 为数据质量管理和考评提供支持 为数据质量管理体系架构中的功能层和应用层提供信息支撑。以元数据管理为基础建立数据质量监控模块,进行综合分析系统数据质量的全程监控。4. 为综合分析系统系统提供基础信息支撑,提升系统的可用性、易用性通过对系统元数据的有效维护管理,以及全面的服务接口的提供,能够使综合分析系统的应用范围能到扩展。随着不断完善和扩充元数据对外服务接口内容,使综合分析系统有能力实现向外部模块或子系统提供元数据内容和元数据

11、分析服务。4.1.3 元数据管理范畴元数据管理的最终目标是实现对OSS2.0支撑体系涉及的所有元数据的管理,实现整个OSS2.0支撑体系融入式的元数据管理。系统采用分步策略实现向最终目标的演进。现阶段元数据管理的范围只限于管理综合分析系统的元数据,具体管理的内容包括数据仓库元数据元数据、ETL过程、OLAP模型和综合分析系统指标、报表元数据等。综合分析系统的元数据分类可以划分为三类元数据:技术元数据、业务元数据。这两种元数据的具体描述如下:1. 技术元数据 技术元数据是描述综合分析系统中技术领域相关概念、关系和规则的数据,主要包括对数据结构、数据处理方面的特征描述,覆盖综合分析系统数据源接口、

12、数据仓库与数据集市存储、ETL、OLAP、数据封装和前端展现等全部数据处理环节;对于技术元数据,需要包括以下信息:(1)数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容;(2)业务系统、数据仓库和数据集市的体系结构和模式;(3)汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告;(4)由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则。2. 业务元数据 业务元数据从业务角度描述了综合分析系统中的数据,它提供了介于使用者和实际系统之间的语义层,使得业务使用人员不

13、需要了解技术实现原理,也能够明白综合分析系统中的数据脉络和数据定义。业务元数据需要包括以下信息:(1)使用者的业务术语所表达的数据模型、对象名和属性名;(2)访问数据的原则和数据的来源;(3)系统所提供的分析方法以及公式和报表的信息。附图1. 综合分析系统元数据管理范畴4.1.4 元数据管理内容综合分析系统的数据来源于不同的业务系统中,不同的业务系统使用不同的工具集成,元数据分布在各种工具中,依据不同的来源,根据综合分析系统元数据涉及的环节可分为ETL元数据、数据仓库元数据、OLAP元数据、相关业务元数据等。4.1.4.1 ETL元数据ETL过程中的元数据,主要偏向于技术元数据,应纳入元数据管

14、理的范畴。管理的ETL产品应包括“第三方ETL产品”和“自主开发ETL产品”。“第三方ETL产品” 是指非综合分析系统应用软件开发商或集成商自己开发的,以软件产品形式在市场上销售的且占有较大市场份额的通用ETL产品。例如:ODI、SSIS、DataStage等。“自主开发ETL产品”,是指由综合分析系统应用软件开发商或集成商自己开发的具有ETL功能的软件。在综合分析系统中,ETL元数据来源于ETL工具和ETL处理过程,包括:1) ETL映射规则2) ETL单元:ETL 作业名称、存储过程名称、输入数据集、输出数据集3) ETL流程:开始ETL单元、下一单元、结束单元4) ETL装载记录:ETL

15、流程开始时间、ETL单元开始时间、流程结束时间,单元结束时间4.1.4.2 数据仓库元数据ODS元数据和DW元数据均属于数据仓库元数据,是数据仓库系统的核心元数据。数据仓库系统RDBMS进行数据的存储和管理,设计模型采用星型模式、雪花模式等,遵循数据仓库的设计准则,实现主题、维、度量等多维模仿概念模型。1) 数据仓库逻辑模型:实体名称、属性名称和类型、关系2) 数据仓库物理模型:数据库名称、模式名称、表、字段、主键、外键、索引、分区4.1.4.3 OLAP元数据1) 维度:维名称、维元素、钻取路径、级别2) 度量:度量名称、格式、计算公式3) Cube:维度、度量、数据量4) 星型模式:事实表

16、、维表、汇总表4.1.4.4 相关业务元数据业务元数据包括业务术语、业务描述、业务指标以及业务规则等相关信息,系统中涉及到的指标、报表、维度数据以及编码都属于业务元数据的范围。业务元数据可以根据具体的业务发展进行持续定义和维护管理。业务元数据和技术元数据之间的映射关系也属于元数据的管理范围,在综合分析系统中,体现在语义层的数据业务含义与逻辑层、物理层的技术数据实体之间的关联关系。例如一个KPI指标在数据仓库中所对应的库表、字段以及相应的转换过程。4.2 元数据管理模块体系架构本章节对元数据管理系统体系架构做出要求和描述,主要包括功能结构和技术架构。4.2.1 功能架构描述元数据管理模块体系架构

17、,可包括元数据获取层、元数据存储层、元数据功能层和元数据应用层,如附图2所示。附图2. 综合分析系统元数据管理模块功能结构图4.2.1.1 元数据获取层从各专业网管系统、相关源系统、BI工具和业务资源中获取元数据;要求支持手工和自动获取两种方式。对于自动获取方式提供适配器管理,并能够提供SQL解析和API接口抽取元数据等功能。对元数据手工获取提供与各种元数据相适应的元数据手工录入功能支持。4.2.1.2 元数据存储层从获取层得到的各类元数据存储在存储层的元数据库中,存储的元数据包括业务元数据、技术元数据和管理元数据。4.2.1.3 元数据功能层元数据功能层为前端元数据应用提供了基本的功能支撑,

18、主要包括元数据基本功能、元数据分析功能、元数据服务接口和元数据权限管理等。4.2.1.4 元数据应用层在元数据管理模块功能层的支持下,元数据应用层通过对功能层的功能调用,可以针对业务面临的实际问题提供应用解决方案。如报表管理、包含指标管理和数据质量管理等。4.2.2 技术架构元数据管理模块的技术结构对内要求具有良好扩展性,以及能力公开的特性。对外要求提供方便的集成方式,其前端界面需要集成到综合分析门户中。元数据管理模块的技术结构如附图3所示。附图3. 综合分析系统元数据管理模块技术结构图在上图中,元数据、元模型和相关配置信息统一存储在关系数据库中。其中的元数据信息通过数据对象映射,转换成满足C

19、WM规范的数据对象,为元数据获取组件和功能组件提供面向对象的数据存取服务。元数据获取的数据源包括数据处理过程、ER逻辑模型、OLAP对象和数据库对象等。元数据获取组件为元数据自动获取提供了一个可扩展的框架。在该框架中,可以针对每种不同的数据源,提供专用的元数据获取适配器。例如,对于数据处理元数据,可以提供SQL脚本解析器。元数据功能组件包括元数据的管理和应用的基础功能组件。例如对血缘分析、影响分析、元数据检索和差异比较等功能。元数据功能组件为元数据应用所调用,同时通过REST风格的Web服务实现元数据访问接口的封装,对外提供元数据公开访问功能。要求元数据支持通过Portlet和IFrame等方

20、式集成到综合分析系统中。此外,元数据管理模块还要包括调度控制、流程控制和权限管理等基础控制功能,为元数据应用组件、功能组件和获取组件的有机配合提供支持。附图4. 元数据管理从系统各模块:数据采集、ODM、DW等中获取元数据信息附图5. 元数据管理系统作为数据质量管理系统的依据,指导数据质量管理系统评价数据质量附图6. 元数据管理系统提供指标库数据供页面呈现附图7. 元数据管理系统通过API接口调用向外部暴露数据附图8. 安全模块获取元数据的指标敏感度描述附图9. 元数据为DW数据的有效期管理提供指导4.3 元数据管理模块主要功能本章节对元数据管理模块自身具备的功能做出要求和描述,主要包括元数据

21、基本功能和元数据分析功能。4.3.1 元数据基本功能本章节对元数据管理模块基本功能做出要求和描述,主要包括元数据基本维护、元数据变更管理、元数据查询、元数据统计、元数据质量管理和元数据权限管理。4.3.1.1 元数据的基本维护元数据维护提供对元数据的增加、删除和修改等基本操作。对于元数据的增量维护,要求能保留历史版本信息。元数据的维护操作是原子操作,这些原子操作可通过服务封装的形式向综合分析系统的其它模块提供元数据维护接口。4.3.1.2 元数据变更管理元数据变更管理包括变更通知和版本管理两个部分。变更通知是当元数据发生改变时,系统自动发送信息(邮件、短信)给订阅用户。用户可以主动订阅自己关心

22、的元数据,帮助了解与自身工作相关的业务系统变更情况,提高工作的主动性。版本管理是对不同时期进入元数据库的同一实体的元数据进行管理。要求的基本功能是能够显示同一实体的元数据的修改历史。另外还提供版本差异分析和版本变更分析等。并且能够进行单个元数据版本的恢复。元数据变更还要满足元数据管理流程上的约束(注:具体流程由EOMS系统承载,未来考虑综合分析系统与EOMS系统的流程对接,本期工程暂不考虑)。4.3.1.3 元数据查询对元数据库中的元数据基本信息进行查询的功能,通过该功能可以查询数据库表、维表、指标、过程及参与的输入输出实体信息,以及其它纳入管理的实体基本信息,查询的信息按处理的层次及业务主题

23、进行组织,查询功能返回实体及其所属的相关信息。元数据查询功能要求支持对历史版本信息的查询,以了解具体实体的历史变更情况。4.3.1.4 元数据统计元数据统计是指用户可以按不同类别进行元数据个数的统计。方便用户全面了解元数据管理模块中的元数据分布,该统计功能可以按元数据类型、元数据创建者和元数据的版本号来进行统计。4.3.1.5 元数据质量管理元数据管理模块应具备对元数据本身质量进行检查的功能。元数据质量检查包含但不限于以下内容:元数据一致性、元数据关系的健全性、元数据属性的填充率、元数据名称重复性、元数据关键属性的填充率和元数据关键属性值的唯一性。对于以上检查结果,元数据管理模块可生成详细的检

24、查报告,并能够支持相关人员对检查报告的检索和查找,能够把指定的检查报告导出成Excel、PPT等更易于阅读的文档。4.3.1.5.1. 元数据一致性检查一致性检查主要是指从运营分析系统中抽取元数据,并与元数据库的对应信息进行比较,及时发现运营分析系统的应用变更,保证元数据的及时更新。一致性检查包括两种方法:自动检查和人工检查。自动检查:是指对于需要检查的元数据,利用API或其它形式接口对综合分析系统中的元数据进行直接查询访问,获得相应的元数据,然后进行比较,从而确定相应的元数据是否保持同步。人工检查:是指对于无法进行自动检查的元数据,需要在综合分析系统与元数据库之间进行人工比较,从而确定相应的

25、元数据是否保持同步。人工检查可以分为不定期人工检查和定期人工检查。在一致性检查发现差异时,原则上不能直接修改元数据库中的元数据,而是给出各类元数据的差异报告,结合元数据变更管理流程,并由元数据管理员确认并审核后,利用元数据维护工具进行元数据的更新。4.3.1.5.2. 元数据属性检查元数据属性检查是对元数据库中实体属性详细信息方面的检查,包括元数据属性填充率检查、元数据名称重复性检查和元数据关键属性值的唯一性检查等。对于元数据属性填充率检查,省公司可以根据自己的建设情况,抽样检查部分重要属性,原则上必须涵盖实体的关键属性。对于元数据名称重复性检查,要求涵盖指标、维度、接口、数据库表、存储过程和

26、ETL处理过程等重要类型的实体。4.3.1.6 元数据权限管理元数据模块的权限管理负责元数据管理功能的权限分派、审批以及访问日志记录,实现对元数据管理模块的数据访问和功能的使用进行有效监控。元数据管理模块的权限管理工作应纳入综合分析系统中统一管理。4.3.2 元数据分析功能本节详细描述了综合分析系统元数据管理模块功能层的各个分析功能。本章节对元数据管理模块分析功能做出要求和描述,主要包括元数据血统分析、元数据影响分析、数据映射分析、差异分析和实体关联分析。4.3.2.1 血统分析血缘分析(也称血统分析)是指从某一实体出发,往回追溯其处理过程,直到综合分析系统的数据源接口采集层。对于不同类型的实

27、体,其涉及的转换过程可能有不同类型,如:对于底层仓库实体,涉及的是ETL处理过程;而对于仓库汇总表,可能既涉及ETL处理过程,又涉及仓库汇总处理过程;而对于指标,则除了上面的处理过程,还涉及指标生成的处理过程。数据源接口实体由源系统提供,作为综合分析系统的数据输入,其它的数据实体都经过了一个或多个不同类型的处理过程。血缘分析正是提供了这样一种功能,可以让使用者根据需要了解不同的处理过程,每个处理过程具体做什么,需要什么样的输入,又产生什么样的输出。为实现血缘分析,对于任何指定的实体,首先获得该实体的所有前驱实体,然后对这些前驱实体递归地获得各自的前驱实体,结束条件是所有实体到达数据源接口或者是

28、实体没有相应的前驱实体。血缘分析应能够以图形的方式展现所有实体和处理过程。4.3.2.2 影响分析影响分析是指从某一实体出发,寻找依赖该实体的处理过程实体或其他实体。如果需要可以采用递归方式寻找所有的依赖过程实体或其他实体。该功能支持当某些实体发生变化或者需要修改时,评估实体影响范围。影响分析应能够以图形的方式展现所有实体和关联关系。4.3.2.3 数据映射分析用户能够查看数据处理程序内部的映射关系,了解数据加工过程的细节。以图形展现数据的处理过程。4.3.2.4 差异分析实体差异分析是对元数据的不同实体进行检查,用图形和表格的形式展现它们之间的差异,包括名字、属性及数据血缘和对系统其他部分影

29、响的差异等。4.3.2.5 实体关联分析实体关联分析是从某一实体关联的其它实体和其参与的处理过程两个角度来查看具体数据的使用情况,形成一张实体和所参与处理过程的网络,从而进一步了解该实体的重要程度。本功能可以用来支撑需求变更影响评估的应用。对于关系数据表,可以分析与某个表有关的实体或处理过程,查看具体数据的使用情况,从而判断该表的重要程度。该功能有助于寻找数据库中关键表和冗余表,为系统调优提供支持。4.4 元数据管理模块对外接口本章节对元数据管理模块与其他系统的数据传输接口做出要求和描述,主要包括元数据读取接口、写入元数据接口、元数据调用接口、元数据应用二次开发接口和省部接口。4.4.1 外部

30、元数据读取接口要求元数据系统能够自动读取第三方工具软件中的元数据信息,对于采用自动获取方式获取的元数据,元数据管理模块需要提供相应的读取接口。这些自动获取功能可以划分为如下几类:u XMI接口对于DataStage和PowerCenter等ETL工具,IBM DB2 Warehouse Manager,Oracle Warehouse Builder Repository等数据仓库管理工具,Oracle OLAP Server等OLAP工具和其它兼容CWM的前端展现工具可以通过XMI接口自动获取元数据。u 数据库访问接口对于数据库对象,例如Oracle等DBMS中的数据库表、视图、字段和存储过

31、程等,要求支持通过ODBC/JDBC等数据库访问接口自动获取元数据。u 工具API接口对于ERWIN、PowerDesigner等建模工具,Business Object Reporter等前端展现工具,Essbase/IBM DB2 OLAP Server、DB2 Cube Views、Cognos和SAS OLAP Server等OLAP工具,要求使用该工具特定的元数据访问接口自动获取元数据。u SQL解析对于DataStage中的源定义SQL语句,Essbase中的Rule文件映射SQL语句和数据处理运行日志中的SQL语句,要求通过SQL自动解析的方式获取元数据。而TCL脚本程序要求通过

32、TCL脚本自动解析的方式获取元数据。元数据读取接口随实现元数据获取方式的改变而增加或减少,本章节于本文章节互为参考。4.4.2 外部元数据写入接口要求元数据管理模块支持元数据的写入,具体可分为两种形式:l 系统运维人员通过手工的方式将元数据批量导入元数据存储库。要求以文件形式提供元数据系统的元数据整理模版,例如Excel文件。系统运维人员可以将元数据基本信息、元数据属性信息和元数据关联关系在模版中进行整理,并一次性批量导入元数据库。l 元数据模块自动获取第三方工具中的元数据。关于以上元数据的手工获取、自动获取部分,可参见本文档章节元数据获取部分内容。4.4.3 元数据对外服务接口元数据管理模块

33、通过API实现元数据对外服务,供外部系统对元数据进行调用。要求元数据管理模块提供数据调用API,整套API可以基于Java RMI等传输协议实现。外部系统通过所提供的API方法能够实现元模型、元数据及元数据基本功能的调用。要求通过API的内容包括:ü 元模型调用与管理,元模型的增加、删除、修改、查询、读取等操作可以通过API实现。ü 元数据的调用,元数据的增加、删除、修改、查询、读取等操作可以通过API实现。ü 元数据基本功能的调用,提供血统分析、影响分析、差异分析等图形化分析功能的对外调用。4.5 用元数据的模块周边接口图附图10. 综合分析系统元数据管理模块边

34、界接口图附图11. 元数据管理从系统各模块:数据数据源、ODM、DW、ETL、OLAP、上层应用等中获取元数据信息附图12. 元数据管理系统作为数据质量管理系统的依据,指导数据质量管理系统评价数据质量,主要体现为数据的完整性、准确性和关联一致性等附图13. 元数据管理系统提供指标库数据供页面呈现附图14. 元数据管理为综合分析系统的即席查询功能提供了基础。即席查询功能利用元数据中存储的业务元数据和技术元数据,生成后台数据查询所需的SQL语句,得到最终的查询结果。附图15. 元数据管理系统通过API接口调用向外部暴露数据附图16. 安全模块获取元数据的指标敏感度描述,为安全管理模块提供数据支持1

35、. 元数据为DW数据的有效期管理提供指导,为实现数据自动删除提供数据支持2. 综合分析系统的指标关联分析模块基于元数据管理的指标关联模型等元数据信息,获得不同指标之间的关联关系,查询出某一指标关联的指标集,进行相关指标的分析。4.6 元数据管理模块技术要求本章节对元数据管理模块技术能力做出要求和描述,主要包括元数据获取、元模型的管理和元数据管理模块集成。4.6.1 元数据获取4.6.1.1 元数据获取方式综合分析系统元数据方式划分为两类:l 自动获取对于部分能提供专用的或者标准的元数据获取接口的实体,例如数据仓库和数据加工工具等,元数据管理模块可以利用这些接口自动抽取元数据。对于数据处理过程中

36、的SQL脚本等数据处理过程脚本程序,元数据管理模块可以通过编译技术自动获取数据处理元数据。l 手工获取对于无法通过获取接口或者编译技术进行自动获取的元数据,需要通过手工整理的方式进行处理。元数据自动获取和手工获取两种方式都可以将元数据写入到XMI或EXCEL文件,再将这些文件提交到元数据管理系统中。如下图所示:附图17. 元数据获取方式图元数据管理模块需要针对各类元数据提供相应的元数据导入文件模板。在导入文件模板中规定元数据类型、属性和关系等信息的填写格式,以及新增、修改和删除操作的标记方法。元数据管理模块应支持XMI文件和EXCEL文件两种导入文件模板。采用手工获取方式获取的元数据,元数据模

37、块需要根据各自元数据的特征提供相应的元数据手工录入功能。4.6.1.2 元数据自动获取管理功能元数据自动获取的数据来源分布在数据源系统、数据处理过程、数据仓库、前端展示工具以及各种工具等实体中。为了加强对元数据自动获取的管理,元数据管理模块需要提供元数据自动获取管理的功能支持。元数据自动获取管理应涵盖五个方面的功能:l 元数据自动获取数据源管理要求元数据管理模块对元数据获取数据源以及这些数据源之间的关系进行集中登记管理,形成自动获取数据源的全局视图,以促进元数据自动获取日常管理的规范化。l 元数据获取能力管理元数据管理模块需要建立元数据获取能力的扩展框架。在该框架下,可以针对系统中各种元数据获

38、取数据源的特点,通过增加元数据获取适配器的方式,扩展相应的元数据自动获取能力。l 元数据自动获取调度管理要求元数据管理模块对元数据的自动获取提供持续稳定的调度支持,能够按预设的调度策略触发相应的元数据自动获取过程。要求提供元数据自动获取调度策略的统一配置管理功能,以满足元数据自动获取在时效性和获取时机等方面的需要。调度策略应支持时间周期触发和事件触发两种方式。例如,在每周星期一凌晨00:00到01:00之间触发数据仓库元数据的自动获取过程,或者在数据处理程序更新后12小时内触发相应的映射关系元数据自动获取过程。l 元数据生成和入库策略管理元数据的自动生成和入库需要满足以下要求:Ø 元

39、数据命名策略应确保元数据命名的确定性和唯一性。Ø 元数据组织方式应确保元数据关联关系和存放路径的合理性。Ø 元数据入库策略应确保自动生成的元数据与存储库中元数据之间不会出现错误的覆盖和冗余。要求元数据管理模块提供元数据命名策略、组织方式、增量入库和全量入库策略的配置管理支持。l 元数据自动处理过程和相关日志的管理元数据自动处理过程和日志管理功能需要满足以下要求:Ø 能够为各种元数据自动获取数据源配置适应的处理流程和环节。Ø 各个环节的处理关键信息和异常信息需要写入元数据获取日志。要求提供日志查阅和审计功能,并对异常信息提供告警功能。4.6.1.3 SQL

40、脚本自动解析4.6.1.3.1. SQL解析功能过程SQL脚本中所含的元数据属于数据处理的技术元数据。SQL脚本自动解析功能通过对SQL脚本的词法、语法和语义分析,生成满足CWM规范要求的数据处理元数据。SQL脚本自动解析获取元数据的过程可以分为数据处理日志生成、SQL解析处理和数据处理元数据生成三个主要环节,如下图所示:附图18. SQL脚本自动解析获取元数据过程要求按规定格式将每条提交数据库执行的SQL语句写入数据处理日志中。SQL解析器从数据处理日志中提取SQL语句进行词法语法分析,对每条SQL语句生成对应的抽象语法树。数据处理元数据生成环节对每条SQL语句的抽象语法树进行语义分析和语法

41、制导翻译,生成满足CWM规范的数据处理元数据。4.6.1.3.2. SQL脚本标准规范对于需要进行SQL解析的脚本,应是符合一定标准规范的脚本,按照标准的格式输给SQL解析器;在进行元数据解析前,需要对脚本检查是否符合标准。SQL脚本自动解析功能所处理的SQL语句来源于数据处理日志。为了满足自动处理的需要,下面明确生成数据处理日志的相关要求。ü 需要在日志中记录SQL语句的数据处理过程在综合分析系统中,所有需要通过SQL脚本自动解析功能获取元数据的数据处理过程,包括数据库存储过程、数据库函数、Shell脚本程序、ProC脚本程序和Java程序等,都需要将提交到数据库执行的所有SQL语

42、句按规定格式写入数据处理日志。ü 数据处理日志的两种存储方式综合分析系统可以采用如下两种方式存储数据处理日志:ü 日式文件方式,以文本文件存放日志内容;ü 日志表方式,以数据库表存放日志内容。数据处理日志需要确保足够长的存储周期,以满足SQL脚本自动解析的处理需要。ü 日志文件方式的具体要求l 数据处理过程在每次运行时,需要生成一个的日志文件。同一个数据处理过程每次运行所生成的日志文件应存放在同一个目录下;l 每个数据处理过程需要有固定的日志文件命名规则,以便SQL脚本解析功能确定数据处理过程与日志文件之间的对应关系;l 日志文件的字符集应该与UTF-8和GBK兼容;l 日志文件的内容划分文件头和文件体两个部分。文件头用于记录数据处理过程该次运行的信息,文件体用于记录数据库连接的创建和SQL语句

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论