版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、中国移动通信企业标准 QB-J-XXX-2007中国移动省级经营分析系统数据质量管理系统业务技术规范(征求意见稿) 版本号:2.0The Business and Technical Specification on Data Quality Management System in Business Analysis Support SystemV2.02007-05实施2007-05发布中国移动通信有限公司 发布目 录1.范围12.引用标准13.术语和定义14.符号和缩略语25.概述26.总体说明26.1数据质量管理概述26.2主要内
2、容36.3系统建设目标36.4实施建议47.数据质量管理需求47.1数据质量问题47.1.1信息问题域57.1.2技术问题域67.1.3流程问题域77.1.4管理问题域87.2系统功能需求87.2.1元数据管理97.2.2数据质量监控97.2.3项目管理支撑98.系统架构98.1系统体系98.2源系统层108.2.1经营分析系统数据处理流程108.2.2数据质量监控点108.3存储层118.3.1元数据存储118.3.1.1业务元数据118.3.1.1.1业务术语118.3.1.1.2业务描述118.3.1.1.3业务指标118.3.1.1.4业务规则128.3.1.2技术元数据128.3.1
3、.2.1数据源接口128.3.1.2.2ETL过程128.3.1.2.3数据仓库和数据集市存储138.3.1.2.4分析应用138.3.1.2.5运行环境信息148.3.1.2.6质量管理过程148.3.1.3管理元数据158.3.2运行状态信息存储168.3.3质量管理知识存储168.4功能层168.4.1元数据管理168.4.1.1元数据维护178.4.1.2元数据导入/导出178.4.1.3同步检查188.4.1.4实体查询198.4.1.5过程查询198.4.1.6影响分析198.4.1.7血统分析208.4.1.8实体关联度分析208.4.1.9实体差异分析208.4.1.10版本管
4、理208.4.1.11变更通知218.4.2质量监控支撑功能218.4.3知识库管理218.4.3.1.1知识积累和维护218.4.3.1.2知识使用218.4.4系统管理218.5应用层218.5.1数据质量监控218.5.2信息地图228.5.3需求变更影响评估228.5.4数据集市支撑248.5.5项目管理支撑248.5.5.1工作分配管理248.5.5.2系统使用状况分析248.5.5.3项目需求管理248.5.5.4项目组织架构管理259.数据质量监控模块259.1概述259.2数据质量监控模块的目标259.3数据质量监控模块功能要求259.3.1数据质量监控流程259.3.2采集2
5、69.3.2.1指导原则269.3.2.2信息采集269.3.3检查279.3.3.1数据质量检查基本功能279.3.3.1.1数据稽核279.3.3.1.2处理过程检查309.3.3.2数据质量检查点的部署方式309.3.4报告319.3.4.1检查结果报告基本过程319.3.4.1.1报告定义319.3.4.1.2报告生成319.3.4.1.3报告提示319.3.4.2检查结果报告的内容319.3.4.3告警管理329.3.4.3.1告警界面329.3.4.3.2告警形式329.3.4.3.3告警升级339.3.4.3.4告警恢复339.3.5处理339.3.5.1问题处理的阶段划分339
6、.3.5.2问题隔离阶段339.3.5.3问题处理阶段349.3.6总结349.3.6.1总结的类型349.3.6.2问题总结349.3.6.3阶段性总结349.4数据质量监控模块技术实现359.4.1技术实现架构359.4.2数据质量检查代理369.4.2.1目录扫描模块369.4.2.2检查规则读取模块369.4.2.3数据质量检查模块369.4.2.4检查结果生成模块369.4.2.5代理活动采集模块369.4.2.6通信模块379.4.3数据质量监控服务器379.4.3.1用户管理模块379.4.3.2检查规则处理模块379.4.3.3代理配置处理模块379.4.3.4代理活动监控模块
7、389.4.3.5检查结果处理模块389.4.3.6数据库接口模块389.4.3.7通信模块399.4.4数据质量检查客户端399.4.4.1检查规则查看399.4.4.2检查规则配置399.4.4.3代理配置399.4.4.4代理活动监控399.4.4.5检查结果查看409.4.4.6用户管理409.4.4.7通信模块409.5实施要求409.6场景描述4110.数据质量管理流程4410.1概述4410.2管理机制4410.2.1组织机构职责4410.2.1.1角色与职责4410.2.1.1.1项目负责人4410.2.1.1.2项目经理4410.2.1.1.3数据质量管理员4510.2.1.
8、1.4业务系统接口员4510.2.1.1.5文档的设立和维护4510.2.2相关外部组织4610.3质量控制流程4610.3.1需求变更控制流程4710.3.1.1流程进入条件4710.3.1.2流程产生文档4810.3.2数据质量问题处理流程4810.3.2.1流程进入条件4910.3.2.2流程产生文档4910.3.3指标口径及业务规则问题处理流程5010.3.3.1流程进入条件5110.3.3.2流程产生文档5110.3.4元数据变更维护流程5210.3.4.1流程进入条件5210.3.4.2流程产生文档5210.3.5错误数据维护流程5310.3.5.1流程进入条件5310.3.5.2
9、流程产生文档5410.4质量检查5410.4.1管理流程检查5410.4.1.1组织结构检查5410.4.1.2管理流程及相关标准的检查5510.4.1.3质量管理流程执行情况检查5510.4.2元数据质量检查5510.4.2.1及时性检查5510.4.2.2完整性检查5610.4.2.3准确性检查5611.系统管理5611.1概述5611.2系统安全管理5711.3系统版本管理5712.编制历史57VQB-J-XXX-2007前言为更好地及时获取、分析、评估和解决省级经营分析系统各环节的数据质量问题,保证数据质量的稳定可靠,需要构建一套省级经营分析系统数据质量内部控制的管理体系,利用数据质量
10、监控模块进一步提升数据质量管理系统对经营分析系统的支撑能力,特制订本规范。本标准由中国移动通信有限公司提出并归口。本标准以中移有限业【2007】XX号印发。本标准起草单位:中国移动通信有限公司。本标准主要起草人:本标准解释单位:中国移动通信有限公司。VIQB-J-XXX-2007 1. 范围 本规范包含了中国移动经营分析系统数据质量内部控制的管理体系,以及数据质量管理系统业务技术规范方面的内容。本规范适用于中国移动省级经营分析系统数据质量管理系统(v2.0)的建设。 本规范重点描述了以元数据管理为基础的数据质量监控功能,引入数据质量监控模块,并提出了数据质量全程监控的概念。旨在为数据运营打下基
11、础,提升数据质量管理能力,使经营分析系统具有更高的实用价值。2. 引用标准中国移动省级经营分析系统数据质量管理系统业务技术规范(v1.5)中国移动经营分析系统元数据管理规范V1.0中国移动省级经营分析系统数据质量控制指导意见3. 术语和定义序号名词解释1元数据是描述经营分析系统中数据的数据,为数据质量管理等业务功能提供信息支撑。2技术元数据技术元数据包含关于经营分析系统数据技术层面的信息,描述了数据源、ETL、数据仓库和数据集市、OLAP、一级经营分析系统接口等子系统的数据特征。3业务元数据业务元数据用业务术语、名称、定义来描述经营分析系统中的各种业务信息,供业务人员使用。4管理元数据管理元数
12、据主要是指经营分析系统日常建设过程中,涉及开发、运维等管理流程的基本信息。5CWMCWM标准是OMG组织定义的数据仓库和相关系统的国际元数据标准,CWM标准的目的在于使得数据仓库和商业智能软件的元数据在分布异构的数据分析工具,数据仓库平台,元数据存储等系统之间交互。6信息地图信息地图是在元数据基本功能基础上对经营分析基础元数据信息的全局、多视角的展现。7数据质量监控自动获取经营分析系统各环节的数据质量信息,结合元数据库中的有关检查规则,对数据质量情况进行诊断,并及时向数据质量监控人员报告。8数据质量监控代理(Agent)是指部署在经营分析系统数据处理流程各阶段上的,完成数据质量情况采集、检查、
13、报告等功能的驻留程序。9数据质量监控服务器对分布式数据质量监控代理进行管理和服务的程序模块。4. 符号和缩略语缩写英文描述中文描述BOSSBusiness Operation Support System业务运营支撑系统ODSOperational Data Store操作型数据存储CORBACommon Object Request Broker Architecture公共对象请求代理体系结构CORBAIDLCORBA Interface Definition LanguageCORBA接口定义语言CWMCommon Warehouse Metamodel公共仓库元模型ETLExtract
14、ion Transformation Loading抽取、转换和加载JMIJava Metadata InterfaceJava元数据接口OLAPOn-line Analysis Process在线分析处理XMIXML Metadata InterchangeXML元数据交换5. 概述中国移动省级经营分析系统(以下简称为省级经营分析系统)经过多年发展,已初步建立了数据质量管理机制,有效保障了经营分析系统的数据质量。随着省级经营分析系统价值的不断显现与稳步提升,以及IT系统安全管理、风险内部控制等重大管理举措的实施,各省公司对经营分析系统如何保障数据质量提出了更高要求。为了全面及时地采集、检查、
15、报告、解决和总结经营分析系统各环节的数据质量问题,保证数据质量的稳定可靠,中国移动特制定中国移动省级经营分析系统数据质量管理系统业务技术规范(v2.0)(以下简称“本规范”),旨在指导和规范各省(直辖市、自治区)公司的数据质量管理系统的建设、工程实施以及日常运维管理工作。6. 总体说明6.1 数据质量管理概述在经营分析系统发展的不同阶段,经营分析系统对数据质量的关注点也有所不同。早期对数据质量的关注点主要是提高数据准确性,随着系统功能和定位的不断延伸,用户关注的重点逐步由数据准确性扩展至完整性、一致性、及时性等方面,这些内容也属于数据质量的范畴。根据中国移动省级经营分析系统前期的建设经验,目前
16、系统关注的数据质量问题主要包括以下几个方面内容:1. 数据质量的六大基本要素是否满足,所谓六大基本要素是指:Ø 完整性:主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面;Ø 唯一性:指主键唯一和候选键唯一两个方面;Ø 一致性:指统一数据来源、统一冗余存储和统一数据口径;Ø 精确度:指计量误差、度量单位等方面的精确度;Ø 合法性:主要包括格式、类型、域值和业务规则的有效性;Ø 及时性:指数据刷新、修改和提取等操作的及时性和快速性。2. 如何从用户视角衡量数据质量,重视用户对数据的满意程度;3. 如何建立基于CWM规范的元数据管理
17、功能平台,支持数据质量管理,为将来全网共享元数据奠定基础;4. 如何建立数据质量监控手段,及时发现、报告、处理经营分析系统数据质量问题;5. 如何通过建立有效的数据质量管理体系来保障和提升数据的价值。6.2 主要内容本规范用以指导经营分析系统数据质量管理系统建设的全过程。描述了经营分析系统数据质量管理需求及范围、数据质量管理总体应用体系框架,明确规定了数据质量管理系统中的元数据支撑功能及其它支撑功能,确定了数据质量管理的基本功能和流程,重点强调了数据质量监控模块的功能和作用。有关元数据建设的详细内容请参见中国移动省级经营分析系统数据质量管理系统业务技术规范(v1.5)中的附件1 省级经营分析系
18、统元数据管理功能技术规范.doc和附件2 中国移动经营分析元数据管理规范.doc,上述两个附件给出了元数据管理建设步骤的参考,包括省级元数据库存储逻辑模型、省级元数据库的访问接口实现方法、元数据管理工具选型参考标准等,为元数据支撑管理功能的建设提供参考依据。6.3 系统建设目标本规范借鉴了先期元数据试点和经营分析系统数据质量管理系统(v1.5)部分省份的建设经验,同时参考了经营分析系统元数据管理规范v1.0和OMG组织的CWM国际标准等文献,本期重点实现以下建设目标:1. 在经营分析系统数据处理主要阶段设置数据质量监控点,支持对数据质量的全程监控。在各数据监控点上,实现多角度、多方式、可配置的
19、约束规则,提供常见问题的自动处理方法。2. 完善数据质量监控模块,建立有效的数据质量监控机制,提供全面及时的数据质量报告,控制和预防错误范围的扩大。加强数据质量监控技术与管理手段的配合,着重关注经营分析系统数据来源和数据输出的数据质量,明确相关责任。3. 建设符合CWM规范的元数据管理平台,为全网经营分析系统的数据质量管理、数据资源管理和数据运营奠定基础。6.4 实施建议本规范是省级经营分析系统数据质量管理系统规划和建设的基本指导,各省在实施过程中,可根据实际需要以本规范为基础进行扩充与细化。建议如下:1. 在建立数据质量管理系统后,需要建立配套的管理机制,确保有专人依照流程对数据质量问题进行
20、管理和维护;2. 元数据管理是本次经营分析数据质量管理系统的重要功能,是将来实现元数据共享和交换的基础。元数据提供了对数据本身的描述,是关于数据的数据,主要包括技术元数据、业务元数据和管理元数据。各省在遵循CWM标准的前提下,可以根据自身实际情况,决定自行建设还是采购元数据管理工具;3. 各省可以根据自身业务情况扩展中国移动省级经营分析系统数据质量管理系统业务技术规范(v1.5)附件中的元数据存储逻辑模型,但必须遵循CWM元模型的扩展规则;4. 本规范中列举的各类应用,如数据质量监控、信息地图、需求变更影响分析、项目管理支撑、数据集市支撑等应用是本期建设重点关注的内容,各省可以根据实际情况增加
21、其它相关应用。 7. 数据质量管理需求7.1 数据质量问题经营分析系统数据质量问题按照问题的来源和具体原因,可以分为信息、技术、流程、管理四个问题域。如图7-1所示。图7-1数据质量的四个问题域7.1.1 信息问题域图7-2信息问题域信息类问题是由于对数据本身的描述理解及其度量标准的偏差而造成的数据质量问题。产生这部分数据质量问题的原因主要有:元数据描述及理解错误、数据度量的各种性质得不到保证和变化频度不恰当等。元数据描述及理解错误中的相关元数据主要包括:Ø 业务元数据主要包括业务描述、业务规则、业务术语、业务指标口径等。Ø 技术元数据主要包括接口规范、执行顺序、
22、依赖关系、ETL转换、数据建模和工具等方面的内容。数据度量和变化频度提供了衡量数据质量好坏的手段。数据度量主要包括完整性、唯一性、一致性、准确性、合法性。变化频度主要包括业务系统数据的变化周期和实体数据的刷新周期。7.1.2 技术问题域图7-3技术问题域 技术类问题是指由于具体数据处理的各技术环节的异常造成的数据质量问题,它产生的直接原因是技术实现上的某种缺陷。数据质量问题的产生环节主要包括数据创建、数据获取、数据传递、数据装载、数据使用、数据维护等方面的内容:1、数据创建质量问题主要包括业务系统话单延迟入库、创建数据默认值使用不当和数据录入的校验规则不当,导致指标统计结果不一致、数
23、据无效、记录重复等。2、数据获取质量问题主要包括采集点不正确、取数时间点不正确以及接口数据在获取过程中失真。如,编码转换处理错误以及精度不够,导致指标统计结果不一致、数据无效等。3、数据传递质量问题主要包括接口数据及时率低,接口数据漏传,网络传输过程不可靠,如包丢失,文件传输方式错误,传输技术问题,协议使用不当导致的数据不完整等。4、数据装载质量问题主要包括数据清洗算法、数据转换算法、数据加载算法错误。5、数据使用质量问题主要包括展示工具使用错误、展示方式不合理和展示周期不合理。6、数据维护质量问题主要包括数据备份/恢复错误、数据的存储能力有限、维护过程缺乏验证机制和人为后台调整数据。7.1.
24、3 流程问题域图7-4流程问题域 流程类问题是指由于系统作业流程和人工操作流程设置不当造成的数据质量问题,主要来源于经营分析系统数据的创建流程、传递流程、装载流程、使用流程、维护流程和稽核流程等各环节:1、创建流程质量问题主要指操作员数据录入时缺乏审核流程;2、传递流程质量问题主要指通信流程沟通不畅;3、装载流程质量问题主要指清洗流程缺乏/不当、调度流程逻辑错误、数据加载流程逻辑错误及数据转换流程逻辑错误;4、使用流程质量问题主要指数据使用流程缺乏流程管理;5、维护流程质量问题主要指缺乏变更维护流程、缺乏错误数据维护流程、缺乏数据测试流程以及对人工后台调整数据没有严格的流程监控;6、
25、稽核流程质量问题主要指缺乏数据错误反馈流程。7.1.4 管理问题域图7-5管理问题域管理类问题是指由于人员素质及管理机制方面的原因造成的数据质量问题,如人员管理、培训和奖励等方面的措施不当导致的管理缺失。人员管理所产生的质量问题主要指:(1)针对省级数据质量问题,没有建立管理数据质量的专门机构,出现数据质量问题后无专人负责;(2)没有明确的数据质量目标;(3)经营分析系统中的数据质量问题的优先级不够;(4)集团公司缺少管理数据质量的管理办法等;人员培训所产生的质量问题主要指对数据质量相关人员缺少长期培训计划;通过上述对经营分析数据质量问题的分类,结合各省经营分析系统建设经验,信息、流程和技术三
26、个方面的数据质量问题相对集中和可控,是本系统实施的重点。在管理方面,本规范侧重于提供对开发、运维管理流程方面的支撑,并对管理元数据及其管理范围进行了明确定义,具体参见第8章管理元数据的相关定义。7.2 系统功能需求在各省具体数据质量问题解决过程中,数据质量问题的定位和解决过程往往依赖具体人员的经验,问题处理效率和正确性难以保证。因此有必要引入元数据管理的相关功能,提供对数据模型、指标统计口径及处理过程等数据实体和处理的标准定义和描述。数据质量管理系统利用元数据库存储技术、业务、管理方面对数据质量的约束规范;利用知识库存储数据质量问题和处理过程;通过制定相关管理流程来保证经营分析数据质量的日常管
27、理。本规范介绍如何在基于元数据管理的基础上建立数据质量管理系统,并通过制定相关管理流程来保证经营分析数据质量的日常管理。数据质量管理系统的基础是遵循CWM标准的元数据管理支撑功能的实施。根据系统定位,数据质量管理系统与元数据管理支撑功能之间的关系如下:¨ 数据质量管理包含元数据管理¨ 元数据管理功能为数据质量管理系统提供支撑7.2.1 元数据管理为了实施数据质量管理,需要业务数据的有关统计口径、数据来源、数据约束关系等元数据的支撑。数据质量管理系统要求建立符合国际主流规范CWM的元数据管理支撑平台。它负责管理整个经营分析系统的技术、业务和管理三类元数据,形成元数据全局视图,
28、展现经营分析系统数据实体的组成、关系以及处理转换的过程。7.2.2 数据质量监控在数据质量管理系统中,数据质量监控是基础功能。数据质量监控实时采集数据处理过程的各个质量监控点上的质量信息,执行数据质量监控流程,进行数据稽核诊断,然后直观展现检查结果。数据质量管理人员可根据告警信息,采取相应的质量控制行动。最后,还应评估总结本次数据质量监控活动的有效性和及时性,以利于以后质量管理工作的改进。在数据质量监控工作中对质量问题的监控、诊断和处理结果应整理形成质量问题处理案例,并记录到知识库中,以便进行知识共享。7.2.3 项目管理支撑数据质量管理也涉及经营分析系统相关项目的日常管理。将项目管理的内容纳
29、入质量管理,可全面、及时记录系统的建设状况和使用情况,有效支持经营分析系统的全员使用。项目管理支撑包括:工作分配管理、系统使用状况分析等。8. 系统架构8.1 系统体系数据质量管理系统按照体系结构划分为源系统层、存储层、功能层和应用层,体系结构如图8-1所示:图8-1数据质量管理系统体系结构8.2 源系统层8.2.1 经营分析系统数据处理流程经营分析系统的数据处理流程主要涉及源系统接口数据、ETL过程、数据仓库、数据集市、前端应用等处理阶段。数据质量管理系统对数据的管理和监控范围涵盖了全部这些处理阶段。8.2.2 数据质量监控点数据质量管理系统在数据处理的各阶段都应设立数据质量监控点,并使稽核
30、诊断工作尽量前移。本期系统规定的数据质量监控点设置如下:(1)各数据源接口(2)ETL处理过程(对数据抽取、转换的主要阶段,以及加载到数据仓库前都应设置监控点)(3)数据仓库(对各种数据粒度的汇总应设置监控点)(4)数据集市(对地市和部门的集市分别应设置监控点)(5)前端展现应用8.3 存储层存储层中存储的信息主要包括三个部分:(1)元数据库:存储技术元数据、业务元数据和管理元数据,为数据质量管理系统提供基本的数据实体和处理描述及其映射关系,是质量管理的支撑基础;(2)运行状况信息库:存储从各个数据质量监控点上采集的有关系统运行状况的信息及质量稽核过程信息,是稽核诊断的主要输入信息;(3)数据
31、质量知识库:存储数据质量管理中对质量问题的识别、诊断和处理结果的记录信息,作为解决质量问题的知识共享。以上三种数据库,在逻辑上可进行独立设计,在物理实现上可以部署在同一台服务器上。8.3.1 元数据存储元数据是数据质量管理系统实现的核心,是描述和控制经营分析系统中数据的数据,为数据质量管理体系架构的功能层和应用层提供信息支撑。元数据库中存储的元数据分为三类:技术元数据、业务元数据和管理元数据。8.3.1.1 业务元数据本部分将业务元数据划分为业务术语、业务描述、业务指标和业务规则四个部分,其中业务规则、业务术语和业务描述共同完成对业务相关信息的事实表述。数据质量管理系统通过对这些业务元数据的映
32、射,可以得到对应的数据质量检查规则。各省公司可以根据自身业务需求对业务元数据主题进行扩充,扩充的元数据主题必须遵循CWM元数据扩展规范。8.3.1.1.1 业务术语是一个名词或者名词短语,是对一种共识的定义,例如:一个有效的账户被定义为此账户有余额且其有效期未过。8.3.1.1.2 业务描述提供对省公司各项主要业务的统一描述,这部分内容应与仓库模型的主题信息、相关业务的统计指标建立关联,描述内容包括:¨ 业务基本描述¨ 业务管理规定,包括业务组织、业务流程、资费标准¨ 业务统计业务描述是一个完整的描述,通过动词来连接术语使其成为一个有效的声明,例如:开通具体业务的
33、客户必须至少拥有一个有效的账户。8.3.1.1.3 业务指标面向业务分析人员,对业务关键信息的解释。业务指标需要提取的元数据主要包括指标标识、指标名称、描述信息、建立时间、所属部门、创建者、类别、数据来源等。8.3.1.1.4 业务规则业务规则是一种描述信息,定义和约束了部分业务逻辑,可以用于对业务逻辑结构进行验证,用于控制或者影响业务逻辑的行为。8.3.1.2 技术元数据技术元数据包含关于经营分析系统数据技术层面的信息,描述了数据源接口、ETL、数据仓库和数据集市、一级经营分析系统接口等子系统的数据特征。根据经营分析系统的特点和经营分析系统数据质量管理的具体要求,本部分将技术元数据分为数据源
34、接口、ETL过程、数据仓库和数据集市存储、分析应用、运行环境信息、质量管理过程六个部分,对各部分所包含的实体进行说明。8.3.1.2.1 数据源接口经营分析系统的数据来源主要是外部的操作型应用系统,经营分析系统管理的数据源接口元数据主要是关于BOSS、客服、网管、智能网、DSMP、彩铃等外部系统与经营分析系统间接口的相关信息,包括:¨ 运行环境相关信息主要包含相关系统的主机信息、操作系统信息、数据库信息等;¨ 数据接口定义信息描述源系统数据接口的定义信息,包括接口数据实体结构(主题信息、实体定义、实体内部列定义、关键字、索引定义等)、接口数据实体间关系。8.3.1.2.2
35、ETL过程ETL过程中的元数据管理内容主要是ETL规则,包括源系统数据到数据仓库的映射关系、ETL程序结构信息、数据转换和清理规则等,主要内容有:¨ 接口抽取描述数据抽取过程的相关信息,针对具体接口,主要包含:1) 接口抽取条件:接口抽取的前置条件和数据条件;2) 接口抽取周期:日、月等;3) 接口抽取时间:周期内的抽取时间;4) 接口抽取方法:增量、全量等;¨ 数据清洗、转换、装载描述接口数据到仓库数据的数据处理过程信息,包括源系统数据到数据仓库的映射关系、ETL程序结构信息、数据转换和清理规则等。8.3.1.2.3 数据仓库和数据集市存储数据仓库存储涉及ODS、仓库底层
36、数据、集市数据等基本信息,以及数据流处理逻辑相关信息的提取,具体包括:¨ 数据仓库逻辑模型逻辑数据模型是企业元数据的重要组成部分,其实现方式主要是将建模工具(例如:ERWIN)中的模型信息纳入到元数据管理中。¨ 数据存储结构信息这部分内容反映了数据仓库的物理实体信息。数据仓库内部的结构数据管理内容繁杂,主要有ODS和数据仓库的数据结构、数据定义、物理数据模型的结构、程序代码描述、数据库目录以及文件规划等信息。其中,数据库目录包括需纳入管理的表、关系以及索引和视图的定义等。¨ 数据流及其处理逻辑这部分内容描述整个数据仓库中数据的流向、数据的处理逻辑、数据仓库各应用程
37、序模块接口等系统全局性的信息。数据流向和数据处理逻辑信息是进行系统开发、维护、升级前和数据变更前的影响分析的重要信息源。¨ 数据生命周期信息存储和检索该部分内容主要记录了数据在不同生命周期所存放的位置。通过元数据管理系统对不同类型以及不同生命周期的数据进行有效管理,支持对处于生命周期不同阶段的数据进行信息检索。数据生命周期管理的具体解释请参见中国移动省级经营分析系统规范总册(v2.0)。8.3.1.2.4 分析应用在数据仓库或数据集市基础上,经营分析系统提供了KPI、OLAP、综合报表、数据挖掘、一级经营分析系统接口等应用,分析应用元数据是指这些上层应用的相关信息,主要包括:
38、8; 指标技术定义信息包含指标定义、对应维度定义、指标统计口径、指标关系等信息;¨ 多维数据信息主要指对多维数据相关信息的提取,主要包括:1) 多维主题基本信息:包含主题与指标、维度等的关系;2) 多维数据库信息:鉴于主流的多维数据库都支持CWM标准,针对各省的建设情况,可以考虑选用元数据工具进行相关信息的提取;¨ 一级经营分析系统接口作为数据分发过程,与ETL处理过程对应,主要包括一级经营分析接口的定义、标准代码定义、数据转换规则以及其它涉及一级经营分析系统接口数据生成上传的元数据信息;¨ 数据挖掘信息¨ 应用使用状况信息主要记录各业务应用的使用频次、
39、使用人数等信息。8.3.1.2.5 运行环境信息描述经营分析系统运行环境的相关信息,主要有:¨ 任务调度信息经营分析系统处理涉及多个环节的大量任务,通常由一个统一的任务调度系统集中控制这些任务的执行,获取这些任务的相关信息对于了解和优化系统至关重要。主要提取信息有:任务基本信息、任务依赖信息、任务执行信息等。¨ 系统运行环境信息包括经营分析系统相关的主机信息、操作系统信息、文件系统信息、系统处理目录信息、数据库信息、表空间信息等。8.3.1.2.6 质量管理过程质量管理过程中的元数据主要是根据数据质量管理的要求,为支撑数据质量检查的相关功能,从监控经营分析数据及系统运行情况
40、角度,抽取出的数据质量检查方法和标准。质量管理过程中的元数据的规则有两个来源:一个来源是系统各个处理环节的技术元数据,反映的是系统技术层面的处理情况,如数据量和指标值多少是合理,处理过程应该在什么周期内什么时间段内完成才正常,主机资源、表空间、文件系统的使用应该控制在什么样的阀值下系统处理才不会有问题;另一个来源是业务规则、指标口径等业务元数据,通常会把业务规则的信息转化成技术化的规则、算法和度量标准,如指标间的稽核关系,而类似指标合理性的度量标准,则会根据业务发展情况而不断变化。主要包括以下内容:1、 规则库规则是数据质量检查的具体标准,主要包括经营分析数据的约束规则和合理性规则,以及检查数
41、据处理过程及处理环境是否正常的规则等。规则分为三类:约束规则、计算规则和条件规则。¨ 约束规则描述了一种无条件必须为真或假的强制规则。这种约束可以是结构化 (Structural)约束,也可以是行为(Behavioral)约束。1) 结构化约束:当创建术语或者改变术语之间的关系的时候,结构化约束能够保证术语的完整性;2) 行为约束:典型地被定义为“前置条件”和“后置条件”。只有在符合“前置条件”的情况下,操作才能够正确地执行;“后置条件”保证了操作结果的正确性,“后置条件”表示该行为是否满足了其预期的结果。例如:客户在开户时余额为0,在能够使用移动业务之前,必须先充值,这里前置条件就
42、是必须先充值,而后置条件是指所办理的业务是否成功办理;¨ 计算规则描述计算关系,例如:月末余额上月末余额本月充值金额本月消费金额;¨ 条件规则描述当条件成立时,触发相关的事件或事务,例如:预付费客户的帐户余额小于0,则对其实施停机操作。2、 算法库主要是指支撑上述检查规则所需要的基本算法的集合,结合具体的规则由数据质量检查相关功能调用。3、 度量信息度量信息是数据质量检查的基本依据,它反映了数据质量的衡量标准,也是数据质量管理系统技术元数据的一个重要组成部分。度量信息是经验的积累,需要在数据质量不断建设的过程中逐步精确化,随着衡量标准的不断细化和精确,经营分析系统数据质量也
43、会不断提高。8.3.1.3 管理元数据管理元数据主要是指经营分析日常建设过程中,涉及开发、运维管理各方面的基本信息,本规范明确要求对管理元数据进行存储,在此基础上对系统需求开发和日常运维管理流程提供IT化支撑,从管理流程角度对经营分析数据质量提供保证。管理元数据主要包括:¨ 管理流程定义指经营分析需求开发、运维各管理流程及其具体步骤、步骤输入输出和参与角色的描述;¨ 角色及职责定义指参与经营分析需求开发、运维各管理流程的角色及其具体承担职责的描述;¨ 人员组织信息及工作内容分配指需求开发和系统运维过程中各参与人员承担的角色及具体负责的工作内容描述,如具体某个需求开
44、发由谁牵头负责,ETL某个加载转换过程由谁负责维护等系统访问情况信息。以上信息各省可以根据各自的管理流程情况,制定相关模板,进行手工整理。8.3.2 运行状态信息存储运行状态信息库存储在数据质量检查点上产生的,描述系统运行情况的各种度量数据,包括数据量、数据处理周期、数据处理过程运行情况等。系统运行状态信息包括以下几类: (1) 源数据状况主要包括:文件传送完整状况、文件记录合法状况、文件传送及时状况、文件加载正确状况等。(2)ETL运行状况主要包括:作业运行成功状况、作业失败信息、抽取和变换数据量、加载数据量及正确状况、作业调度和操作状况等。(3)数据仓库运行状况主要包括:实体主键取值合法状
45、况、实体属性的完整状况、外键取值和引用合法状况、属性合法状况、数据汇总状况等。(4)数据集市运行状况主要包括:实体主键取值合法状况、实体属性的完整状况、外键取值和引用合法状况、属性合法状况、实体合法状况(属于某地市或部门)、数据汇总状况等。(5)前端运行状况主要包括:OLAP加载状况、 OLAP运行状况、 OLAP存储情况、应用运行合法和成功状况、应用满意状况等。8.3.3 质量管理知识存储数据质量知识库存储数据质量问题的识别、诊断、处理各阶段的相关信息。这些信息可作为解决质量问题的历史档案进行知识共享。这些知识以关键字的形式进行索引和分类管理。知识库中的内容可分为以下几类:(1)源数据类型问
46、题(2)ETL类型问题(3)仓库类型问题(4)集市类型问题(5)前端类型问题8.4 功能层功能层提供了数据质量管理系统所能提供的基本功能,它为前端的应用提供了基本的功能支撑。主要包括元数据管理和数据质量监控模块,具体内容如下:8.4.1 元数据管理作为数据质量管理系统的元数据基本支撑,方便用户对系统的理解,并在系统数据质量出现问题时,便于问题的定位。主要包括:8.4.1.1 元数据维护元数据维护提供对元数据的增加、删除、修改等基本操作,另外,还应支持实体、实体间关系的建模,数据处理过程的描述等功能。对于元数据的增量维护,要求能保留历史的版本信息。元数据的维护操作是原子操作,这些原子操作的实现需
47、要借助于元数据管理平台提供的JMI接口或者CORBA IDL接口来完成。在实施元数据维护操作的过程中,需要对这部分操作的过程进行一定的约束和限制。元数据定义为如下的4种状态:¨ 审核状态对于需要进行维护的元数据,首先进入审核状态,从而等待审核人员的核查,确定该元数据是否需要进行修改;¨ 公示状态审核通过后,进入公示状态,即处于对元数据定义征求意见的状态,没有最后定稿,公示状态有一定的期限要求;¨ 发布状态公示状态期限的限制到期后,根据在公示状态期间回馈的意见,给出元数据维护的准确的方案,进入发布状态;¨ 维护状态用户提交修改元数据请求后,相关元数据进入维
48、护状态,对相关元数据的维护需要保留其历史版本信息。8.4.1.2 元数据导入/导出元数据导入/导出实现元数据的自动加载、批量导入/导出和模板化导入/导出,是元数据维护功能的手工操作的重要补充。具体实现方式参见中国移动省级经营分析系统数据质量管理系统业务技术规范(v1.5)的有关附件。(1)自动加载自动加载能够提供自动方式快速地从各种软件或存储中(如数据库、OLAP软件、前端展现工具)中提取元数据信息,并存储到元数据库中。这种方式通常采用API或Web服务直接连接各软件的元数据库。(2)批量导入/导出批量导入/导出功能将按XMI文档格式组织的元数据批量导入元数据库,或者将元数据库中的指定部分导出
49、为XMI文档。系统对导入/导出过程进行日志记录。元数据的XMI文档中描述元数据内容、属性、以及对新增、修改、删除动作的标记。用户通过执行批处理命令或屏幕菜单选择批量导入/导出元数据,并支持即时调用或后台定时自动执行。(3)模板化导入/导出模板化导入/导出是为非结构化、无法自动抽取或非XMI文档的元数据提供的批量导入/导出支撑功能。通常采用预定义模板格式的元数据描述文档,整理出元数据基本信息文档,通过该功能导入系统,并自动转化成元数据存储;同样也支持把元数据信息导出到预定义格式的文档中,并提供下载,方便交流。对于不满足CWM规范的元数据(如大部分指标数据等),其通常需要借助XMI来定义相应的模板
50、。该模板满足CWM规范,可以利用编制的相应程序进行这部分元数据的导入和导出。1) 采用XMI开发元数据模板,将原有的Word、Excel文件中元数据信息转换为格式固定的XMI文件;2) 将格式固定的XMI文件批量导入数据质量管理平台。8.4.1.3 同步检查同步检查主要是指对于数据质量管理系统中抽取的元数据,定期从经营分析系统中抽取,并与元数据库的对应信息比较,及时发现经营分析系统的应用变更,保证元数据的及时同步更新。从经营分析系统中抽取元数据,主要分为两类:自动抽取和人工抽取。因此,有如下两类同步检查方法:¨ 自动同步检查对于需要检查的元数据,利用软件API或CORBA IDL接口
51、对系统中的元数据进行直接查询访问,获得相应的元数据,然后进行比较,从而确定相应的元数据是否保持了同步;¨ 人工同步检查对无法进行自动抽取检查的元数据需要人工在源系统与元数据库之间进行比较,确定是否保持一致。 同步检查的过程可以描述如下:1) 同步检查时机同步检查时机分为如下的两类:¨ 实时同步检查能够适用于实时同步检查的元数据,指那些可以自动抽取的元数据。触发检查的时机是源系统中的元数据发生了变更或者是相应系统中的元数据发生了改变。¨ 定期同步检查适用于定期同步检查的元数据,主要包含如下的几种情况:a) 当用户手工修改源数据系统或者是元数据库时,则需要对
52、元数据进行同步检查;b) 对于整个数据质量管理系统而言,需要定义一个周期(1天或者1周等)进行元数据同步检查;2) 同步检查度量元数据同步检查主要包含以下几个方面: 及时率:指定类型的元数据在某一抽取检查周期内按一定时间要求抽取的元数据项和应抽取项的比率; 完整率:指定类型的元数据在某一抽取检查周期内抽取的元数据项和应抽取项的比率; 正确率:指定类型的元数据在某一抽取检查周期内抽取比对无误的元数据项和应抽取项的比率;3) 同步检查过程在同步检查发现差异时,原则上不能直接修改元数据存储,而是给出各类元数据的差异报告,并由数据质量管理员确认后,利用元数据维护工具进行元数据的更新。8.4.1.4 实
53、体查询实体查询指对元数据库中的数据实体基本信息的查询功能,通过该功能可以查询数据库表、维表、指标及其它纳入管理实体的基本信息,查询的信息按处理的层次及业务主题进行组织,实体查询返回实体及其所属的相关信息。实体查询要求能支持对历史版本信息的查询,以了解具体实体的历史变更情况。8.4.1.5 过程查询过程查询是针对具体的数据转换、汇总等处理过程,查询其具体用途、参与的输入、输出实体等详细信息,从而帮助对数据处理过程的理解。过程查询要求能支持对历史版本信息的查询,以了解处理过程的历史变更情况。在CWM规范当中,有专门的仓库过程(Warehouse Process)和转换过程(Transformati
54、on)实体,过程查询可以直接返回过程本身的详细信息。过程查询还可以基于过程实体本身包含的关联信息,得到与其关联的实体信息。8.4.1.6 影响分析影响分析(Impact Analysis,也称冲突分析)是指从某一实体出发,寻找依赖该实体的处理过程实体或其他实体。如果需要可以采用递归方式寻找所有的依赖过程实体或其他实体。该功能支持当某些实体发生变化或者需要修改时,进行影响实体范围的评估。影响分析应能够以图形的方式展现所有实体和关联关系。8.4.1.7 血统分析血统分析(Lineage Analysis,也称血缘分析)是指从某一实体出发,往回追溯其处理过程,直到经营分析的数据输入的源头,也就是源系
55、统接口数据。对于不同类型的实体,其涉及的转换过程可能有不同类型,如:对于底层仓库实体,涉及的可能是ETL处理过程;而对于仓库汇总表,可能既涉及ETL处理过程,又涉及仓库汇总处理过程;而对于指标,则除了上面的处理过程,还涉及指标生成处理的过程。除了数据接口实体由源系统提供,作为经营分析系统的数据输入,其它的数据实体都经过了一个或多个不同类型的处理过程。血统分析正是提供了这样一种功能,可以让使用者根据需要了解不同的处理过程,每个处理过程具体做什么,需要什么样的输入,又产生了什么样的输出。为实现血统分析,对于任何指定的实体,首先获得该实体的所有前驱实体,然后对这些前驱实体递归地获得各自的前驱实体,结束条件是所有实体到达数据源接口或者是实体没有相应的前驱实体。血统分析应能够以图形的方式展现所有实体和处理过程。8.4.1.8 实体关联度分析实体关联度分析是从某一实体关联的其它实体和其参与的处理过程两个角度来查看具体数据的使用情况,从而形成一张关系和所参与数据处理过程的网络,进一步可以了解该实体的重要程度。该功能可以用来支撑需求变更影响评估的应用。对于关系数据表,可以分析与某个表有关的实体或处理过程,查
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度环保项目研发合作协议
- 2024临时工合同模板
- 2024年度仓储合同仓储物及仓储期限
- 2024年度软件定制开发合同
- 2024年 卫星发射与运营服务合同
- 2024年商标转让合同注意事项
- 2024年度碳排放权交易合同交易数量与交易价格
- 2(2024版)网络安全风险评估合同
- 2024年度物业管理合同:住宅小区物业管理服务
- 2024年合作伙伴寻找居间合同 with 合作意向及中介费用的规定
- 2024-2025学年上海市普陀区八年级(上)期中数学试卷
- 假期补课协议书
- 电子商务支付结算系统开发合同
- 服务质量、保证措施
- (必练)广东省军队文职(经济学)近年考试真题试题库(含答案)
- 含羞草天气课件
- 2024年安全生产知识竞赛考试题库及答案(共五套)
- 22《鸟的天堂》课件
- 农业灌溉装置市场环境与对策分析
- 新疆乌鲁木齐市第十一中学2024-2025学年八年级上学期期中道德与法治试卷
- 部编版小学五年级上册道法课程纲要(知识清单)
评论
0/150
提交评论