大数据治理体系_第1页
大数据治理体系_第2页
大数据治理体系_第3页
大数据治理体系_第4页
大数据治理体系_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据治理体系目 录HYPERLINK1. 范畴 1HYPERLINK2. 规范性引用文献 1HYPERLINK3. 术语、定义和缩略语 5HYPERLINK4. 总体阐明 8HYPERLINK4.1. 概述 8HYPERLINK4.2. 目的 9HYPERLINK4.3. 原则 9HYPERLINK5. 数据治理体系 10HYPERLINK5.1. 总体框架 10HYPERLINK5.2. 组织架构 11HYPERLINK 组织构成 11HYPERLINK 角色职责 12HYPERLINK5.3. 系统架构 12HYPERLINK 系统功效框架 12HYPERLINK 系统模块流程 14HYPERLINK5.4. 系统边界 15HYPERLINK 与公司级省大数据平台关系 16HYPERLINK 与对外能力开放平台关系 16HYPERLINK 与平台运维系统关系 16HYPERLINK6. 数据治理核心模块 17HYPERLINK6.1. 数据原则管理 17HYPERLINK 背景 17HYPERLINK 18HYPERLINK 目的及原则 19HYPERLINK 业务分类和定义 19HYPERLINK 技术功效规定 23HYPERLINK 本期建设范畴及内容 26HYPERLINK 实施规定 27HYPERLINK6.2. 元数据管理 27HYPERLINK 背景和定义 27HYPERLINK 元数据运行模式 29HYPERLINK 元模型原则 29HYPERLINK 元数据运维 33HYPERLINK 本期重点建设内容 34HYPERLINK6.3. 数据质量管理 34HYPERLINK 与传统经营分析系统的区别 34HYPERLINK 范畴和原则 35HYPERLINK 与其它功效模块的关系 36HYPERLINK 本期数据质量功效需求 38HYPERLINK 本期数据质量运维规定 39HYPERLINK6.4. 数据资产管理 40HYPERLINK 数据资产概述 40HYPERLINK 数据资产范畴 41HYPERLINK 与其它功效模块的关系 42HYPERLINK 本期数据资产功效需求 42HYPERLINK 本期建设内容 45HYPERLINK6.5. 数据安全管理 45HYPERLINK 数据安全概述 45HYPERLINK 建设原则 46HYPERLINK 建设内容 46HYPERLINK 边界关系 46HYPERLINK 技术功效 47HYPERLINK 管理规定 48HYPERLINK7. 数据治理场景 52HYPERLINK7.1. 背景描述 52HYPERLINK7.2. 场景一:银行伪卡交易鉴别 52HYPERLINK 背景介绍 52HYPERLINK 场景描述 53HYPERLINK7.3. 场景二:银行手机贷业务 54HYPERLINK 背景介绍 54HYPERLINK 场景描述 54HYPERLINK8. 附录 55HYPERLINK附录一:数据原则框架 55HYPERLINK附录二:数据原则体系定义内容示例 56

前 言本规范的制订是为了更加好地实现中国移动公司级省大数据平台数据治理子系统的建设和管理,为省大数据平台上的各类基础技术和应用提供支撑,加强省大数据平台上数据的管控力度,增强数据治理子系统本身管理能力。本规范重要涉及下列几方面的内容:总体阐明、数据治理体系、数据治理核心模块、数据治理场景等。本规范是中国移动公司级大数据平台系列规范之一。该系列规范的构造、名称或预计的名称以下:序号原则编号原则名称[1]QB-Y-***-中国移动公司级大数据平台目的架构[2]QB-Y-***-中国移动公司级省大数据平台技术规范总册[3]QB-Y-***-中国移动公司级省大数据平台技术规范分册[4]QB-Y-***-中国移动公司级省大数据平台技术规范技术方案分册[5]QB-Y-***-中国移动公司级省大数据平台技术规范数据模型分册[6]QB-Y-***-中国移动公司级省大数据平台技术规范外部接口分册[7]QB-Y-***-中国移动公司级省大数据平台技术规范服务开放分册[8]QB-Y-***-中国移动公司级省大数据平台技术规范服务开放技术方案分册[9]QB-Y-***-中国移动公司级省大数据平台技术规范数据治理分册[10]QB-Y-***-中国移动公司级省大数据平台技术规范数据治理技术方案分册[11]QB-Y-***-中国移动公司级省大数据平台技术规范运行维护分册[12]QB-Y-***-中国移动公司级省大数据平台技术规范安全管理技术方案本规范由中移技﹝××﹞××印发。本规范由中国移动通信集团公司业务支撑系统部提出,集团公司技术部归口。本规范起草单位:中国移动通信集团公司业务支撑系统部。本规范重要起草人:段云峰、汪新勇、赵静、周立、、任怡健、王保强、潘刚、刘童桐、王金金、陶涛、刘虹、张红星、魏春辉。范畴本规范规定了中国移动公司级省大数据平台数据治理子系统的建设内容,合用于中国移动各省(直辖市、自治区)公司公司级省大数据平台数据治理子系统的建设。规范性引用文献下列文献中的条款通过本规范的引用而成为本规范的条款。但凡标注日期的引用文献,其随即全部的修改单(不涉及勘误的内容)或修订版均不合用于本规范。然而,激励根据本规范达成合同的各方对与否使用这些文献的最新版本进行研究。但凡不标注日期的引用文献,其最新版本合用于本规范。[1]《中国移动省级经营分析系统业务规范(v1.0)》中国移动通信有限公司[2]《中国移动省级经营分析系统技术规范(v1.0)》中国移动通信有限公司[3]QB-J-010-《中国移动省级经营分析系统数据质量管理系统建设方案(v1.5)》中国移动通信有限公司[4]QB-J-006-《中国移动省级经营分析系统数据仓库逻辑数据模型阐明(v1.5)》中国移动通信有限公司[5]QB-J-007-《中国移动省级经营分析系统数据集市业务技术规范(v1.5)》中国移动通信有限公司[6]QB-J-008-《中国移动省级经营分析系统与源系统接口规范(v1.5)》中国移动通信有限公司[7]QB-J-009-《中国移动省级经营分析系统与BOSS系统互动技术规范(v1.5)》中国移动通信有限公司[8]QB-J-003-《中国移动省级经营分析系统业务规范(v1.5)—基础业务分册》中国移动通信有限公司[9]QB-J-004-《中国移动省级经营分析系统业务规范(v1.5)—数据业务分册》中国移动通信有限公司[10]QB-J-005-《中国移动省级经营分析系统业务规范(v1.5)—集团客户分册》中国移动通信有限公司[11]QB-J-001-《中国移动业务运行支撑系统(BOSS)业务技术规范营销资源管理分册(2.0版)》中国移动通信有限公司[12]QB-J-001-《中国移动业务运行支撑系统(BOSS)业务技术规范客服信息分册(2.0版)》中国移动通信有限公司[13]QB-J-001-《中国移动业务运行支撑系统(BOSS)业务技术规范(2.0版)》中国移动通信有限公司[14]QB-J-021-《中国移动省级经营分析系统数据仓库逻辑数据模型规范(v2.0)》中国移动通信有限公司[15]QB-J-020-《中国移动省级经营分析系统与源数据接口规范(v2.0)》中国移动通信有限公司[16]QB-J-022-《中国移动省级经营分析系统数据集市业务技术规范(v2.0)》中国移动通信有限公司[17]QB-J-019-《中国移动省级经营分析系统业务规范渠道运行管理分析监控分册(v1.0)》中国移动通信有限公司[18]QB-J-018-《中国移动省级经营分析系统业务规范客户服务分册(v2.0)》中国移动通信有限公司[19]QB-J-017-《中国移动省级经营分析系统业务规范集团客户分册(v2.0》中国移动通信有限公司[20]QB-J-016-《中国移动省级经营分析系统数据质量管理系统业务技术规范(V2.0)》中国移动通信有限公司[21]《中国移动业务支撑网4A安全技术规范》中国移动通信有限公司[22]《中国移动省级经营分析系统技术规范总册(v2.0全量版)》中国移动通信有限公司[23]《中国移动省级经营分析系统技术规范逻辑模型分册(v2.0全量版)》中国移动通信有限公司[24]《中国移动省级经营分析系统技术规范数据集市分册(v2.0全量版)》中国移动通信有限公司[25]《中国移动省级经营分析系统技术规范数据质量管理子系统分册(v2.0全量版)》中国移动通信有限公司[26]《中国移动省级经营分析系统业务规范(v2.0全量版)》中国移动通信有限公司[27]《中国移动省级经营分析系统技术规范源系统接口分册(v2.0全量版)》中国移动通信有限公司[28]QB-J-002-《中国移动省级NG1-BASS技术规范总册(v1.0)》中国移动通信集团公司[29]QB-J-003-《中国移动省级NG1-BASS技术规范数据集市分册(v1.0)》中国移动通信集团公司[30]QB-J-004-《中国移动省级NG1-BASS技术规范逻辑模型分册(v1.0)》中国移动通信集团公司[31]QB-J-005-《中国移动省级NG1-BASS技术规范源系统接口分册(v1.0)》中国移动通信集团公司[32]QB-J-006-《中国移动省级NG1-BASS技术规范元数据管理分册(v1.0)》中国移动通信集团公司[33]QB-J-007-《中国移动省级NG1-BASS技术规范数据质量管理子系统分册(v1.0)》中国移动通信集团公司[34]QB-J-008-《中国移动省级NG1-BASS业务技术规范客户分析及运行分册(v1.0)》中国移动通信集团公司[35]QB-J-001-《中国移动省级NG1-BASS业务规范(v1.0)》中国移动通信集团公司[36]QB-Y-003-《中国移动省级NG1-BASS技术规范总册(v2.0)》中国移动通信集团公司[37]QB-Y-004-《中国移动省级NG1-BASS技术规范数据集市分册(v2.0)》中国移动通信集团公司[38]QB-Y-005-《中国移动省级NG1-BASS技术规范逻辑模型分册(v2.0)》中国移动通信集团公司[39]QB-Y-006-《中国移动省级NG1-BASS技术规范外部接口分册(v2.0)》中国移动通信集团公司[40]QB-Y-007-《中国移动省级NG1-BASS技术规范元数据管理分册(v2.0)》中国移动通信集团公司[41]QB-Y-008-《中国移动省级NG1-BASS技术规范数据质量管理子系统分册(v2.0)》中国移动通信集团公司[42]QB-Y-002-《中国移动省级NG1-BASS业务规范(v2.0)》中国移动通信集团公司[43]QB-Y-052-《中国移动省级NG2-BASS(v3.0)业务规范》中国移动通信集团公司[44]QB-Y-053-《中国移动省级NG2-BASS(v3.0)技术规范总册》中国移动通信集团公司[45]QB-Y-054-《中国移动省级NG2-BASS(v3.0)技术规范数据集市分册》中国移动通信集团公司[46]QB-Y-055-《中国移动省级NG2-BASS(v3.0)技术规范逻辑模型分册》中国移动通信集团公司[47]QB-Y-056-《中国移动省级NG2-BASS(v3.0)技术规范外部接口分册》中国移动通信集团公司[48]QB-Y-057-《中国移动省级NG2-BASS(v3.0)技术规范元数据管理分册》中国移动通信集团公司[49]QB-Y-058-《中国移动省级NG2-BASS(v3.0)技术规范数据质量管理子系统分册》中国移动通信集团公司[50]QB-Y-059-《中国移动省级NG2-BASS(v3.0)技术规范多OP能力交互分册》中国移动通信集团公司[51]QB-Y-060-《中国移动省级增值业务综合运行平台业务规范(v1.0)》中国移动通信集团公司[52]QB-Y-061-《中国移动省级增值业务综合运行平台技术规范(v1.0)》中国移动通信集团公司[53]QB-Y-062-《中国移动省级增值业务综合运行平台技术规范-数据管理分册(v1.0)》中国移动通信集团公司[54]QB-Y-063-《中国移动省级增值业务综合运行平台接口规范》中国移动通信集团公司[55]QB-Y-039-《中国移动省级NG2-BASS(v3.5)业务规范》中国移动通信集团公司[56]QB-Y-038-《中国移动省级NG2-BASS(v3.5)技术规范总册》中国移动通信集团公司[57]QB-Y-040-《中国移动省级NG2-BASS(v3.5)技术规范数据集市分册》中国移动通信集团公司[58]QB-Y-041-《中国移动省级NG2-BASS(v3.5)技术规范逻辑模型分册》中国移动通信集团公司[59]QB-Y-042-《中国移动省级NG2-BASS(v3.5)技术规范外部接口分册》中国移动通信集团公司[60]QB-Y-043-《中国移动省级NG2-BASS(v3.5)技术规范元数据管理分册》中国移动通信集团公司[61]QB-Y-044-《中国移动省级NG2-BASS(v3.5)技术规范数据质量管理子系统分册》中国移动通信集团公司[62]QB-Y-045-《中国移动省级NG2-BASS(v3.5)技术规范OP能力交互分册》中国移动通信集团公司[63]QB-Y-046-《中国移动省级增值业务综合运行平台业务规范(v1.5)》中国移动通信集团公司[64]QB-Y-047-《中国移动省级增值业务综合运行平台技术规范(v1.5)》中国移动通信集团公司[65]QB-Y-048-《中国移动省级NG2-BASS技术规范系统安全管理分册(v1.5)》中国移动通信集团公司[66]QB-Y-044-《中国移动省级NG2-BASS(v4.0)业务规范》中国移动通信集团公司[67]QB-Y-045-《中国移动省级NG2-BASS(v4.0)技术规范总册》中国移动通信集团公司[68]QB-Y-045.1-《中国移动省级NG2-BASS(v4.0)技术规范数据集市分册》中国移动通信集团公司[69]QB-Y-045.2-《中国移动省级NG2-BASS(v4.0)技术规范逻辑模型分册》中国移动通信集团公司[70]QB-Y-045.3-《中国移动省级NG2-BASS(v4.0)技术规范外部接口分册》中国移动通信集团公司[72]QB-Y-045.4-《中国移动省级NG2-BASS(v4.0)技术规范元数据管理分册》中国移动通信集团公司[73]QB-Y-045.5-《中国移动省级NG2-BASS(v4.0)技术规范数据质量管理子系统分册》中国移动通信集团公司[74]QB-Y-046-《中国移动省级增值业务综合运行平台业务规范V2.0.0》中国移动通信集团公司[75]QB-Y-047-《中国移动省级增值业务综合运行平台技术规范V2.0.0》中国移动通信集团公司[76]QB-Y-047.1-《中国移动省级增值业务综合运行平台技术规范数据管理分册V2.0.0》中国移动通信集团公司[77]QB-Y-044-《中国移动省级NG2-BASS(v4.5)业务规范》中国移动通信集团公司[78]QB-Y-045-《中国移动省级NG2-BASS(v4.5)技术规范总册》中国移动通信集团公司[79]QB-Y-045.1-《中国移动省级NG2-BASS(v4.5)技术规范数据集市分册》中国移动通信集团公司[80]QB-Y-045.2-《中国移动省级NG2-BASS(v4.5)技术规范逻辑模型分册》中国移动通信集团公司[81]QB-Y-045.3-《中国移动省级NG2-BASS(v4.5)技术规范外部接口分册》中国移动通信集团公司[82]QB-Y-045.4-《中国移动省级NG2-BASS(v4.5)技术规范元数据管理分册》中国移动通信集团公司[83]QB-Y-045.5-《中国移动省级NG2-BASS(v4.5)技术规范数据质量管理子系统分册》中国移动通信集团公司[84]QB-Y-045.6-《中国移动省级NG2-BASS(v4.5)技术规范安全管理技术方案》中国移动通信集团公司[85]QB-Y-046-《中国移动省级增值业务综合运行平台业务规范V2.5.0》中国移动通信集团公司[86]QB-Y-047-《中国移动省级增值业务综合运行平台技术规范V2.5.0》中国移动通信集团公司[87]QB-Y-047.1-《中国移动省级增值业务综合运行平台技术规范数据管理分册V2.5.0》中国移动通信集团公司术语、定义和缩略语下列术语、定义合用于本规范:字母名词解释CCWMCWM原则是OMG组织定义的数据仓库和有关系统的国际元数据原则,给出了多个元数据构造的原则定义。CWM原则的目的在于:使数据仓库和商业智能软件的元数据在异构的数据分析工具、数据仓库平台、元数据存储库等系统之间进行交互。EETL特指从数据源系统到大数据平台的数据抽取、转换和加载。G管理元数据描述大数据平台中管理领域有关概念、关系、规则的数据,重要涉及人员角色、岗位职责、管理流程等信息。H核心元模型大数据平台核心元模型是以CWM为基础扩展形成的,针对大数据平台的物理模型、逻辑模型、数据解决过程、接口单元、指标和维度编码等重要实体进行精拟定义,并规定各省大数据平台统一遵照的元模型。定义核心元模型的目的是建立大数据平台的统一元数据管理原则,为元数据管理的功效层与应用层解耦、为公司级总部大数据平台和公司级省大数据平台的元数据交换和互相理解提供统一的语义基础。H核心元模型参考表核心元模型参考表是对核心元模型中的枚举类型属性进行枚举值定义的编码表。参考表为枚举类型属性的每个枚举值定义了唯一的编码,并明确该编码的语义,是核心元模型原则化定义的重要构成部分。J技术元数据描述大数据平台中技术领域有关概念、关系、规则的数据。重要涉及对数据构造、数据解决方面的特性描述,覆盖大数据平台数据源接口、数据仓库、ETL、OLAP、数据挖掘、前端呈现等全部数据解决环节。S数据解决过程数据从数据源系统到大数据平台前端使用的整个解决过程,包含大数据平台数据仓库内部的数据抽取、转换和加载。S数据采集点覆盖大数据平台数据解决环节的、获取每个环节运行状态的实体。该实体能够是程序实体也能够是任务实体S数据质量报告数据质量报告是对数据质量日常监控以及质量评定等过程累积的多个信息进行汇总、梳理、统计和分析,形成的统计报告S数据质量监控通过获取大数据平台各环节的数据质量监控信息,结合元数据库中的有关检查规则,对各个环节的数据质量状况进行判断,并及时向数据质量监控人员报告。S数据质量规则库数据质量规则库是对数据质量管理活动所用到的多个判断及校验规则进行归类和寄存的存储构造,存储的内容涉及采集规则、监控规则、告警规则和审计规则等S数据质量信息库数据质量管理子系统存储层上的存储构造,用于存储数据质量信息采集程序采集的数据质量信息、质量评定信息、问题解决方案和问题解决流程信息等S省公司中国移动通信集团各省(直辖市、自治区)移动通信有限公司。SSQL脚本自动解析SQL脚本自动解析指通过对SQL脚本的词法、语法和语义进行分析,自动生成满足CWM规范规定的数据解决过程的技术元数据的功效。Y业务元数据描述大数据平台中业务领域有关概念、关系、规则的数据。重要涉及业务术语、信息分类、指标定义(指标口径)、业务规则等信息。Y元模型元模型是描述元数据的基础模型构造,用于阐明元数据对象的多个属性、构造和关系。Y元数据元数据是描述数据间关系的数据。大数据平台中元数据泛指描述数据概念(Concepts)、数据间关系(Roles)、数据解决规则(Rules)的数据,其中,领域语义(Semantics)和知识(Knowledge)也属于元数据的范畴。D数据原则指在中国移动台公司级省大数据平台下为了使公司内外部使用和交换的数据是一致和精确的,经协商一致制订并由大数据治理委员会主管机构同意,含有行业特点且共同使用和重复使用的一种规范性约束。D数据原则体系指数据原则按照中国移动公司级省大数据平台需求对数据进行原则化的划分归类。D数据原则内容按照数据原则体系划分的规定分别给出各数据原则制订的规范内容。D行业参考模型实体中国移动规范中原定义或新增加的逻辑数据模型LDM实体。D公共代码原则需要引用外部公共原则机构的原则。如:世界各国和地区名称代码等。下列略缩语合用于本规范:缩写英文描述中文描述ASTAbstractSyntaxTree抽象语法树BOSSBusinessOperationSupportSystem业务运行支撑系统CWMCommonWarehouseMetamodel公共仓库元模型ETLExtractionTransformationLoading抽取、转换和加载OLAPOn-lineAnalysisProcess在线分析解决XMIXMLMetadataInterchangeXML元数据交换BIBusinessIntelligence商务智能RESTRepresentationalStateTransfer表述性状态转移总体阐明概述本规范用于指导公司级省大数据平台数据治理子系统建设,规定了省大数据平台数据治理的范畴和规定,明确了数据治理子系统的体系构造,制订了数据治理子系统的功效和解决流程。数据治理子系统包含数据原则管理、元数据管理、数据质量管理、数据资产管理、数据安全管理等功效模块。本方案借鉴资产管理的办法理论来管理数据,将数据作为一种特殊的资产,对进入平台的数据进行原则化的规范约束,并以元数据作为驱动,连接数据的原则管理、数据质量管理、数据数据安全管理的各个阶段,形成统一、完善的数据治理体系,以解决实际业务问题为导向,增强数据治理子系统对业务发展的支撑能力。目的数据治理子系统的建设为数据治理工作提供强有力的系统支撑。本期规范建设目的是以元数据为驱动,建立省大数据平台完整的数据治理体系。从组织架构、系统功效等方面增强数据宏观管控,并实现精细化管理,具体涉及:数据治理组织架构管理:定义数据治理所需人员组织上的岗位和职责,从管理角度支撑数据治理工作的落地和执行。数据原则管理:建立公司级省大数据平台数据原则体系,并制订数据原则运维管控制度和流程。元数据管理:减少元数据使用难度、提高顾客体验,使大数据平台各类顾客均能参加到元数据运行维护当中。数据质量管理:为内、外部顾客提供平台化的数据质量监控;通过扩充和优化公共规则库、确保数据的完整性、一致性、精确性、及时性、正当性,提高顾客使用感知;并提供数据质量应用满足个性化需求。数据资产管理:重点建设从规划、注册、运维到注销的全流程管理体系,使数据资产管理系统化、可视化。数据安全管理:建立体系化的数据安全管控方略,通过顾客安全管理、数据安全管理实现全方位数据安全管控机制,通过技术手段与管理方法相结合的方式贯彻数据安全,做到事前可管、事中可控、事后可查。原则公司级省大数据平台数据治理子系统建设应遵照下列基本原则:?有效性原则体现大数据平台数据治理过程中数据的原则、质量、价值、管控的有效性、高效性。价值化原则体现数据治理过程中以数据资产为价值核心,最大化大数据平台的数据价值。?统一性原则体现大数据平台架构统一、原则统一、元数据统一、质量流程统一、资产价值统一的一体化管控平台体系。开放性原则体现平台化、开放性运维思想,实现人人参加数据治理、人人参加数据运维。产品化原则体现大数据平台数据治理能力的显性化,通过产品化互联网思维服务大数据平台数据生态圈顾客。安全性原则体现安全的重要性、必要性,保障大数据平台数据安全和数据治理过程中数据的安全可控。数据治理体系总体框架数据治理总体框架涉及组织架构、数据治理模块、数据运维三部分。通过组织架构建立管理方法,制订工作流程,拟定角色职责。数据治理模块重要涉及数据原则管理、元数据管理、数据质量管理、数据资产管理、数据安全管理,各模块协同运行,确保大数据平台的数据一致、安全、有效。数据运维贯穿整个数据治理体系的流程中,实现平台化的运维管理思路。数据治理总体框架如图51所示:核心领域大数据平台核心领域大数据平台数据治理工具数据安全管理数据资产管理元数据管理数据质量管理数据原则管理组织架构组织架构定义角色与职责规划和方略管理方法数据运维质量运维管控运维资产运维组织架构适宜吗图STYLEREF1\s5SEQ图\*ARABIC\s11数据治理体系框架组织架构与否含糊化,简要说一下数据治理需要由专人、专职负责,不明说建立专业机构。与否含糊化,简要说一下数据治理需要由专人、专职负责,不明说建立专业机构。数据治理组织的构建旨在通过建立数据治理组织架构明确各级角色和职责,保障数据治理的各项管理方法、工作流程的实施,推送数据治理工作的有序开展。组织构成数据治理组织架构重要由数据治理委员会、数据治理中心和各业务部门构成。组织架构划分和角色设定如图52所示:图STYLEREF1\s5SEQ图\*ARABIC\s12数据治理组织架构图角色职责组织责任体系是数据治理责任落地的保障,数据治理组织架构通过明确各角色职责,实施认责制度,让数据治理工作更加好的融入到数据日常使用和有关的工作中,从而推动数据运维自治的实现,如REFOLE_LINK11\h表5-1。表5-1数据治理组织架构角色职责定义内容组织构造角色角色描述角色重要职责数据治理委员会数据管理决策者由公司主管领导和各业务部门领导构成负责牵头数据治理工作;制订数据治理的政策、原则、规则、流程,协调认责冲突;对数据事实治理,确保数据的质量和隐私;在数据出现质量问题时负责仲裁工作。数据治理中心数据平台运行者数据管理中心机构的平台运行人员负责提交数据原则的规定及数据质量规则和业务规范,解释数据的业务规则和含义;监督各项数据规则和规范的约束的贯彻状况;负责数据治理平台中整体数据的管控流程制订和平台功效系统支撑的实施;负责平台的整体运行、组织、协调。各业务部门数据提供者有关数据开发提供人员负责数据及有关系统的开发,有责任执行数据原则和数据质量内容;负责从技术角度解决数据质量问题;作为数据出现质量问题时的重要责任者。数据维护者数据维护人员制订有关数据原则、数据制度和规则;恪守和执行数据原则管控有关的流程,根据数据原则规定提供有关数据规范;作为数据出现质量问题时的次要责任者。数据消费者数据使用人员,包含内部顾客和外部顾客作为数据治理平台数据管控流程的最后参加使用者;是数据资产价值的获益人;作为数据治理平台数据闭环流程的发起人。系统架构系统功效框架数据治理功效框架明确了数据治理在公司级省大数据平台中的定位,并以合理的功效层次划分指导数据治理系统有关功效建设。系统功效框架如REFOLE_LINK12\h图53所示。图STYLEREF1\s5SEQ图\*ARABIC\s13数据治理功效框架图公司级省大数据平台门户:公司级省大数据平台统一的访问接口,供公司内、外部顾客、第三方独立开发者访问及使用数据治理有关产品或功效,并负责统一访问认证及日志统计。能力开放平台:公司级省大数据平台统一的对外服务层,数据治理有关的产品及应用均通过这个层次进行注册、公布,并对内、外部开放。数据治理系统:数据原则:在数据原则管理组织架构推动和指导下,遵照协商一致制订的数据原则规范,借助原则化管控流程得以实施数据原则化的整个过程。元数据:采用集中式管理模式进行元数据管理,全公司元数据逻辑集中,即元数据管理模块作为公司元数据的统一公布源,集中管理元数据,提供元数据集中创立、维护、查询功效。数据质量:对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据资产:规划、控制、提供数据及信息资产的一组业务职能,涉及开发、执行和监督有关数据的计划、政策、方案、项目、流程、办法和程序,从而控制、保护、提高数据资产的价值。数据安全:通过计划、制订、执行数据安全政策和安全方略方法,为公司级大数据平台的数据和信息提供行之有效的认证、授权、访问和审计。数据运维在左侧目录里缺少一种模块:涉及数据资产运维、数据质量运维,借鉴互联网思维,通过产品化运维工具来整体提高公司在左侧目录里缺少一种模块公司级省大数据平台:大数据基础平台,负责数据的接入、存储、管理、应用及有关基础功效支撑。系统模块流程图STYLEREF1\s5SEQ图\*ARABIC\s14数据治理系统功效各模块关系图 如图54所示,数据治理系统各模块之间,根据数据操作的流程产生互有关联,各模块业务流程关系阐明以下:L1:数据原则管理模块将原则定义映射到元数据信息上,实现数据原则的规范规定落地。L2:元数据管理模块为数据资产管理模块提供存储模型、属性信息查询服务。L3:元数据管理模块为数据质量管理模块提供元数据有关属性信息。L4:顾客通过元数据定义大数据平台的数据构造。L5:数据质量管理模块根据采集需求从大数据平台采集数据。L6:数据质量管理模块将数据质量问题反馈给大数据平台。L7:数据质量管理模块向资产模块提交数据质量评定成果。L8:元数据管理模块为数据安全管理模块提供隐私级别定义服务。L9:数据资产管理模块发起资产访问申请,由数据安全管理模块控制顾客访问权限,控制数据资产的增加、删除、变更操作权限,对访问的数据内容、数据属性等操作进行管控。L10:数据安全管理模块为大数据平台提供数据访问权限方略。系统边界公司级省大数据平台数据治理子系统与其它子系统之间存在数据交互、功效调用、流程穿插等关联。数据治理子系统与大数据平台系统内其它子系统的关系示意如REFOLE_LINK13\h图55所示:数据治理元数据管理数据治理元数据管理数据原则管理数据质量管理数据资产管理数据安全管理数据服务平台公司级省大数据平台平台运维图STYLEREF1\s5SEQ图\*ARABIC\s15数据治理子系统与各子系统边界图与公司级省大数据平台关系公司级省大数据平台上的数据资产是数据治理的重要对象;数据治理为公司级省大数据平台提供数据原则指导、元数据定义、数据质量监控、数据安全等方面的全方面支撑,使大数据平台上的数据资产清晰、有序、安全、可控。与对外能力开放平台关系数据治理为对外能力开放平台提供元数据查询、数据安全管理支持;对外能力开放平台为数据治理提供统一的数据治理产品及功效注册、公布、使用服务。与平台运维系统关系数据治理子系统支撑大数据平台的数据管控流程,并与平台运维交互协调,共同支撑大数据平台整体的安全运维、数据运维和管理运维。数据治理核心模块数据原则管理背景中国移动公司级省大数据平台数据原则是在经营分析系统数据管控规定基础之上,借鉴互联网公司数据治理的经验而提出的。数据原则是指在中国移动公司级省大数据平台下,保障公司内外部使用和交换数据的一致性和精确性,含有行业特点且共同使用的一种规范性约束。数据原则是公司级省大数据平台数据治理的基础性工作,是数据治理建设中的首要环节。首先,数据原则为公司级省大数据平台提供统一的数据原则定义和平台逻辑模型。另一方面,数据原则是公司级省大数据平台进行数据治理的根据和根本。再次,数据原则是衡量公司级省大数据平台数据资产运行和管理的评定根据。最后,中国移动通过数据原则管理的实施,实现对公司级省大数据平台全网数据的统一运行管理。公司级省大数据平台数据治理体系中数据原则管理如图61所示,涉及制订数据原则的规范性文献、进行数据原则化管控及数据原则管理组织。图STYLEREF1\s6SEQ图\*ARABIC\s11数据原则管理内容公司级省大数据平台数据原则管理与原经营分析系统数据管控的区别以下表61所示:表STYLEREF1\s6SEQ表\*ARABIC\s11公司级省大数据平台数据原则管理与原经营分析系统数据管控区别公司级省大数据平台数据原则管理原经营分析系统数据管控数据范畴涉及公司内外部数据运行有关的数据,包含BOM三域数据、外部数据。数据仅限于市场经营活动的B域和部分O,M域数据。业务应用模式以数据原则为基础的数据治理体系,实现数据的资产化,贯穿整个数据运行的全流程,形成以中国移动大数据平台为核心的大数据生态圈,服务于公司内外部客户。以支撑公司内部经营分析为主。服务对象服务于整个大数据生态圈。原经营分析系统使用人员。目的及原则 数据原则管理的总体目的:通过统一的数据原则制订和公布,结合制度约束、系统控制等手段,实现中国移动公司级省大数据平台数据的完整性、有效性、一致性、规范性、开放性和共享性管理,提高公司级省大数据平台数据治理水平。 数据原则制订的原则:开放性:原则制订人人参加。共享性:数据原则化信息在大数据生态圈共享使用。完整性:涵盖客户、产品、服务、帐务、资源、网络等全部重要数据信息。有效性:信息精确度高、理解上不存在歧义。一致性:做到“五统一”,定义统一、口径统一、名称统一、来源统一、参考统一。规范性:制度规范、流程控制、系统管理等。业务分类和定义数据原则体系分类数据原则制订如REFOLE_LINK14\h图62所示,涉及数据原则体系划分和数据原则内容制订,数据原则体系可分为基础类数据原则和指标类数据原则。图STYLEREF1\s62数据原则体系划分数据原则内容制订数据原则内容的制订按照数据原则体系分类的规定分别给出数据原则制订的规范规定。1、基础类数据原则基础类数据原则是通过多个业务解决产生或各类渠道采集的基础性数据,在全国范畴内必须是唯一定义的,如“顾客品牌”、“归属地市”。基础类数据原则分为行业参考模型实体原则和公共代码原则。行业参考模型实体原则指按照行业需求和中国移动省级数据逻辑模型实体规范规定,继承以往数据逻辑模型实体规范,将各域的逻辑模型实体定义抽象为模型实体原则规定。行业参考模型实体数据原则体系定义内容如表62所示。表STYLEREF1\s6SEQ表\*ARABIC\s12行业参考模型实体数据原则体系定义内容行业参考模型实体原则原则体系属性阐明数据原则编码根据数据原则编码命名规则进行编写。原则主题数据原则归属主题原则子类数据原则归属类型中文名称数据原则中文名称。英文名称数据原则英文名称。实体编号根据行业参考模型实体编号命名规则进行编写。实体名称根据行业参考模型实体名称命名规则进行编写。数据版本该数据原则的版本信息。数据体系分类根据数据分类规则对数据进行分类,以确保数据体系的易用性,以及符合顾客查找习惯。重要级别集团规范定义的数据为一级,省公司定义的数据为二级,其它惯用的数据为三级。数据提供部门该数据原则定义数据的提供部门。数据提供部门负责人该数据原则定义数据提供负责人。数据维护部门该数据原则定义数据维护部门。数据维护部门负责人该数据原则定义数据维护负责人。业务主管部门该数据原则定义数据业务主管部门,该部门对数据口径、编码取值和有关专业术语有决定权。业务主管部门负责人该数据原则定义数据业务负责人。数据来源系统如:BOSS,CRM,ERP等重要根据有关指标的解释和描述文献。如集团规范、省公司规范、业务部门制订等等。业务定义指标的业务描述口径,普通由业务部门使用业务语言制订。 具体行业参考模型实体数据原则体系定义内容示例参见《附录二:数据原则体系定义内容示例》。公共代码原则,指对于某些共享程度较高、内容相对比较稳定的编码,普通能够组织力量一次性地编制出来,其中有某些需要引用外部公共原则机构的原则,例如:世界各国和地区名称代码等。公共代码原则体系定义内容如表63所示。表STYLEREF1\s6SEQ表\*ARABIC\s13公共代码原则体系定义内容公共代码原则原则体系属性阐明数据原则编码根据数据原则编码命名规则进行编写。公共原则号引入外部公共原则号中文原则名称数据原则中文名称英文原则名称数据原则英文名称。原则状态该原则的状态,如现行、停止。公共原则机构名称引入该公共原则的机构名称。数据原则体系根据数据分类规则对数据进行分类,以确保数据体系的易用性,以及符合顾客查找习惯。重要级别集团规范定义的数据为一级,省公司定义的数据为二级,其它惯用的数据为三级。数据原则引入部门该数据原则引入和维护部门。数据原则引入部门负责人该数据原则引入和数据维护负责人。数据上报系统最后对数据进行计算和公布的系统,也是各部门唯一获取指标数据的来源系统。具体行业参考模型实体数据原则体系定义内容示例参见《附录二:数据原则体系定义内容示例》。2、指标类数据原则指标类数据原则是数据基础上按照一定业务规则加工汇总的数据,如KPI指标数据。指标类数据又可分为基础指标和计算指标。基础指标普通不含维度信息,且含有特定业务和经济含义。计算指标普通由两个以上基础指标计算出。指标类数据原则体系定义内容如表64所示。表STYLEREF1\s6SEQ表\*ARABIC\s14指标类数据原则体系定义内容指标类原则阐明基础属性数据原则编码根据数据原则编码命名规则进行编写。中文名称数据原则中文名称。英文名称数据原则英文名称。应用场景该指标合用于什么场景。数据版本该数据原则的版本信息。数据体系分类根据数据分类规则对数据进行分类,以确保数据体系的易用性,以及符合顾客查找习惯。重要级别集团规范定义的数据为一级,省公司定义的数据为二级,其它惯用的数据为三级。管理属性数据提供部门该数据原则定义数据的提供部门。数据提供部门负责人该数据原则定义数据提供负责人。数据维护部门该数据原则定义数据维护部门。数据维护部门负责人该数据原则定义数据维护负责人。业务主管部门该数据原则定义数据业务主管部门,该部门对数据口径、编码取值和有关专业术语有决定权。业务主管部门负责人该数据原则定义数据业务负责人。数据上报系统最后对数据进行计算和公布的系统,也是各部门唯一获取指标数据的来源系统。数据生成系统生成数据所需的数据所在的来源系统,如BOSS系统。数据上游系统数据生成后上报给哪个系统,如ERP系统。业务属性重要根据有关指标的解释和描述文献。如集团规范、省公司规范、业务部门制订等等。业务定义指标的业务描述口径,普通由业务部门使用业务语言制订。计算流程/算法用来描述指标具体的计算过程。指标类型根据管理需要能够将指标分为基础指标、计算指标两类。计算指标公式用于描述有关指标间的平衡关系,可用于指标数据审核过程中,能有效地确保指标数据质量。技术属性计量单位数据使用单位如:“户”、“分钟”、“MB”、“元”、“次”、“%”等等。统计精度指标统计数值精确到小数还是整数。数据值域数据的合理取值范畴。统计周期数据统计周期如“日”、“周”、“月”、“季度”、“六个月”、“年”等等。统计粒度数据统计粒度如:“顾客级”、“区县级”、“地市级”等。统计维度数据统计维度如:“地区”、“品牌”、“在网时长”、“客户等级”等。指标出数表指标数据来源于哪张物理表。指标出数代码指标数据来源于物理表的哪个。 具体行业参考模型实体数据原则体系定义内容示例参见《附录二:数据原则体系定义内容示例》。技术功效规定数据原则制订数据原则的制订按照本册中数据原则管理的业务分类和定义规范指导规定,基于各公司级省大数据平台的数据管控需求进行数据原则规范的制订。其制订的数据原则规范内容在全省进行公布和告知,规定公司级省大数据平台系统按照该原则规范进行统一的数据管理。数据原则制订涉及数据原则的编制、数据原则的审查、数据原则的公布。数据原则化管理组织将数据原则以正式发文的方式在全公司范畴内进行公布,并在公布后将数据原则、版本阐明保存备案。最后将公布的数据原则更新至数据原则管理模块中,如REFOLE_LINK22\h图63所示。图STYLEREF1\s63改为图6-4数据原则管理的编制、审查、公布流程图改为图6-4数据原则的编制、审查和公布通过数据原则管理模块开发实现,其流程如REFOLE_LINK15\h图63示:1、数据原则管理组织协调者组织数据提供者和执行者参加数据原则属性的收集和整顿工作,并按照协商一致的原则形成数据原则初稿。2、数据原则初稿进行多次的讨论和丰富后,形成数据原则送审稿提交给数据原则管理决策者。3、通过数据原则管理决策者的讨论审核后,由数据原则管理组织协调者再次进行数据原则的修改完善,并完毕数据原则的公布。数据原则执行数省公司和各部门、分公司统一按照所制订的数据原则实施数据原则管理,数据原则的执行流程如图64所示。图STYLEREF1\s6SEQ图\*ARABIC\s14数据原则管理的执行流程图 数据原则执行的流程环节以下: 1、数据原则制订公布后,将数据原则录入到数据原则管理模块。2、数据原则管理执行者按照公布的数据原则,制订和公布数据原则接口。3、数据原则管理模块将原则规定提供应数据质量管理根据已录入系统的数据原则形成稽查规则,对数据原则管理执行者制订和公布的数据原则接口中的内容进行有关的原则稽核监控。4、将原则稽核成果发送给数据原则管理模块,并反馈给数据原则管理决策者和数据原则管理执行者。数据原则维护数据原则的维护指数据原则建立后,根据业务需求的发展变化或外部数据原则规定不一致时,对数据原则的内容进行变更和版本管理,如REFOLE_LINK23\h图65所示。图STYLEREF1\s65数据原则管理的变更流程图 数据原则管理的变更通过数据原则管理系统开发实现落地,其流程如REFOLE_LINK16\h图65所示: 1、对执行的有关数据原则进行变更请求的申请,组织该数据原则有关执行层和各数据运维者进行讨论和变更需求汇总。 2、由数据原则管理组织协调机构进行原则变更的审核。 3、讨论审议数据原则项的变更内容,并形成原则变更需求审批表提交给数据原则管理决策层进行审批。 4、决策层将审批成果反馈给原则管理组织协调者,并由其进行数据原则公布及版本维护。数据原则监控数据原则监控实现对数据原则执行过程的监控,涉及对数据原则的执行、效果、问题进行监控管理,为后期数据原则维护管理提供根据。数据原则的监控通过数据原则管理和元数据管理、数据质量管理协同实现落地,监控流程如REFOLE_LINK17\h图66所示:图STYLEREF1\s66数据原则管理监控流程图 数据原则管理监控流程以下:数据管理者录入数据原则和元数据信息。根据数据原则制订数据原则接口。根据数据原则生成的稽核规则,进行前向稽核,稽核正常进行下一流程,稽核非正常返回错误文献统计给数据管理者做数据原则的更新。数据提供者将数据提交到公司级大数据平台,并且完毕对元数据的采集。对数据提供者数据进行后向稽核,稽核正常则数据可提供数据消费者正常使用,稽核非正常返回错误信息统计给数据提供者做数据修订。本期建设范畴及内容本期数据原则管理建设范畴规定涉及公司级省大数据平台中数据原则内容,但不在全集团范畴内强制统一数据原则规范。 本期具体建设内容涉及:1、数据原则规范内容涵盖:行业参考模型实体原则指标数据原则公共代码原则2、数据原则化管控内容涵盖:建立数据原则化管理组织架构。搭建数据原则管理模块。实现数据原则管理流程的功效系统化,并衔接元数据管理、数据质量管理和数据资产管理形成数据治理的闭环运维。提供具数据原则产品,如数据原则查询APP等。实施规定数据原则管理实施规定涉及:1、数据原则统一规划。按照公司级省大数据平台的数据治理规定,结合数据原则规范指导内容,构建适应公司级省大数据平台的数据原则体系,并制订数据原则实施方案。2、建立数据原则管理的支撑体系。规定涉及数据原则管理组织架构、数据原则管理方法和制度流程,以及数据原则管理支撑工具。3、实现中国移动公司级省大数据平台中数据业务口径和技术口径有效协同统一。4、支撑中国移动公司级省大数据平台的平台化、产品化和数据资产运行的需求。5、支撑新增公司级省大数据平台数据接口内容的原则化定义。6、满足原有数据可逐步进行数据原则规范的迁移和统一。元数据管理背景元数据管理模块是大数据平台数据治理体系的重要构成部分。IT研究与顾问咨询公司Gartner公布的《十大战略性技术趋势》中对于公司战略性大数据的描述以下:将多个系统,涉及内容管理、数据仓库、数据集市和专门的文献系统等与数据服务和元数据互相结合,组合为“逻辑的”公司数据仓库。通过对这个“逻辑的数据仓库”的有效治理,为公司后续的数据资产运行、增值以及数据服务提供有效支撑。中国移动公司级省大数据平台是这种逻辑的公司数据仓库的一种具体落地实现,元数据管理的建设将贯穿大数据平台建设、使用、运行、维护的全过程,并发挥下列作用:提供公司级数据字典,便于内外部客户更加好地理解公司数据概况;提供全局元数据查询检索,便于顾客快速定位元数据;提供元数据具体描述,使顾客理解数据构成、构造及数据流向;提供血缘/影响分析功效,便于顾客进行分析判断、问题定位;提供元数据接口服务,便于其它系统或模块使用元数据服务;提供元数据应用,方便终端顾客使用元数据;提供统一的基于元数据描述的API管理产品,集中管理平台开放的内外部API。大数据平台的元数据管理方面,与传统经分相比,重要有下列不同点:管理范畴不同:新增集群NameNode节点的管理元数据;新增集群DataNode节点的业务/技术元数据;新增大数据平台内部以及其与DW、MPP等跨工具/产品的复杂数据流元数据。管理制度方面:管理流程:新增跨部门、跨系统的多层次交互式的元数据注册、维护、管理、使用流程,同时需要针对不同顾客提供有针对性的元数据产品支持。角色权限:管理上更加细致的分工,不同部门需新增对应的元数据查询、管理、维护角色;工具支撑方面:需支持大数据平台新增元数据范畴地获取、存储与管理;需支持大数据平台海量元数据的获取、存储、管理及应用;需提供原则化定义,并支持管理集群节点快速获取分节点的运行元数据信息;需对大数据平台的文献、语音、图片等非构造化数据的标记元数据,即大数据有关的词库元数据进行管理,并提供检索查询等应用支持;需通过元数据对大数据平台的新增数据进行敏感定义及标记;需为终端顾客提供简朴易用的元数据产品,减少使用成本。元数据运行模式本期规范规定,在提高元数据顾客使用体验的同时,着重改善元数据管理的运行模式,重点建设前向的元数据管控机制,并逐步探索集中的大数据平台元数据管理方式。本期规范中,除元数据基础功效外,对元数据管理的运行维护提出下列规定:对于集团统一原则规范的元数据,严格按照集团提供元数据原则落地;对于大数据平台的集群NameNode、文献目录等部分元数据,通过互通机制订期按集团规定格式上报。元模型原则有关元数据原则的元模型部分,将在经分规范的核心元模型基础上,根据大数据平台新增数据构造特点进行扩充,以满足这部分元数据获取、存储、管理及应用规定。重要涉及集群节点的namenode元数据及Hadoop的文献/目录元数据。本期规范需要上报的元数据信息,重要涉及集群NameNode元数据,涉及集群的运行监控信息及文献/目录元数据。图STYLEREF1\s67总部集群与省集群节点的元数据上报关系示意 REFOLE_LINK18\h图67为集团总控节点与省集群节点的元数据上报关系示意图。集群节点定时上报其本身的NameNode阶段运行信息及数据节点的数据信息,供集团理解省分节点运行、存储状况,为后续的统一管控提供基础支撑。集群监控类 对于集群NameNode节点的运行监控类元数据,属于ApacheHadoop的私有定义,暂无法使用或在CWM规范基础上扩充。故直接引用ApacheHadoop的有关定义,并对其进行适宜规范。本期对NameNode节点的元数据上报信息规定以下:英文名中文名类型备注ConfiguredCapacity配备容量doublePresentCapacity现在总容量doubleDFSRemaining剩余容量doubleDFSUsed已用容量doubleDFSUsed%使用率double小数点后4位Underreplicatedblocks待复制数据块doubleBlockswithcorruptreplicas中断复制数据块doubleMissingblocks丢失数据块doubleDatanodesavailable可用节点数doubleDatanodesNonavailable不可用节点数double需要上报的作业监控信息以下:英文名中文名类型备注Name名称textDescription描述textLastModified更新时间dateSteps环节doubleStatus状态textOwner拥有人textDatanode节点需要上报的元数据信息以下:英文名中文名类型备注Name节点名称textHostname主机名textRack所属机架textDecommissionStatus可用状态textConfiguredCapacity配备容量doubleDFSUsed已用容量doubleNonDFSUsed非DFS使用容量doubleDFSRemaining剩余容量doubleDFSUsed%已用容量double小数点后4位DFSRemaining%使用率double小数点后4位ConfiguredCacheCapacity配备缓存容量doubleCacheUsed缓存使用量doubleCacheRemaining缓存剩余量doubleCacheUsed%缓存使用率double小数点后4位CacheRemaining%缓存剩余率double小数点后4位Lastcontact近来检查时间date数据节点类为支持大数据平台下文献、目录、Hbase、Hive有关元数据的集中存储,本期规范将CWM核心元模型的Table、Column、View类进行扩展,同时新增模型包,里边包含目录(Directory)和文献(File)两个实体及有关属性。有关经分系统核心元模型及参考表,元模型原则CWM的有关定义,请参考《中国移动省级NG2-BASS(v5.0)技术规范核心元模型规范》中的有关章节描述。修订内容以下:1、需要修改的元模型涉及:Table类增加下列属性:location:String阐明:存储大数据平台上该表对应的HDFS文献目录信息。createTime:String阐明:该表的创立时间。creator:String阐明:该表的创立人。Column类增加下列属性:partitionColumnId:String阐明:Hive表对应的分区字段编号。View类增加下列属性:createTime:String阐明:该视图的创立时间。creator:String阐明:该视图的创立人。2、需要增加的元模型涉及:ColumnFamily类有以下属性:name:String阐明:Hbase对应的列簇名称。File类有以下属性:name:String阐明:文献名称。path:String阐明:文献途径信息。compressorType:String阐明:压缩类型。size:String阐明:文献大小。type:String阐明:文献类型。permission:String阐明:权限。owner:String阐明:全部者。group:String阐明:所属顾客组。Directory类有以下属性:name:String阐明:目录名称。path:String阐明:途径信息。permission:String阐明:权限。owner:String阐明:全部者。group:String阐明:所属顾客组。3、需要增加的元模型关系涉及:添加TableToDirectory关系;添加ColumnFamilyToDirecitry关系。元数据运维在前期元数据运行维护规定的基础上,满足本期大数据平台的数据治理规定,对元数据的维护提出下列补充规定:强化元数据管理制度规定,每个元数据均需将所属部门、负责人信息补充完整;为加强数据安全及隐私保护,每个元数据需提供对应的数据隐私级别信息;细化元数据分类,在前期技术、业务、管理大分类的基础上,增加从系统所属部门、系统及模块角度标记每个元数据;严控元数据版本,对于每次变更需具体统计变更因素、时间、人员等核心信息;细化元数据权限,对于不同的部门、人员、角色,仅授予工作所需的最小权限,对于权限变化要严格审批。本期重点建设内容基于大数据平台“逻辑集中、物理分散”的最后目的原则,元数据管理的建设也将按此目的分步实现。在本期规范中,强调元数据的运维管理及产品化支撑,元数据产品要简朴易用、顾客体验不停提高。重要建设下列内容:元数据之家产品。基于大数据平台数据治理及改善顾客体验规定,建设一种方便内外部顾客使用的元数据产品。重要涉及下列模块:集中分类呈现;多样化检索;详情多样化展示;收藏与评价;统计分析;知识库;权限审批。元数据应用产品:查询类APP,面对业务人员及大数据平台分析人员。辅助开发产品:团结帮API管理产品,对OpenAPI进行元数据构造化描述,用于对大数据平台开放API进行注册、公布、订阅及使用管理。数据质量管理与传统经营分析系统的区别数据质量为数据的“合用性(fitnessforuse)”,即数据满足使用需要的适宜程度。数据质量通过完整性、一致性、精确性、及时性、正当性等多类维度对数据进行度量。在大数据平台上,数据质量为其提供干净、构造清晰的数据,是大数据平台开发数据产品、提供数据服务、发挥大数据价值的必要前提,是公司数据资产管理的核心因素。大数据平台数据质量和传统经营分析系统的区别如表65所示。表STYLEREF1\s6SEQ表\*ARABIC\s15大数据平台数据质量和传统经营分析系统的区别大数据平台数据质量经营分析系统数据质量监控数据的类型能够对非/半构造化数据中指定信息项进行监控,例如Gn日志中的终端信息等仅监控构造化数据数据仓库的类型支持传统数据仓库、MPP和Hadoop。仅支持传统数据仓库。使用者数据资产的全部者及其授权顾客、数据应用开发者、租户等将成为大数据平台数据质量管理模块的重要使用者,负责监控规则的设立和监控成果的解决。经分运维人员和数据质量管理员为重要使用者,负责将业务人员的需求在数据质量模块上实现。运维工作运维人员重要负责保障数据质量功效模块的正常运行和规则库的扩充,规则配备、执行和成果解决等实际工作由顾客自行负责。数据质量运维人员的工作范畴涵盖数据质量监控的全流程,涉及采集、规则配备、告警、成果查看和解决。监控模式由事后监控向事中、事后监控相结合转化,顾客/应用设立数据质量监控规则后,能够在计算执行过程中调用数据质量监控作业,无需等待成果出来后再进行监控。顾客仅能在成果出来后才干进行监控。质量保障数据质量功效模块是大数据平台接受源数据的屏障,保障全部接受的源数据均符合大数据平台的规定;数据质量还是大数据平台数据资产评定的重要构成部分,定时运行平台数据资产的有关质量规则,为数据资产评定提供输入。未明确规定数据质量为其它功效模块提供服务。范畴和原则大数据平台数据质量的管理范畴,涵盖从源数据接入大数据平台到应用输出的全过程。大数据平台数据质量管理的原则涉及:以顾客需求为中心:数据质量模块旨在为大数据平台全部顾客提供服务,平台功效的增加和增强始终围绕着顾客的实际使用需求;界面设计需要充足考虑不同类型顾客的需求,既要满足业务顾客简朴易懂的需要,也要允许技术顾客实现个性化的监控需求。全员参加:大数据平台的顾客涉及数据提供者、数据开发者、数据管理者、数据消费者,均要参加平台的数据质量管理;过程控制:数据质量监控不仅是在成果输出后,还涉及对计算过程中质量监控,一旦发现问题,能够及时终止进程;持续改善:数据质量的提高是一种持续的过程,需要定时对发现的问题进行评定,提出改善意见;也涉及数据质量模块本身功效的提高和规则库的完善。与其它功效模块的关系与元数据模块的关系数据质量模块将与元数据模块通过接口互通,根据需求获取有关元数据信息。顾客检索监控对象时,能够检索监控对象的名称、阐明或者其它元数据的属性信息,数据质量模块通过接口将检索条件传输到元数据模块,元数据模块将检索成果反馈给数据质量模块,如REFOLE_LINK19\h图68所示。图STYLEREF1\s68数据质量模块与元数据模块交互流程顾客对监控对象配备监控规则,数据质量功效模块由元数据管理模块自动获取该监控对象的物理地址,按照顾客需求自动生成采集规则。顾客如果需要在监控对象血统的有关节点上配备监控规则,则能够跳转到元数据平台上查看监控对象的血统图,找到对应节点的名称,然后按照监控对象的配备方式进行配备。与数据资产模块的关系源数据接入大数据平台,需要进行接受稽核,满足稽核规则的源数据才干接入大数据平台。源数据初次申请进入大数据平台时,即需要配备其稽核规则,此后该源数据每次提交数据到大数据平台,均需要按照设定的规则进行稽核,并将稽核成果反馈给数据资产模块,如REFOLE_LINK20\h图69所示。图STYLEREF1\s69数据质量模块与数据资产模块交互流程(资产接受)数据质量模块对大数据平台上全部资产进行定时的监控,并将监控成果反馈给数据资产模块,为数据资产评定提供支持,如REFOLE_LINK24\h图610所示。图STYLEREF1\s610数据质量模块与数据资产模块交互流程(资产评定)本期数据质量功效需求本期数据质量模块的目的是为内、外部顾客提供平台化的数据质量监控;通过扩充和优化公共规则库、增强后台对不同类型数据仓库和非构造化数据的兼容性,提高顾客使用感受;并提供数据质量应用满足个性化需求。平台化数据质量监控为外部顾客提供数据质量监控界面,顾客能够在界面上完毕监控对象选择、规则配备、告警及成果查看、问题解决等数据质量全流程监控。监控对象选择灵活,能够通过多个检索条件进行检索;规则配备界面和谐,顾客通过选择规则模板直接进行配备;后台自行适配多个数据仓库,根据监控对象的不同,自动生成适配的作业;设立好的监控规则作为单独的作业,顾客能够在计算执行过程中或计算完毕后进行调用。对内质量服务为大数据平台内部提供数据质量支撑,涉及两方面:资产接受稽核:获取接入源数据的元数据和数据原则信息,配备对应的监控规则,不满足稽核规则的源数据则告知数据资产模块,不予接受;数据资产评定支撑:对大数据平台中的数据资产进行定时的监控,将监控成果输入到数据资产模块,作为数据资产评定的一部分。规则库数据质量功效模块将《中国移动公司大数据平台规范数据原则分册》及本分册中数据原则、数据安全等有关规定转化为对应质量监控规则,内置于规则库中,并将其它惯用数据质量监控规则也纳入规则库中。规则库按照使用场景划分为不同等级,如文献级、字段级、数据级等,便于顾客选择。数据质量功效模块可觉得已经拟定的场景,设定规则包,例如数据资产评定,顾客能够直接使用,无需任何配备,也允许顾客根据实际状况对规则包中的内容进行修改。后台支撑数据质量功效模块需要为数据原则、元数据、数据资产、告警告知等提供接口。数据质量功效模块后台需要自动适配不同类型数据仓库,确保采集和规则配备的兼容性。数据质量功效模块对规则和成果的存储需要满足大数据平台的需求。数据质量应用数据质量功效模块为一线人员提供数据质量应用,涉及:绩效监控:顾客能够在该应用上设立规则、查看成果以及进行成果的进一步剖析;体检中心:通过运行该应用,对公司的数据质量进行了一次全方面的体检,并即时输出体检报告,让公司时刻理解本身数据系统的健康状况。本期数据质量运维规定本期数据质量运维着重体现“平台化”、“全员参加”的理念,通过平台化数据质量监控和规则库的配合,让大数据平台的全部顾客能够对自己提供或消费的数据进行数据质量管理,能够在数据质量模块上方便自如的配备需要的监控规则、查看成果并进行后续解决。数据资产管理数据资产概述背景数据资产化将以资产的角度开展数据管理工作变为可能,将有助于多角度、全方位开展数据的管理,明确数据安全级别,贯彻资产责任管理,是实现数据变现的必要前提。数据资产化包含了数据资产梳理盘点和数据价值评定的过程。数据资产是指公司及组织拥有或控制,能给公司及组织带来将来经济利益的数据资源。数据有可能成为资产,但不是全部数据都能含有资产的属性。数据资产包含着以下几个要素:1)被公司拥有和控制;2)能够用货币来计量;3)能为公司带来经济利益。数据的价值根据其有关性的不同而各不相似,而数据有关性又因数据使用者而异。对某个人群没有价值的数据,可能对另外一种人群相称有用;在某个时间段内没有价值的数据,可能在另一种时间段内相称有用。例如:顾客十年前的入网信息,在几年前是没有什么价值,但随着“十年移动”等营销活动开展,这类信息又非常有价值。系统框架图STYLEREF1\s611数据资产架构图如REFOLE_LINK25\h图611所示,数据资产管理系统涉及六个部分:注册管理:支持多个方式(采集器、在线维护、提供自助注册接口)注册数据资产,并提供审核及版本控制等功效;变更管理:支持已注册数据资产信息的变更、审核和更新功效;审计管理:支持对数据资产的盘点,以及对数据资产访问统计的审计;资产统计分析:支持数据资产的评定,涉及数据质量、访问状况等信息的采集,根据这些信息对数据资产进行综合评定打分;权限管理:对接数据安全管理模块,除了同时数据安全管理模块中顾客账户信息及权限外,还会将顾客对数据资产访问的申请信息发送给数据安全管理模块进行解决;接口管理:与元数据管理模块、数据质量管理模块、数据安全管理模块对接,收集有关模块的基础数据,用于完毕数据资产的注册、稽核及安全管理等工作数据资产化后,将解决现在普遍存在的需求分散重复、口径含糊等问题,实现成果和经验的共享和积累,方便实现应用和数据的生命周期的自动化管理。明确的数据资产信息,将有效支撑公司内部知识系统和资源管理的建设,为业务人员能更快捷、有序、便利地提供资产使用的方式和途径,支撑数据分析、开发、运维的自治。数据资产范畴数据资产的范畴和形式应包含公司拥有的各类数据,如表、视图、接口、程序等。同时,随着大数据的发展,还应纳入多个非/半构造化的数据形式,如日志、网页、图片、音视频等。数据资产标记是一种有业务含义、分段式、全局唯一的字符串,用来辨别识别数据资产的标签。资产标记包含有资产所属业务域、资产类型、提供者等信息。资产标记规范为五段式构造,每段以点分隔。具体格式如REFOLE_LINK26\h图612所示:图STYLEREF1\s612数据资产标记规范{根前缀}:指数据资产全局前缀,以常量表达。其值为com.cmcc.xxx{业务域}:指数据资产所归属的业务系统类别域。其值为BSS,OSS,MSS等{资产类型}:指数据资产模型类别。其值为表、文献、图片、音频等{提供者/租户}:指数据资产的生产者,或者是数据资产的全部者。其值普通是生产者或者全部者的标记。其值为MKT(市场)、GRP(集团)、BASS(经分)等{资产名称}:指数据资产的简短命名。其值普通是资产对象的名称或编码。数据资产标记示例:table.YWB.application_log二维码如REFOLE_LINK33\h图613所示。图STYLEREF1\s613数据资产标记二维码与其它功效模块的关系数据资产管理模块将与元数据、数据质量、数据安全模块通过接口互通,根据需求获取元数据,数据稽核和交互账号权限等信息。在资产注册、变更时,需要从元数据模块获取表、字段、口径、程序等元数据信息,用于数据资产信息的登记和更新。在资产运维时,需要从数据质量模块获取数据质量监控、稽核的成果,用于资产评定。同时,消费者申请访问数据资产,需要从数据安全模块中获取账号信息,有关数据访问申请也需要发送给数据安全模块进行解决。本期数据资产功效需求管理过程数据资产管理过程是一种资产全生命周期的管理过程,资产全生命周期管理以数据资产作为管理对象,以资产战略和资产方略为导向,从系统整体目的出发,统筹考虑资产的规划、投资、设计、建设、运行、维护、稽核、变更、注销的全过程,在满足安全、效能的前提下有效管理与监控数据资产的生产和使用状况,不停优化数据资产质量,实现数据资产的业务价值。其管理过程如REFOLE_LIN

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论