数据质量评价模型的建立和实现_第1页
数据质量评价模型的建立和实现_第2页
数据质量评价模型的建立和实现_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、摘 要 本文提出了数据质量评价模型、质量校验与评价方法,论述了“数据质量 分析评价系统”的程序实现流程、总体结构及功能,介绍了系统的关键技术及进一步的 研究方向。关键词 质量模型 质量检验 质量评价数据作为一种资源, 是支撑信息化建设和应用的主体, 根据“进去的是垃圾 ,出来的 也是垃圾”这条原理 ,为了支持正确决策 ,就要求我们所管理的数据可靠 ,没有错误 ,能够准 确地反映采油厂的实际情况。 胜利采油厂数据中心存放了 5 千万条的数据, 还在以每天 2 万条的速度加载,如何使这些海量数据在生产管理、科学研究、企业决策中发挥应有 作用,使用户能用、敢用、愿用,使数据真正为企业服务,这是几乎所

2、有信息化企业亟 需迫切解决的问题。为解决数据质量问题,各种管理手段、技术手段和新的数据评价体 系不断被应用在数据的采集和加工过程中。一、数据质量评价模型的提出背景采油厂的数据资源具有 :横跨专业多,数据采集密度大、频度高,数据处理流程复 杂等特点,为了保证数据的可用性,数据管理人员在客户端、服务器端均设置了数据质 量审核规则,但是依然不可避免存在比例较高的数据质量问题,典型的有记录不全、数 据遗漏、数据错误、多义字段、矛盾值、违背业务规则、无法关联等。产生数据问题的 根本原因可以归结为以下几个方面 :1. 没有从数据资源的战略高度对数据质量进行统一完整的定义,导致数据的分析评 估没有统一可靠的

3、标准;2. 数据质量还停留在定性评价 ,不能实现精确的量化评价, 只是在业务需要某个数据 时,才到库里去手动统计 ,无法动态记录某个单位、某个月的真实数据质量发生情况,导致数据质量考核缺乏可信的数据依据 ,大大影响考核力度 ;3. 没有一个能同时面对用户、专业部门、数据管理人员的可视化的数据质量监控评 价平台 ,三方无法共享一个平台 ,共同实行数据管控一体化 , 导致业务规则的变更滞后 ,问 题数据在库中的长期滞留 ;4. 也许有了 N 个业务模型 ,但是没有把它放到时间轴上去控制流程 ,导致实际生产中 应该发生的活动的部分生产数据遗漏;虽然影响采油厂数据质量的原因是多方面的, 但主要的原因还

4、是集中在管理、 制度 和数据采集加工规范化方面。对于如何通过管理、制度、标准和流程来控制数据质量 , 提高数据可信度 ,我们提出建立采油厂统一的数据质量分析评价模型,使用管理手段和技术手段相结合的办法 ,建立一套完善的数据定义、 控制、评估流程, 依托科学严谨的数据 监督和质量控制体系持续地改进数据质量。二、数据质量分析评价模型构成 构成数据质量分析评估模型的要素分别为:基础模型、数据质量辅助模型、数据质量定义模型、数据质量控制模型、数据质量评价模型。1. 基础模型。基础模型部分是整个模型框架的支撑核心部分,其他质量模型的定义 和控制必须以基础模型中的计划和标准为依据。基础模型主要是映射、 定

5、义数据采集标 准,上载分单位的采集计划 ,同时纳入了约束规则定义规范、控制规则定义规范、模板定 义规范。数据标准 :分两部分 ,一部分是直接映射应用中的标准,例如源数据库标准;另一部分是针对新增应用库和项目库标准的定义规范 ,包括代码定义标准、数据项定义标准 (例如 是取英文还是汉语拼音 ,取几个字符)、值域定义标准等等新增表准的建立规范;采集计划 :采集单位的每月上载的日度、月度、年度的采集计划;约束规则定义规范 :主要描述质量定义模型中的语法构成;控制规则定义规范 :针对服务器负载和采集表的及时性要求建立的后台执行过程的 控制方式的使用说明 ;2. 数据质量定义模型。数据质量定义模型的建立

6、实现了以基础模型为前提对数据质 量的统一规范的定义 ,是数据质量分析评价的依据和基础。 数据质量定义模型可以使用质 量特性描述。数据质量特性归纳为数据的一致性、数据的准确性、数据的完整性、数据 的及时性 4 个关键特性。(1) 数据的一致性。数据一致性 ,包括源系统之间同一数据是否一致 ,源数据与抽取的 数据是否一致,数据中心内部各处理环节数据是否一致等。例如:单井基础信息、油井日数据中的单元代码应该和本年度的单元代码表保持一致 ;05 应用库中抽取的数据项要 与源头库保持一致等等。一致性的量化评价指标 :字段一致率、表间字段一致率、表间记录一致率。(2) 数据的准确性。数据准确性 ,包括数据

7、源是否准确、数据值域是否符合业务规则 和客观事实、编码映射关系是否准确、处理逻辑是否准确等。例如:作业日记的数据应该来源于作业队而不是采油队 ;一天的生产时间最大不可能超过24 小时 ;水井干线压力要介于040兆帕之间。准确性的量化评价指标:准确率、差错率、问题字段个数、问题记录覆盖率(3) 数据的及时性。数据及时性,包括数据处理(获取、整理、加载等 )的及时性,数据异常检测的及时性,数据处理更新的及时性等,例如 :一口井油转水了 ,采集单位没有及时更改数据 ,不仅会影响队到矿 ,矿到厂的产量,更会影响厂到局的产量和油水井数,而且取自于该源数据的所有应用系统今天的诊断决策都会发生偏差。数据滞后

8、的更新将严重影响生产的正常化。及时性的量化评价指标 :采集项目及时率 ;单位入库及时率(4) 数据的完整性。数据的完整性,包括数据源是否完整、数据取值是否完整、实体 类型、属性特征、维度取值是否完整等。例如:要完成井筒的计算机屏幕再现 ,它所包含的数据包括钻井数据、 固井数据、 套管数据、井径测井数据、井斜数据等等 ,这里边存在 多个数据源情况 ,如果数据源不完整 ,或者套管数据中缺失数据项下深或者壁厚 ,井筒就不 可能完整成像。完整性的量化评价指标:字段缺失数、缺失记录覆盖率、计划完成率。3. 数据质量控制模型。数据质量控制模型以数据质量定义模型为基础,按照定义的 检查范围和时间以自动或手工

9、方式完成对数据质量的检查工作。 在质量控制过程中违反 了数据质量定义的, 视为数据质量问题,数据质量问题直接通过数据质量的关键特性和 指标反映出来。数据质量控制模型的控制内容表现在 :对数据检查对象、数据检查频度、 数据检查时间、数据检查方式等方面进行控制。(1) 数据检查对象 :是指根据采集计划设定需要检查的用户、专业数据表、数据库实 体。(2) 数据检查频度 ;是指根据数据表的采集计划和实际发生的频度,设定存储过程的 检查执行频率。(3) 数据检查时间 :是指根据每日生产应用的密集时间以及数据发生到采集入库的密 集时间 ,综合设定一个检查开始执行的时刻。(4) 数据检查方式 :是指执行检查

10、过程的方式可以由后台过程自动控制,每间隔2 小时自动检查一次 ;也可以由人工干预手动检查,任意时刻都可以执行检查(当然尽量选 择数据库流量比较低的时候) 。4. 数据质量评价模型数据质量评价模型, 是以数据质量定义模型为依据, 由数据质量控制模型操控执行, 根据反馈的质量检查结果表, 评议出数据质量的关键指标,实现对数据质量的量化诊断 和评价。数据质量分析评价模型功能核心是 ,通过对基础模型中的采集计划和质量定义模型 中的约束规则的处理 , 由控制模型调用可以实现检查分析的后台存储过程在实体库中执 行检查 ,形成查询结果,再由分析程序进行分析、计算、分类、汇总,生成反映采集计划完成情况和数据质

11、量量化指标的结果 ,存储到分析结果表中 ,从前台调用这个分析结果表 , 就可以生成一份详尽的反映数据质量问题各类量化指标的数据质量分析评估报告,展现所评估实体库的数据入库的及时率、数据上报的完整性、数据采集的一致性、数据入库 的准确率。5. 数据质量辅助管理模型 数据质量辅助管理包括报告模版管理、权限管理、数据库资源占用情况等等。三、数据质量评价模型的在数据质量评价系统中的实现1.系统模块构成图数据库采用三层框架结构, 数据层用于存储各种质量标准数据、检查与评价过程数 据及结果数据, 逻辑层用于质量检查的各种逻辑处理,表现层是通过用户界面将检验与 评价结果以用户易懂的可视化方式表达出来。2.程序实现

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论