产业数据仓 数据质量评价规范_第1页
产业数据仓 数据质量评价规范_第2页
产业数据仓 数据质量评价规范_第3页
产业数据仓 数据质量评价规范_第4页
产业数据仓 数据质量评价规范_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1T/ZXCHXXXX-2022产业数据仓数据质量评价规范本文件规定了产业数据仓数据质量评价的指标和实施规范。本文件适用于指导产业数据仓数据的质量评价工作。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB32100-2015法人和其他组织统一社会信用代码编码规则GB/T25000.12-2017系统与软件工程系统与软件质量要求和评价(SQuaRE)第12部分:数据质量模型GB/T25000.24-2017系统与软件工程系统与软件质量要求和评价(SQuaRE)第24部分:数据质量测量GB/T35295-2017信息技术大数据术语GB/T36344-2018信息技术数据质量评价指标3术语和定义下列术语和定义适用于本文件。3.1数据data信息的可再解释的形式化表示,能够被计算机识别、存储和加工处理。[来源:GB/T35295-2017,定义2.2.1,有修改]3.2产业数据industrydata产业数据,是指有效开展各种经济活动的实体,在组织生产、经营或业务活动过程中依法收集、产生的数据。。3.3产业数据仓Industrydatawarehouse是有效开展各种经济活动的实体,在组织生产、经营或业务活动的过程中依法收集、产生的数据汇集、融合形成的数据资源池。2T/ZXCHXXXX-20223.4数据质量dataquality在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。[来源:GB/T36344,2.3]3.5数据集dataset具有一定主题,可以标识并可以被计算机化处理的数据集合。[来源:GB∕T36344-2018]3.6数据生命周期datalifecycle数据从数据的收集、存储、使用、加工、传输、提供、公开、删除等各种生存形态的演变过程。4数据指标框架4.1评价指标框架产业数据仓数据质量评价指标体系如图1所示,具体内容简要说明如下:——数据规范性:数据符合数据标准、数据模型、业务规则、元数据或者权威参考数据的程度。——数据完整性:按照数据规则要求,数据元素被赋予数据值的程度和数据记录的完整性等。——数据准确性:表示数据所描述的实体真实值的程度,如数据内容正确性、格式规范性等。——数据一致性:数据与其他特定上下文中使用的数据无矛盾的程度,如表内跨列逻辑一致性、跨表逻辑一致性等。——数据时效性:数据在时间变化中的正确程度,包括数据及时性、数据时序性等。——数据唯一性:数据中有唯一性要求的数据元素内容不能重复,如单独唯一性和条件唯一性。3T/ZXCHXXXX-20224.2评价指标表头指标详情说明中表头信息详情说明如下:a)指标编号及编码规则:指标编号是评价指标的唯一性编号,由一级指标和二级指标共4位数字组成。编码规则见图2.图2指标编码规则1)一级指标:由2位数字组成,详情见表1。表1一级指标编码及含义数据唯一性2)二级指标:由2位数字组成的顺序码,范围01~99a)指标名称:评价指标的名称。b)指标释义:评价指标的解释。c)实现方式:评价指标如何度量的方式。d)计算方法:评价指标的计算方法。e)指标样例:对评价指标进一步说明的样例。4.3指标详细说明4.3.1数据规范性数据的规范性,从三个方面来评价,分别是业务规范、技术规范和安全与隐私规范。a)业务规范的要求:一是数据符合标准化要求的程度,标准化要求包括国际标准、国家标准、行业标准和地方标准等;二是数据符合权威参考要求的程度,权威参考主要指国家、行业或地方上权威机4T/ZXCHXXXX-2022构发布的正式文件;三是数据符合组织业务规则要求的程度,比如委办局根据业务需要制定的数据规范要求。b)技术规范包含数据模型和元数据,评价数据的组织形式、定义符合数据模型的度量和元数据的定义。c)安全和隐私保护规范是指数据符合安全要求和隐私保护的程度。数据规范性评价指标详情见表2。表2数据规范性评价指标式中:元素的个数;量明式中:元素的个数;式中:的个数;度式中:元素的个数;理供5T/ZXCHXXXX-20224.3.2数据完整性数据完整性,指是否存在构成信息的所有必要的数据,不具备完整性的数据通常被看作已损坏或者数据丢失。数据完整性通常包括列完整性和数据集完整性,其中列完整性是指表中的一列没有缺失的程度,包括与业务信息相关的数据实体及实体属性没有缺失的程度;数据集完整性是指数据集中应出现的数据记录没有出现的程度。注:数据记录的参照完整性,建议放在数据一致性或准确性维度中,为避免重复,本节不再出现。数据完整性评价指标详情见表3。表3数据完整性评价指标4.3.3数据准确性准确性指标主要用于评价数据准确表示其所描述的真实实体(实际对象)真实值的程度,如数据内容正确性、数据格式准确性、数据重复率等。数据准确性评价指标详情见表4。表4数据准确性评价指标期6T/ZXCHXXXX-2022率况4.3.4数据一致性一致性指标主要用于评价表内或跨表数据的一致程度,包括表内跨列等值一致性、表内跨列逻辑一致性、跨表等值一致性、跨表逻辑一致性、跨表数据源唯一等。数据一致性评价指标详情见表5。表5数据一致性评价指标持一致计值一致否保持一致辑关系一致内容一致值4.3.5数据时效性时效性指标主要体现在数据更新及时和在时效范围内有效,数据及时性应尽可能贴合业务实际发生的时间点,包括时间正确性、数据及时性、跨表等值一致性、数据时序性、数据授权使用时效性等。数据时效性评价指标详情见表6。7T/ZXCHXXXX-2022表6数据时效性评价指标性性性\性\4.3.6数据唯一性唯一性指标主要体现在有唯一性要求的数据元素内容不能重复,包括单独唯一性和条件唯一性。数据唯一性评价指标详情见表7。表7数据唯一性评价指标单独唯一性量复条件唯一性值必须唯一5评价流程5.1评价规划8T/ZXCHXXXX-2022执行产业数据仓数据质量评价任务之前,应根据业务特征、数据需求、数据质量严重程度、整改难度等,制定相应的评价方案,评价方案应至少包含评价目的、评价范围、评价内容、评价方式、评价结果等。规划评价方案时宜确保适用该方案的各个评价对象的评价一致性和可重复性。5.2职责分工评价方工作职责:——制定产业数据仓数据质量评价方案;——根据评价方案,组织实施产业数据仓数据质量评价活动;——对评价过程中发现的质量问题进行持续跟踪监督;——建立产业数据仓数据质量评价报送机制,定期进行通报。被评价方工作职责:——配合省级部门对本地市产业数据仓数据质量评价工作,提供参评所需资料及数据信息;——对发现的质量问题进行持续改进并将改进后得质量评价结果报送至省级部门。5.3确定指标结合评价对象业务特征、数据质量需求,选择符合评价对象产业数据仓数据质量实际的指标,并设定指标权重,形成与之对应的评价体系。所采用的评价指标应参考第四章节中得评价指标,保证评价结果的科学性、客观性和全面性。指标选取应考虑但不限于以下方面:——评价对象业务特征、产业数据仓数据质量需求、特殊业务需求等;——已建立的数据模型;——指标数据可获得;——指标之间宜避免高度线性相关;——指标应能保证评价结果的科学性、客观性和全面性。5.4评价实施5.4.1评价实施方法数据质量评价实施包括人工分析评价和产品自动化评价两种方式,人工分析评价指的是通过人工手动的方式,根据数据标准和数据质量规则,对数据资源进行质量评估,如数据对组织内业务规则类规范的满足度评价,产品自动化评价指的是通过软件工具,批量配置数据资源的质量规则,从而实现对数据资源的评价,并输出相应的质量评价报告,如数据的唯一性、空值率质量评价。5.4.2评价对象范围产业数据仓数据质量评价的评价对象范围应覆盖各级单位在采集、归集、治理与共享过程中的各类数产业数据仓数据资源,包括基础数据、主题数据、专题数据等。9T/ZXCHXXXX-20225.4.3选取评价指标针对不同类别数据资源,以及数据资源在整个数据生命周期的不同环节,应合理选取适应的评价指标对数据质量进行评价,例如在数据采集环节应侧重数据的准确性与时效性,在数据归集环节应侧重数据的完整性与时效性,在数据融合环节应侧重数据的准确性、唯一性。5.4.4数据质量核验数据质量核验是发现数据质量问题的主要过程,应根据评价对象、评价指标通过数据进行探查与检测,发现并记录数据质量问题。数据质量的核验应采用全量核验、增量核验以及抽样核验相结合的方式,制定合理的核验策略。数据质量核验应支持不定期核验、周期性核验等多种任务执行方式。核验任务的执行后应生成数据质量核验记录。数据质量检测主要过程如下:a)配置数据质量规则根据数据质量管理目标的需要和数据质量指标体系,使用数据治理检测工具,在待检测对象(表或字段)上设置预制的规则和算法,包括数据表与数据字段的质量评价规则,运行系统程序进行规则核验。质量评价规则是依据各类数据规范标准和业务对数据的要求,遵循数据规范性、完整性、准确性、一致性、时效性和唯一性六大类数据质量评价指标,针对数据质量计算规则,一个数据表或者数据字段可根据数据质量核验的要求,配置多个不同的数据质量核验规则。b)运行质量核验任务根据配置的数据质量规则,创建数据质量核验任务,周期性或一次性运行质量任务,并输出相应的数据质量报告。c)数据质量情况分析根据计划对系统中的数据进行剖析,查看数据的值域分析、空值率、规范性、唯一性等,切实掌握数据的实际明细信息。5.5评价结果5.5.1数据质量评价指标权重评价规则基于权重,通过加权平均算法计算得出,权重默认最高为100,最小为1。进行评价时,根据设置的权重的比例,计算出权重比,然后据此进行评分计算。评价规则权重设置包括指标维度权重和表字段规则权重,随着数仓建设的发展,指标维度权重应进行相应的调整,可根据数仓对指标维度的侧重程度进行配置,表8提供了一种数仓指标维度权重配置;表字段规则权重的配置,可实际业务场景中表和字段的情况进行动态配置。表8指标维度权重完整性规范性准确性T/ZXCHXXXX-2022唯一性一致性时效性5.5.2数据质量评分计算规则数据资源表的质量评分规则包括单一规则评价分计算、六大维度评价分计算和数据表评价分计算,其中单一规则评价分计算是根据4.3指标详情说明给数据表各个字段配置的质量评价规则,计算该字段某一规则下的规则评估分;六大维度评价分计算是根据表各个字段配置的质量评价规则及其权重,计算某类指标维度的维度评估分;数据表评价分计算是根据六大维度评价分计算结果和5.5.1数据质量评价指标权重计算得到数据表评估分。5.5.2.1单一规则评价分计算数据资源表字段的单一规则的评价分计算公式为:数据资源表字段的单一规则的评价分计算公式为:Q——问题行数S——表总行数G——规则评估分5.5.2.2六大维度评价分计算六大指标维度遵循指标体系的定义,包括数据完整性、规范性、准确性、唯一性、一致性、时效性,六大指标维度评价分的计算公式为:式中:G——规则评估分W——权重比D——维度评估分5.5.2.3数据表评价分计算数据表质量评价分是根据六大维度的评价分数加权计算得到总分数,权重参考5.5.1数据质量评价指标权重,其计算公式为:式中:ComD——完整性评估分EvaD——规范性评估分AccD——准确性评估分UniD——唯一性评估分T/ZXCHXXXX-2022ConD——一致性评估分TimD——时效性评估分W——权重比TabD——数据表评估分5.5.3数据质量评分等级依据本文件进行产业数据仓数据质量评价,对各项指标采取评分的方式予以打分评价,根据评分值评定产业数据仓数据资源质量水平,并以不同级别区分优质程度。按照从强到弱的要求分为不合格、合格、良好和优秀。数据质量评估级别及对应分值见表10。表10产业数据仓数据质量评估级别评价级别评价得分优秀90分以上(含90分)75-90分以上(含75分)合格60-75分以上(含60分)60分以下(不含60分)5.5.4数据质量报告质量报告通常是依据统一的数据质量报告模板,对一段时期内运行的质量检查结果,进行汇总、梳理、统计和分析。为了推动数据质量管理运行维护工作的日常化和规范化管理,建立定期报告制度,对报告周期内的数据质量运行维护工作情况进行总结评价,及时发现问题并采取适当措施。数据质量报告分为三类:第一类:单表数据质量评价报告单表数据质量报告是针对单张表进行的质量检查统计,质量工具从质量评价的完整性、准确性、规范性、编码标准是否缺失给出检查的数据。单表质量报告内容包括数据表数据治理整体概况、配置规则、问题数、问题比率、问题描述等内容。第二类:每月/季度数据质量评价报告每月的数据质量评价报告是在每月月末或者下月月初时编制的月度执行报告,评价报告内容包括数据归属方、不同等级质量报警次数,比上月比较的改进情况、质量问题修复平均时间,比上月比较的改进情况、不同质量维度检测的总体情况,与上月比较的改进情况、质量疑难问题的解决进度。第三类:数据质量问题处理率报告分析数据质量监控规则运行产生的质量告警的处理率、处理时长效率,以及未处理完成的告警。问题处理率报告内容包括问题处理的时长、问题处理的数量、问题归属的部门等信息。5.6跟踪复评评价工作应实施动态管理,定期对产业数据仓数据质量进行动态评价,根据评价流程要求,对数据重新进行评价,及时发现数据治理问题,达到保持和改进的目的。T/ZXCHXXXX-2022(资料性)产业数据仓数据字段质量评价示例在法人基本信息中统一社会信用代码唯一股权转让类型代码与名称一致T/ZXCHXXXX-2022(资料性)产业数据仓与数据质量评价关系图3产业数据仓与数据质量评价关系图产业数据仓根据数据来源、加工处理过程等步骤,分成基础数据,主题库数据、专题库数据等。评价主体制定数据质量评价规则,提取评价对象建设产业数据仓的基础数据、主题库数据、专题库数据进行评价。经过数据质量监测、核验、分析等多个步骤,生成评价对象各项数据的质量评估分,形成评价对象的数据质量评估报告。评价对象根据数据质量评估报告进行处理。T/ZXCHXXXX-2022(资料性)数据表数据质量评价示例数据资源表的的评价分计算流程包括配置表字段评价规则及权重、计算表字段单一规则得分、计算数据表六大指标维度评价分、计算数据表质量评价分,流程如图4所示:图4数据表数据质量评分计算流程C.1数据表描述数据表名称:汽车行业—企业经销商数据数据字段名称:经销商ID、经销商名称、加盟日期、是否是正式经销商、经销商组织机构总编制人数、目前经营汽车品牌、企业性质、法人代表、法人代表证件类型、法人代表证件号、移动电话、邮编、省编号、省、市编号、市。C.2数据表数据质量评价流程步骤1:配置评价规则及权限配置数据表各字段的评价规则及规则权重。设“汽车行业—企业经销商数据信息表”为table_a,该表有1000行数据,当前其中16个字段配置有31个规则,分别属于5个指标维度。步骤2:计算单一规则评价分计算数据表所有字段的各项规则的质量评价分。则以table_a的field_1字段的规则1为例,根据5.5.2.1单一规则评价分计算的公式,计算评价分为:1tt-x1tt=1tt同理,计算table_a所有字段的规则评价分,假设各规则评价分如表11所示:表11规则评价分T/ZXCHXXXX-2022数据字段名称配置规则评价指标数单一规则评价分权重单一规则维度评价分经销商ID规则1完整性00.1规则2一致性00.220规则3唯一性00.550经销商名称规则4完整性00.1规则5一致性00.220规则6唯一性00.550加盟日期规则7完整性00.088规则8规范性00.220是否是正式经销商规则9完整性98.30.065.898准确性00.8经销商组织机构总编制人数完整性990.065.94目前经营汽车品牌完整性00.066企业性质规范性00.220完整性98.70.065.922法人代表完整性3796.30.065.778一致性00.220法人代表证件类型完整性3796.30.065.778法人代表证件号规范性00.220一致性00.220移动电话规则20完整性2697.40.065.844规则21完整性3396.70.065.802规则22规范性799.30.2规则23准确性98.90.2省编号规则24完整性00.066规则25规范性00.1省规则26完整性00.066规则27一致性00.1市编号规则28完整性4395.70.065.742规则29规范性00.1市规则30完整性4395.70.065.742规则31一致性00.1步骤3:计算五大维度评价分计算数据表六大指标维度的评价分,根据5.5.2.2六大维度评价分计算的公式,按照步骤2中,表9所示的规则评价分,计算六大指标维度的评价分分别为:a)完整性:规则1和规则4权重比分别为0.1,规则7权重比0.08,规则9、规则11、规则12、T/ZXCHXXXX-2022则完整性评价分计算方法为:100×0.1+100×0.1+100

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论