DB5227T 112-2022 智慧黔南 数据质量评价规范_第1页
DB5227T 112-2022 智慧黔南 数据质量评价规范_第2页
DB5227T 112-2022 智慧黔南 数据质量评价规范_第3页
DB5227T 112-2022 智慧黔南 数据质量评价规范_第4页
DB5227T 112-2022 智慧黔南 数据质量评价规范_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS35.240.01CCSL705227IDB5227/T112—2022前言 2规范性引用文件 3术语和定义 4数据质量评价总体流程 25数据质量评价要求 35.1确定业务目标和要求 35.2剖析待评价数据 45.3明确数据质量评价指标 55.4设计质量校验规则 55.5配置质量校验规则 95.6评估数据质量并输出报告 96整改问题数据 7数据共享开放工作流程 附录A(资料性)表级计算得分示例 12附录B(资料性)部门级计算得分示例 13附录C(资料性)数据质量报告样例 14C.1数据质量情况分析 C.2数据质量得分及排名对比 C.3数据异常响应问题变化趋势 C.4问题数据整改建议 附录D(规范性)黔南州数据共享开放工作流程 17参考文献 DB5227/T112—2022本文件按照GB/T1.12020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任本文件由黔南州大数据发展管理局提出。本文件由黔南州大数据发展管理局归口。本文件起草单位:黔南州大数据发展管理局、黔南州市场监督管理局、都匀市大数据发展服务中心、广西大学计算机与电子信息学院、黔南民族师范学院、北京东方国信科技股份有限公司、中国电信股份有限公司黔南分公司。本文件主要起草人:潘志刊、杨宗俊、颜家远、刘超、黄子吉、何晓慧、陈文涛、宋俊、李怡青、董婧、殷文辉、左为、韦广柱、刘峻、李明江、周锦程、张永丽、胡嘉斌、宋佳南、杨森、传洪波。1DB5227/T112—2022智慧黔南数据质量评价规范本文件规定了智慧黔南数据质量评价规范的全流程,包括数据质量评价总体流程、数据质量评价要求、整改问题数据、数据共享开放工作流程。本文件适用于智慧黔南数据质量评价规范的具体实施工作,为各行业各部门评价数据质量提供参考。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T5271.1信息技术词汇第1部分:基本术语GB/T5271.17信息技术词汇第17部分:数据库GB/T36344信息技术数据质量评价指标3术语和定义GB/T5271、GB/T36344界定的以及下列术语和定义适用于本文件。3.1数据关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和数据易变性的数据。[来源:GB/T5271.17—2010,17.06.05]3.2元数据关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和数据易变性的数据。[来源:GB/T5271.17—2010,17.06.05]3.3数据质量在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。[来源:GB/T36344—2018,2.3]3.4原始数据终端用户所存储使用的各种未经过处理或简化的数据。[来源:GB/T36344—2018,2.4]2DB5227/T112—20223.5数据集具有一定主题,可以标识并可以被计算机化处理的数据集合。[来源:GB/T36344—2018,2.6]3.6数据质量校验对数据质量进行校对、核查的过程。3.7数据质量评价指以原始数据为基础,充分考虑数据之间的相关性、匹配性、逻辑性,采用科学方法对数据的规范性、完整性、准确性、一致性、时效性、可访问性进行判断和分析,对可能存在的数据质量问题进行追溯和核实,对数据进行确认的过程。3.8数据标准数据的命名、定义、结构和取值范围方面的规则和基准。[来源:GB/T36344—2018,2.8]3.9数据剖析用适当的统计、分析等方法对原始数据进行分析,对其特征加以汇总和理解,以求最大化地开发数据的功能,发挥数据的作用。4数据质量评价总体流程数据质量评价流程可保证数据质量评价整个过程的有序及有效进行,具体流程如图1所示:3义规则权重5数据质量评价要求4DB5227/T112—2022——问题数据解决的优先次序。5.2剖析待评价数据内容包括但不限于:——数据的元数据信息,例如数据名称、数据格式、数据类型、数据精度等。——数据值的分布信息,例如主键唯一性、缺失值、取值范围、异常符号等。——设定字段的级别,按业务重要性程度和数据问题的严重性程度对原始数据进行业务影响分级,分为一级、二级、三级。三级级别最高,重要程度分类方式如下:三级:业务主键;二级:数值型、日期型、文本类表示的日期字段,短文本类字段(如名称、地址、代码、类型等特征字段),权威数据来源字段;5DB5227/T112—2022一级:空值率大于80%、其他类型字段,如:源业务系统字段、长文本描述类型字段。5.3明确数据质量评价指标数据质量评价指标划分为:完整性、一致性、准确性、合理性、唯一性与及时性六个维度。其中,完整性、一致性、准确性应符合GB/T36344的规定。5.4设计质量校验规则5.4.1制定校验规则概述根据质量评价指标制定12项质量校验规则,对数据质量进行计算、评分,质量评价指标和校验规则的对应关系见表1。表1质量评价指标对应的质量校验规则表123456789完整性6DB5227/T112—2022按照数据规则要求,数据元素被赋予数值的程度,包括数据元素的完整性和数据记录的完整性。对应的规则为:字段完整性校验、空值校验、记录数校验、参照校验-双向校验,完整性评价指标见表2。表2完整性校验规则1234A=数据内容与参照数据相互不包含的数据数注:X代表数据质量评价值一致性数据与其他特定上下文中使用的数据无矛盾的程度,包括相同数据一致性和关联数据一致性。对应的规则为一致性校验,一致性评价指标见表3。表3一致性校验规则1对分布在不同库表中的相同数据A=校验列中与参照列中数据内容不一致的数据记单表汇总校验:校验列数据汇总值和参照列数据双表汇总校验:校验表与参照表关联后校验列数A=校验表与参照表关联后校验列数据和参照列数7DB5227/T112—2022注:X代表数据质量评价值准确性数据准确性表示其所描述的真实实体(实际对象)真实值的程度,包括数据内容正确性、数据格式合规性、脏数据出现率。对应的规则为:值域校验、格式校验、参照校验-单向校验,准确性评价指标见表4。表4准确性校验规则1校验数据的值是否在预设的范围2YYYY-MM-DDHH:MI:SS电话格3校验数据在参照数据中的包含程A=数据内容不包含在参照数据的范围内的数据记注:X代表数据质量评价值合理性根据数据之间的业务逻辑合理的程度,对应的规则为:逻辑校验、波动性校验、关系校验,合理性评价指标见表5。表5合理性校验规则1逻辑校验检查数据是否满足一定条逻辑校验检查数据是否满足一定条件的要求。分为单行逻辑、维度汇维度汇总统计校验:维度汇总结果存在得满分8DB5227/T112—20222验波动校验通过对两段不同时期数据的比较,检验数据波动情况是否合理。波动校验分同比校验、环比校当C超出预先设定的阈值得0分,未超出得满分当C超出预先设定的阈值得0分,未超出得满分统计周期与本文件第章节“同比校验”当C超出预先设定的阈值得0分,未超出得满分统计周期与本文件第章节“同比校验”3A=校验列数据不符合参照列数据两者关联关系注:X代表数据质量评价值唯一性9DB5227/T112—2022特定字段、记录、文件或数据集唯一性的度量。对应的规则为:重复校验,唯一性评价指标见表6。表6唯一性校验规则1校验某一或多个校验列数据是否有注:X代表数据质量评价值及时性数据的加工是否满足时效性要求。对应的规则为:记录数校验,及时性评价指标见表7。表7及时性校验规则1校验某一更新周期内数据量是否5.4.2定义规则权重定义规则权重根据数据剖析阶段确定的字段的重要程度来定,由高到低分别为3、2、1,重要程度越高的字段权重越高,即三级字段权重为3,二级字段权重为2,一级字段权重为1。其中,同一字段的所有规则的权重都相同,如果是多个字段关联的规则取权重低的作为此规则的权重。5.5配置质量校验规则将三级和二级字段与已有的数据标准进行映射,查看是否有对应的标准:——对已有数据标准的字段,按标准配置稽核规则;——对没有数据标准的字段,根据剖析阶段得出的字段的数据特征设计稽核规则。将校验规则配置至系统平台中,其中应注意:——宜对数据清洗前和数据清洗后的数据表配置校验规则,以便通过对清洗前后校验结果进行分析和改进;——当有多个校验规则时,每一个字段配置一个校验规则;——通过设置权重,优化校验结果;——在时间充足的情况下,宜配置规则说明。5.6评估数据质量并输出报告5.6.1概述数据质量评价分3个层次:规则级、表级、部门级。5.6.2制定评分规则DB5227/T112—2022规则级计算公式各类数据质量校验规则得分的计算公式,应符合5.4.1的规定。表级计算公式表级得分均遵循下列计算公式进行计算得出:式中:Wsum——总权重。表级计算得分的示例,见附录A。部门级计算公式部门级得分均遵循下列计算公式进行计算得出:式中:部门级计算得分的示例,见附录B。5.6.3评定质量等级数据质量等级按照数据质量评分区间划分三个等级,由高至低分别为质优、质中、质差,等级的评价分值如下:——质优:80≤质量得分≤100;——质中:60≤质量得分<80;——质差:质量得分<60。5.6.4输出数据质量报告否结束DB5227/T112—2022表级计算得分示例表A.1某表的得分3322根据表A列出的某表各字段的规则得分,计算该表的得分。根据给出的计算公式,计算过程如下:=1即:该表的数据质量评价得分为92.06。DB5227/T112—2022部门级计算得分示例表B.1部门的各表得分根据表B列出的各表的得分,计算该部门的得分。根据给出的计算公式,计算过程如下:即:该部门的数据质量评价得分为86.08。(资料性)质中合理性致性得分:63质中:80~60-共X个;其中质优表对象X个,质中表对象X个,质差表对象X个。涉及X个质量评估维度,其中,完整性得分XX,一致性得分XX,准确性得分XX,合理性得分XX,唯一性得分XX,及时性得分XX。4512345采矿权划定矿区范围已补充耕地方案88项目功能分区31C.3数据异常响应问题变化趋势将质量稽核规则分为六大类进行问题率的统计,下图是黔南州XXX局涉及的数据准确性、完整性问题率变化趋势图:问题率变化趋势9C.4问题数据整改建议黔南州XX局的数据存在以下问题,建议整改:1)XX表:名称不规范的有XX%,日期格式不对的有XX%,手机号码长度不对的有XX%……。DB5227/T112—20222)XX部门:XX表数据出现完整性问题,建议自行恢复数据,人工恢复得XX分,自动恢复得XX分。(规范性)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论