T-CIITA 411-2023 数字技术 数据元件 质量评价与管理_第1页
T-CIITA 411-2023 数字技术 数据元件 质量评价与管理_第2页
T-CIITA 411-2023 数字技术 数据元件 质量评价与管理_第3页
T-CIITA 411-2023 数字技术 数据元件 质量评价与管理_第4页
T-CIITA 411-2023 数字技术 数据元件 质量评价与管理_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

CIITACCSL70数字技术数据元件质量评价与管理2023—12—28发布IT/CIITA411—2023前言 2规范性引用文件 3术语和定义 4质量评价与管理框架 5质量评价指标 5.1质量评价指标概述 5.2数据资源质量评价指标 5.3数据元件结果质量评价指标 6质量管理流程 6.1质量评价规则定义 6.2质量评价任务执行 6.3质量结果分析报告 6.4质量问题反馈跟踪 7质量评价模型 7.1质量基准分 7.2质量系数 7.3质量评分公式 8质量管理机制 8.1管理人员 58.2管理职责 58.3管理工作要求 6附录A(资料性)数据元件质量评价指标与规则项 7附录B(资料性)数据元件质量评价的计算示例 34参考文献 T/CIITA411—2023本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由中国信息产业商会团体标准专业委员会提出并归口。本文件起草单位:中电数据产业有限公司、中电数创(北京)科技有限公司、中国电子信息产业集团有限公司、清华大学、智慧神州(北京)科技有限公司、中电(海南)联合创新研究院有限公司、北京捷报金峰数据技术有限公司、郑州市大数据管理局。本文件主要起草人:陆志鹏、国丽、胡成盛、王晓亮、乔亲旺、王钺、韩光、郑曦、杨艾伦、王岩、严立坤、张伟、于光宗、段宝玉。1T/CIITA411—2023数字技术数据元件质量评价与管理本文件提出了数据元件的质量评价与管理框架,规定了质量评价指标、质量评价模型、质量管理流程和质量管理机制。本文件适用于数据元件开发设计、使用中的质量评估,为数据运营商评估数据元件质量和管理提供相关指导。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T36344—2018信息技术数据质量评价指标T/CIITA406—2022数据元件的结构要求3术语和定义下列术语和定义适用于本文件。3.1数据质量dataquality在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。[来源:GB/T36344—2018,2.3]3.2数据标准datastandard数据的命名、定义、结构和取值规范方面的规则和基准。[来源:GB/T36344—2018,2.8]3.3数据元件datacomponent具有一定主题,通过对数据资源脱敏处理后,根据需要由若干相关字段形成的数据集或由数据资源的关联字段通过建模形成的数据特征。[来源:T/CIITA406—2022,3.4]3.42T/CIITA411—2023数据运营商operatorofdata在获得授权运营的前提下,整合政务数据、社会数据等资源,推动数据价值开发和运营管理的机构。4质量评价与管理框架数据元件质量评价与管理建立在质量评价指标和质量管理流程二方面。数据元件生产和管理过程中的质量评价与管理框架,见图1。数据元件的质量评价指标主要由数据资源质量评价指标和数据元件结果质量评价指标构成。质量管理流程包括质量评价规则定义、质量评价任务执行、质量结果分析报告和质量问题反馈跟踪。5质量评价指标5.1质量评价指标概述数据元件使用的数据资源和数据元件结果是影响数据元件质量的二大影响因素,对数据元件质量的管理工作从这二方面开展。a)数据资源质量评价指标包括以下维度:1)数据资源完整性;2)数据资源规范性;3)数据资源准确性;4)数据资源唯一性;5)数据资源一致性;6)数据资源时效性。b)数据元件结果质量评价指标包括以下维度:1)数据元件结果规范性;2)数据元件结果完整性;3)数据元件结果准确性;4)数据元件结果时效性;5)数据元件结果可用性。3T/CIITA411—20235.2数据资源质量评价指标5.2.1数据资源完整性完整性主要用于描述数据属性信息是否存在缺失数据记录。数据资源完整性可以通过统计数据资源中缺失的记录数与数据记录总数的比例进行评价。5.2.2数据资源规范性规范性指标主要用于评估数据内容与数据标准的符合度情况。一般来说包含格式合规性和值域有效性。5.2.3数据资源准确性准确性是指数据准确表示其所描述的真实实体(实际对象)真实值的程度。比如人的年龄不应该是负数,概率数字应该在0和1之间取值。不可靠的数据可能会导致错误的结果,由不准确的数据资源开发的数据元件必然也会有严重的问题。5.2.4数据资源唯一性唯一性主要用于度量与评估数据资源内容或相关属性的重复情况,用于识别和度量重复数据、冗余数据。现实世界中的同一个主体,在不同的数据源中常常有多个表达,在语法上相同或相似的不同记录可能会代表现实世界中的同一主体,因而会对同一主体造成重复性记录。唯一性包括但不限于以下内容:a)主键唯一性:数据的主键属性值确保唯一,不允许重复;b)数据唯一性:数据的全部或部分属性值确保唯一,不允许重复。5.2.5数据资源一致性一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。数据资源一致性用于评价数据记录的规范和数据内容是否符合逻辑。数据资源的一致性反映的是数据与其它特定上下文中使用的数据无矛盾的程度。一致性分为相同数据的一致性和关联数据的一致性。5.2.6数据资源时效性时效性是指数据从产生到当前利用的时间间隔。时效性主要用于描述数据的更新周期、更新时间等时间特性对数据应用的满足程度。不同类型的数据应用对数据的时间特性有不同的要求。评价数据资源时效性的意义在于如果数据分析周期加上数据建立的时间过长,就可能导致分析得出的结论失去了借鉴意义。时效性包括但不限于以下内容:a)接入时效性:数据接入与数据产生的时间差在合理的时间范围内;b)更新时效性:数据内容更新与数据内容变动的时间差在合理的时间范围内。5.3数据元件结果质量评价指标5.3.1数据元件结果规范性规范性指标主要用于评估数据元件描述内容与数据元件结果的符合度情况。一般来说包含格式合规性和值域有效性。4T/CIITA411—20235.3.2数据元件结果完整性完整性指标主要是用于评估数据元件属性信息是否存在缺失数据记录。数据元件结果的完整性可以通过统计数据元件结果中缺失的记录数与记录总数的比例进行评价。5.3.3数据元件结果准确性准确性是指数据元件记录的信息是否存在异常或错误。准确性指标主要用于描述数据是否与其对应的客观实体的特征相一致。任何字段的数据都应该符合特定的数据格式与值。5.3.4数据元件结果时效性时效性是指数据元件结果从产生到当前利用的时间间隔。时效性主要用于描述数据的更新周期、更新时间等时间特性对数据应用的满足程度。不同类型的数据应用对数据的时间特性有不同的要求。5.3.5数据元件结果可用性可用性指标主要用于评估数据元件的调用成功率和调用性能。调用成功率表示数据元件调用成功次数占调用总数的百分比,调用性能表示数据元件能够正常运行的概率或时间占有率期望,是否能在规定时间范围内返回结果。6质量管理流程6.1质量评价规则定义数据元件质量规则是对数据元件进行质量评价的规则。基于数据元件的类型,定义合理的评价规则,根据规则对数据元件进行质量评价,得到数据元件的质量基础信息。数据元件质量规则定义包括以下内容:a)规则管理:内置常用的数据元件质量评价规则,支持自定义质量规则;b)规则库建设:基于行业特性,进行规则库的建设,包括技术类规则及业务类规则。6.2质量评价任务执行根据数据元件的类型,配置不同的质量规则,制定对应的数据元件质量评价任务,并执行数据元件质量评价操作。以定时任务触发的方式对数据元件质量评价任务进行管理和调度。应包括以下过程:a)任务创建:依据数据元件质量评价要求,匹配相应的评价规则,制定任务执行的其他条件,如系统资源、执行周期等,创建质量检核与评价任务。b)任务执行:将任务下发给执行模块,开始执行评价任务,支持评价任务的暂停、停止、重启等操作,支持定时、周期操作执行。6.3质量结果分析报告基于质量评价任务所产生的问题数据及统计数据,并结合质量规则权重、评估指标权重,对数据元件的质量进行评价。数据元件质量报告包括以下三个方面:a)质量评分:依据数据元件质量指标体系、评估指标权重等多方面进行质量评分;b)质量分析展示:支持数据元件质量的分析展示,包含但不限于质量排行、问题统计、数据元件质量趋势等分析;5T/CIITA411—2023c)质量报告输出:从全局视角进行质量问题概要分析,提供具体规则的质量问题说明,以便对数据元件质量问题进行整改。6.4质量问题反馈跟踪针对数据元件质量核验过程中记录的问题数据,及时向数据资源提供方反馈问题,跟踪问题数据的处置情况,保障问题的闭环处理。7质量评价模型7.1质量基准分质量基准分与制定数据元件质量评价模型时,所选取的质量评价指标、对应的规则项及其数量有关。数据元件质量的评价指标和对应的规则项见附录A。本文件所提出的质量评价模型对数据元件质量结果采用百分制计分,如被评价数据元件所适用的规则项总数为N,则每个规则项基准分S=100/N。7.2质量系数对于不同的质量评价规则项计算不同的质量系数。以完整性指标中的非空检查项为例,对于数据元件某个属性,其非空值率=非空值记录数/总记录数。7.3质量评分公式将所有规则项的质量基准分与质量系数相乘,再计算总和,即得到数据元件的质量评分结果。数据元件质量评分,见公式(1)。(1)式中:Q——数据元件质量总分;F(t)——数据元件第t个规则项计算得到的质量系数;S——数据元件质量基准分。数据元件质量评价的计算示例,见附录B。8质量管理机制8.1管理人员数据元件质量由数据运营商进行统筹管理,安排专职技术人员承担具体质量管理工作。质量管理人员的选择应符合以下要求:a)应具备基本的数据治理、数据质量和模型测试相关的专业知识;b)应熟悉数据元件质量管理相应的操作流程;c)应对数据元件质量进行客观公正的评估。8.2管理职责数据元件质量管理人员承担质量管理的各项工作职责,具体主要包括以下方面:a)确定数据元件质量管理的目标和需求;b)定义数据元件质量评价的指标和权重;6T/CIITA411—2023c)制定数据元件质量评价规则;d)执行数据元件质量评价任务;e)分析数据元件质量评价结果;f)输出数据元件质量评价报告;g)反馈数据元件质量问题;h)制定数据元件质量改善方案i)监督数据元件质量问题改进情况。8.3管理工作要求8.3.1数据资源质量管理要求数据元件的质量评价依赖于数据元件开发阶段所使用的数据资源的质量。数据运营商对数据资源进行质量管理。基于评价指标得分和指标权重得出数据资源的质量评估结果,形成数据资源质量报告。如数据资源不符合数据元件开发的要求,则将评估的结果反馈给数据资源提供方,由数据资源提供方对数据质量加以改进。8.3.2数据元件结果质量管理要求数据运营商对数据元件结果质量进行评价。建立模型评价机制,通过设定详细的评价指标,对数据元件结果进行评价打分。如数据元件结果质量不合格,则将评价结果反馈给数据元件开发商,由数据元件开发商改进完善后,重新提交数据运营商进行评价。7T/CIITA411—2023(资料性)数据元件质量评价指标与规则项数据元件质量的评价指标和常见的规则项,见表A.1。表A.1数据元件质量评价指标与规则项(第1页,共27页)序号一级指标二级指标规则项规则定义依据1性2性3性4性5性6性7性8性9性性性性性性性性表A.1数据元件质量评价指标与规则项(第2页,共27页)8T/CIITA411—2023序号性性性性性性性性性性性性性性性性性性性性性性性性9T/CIITA411—2023表A.1数据元件质量评价指标与规则项(第3页,共27页)序号性性性性性性性性性性性性性性性域性性性性性性性T/CIITA411—2023表A.1数据元件质量评价指标与规则项(第4页,共27页)序号性性性性性性性性性性域性性域性性性性性性性性性性性T/CIITA411—2023表A.1数据元件质量评价指标与规则项(第5页,共27页)序号性性性性性值域有效性性性性域性性性性性性性性性性性域性性T/CIITA411—2023表A.1数据元件质量评价指标与规则项(第6页,共27页)序号性性性性性性性性性性性性性性性性性性性性T/CIITA411—2023表A.1数据元件质量评价指标与规则项(第7页,共27页)序号性性性性性性性性性性性域性性性性性性性性性性T/CIITA411—2023表A.1数据元件质量评价指标与规则项(第8页,共27页)序号性性性性性性性性性性性性性性性性性性性T/CIITA411—2023表A.1数据元件质量评价指标与规则项(第9页,共27页)序号性性性性性性性性性性性性性性性性性性T/CIITA411—2023表A.1数据元件质量评价指标与规则项(第10页,共27页)序号性性性性性性性性性性性性性性性值域有效性性性T/CIITA411—2023表A.1数据元件质量评价指标与规则项(第11页,共27页)序号性性性性性性性性性性性性性性性性性性T/CIITA411—2023表A.1数据元件质量评价指标与规则项(第12页,共27页)序号性性性性性性域性性域性性性域性性性性域性性性域性性性性性域T/CIITA411—2023表A.1数据元件质量评价指标与规则项(第13页,共27页)序号性性性性性性性性性性性性值域有效性性性性性性性性T/CIITA411—2023表A.1数据元件质量评价指标与规则项(第14页,共27页)序号性性性性性域性性性性域性性性性性性性性性性T/CIITA411—2023表A.1数据元件质量评价指标与规则项(第15页,共28页)序号性性性性性性域性性性域性性性性性性性性性性T/CIITA411—2023表A.1数据元件质量评价指标与规则项(第16页,共27页)序号性性性域性性性性性性性性性域有效性性性性性性性性性T/CIITA411—2023表A.1数据元件质量评价指标与规则项(第17页,共27页)性性性值域有效性性性域性性域性性域性性性域性性域性性域性性域性性域性性性性域性性T/CIITA411—2023表A.1数据元件质量评价指标与规则项(第18页,共27页)性性性性性性性性性性性性性域性性性带性性域性性T/CIITA411—2023表A.1数据元件质量评价指标与规则项(第19页,共27页)性性性性性性性性性性性性性性性性性性性性性域性性性性性性性性性性性性性性性性性域T/CIITA411—2023表A.1数据元件质量评价指标与规则项(第20页,共27页)序号性域性性性性性性性性性性性性性性性性域性性性性T/CIITA411—2023表A.1数据元件质量评价指标与规则项(第21页,共27页)性性性域性性域性性性性性性域性性性域性性域性性性性值域有效性性性T/CIITA411—2023表A.1数据元件质量评价指标与规则项(第22页,共27页)序号性性域性性性性域性性性域性性性性性性性性性域性性域性性性域性表A.1数据元件质量评价指标与规则项(第23页,共27页)T/CIITA411—2023序号性性性性性性性性域性性性性性性性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论