DB3307T 137-2024 公共数据质量评价规范_第1页
DB3307T 137-2024 公共数据质量评价规范_第2页
DB3307T 137-2024 公共数据质量评价规范_第3页
DB3307T 137-2024 公共数据质量评价规范_第4页
DB3307T 137-2024 公共数据质量评价规范_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS35.240.01CCSL70

3307浙 江 省 金 华 市 地 方 标 准DB3307/T137—2024公共数据质量评价规范Qualityassessmentspecificationsforpublicdata2024-1-23发布 2024-2-23实施金华市市场监督管理局  发布DB3307/T137DB3307/T137—2024PAGE\*ROMANPAGE\*ROMANII目 次前言 II范围 1规范性引用文件 1术语和定义 1指标体系框架 1评价指标 2评价指标设置原则 2指标说明 2评价方法 6评价程序 7评价流程 8评价流程图 8附录A(资料性) 公共数据质量评价报告 9前 言本文件按照GB/T1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。请注意本标准的某些内容可能涉及专利。本标准的发布机构不承担识别专利的责任。本文件由金华市大数据发展管理局提出、归口并组织实施。本文件主要起草人:徐李锐、庄迁伟、徐挺、薛海霞、刘家豪、施林波、赵勇、马慕遥、盛尚军、叶慧杰、冯骏、王秋娴。DB3307/T137DB3307/T137—2024PAGEPAGE10公共数据质量评价规范范围本文件规定了公共数据质量评价的评价指标体系框架、评价指标、评价程序的要求。本文件适用于公共数据平台上公共数据的质量评价。规范性引用文件(包括所有的修改单适用于本文件。DB33/T2350—2022 数字化改革术语定义术语和定义DB33/T2350—2022界定的以及下列术语和定义适用于本文件。公共数据 publicdate国家机关、法律法规规章授权的具有管理公共事务职能的组织以及供水、供电、供气、公共交通等公共服务运营单位,在依法履行职责或者提供公共服务过程中收集、产生的数据。数据质量 publicdatequality在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。[来源:GB/T36344—2018,2.3]指标体系框架公共数据质量评价指标体系框架,见图1。图1 公共数据质量评价指标体系框架评价指标评价指标设置原则数据质量评价指标设置应遵循以下原则:——系统性:指标体系覆盖全面,综合考虑各要素对数据质量的影响,且各指标项之间尽可能相互独立;——科学性:需结合数据质量、数据生命周期管理的相关要求及实践情况,采用定性、定量的方法,科学设计评价指标体系;——通用性:根据不同参与主体、应用场景合理选择评价指标,并设置分值和权重;——可操作性:指标体系内容设置及评价方法符合公共数据共享的实际情况,选取数据可得、概念明确及计算方法简单的指标,此外评价内容和指标可量化,评价步骤和方法可操作,评价结果可使用。指标说明基础质量基础质量评价指标说明,见表1。表1 基础质量评价指标说明序号一级指标二级指标三级指标指标描述指标类型(正向/反向)计算方法示例1基础质量完整性时间覆盖比例数据记录实际归属时间与目录所填报的数据时间覆盖范围的比值。注:时间覆盖范围:目录编制时依据业务发生情况(按年、月、周、日、实时)进行时间覆盖范围填报,包括数据起始时间、数据截止时间,可剔除因未实际开展相关业务造成无数据记录的时间段。正向100%式中:A=填报的数据截止时间;B=填报的数据起始时间;b=数据缺失时间。20231-2023122则比值为(1-1/12)×100%,即91.67%2区域覆盖比例数据记录实际归属区域与目录所填报的数据区域覆盖范围的比值。注:区域覆盖范围:目录编制时按照实际业务数据的地域来划分,进行区域覆盖范围填报。剔除因未开展相关业务造成无数据记录的区域。正向X=A/B×100%式中:A=实际业务覆盖且在量;B=范围内的区域总数量。填报的地区覆盖范围为“全市10区县”,而数据记录中只包含8即80%。3业务覆盖比例数据记录实际归属业务与目录所填报的数据业务覆盖范围的比值。注:业务覆盖范围:目录编制时按照业务发生情况填报的业务覆盖范围。正向X=A/B×100%式中:A=实际覆盖业务数量;B=填报上传全部业务总数量。填报的业务覆盖范围为“业务A、业务B、业务中只包含A业务的数据,则比值为33.33%。4准确性不准确记录比例数据记录中不符合准确性清洗规则的数据记录条数占数据总条数的比值。反向X=A/B×100%式中:A=不准确记录条数;B=数据记录总条数。表中原有10000条数据,根据清洗规则清洗后发现不准确数据200条,则比值为(200/10000)×100%,即2%。5格式异常记录比例数据记录中不符合数据字典规范的异常记录数占数据记录总条数的比值。反向X=A/B×100%式中:A=条数;B=数据记录总条数。数据记录总数为10000(200/10000)×100%,即为2%。6基础准确性重复数数据记录中异常重复的数据反向X=A/B×100%数据记录总数为10序号一级指标二级指标三级指标指标描述指标类型(正向/反向)计算方法示例质量据记录比例记录条数占数据总条数的比值。式中:A=条数;B=数据记录总条数。000(200/10000)×100%,即2%。7元素唯一性比例符合唯一性的字段元素个数与有唯一性要求的数据字段元素总数的比值。正向X=A/B×100%式中:A=元素个数;B=段元素总数。有10个字段元素有唯素有7个,则比值为(7/10)×100%,即70%。8反馈问题数据比例单等形式反馈问题的数据记录数与数据记录总条数的比值。反向X=A/B×100%式中:A=反馈问题数据条数;B=数据记录总条数。数据记录总数为10000为200(200/10000)×100%,即2%。9及时性归集及时性数据的实际更新频率与目录编制时填报的更新频率(小一致性情况。正向X=IF(A=a式中:A=数据实际更新频率;a=频率。1次/110数据时效性数据记录中最新的更新时间与要求的更新时间之间的差值,以天数计算。反向X=A-a式中:A=数据最新更新时间;a=数据要求更新时间。时间应为55当月5月5日0数据时效性为-(天)。11规范性数据标准化比例行业等数据标准的数据字段元素占有相关数据标准的数据字段元素总数的比值。正向X=A/B×100%式中:A=数据元素字段数量;B=数量。数据记录中共有20个17100%,即85%。12基础质量规范性数据模型规范判断数据生成模型是否清晰正向X=IF(a=“规范”,“是”,“否”)序号一级指标二级指标三级指标指标描述指标类型(正向/反向)计算方法示例性整性约束条件。式中:a=清晰可理解规范。价结果为是。使用成熟度使用成熟度指标说明见表2。表2 使用成熟度评价指标说明序号一级指标二级指标指标描述指标类型(正向/反向)计算方法示例1使用成熟度数据易用性数据编目时是否有完整配套用,无则判断为不易用。正向X=IF(A=“有”,“是”,“否”)式中:A数据目录中有数据说用。2表结构稳定性设定数据表结构变更次数上构为不稳定。正向X=IF(≤式中:A=评价周期内表结构实际变更次数;B=评价周期内表结构可变更次数上限。上限为1,表结构实际变更2次,评价结果为非真构不稳定。服务保障服务保障评价指标说明,见表3。表3 服务保障评价指标说明序号一级指标二级指标三级指标指标描述(正向反向)计算方法示例1服务保障问题数据整改情况问题数据及时整改比例的数据问题工单数与所有反馈的问题数据工单总数的比值。正向X=A/B×100%式中:A=按时完成整改问题数据工单数;B=反馈问题数据工单总数。某个评价周期内,反馈的问题数据工单总数为50个,已按时整改49个,则问题数据整改情况为49/50×100%,即98%。2数据审批情况数据审批通过比例数与数据申请总数的比值。正向X=A/B×100%式中:AB=数据申请总数。据申请工单总数为50个,通过4949/50100序号一级指标二级指标三级指标指标描述(正向反向)计算方法示例98%。3服务保障数据审批及时性审批的数量与数据申请总数的比值。正向X=A/B×100%式中:A=数据申请在按时审批数;B=数据申请总数。据申请按时审批数为4个,数据申请总数为5个,则比值为4/510080%。共享成效共享成效评价指标说明,见表4。表4 共享成效评价指标说明序号一级指标二级指标指标描述指标类型(正向/反向)计算方法示例1共享成效数据使用评分在使用数据后中对数据评分的平均值(去掉最大值和最小值)。正向评价数大于等于10:X=A评价数小于10:X=B式中:A=数据使用方评分的平均值(去掉最大值和最小值);B=数据使用方评分的中位数。为1、3、4件评价数小于1数据中位数3标结果。2数据共享次数比例数据以批量方式被申请共数占总的批量共享申请通过数的比值。正向X=A/B×100%式中:A=该数据批量共享申请通过数;B=数据批量共享申请通过总数。据的批量共享申请通过次数为3量共享申请通过数为10×100%,即30%。3接口共享次数比例数据以接口形式被申请共有接口共享申请通过总数的比值。正向X=A/B×100%式中:A=该数据接口共享申请通过次数;B=数据接口共享申请通过总数。据接口申请通过次数为3次,接口申请通过总数为1031×103评价方法重复值分析法缺失值分析法值域分析法逻辑关系分析法经验分析法注:经验分析法常与逻辑关系分析法、词组比对分析法联合使用。描述统计法对比分析法平均分析法交叉分析法关联性分析法全量检测法对整个数据集合进行检测,检测结果相对精准。用于整个评价体系各项指标评价。评价程序评价流程公共数据来源机构提出申请公共数据质量评价。对象确定根据申请的数据目录确定对应的数据表作为评价对象。指标选择根据实际需要从第5章评价指标中选定适当的评价指标。赋分规则应对选中的评价指标设置分值和权重。数据获取加载公共数据平台数据到数据评价系统。分值计算应对评价对象的各项指标依据6.1.4条款的赋分规则计算分值。评价结果根据分值计算,汇总形成评价结果。报告评价流程图评价流程图见图2。图2 公共数据质量评价流程图附 录 A(资料性)公共数据质量评价报告报告报告内容包括不限于以下部分:——报告总览图;——评价结果示例;——报告总结与意见建议。报告总览评价对象:XXXX(数据目录名称)评价对象:XXXX(数据目录名称)评价总体得分:94分评价机构:金华市大数据发展管理局评价对象归属单位:XXXX(部门名称)评价结论:通过(自定义通过阈值)评价时间:2023年11月20日图A.1 报告总览图示例评价结果示例基础质量评价赋分60分,评价结果示例见表A.1。表A.1 基础质量评价结果示例序号一级指标二级指标三级指标参考结果实际结果存在问题/说明1基础质量完整性时间覆盖比例5100%100%该评价指标赋分5分。无问题,不存在时间度的记录缺失情况。2区域覆盖比例4100%90%该评价指标赋分5分。存在问题,缺失兰溪市的数据记录。3业务覆盖比例5100%100%该评价指标赋分5分。无问题,不存在区域维度的记录缺失情况。4准确性不准确记录比例40%10%该评价指标赋分5分。存在问题,有1000条不准确记录,占比10%。5格式异常记录比例50%0%该评价指标赋分5分。无问题,不存在格式异常记录。6重复数据记录比例50%0%该评价指标赋分5分。无问题,不存在重复数据。7元素唯一性比例5100%100%该评价指标赋分5分。无问题,全部符合唯一性要求。8反馈问题数据条数比例35%10%该评价指标赋分5分。存在问题,反馈问题条数1000条,占比10%。9及时性归集及时性5是是该评价指标赋分5分。无问题,符合及时性要求。10数据时效性50.5天0.1天该评价指标赋分5分。无问题,未超过设定时限。11规范性数据标准化比例5100%100%该评价指标赋分5分。无问题,全部符合标准化要求。12数据模型规范性5是是该评价指标赋分5分。无问题,符合规范性要求。使用成熟度评价赋分10分,评价结果示例见表A.2。表A.2 使用成熟度评价结果明细示例序号一级指标二级指标参考结果实际结果存在问题/说明1使用成熟度数据易用性5是是该评价指标赋分5分。无问题,有数据说明书。2表结构稳定性5是是该评价指标赋分5分。大于1次(即评价期内变更次数上限)。服务保障评价赋分20分,评价结果示例见表A.3。表A.3 服务保障评价结果示例序号一级指标二级指标三级指标参考结果实际结果存在问题/说明1服务保障问题数据整改情况问题数据及时整改比例10100%100%该评价指标赋分10分。无问题,全部及时整改。2数据审批通过比例5100%90%该评价指标赋分5分。无问题,全部通过。3数据审批情况数据审批及时性5100%100%该评价指标赋分5分。无问题,全部及时审批。共享成效评价赋分10分,评价结果示例见表A.4。表A.4 共享成效评价结果示例序号一级指标二级指标参考结果实际结果存在问题/说明1共享成效数据使用评分354该评价指标赋分5分。存在问题,使用方评价平均分为3分。2数据共享次数比例51%2%该评价指标赋分5分。无问题,共享占

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论