版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
公共数据质量评价要求发出布版2024-11-29发布发出布版上海市市场监督管理局I Ⅲ 1 1 1 2 2 2 35.3评价指标 4 9 7.1评价准备 7.3评价实施 附录A(资料性)公共数据质量评价示例 Ⅲ本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由上海市数据局提出并组织实施。本文件由上海市数据标准化技术委员会归口。本文件起草单位:上海计算机软件技术开发中心、上海市大数据中心、上海数据集团有限公司、亚信科技(中国)有限公司、星环信息科技(上海)股份有限公司、杭州数梦工场科技有限公司、云赛智联股份有限公司、上海德拓信息技术股份有限公司、普元信息技术股份有限公司、上海市信息安全测评认证中心、上海软中智链数字科技有限公司、华东师范大学。本文件主要起草人:杨琳、刘迎风、李小山、司萌萌、刘辰昀、刘波、禹芳、念灿华、章建兵、陈默、1本文件规定了公共数据质量评价的总体要求、评价指标体系、评价方法和评价流程。本文件适用于上海市公共数据的质量评价与改进。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB11643—1999公民身份号码GB/T36344—2018信息技术数据质量评价指标3术语和定义GB/T35295—2017、GB/T36344—2018界定的以及下列术语和定义适用于本文件。信息的可再解释的形式化表示,以适用于通信、解释或处理。公共数据publicdata本市国家机关、事业单位,经依法授权具有管理公共事务职能的组织,以及供水通等提供公共服务的组织,在履行公共管理和服务职责过程中收集和产生的数据。公共数据质量publicdataquality公共数据在使用时,数据的特性满足明确的和隐含的要求的程度。对分析的图像和文本表述,该分析识别了组织为完成其使命、功能、目标、目的和价组织所需要的数据。24总体要求4.1公共数据质量评价应在物理设备、网络连接、系统权限等正常的情况下进行,并遵循客观公正原则。4.2公共数据质量评价指标的设计应以融入业务、聚焦关键、遵循标准为原则,并符合可度量、可接受、可管控、可跟踪的要求。4.3公共数据质量评价相关方包括公共数据管理方、公共数据提供方、公共数据使用方和公共数据评价方,具体如下:a)公共数据管理方应结合公共数据使用方业务需求,评审公共数据质量评价方案;b)公共数据提供方应根据管理方和使用方要求,制定公共数据质量管理目标,确认公共数据质量评价指标与方案,并提供被评价的公共数据及相关材料,包括但不限于公共数据质量业务需求、技术需求、数据标准等;c)公共数据使用方可提出公共数据质量要求,对公共数据质量水平进行反馈;d)公共数据评价方应结合公共数据提供方和使用方业务需求,设计公共数据质量评价方案,并根据评价方案组织实施公共数据质量评价活动。5评价指标体系5.1指标体系框架公共数据质量评价指标体系应按照GB/T36344—2018的指标框架,由若干个能够反映公共数据质量特性、相互独立又相互联系的指标组成,见图1。公共数据可访问性公共数据可访问性公共数据时效性公共数据一致性公共数据准确性公共数据完整性公共数据规范性公共数据质量评价指标体系图1公共数据质量评价指标体系框架公共数据质量评价指标体系包括但不限于公共数据的规范性、完整性、准确性、一致性、时效性和可访问性:a)公共数据规范性:数据符合数据标准(包括数据类型约束规范性、数据格式约束规范性、数据长度约束规范性)、数据模型、元数据、业务规则、权威参考数据和安全规范的程度;b)公共数据完整性:按照业务规则要求,数据集中数据元素完整性和数据记录完整性;c)公共数据准确性:数据准确性表示其所描述的实体真实值的程度,包括数据内容正确性、数据格式合规性、数据重复率、数据唯一性、脏数据出现率、数据标准参照准确性等;d)公共数据一致性:数据与其他特定上下文中使用的数据无矛盾的程度,包括相同数据一致性、关联数据一致性(包括表内等值一致性、表内逻辑一致性、跨表等值一致性、跨表逻辑一致性)、内3容数据记录数据项与元数据一致性等;e)公共数据时效性:数据在时间变化中的正确程度,包括基于时间段的正确性、基于时间点的及时f)公共数据可访问性:数据能被访问的程度,包括可访问和可用性等。各指标及其内容应结合公共数据业务预期进行设计。5.2指标编码指标代码是评价指标的唯一性代码,采用层次编码方法,编码位数为6位,按照一级指标、二级指标和三级指标的从属关系顺序编码。每一级指标代码分别用2位阿拉伯数字表示。编码规则如图2所示。图2指标编码规则5.2.2一级指标代码第1位和第2位一级指标代码由2位阿拉伯数字组成。一级指标代码及含义见表1。表1一级指标代码及含义5.2.3二级指标代码第3位和第4位二级指标代码由2位阿拉伯数字组成,编码范围为01~99。其中,91~99表示其他类。第5位和第6位三级指标代码由2位阿拉伯数字组成,编码范围为00~99。其中,00表示沿用二级指标,91~99表示其他类。4公共数据规范性评价指标见表2。指标示例“公民身份号码”应符合体码和1位数字校验码组成;数据长度应是18位X表示数据标准指标的得分;标的得分;标的得分;数据类型约“报销金额”数据类型应为数标的得分;素的个数;数据格式约“邮箱地址”应满足有效邮箱标的得分;素的个数;数据长度约化数据“手机号”数据长度应为11位标的得分;素的个数;数据模型数据集中数据符合数据模型的度量,适用于结构化数据学生所属系的模型,学生表中空值。当修改系表中ID时,应关联更新所有学生表中属于X表示数据模型指标的得分;A表示满足数据模型要求的元素的个数;型值域等内容的数据字典等X表示元数据指标的得分;的个数;5表2公共数据规范性评价指标(续)指标示例业务规则服务业务规则的度量,适用于结构化数据龄,男性年龄应大于22周岁,女性年龄应大于20周岁X表示业务规则指标的得分;考源)源)指标的得分;素的个数;安全规范X表示安全规范指标的得分;公共数据完整性评价指标见表3。指标示例数据元素的赋值程度A表示被赋值的元素的个数;数据记录的赋值程度整的A表示被赋值的元素的个数;公共数据准确性评价指标见表4。6指标示例预期数据,适用于结构化元素的个数;度、精度等)是否满足预期要求如“国土面积”保留小数点后素的个数;数据集中特定字段、记录、文件或数据集意外重复的在本市第一批优秀历史建筑名单表中存在两条关于“×××全一致,表明出现了不必要的A表示重复的元素的个数;数据集中特定字段、记录、的都是唯一的,没有重复的身的个数;脏数据出数据集中正确字段、记录、临时值产生的脏数据与政府法人库的“统一社会信标的得分;的情况下,与该参照保持一致的元素的个数;公共数据一致性评价指标见表5。7指标示例数据集中同一数据在不同户使用时,数据的一致性;同位置的同一数据被同步据个数;关联数据规则检查关联数据的一资产负债表与利润表的一致性的得分;跨列的元素值的关系是否资产负债表中,“资产=负债+性的数据个数;跨列的元素值的逻辑关系是否保持一致,适用于结构"出生年月","出生年月"应与“身份证号”的第7位~第14位性的数据个数;元素值的关系是否保持一的所有员工工资之和一致的得分;数据个数;言,元素值的逻辑是否保持一致,适用于结构化数据晚于学生入学表中的“入学日期”数据个数;8表5公共数据一致性评价指标(续)指标示例内容数据X表示内容数据记录数据项与元数据一致性指标的得分;项与元数据一致的数据个数;5.3.5公共数据时效性公共数据时效性评价指标见表6。表6公共数据时效性评价指标指标示例的正确性频率分布符合业务需求的以本市每日天气信息为例,为实现提示市民应对天气变化的标的得分;的个数;基于时间点的及时性具有时效性的数据应及时公开或提供,公开的数据在有效期限内以本市高校专业设置情况及对标的得分;时序性适用于结构化数据以股票交易数据为例,抽取某股票的若干交易数据,确认以X表示时序性指标的得分;供数据的使用以个人健康数据为例。A医院可以调取和存储B医院的个人健康信息,但仅在治疗期间有效。治疗结束后,A医院存储的B医院获取的健康信息自动标的得分;元素个数;5.3.6公共数据可访问性公共数据可访问性评价指标见表7。9指标示例可访问以婚姻核验为例,在调用婚姻核验数据时可调用成功X表示可访问指标的得分;素个数;以本市失业登记信息为例,提供持续适配应用场景、可用的失业登记信息X表示可用性指标的得分;P——评估对象最终得分;量管理目标。质量评价指标宜完整覆盖第5章规定的指标体系,公共数据评价方可结合实际需求,增加公共数据评价方按照数据质量评价方案对评价对象组织实施公共数据质量评价活动。各项质量指标通过评分方式进行量化评定,结合指标权重,综合计算得出最终数据质量评分。评价实施案例见附录A。(资料性)公共数据质量评价示例以某市婚姻相关数据集为例,开展公共数据质量评价工作。评价准备工作如下:a)明确评价对象是婚姻相关公共数据集;b)公共数据管理方通过制定《婚姻相关数据质量评价体系》《数据标准中心操作流程》《数据质量服务能力评估检查表》《自然人婚姻相关数据规范》《数据质量管理制度》等系列规范文件,明确婚姻相关数据质量要求;c)在婚姻相关数据不可篡改的场景下,公共数据评价方明确了评价的目的、范围、时间、内容、方法,覆盖公共数据采集、归集、整合、共享、开放等各个环节,以保障公共数据全链路的质量评价工作顺利开展;d)采用数据可用性评估工具、多源数据采集工具、数据探查工具、数据剖析工具、数据质量平台、标准中心、质量规则库、质量问题工单、质量大盘等工具,开展比对报告、重跑验证、复检审核、问题审核、规则审核、质量告警等方法进行数据质量评价;e)评价频率采用日常评价与每月阶段性评价相结合。结合公共数据提供方提交的具体业务特征、相关规范文件等基本要求,公共数据评价方从公共数据质量评价指标体系中选取评价指标进行数据质量评价,详细内容见表A.1。公共数据评价方根据婚姻数据质量评价的实际需求,基于数据质量问题影响程度设定各级指标权重。比如将“时效性”设定为高权重(0.2),旨在强调在婚姻数据质量评价中及时更新数据的重要性,确保最新的婚姻数据能够准确反映社会现状。见表A.1。公共数据评价方根据选定的评估指标、评估对象确定数据质量规则。A.3.4方案编制和确认公共数据评价方编制公共数据质量评价方案,方案编制完成后,公共数据管理方和公共数据提供方根据业务需求,评审确认评价方案。A.4评价实施为100分。通过日常评价和阶段性评价,婚姻相关数据质量总分和一级一级X二级指YZ评价规则T二级指S一级RP11公民身份号码格式为18位;婚姻事项代码遵循GA/T543.1—20111一一一一一时间相符一唯一性一一公民身份号码数据唯一一关联数据1出生日期与公民身份号码中的出生年月日在涉及双方的记录中,名、证件号码等信息相时效性基于时间点及时性1一一数据更新时间符合一定的频率标准,如每日的值一问性可访问1一一时可调用成功一A.4.2报告编制(部分)可访问
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 27我的伯父鲁迅先生(说课稿)2024-2025学年统编版语文六年级上册
- 二零二五年度高速公路收费站保安服务合同规范范本
- 6不同的季节 说课稿-2024-2025学年科学二年级上册教科版
- 2020-2025年中国化疗药物行业市场调查研究及投资前景预测报告
- 2025年中国中药化妆品行业市场调查研究及投资前景预测报告
- 3《影子的秘密》(说课稿)-2023-2024学年科学三年级下册教科版
- 2024题目夫妻财产分割及子女监护权移交协议书:离婚事宜3篇
- 秦皇岛2025年河北秦皇岛市第二医院招聘人事代理人员115人笔试历年参考题库附带答案详解
- 2025年中国生鲜冷链物流行业发展前景预测及投资方向研究报告
- 2025年中国希舒美市场竞争格局及投资战略规划报告
- GB/T 12723-2024单位产品能源消耗限额编制通则
- 2024年广东省深圳市中考英语试题含解析
- GB/T 16288-2024塑料制品的标志
- 麻风病防治知识课件
- 建筑工程施工图设计文件审查办法
- 干部职级晋升积分制管理办法
- 培训机构应急预案6篇
- 北师大版数学五年级上册口算专项练习
- 应急物资智能调配系统解决方案
- 2025年公务员考试时政专项测验100题及答案
- TSG ZF003-2011《爆破片装置安全技术监察规程》
评论
0/150
提交评论