DB37T 4646.2-2023 公共数据数据治理规范 第2部分:数据清洗比对 _第1页
DB37T 4646.2-2023 公共数据数据治理规范 第2部分:数据清洗比对 _第2页
DB37T 4646.2-2023 公共数据数据治理规范 第2部分:数据清洗比对 _第3页
DB37T 4646.2-2023 公共数据数据治理规范 第2部分:数据清洗比对 _第4页
DB37T 4646.2-2023 公共数据数据治理规范 第2部分:数据清洗比对 _第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

37Publicdata—Datagovernancespecification—Part2:DatacleaningI 2 2 2 2 6 6 8 9 本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定东省先后印发《山东省“十四五”数字强省建设规划》(鲁政字〔2021〕128号)等一系列政策文件,数据清洗比对、数据返还、资源服务目录等工作存在的普遍问题,制定DB37/T4646《公共数据数据治理规范》系列标准。DB37/T4646拟由以下四——第2部分:数据清洗比对。目的在于规范对归集至省一体——第3部分:数据返还。目的在于规范各级公共管理和服——第4部分:资源服务目录。目的在于规范各级公共管理和服务机构1公共数据数据治理规范第2部分:数据清洗比对GB/T2261.1—2003个人基本信息分类与代码第1部分:个人GB/T22239—2019信息安全技术网络安全等级保护基本要求GB/T35273—2020信息安全技术个人信息安全GB/T36344—2018信息技术数据质量评价DB37/T4646.1—2023公共数据数据治理规范第1部分:数据归集4概述和数据转换,提升数据质量。数据清洗比对流程应符合应根据数据库表结构、数据字典等,对归集数据进行数据探查,形成数据探查清单26.1.2数据质量检查规则应基于业务特征和数据特点制定,并同步至数据质量检查规则库,数据质量6.1.3数据质量检查规则应通过数据质量检查规则库统筹管理并进行动态更新维a)对于存在字段缺失、记录缺失和数值缺失的数据应选择合适的缺失值修正方法,主要包括删b)对于存在逻辑、格式、值域等问题的数据应选择合适的违规值修正方法,主要包括删除处理c)对于存在字段重复和记录重复的数据应选择合适的重复值修正方法,主要包括字段排重、依a)某条记录的一个或多个关键字段空缺;3a)字段类型为数值型时,可使用非空缺值的平均值、最大值、最小值、众数、某分位数等进行b)字段类型为日期型和日期时间型时,可使用非空缺值的平均日期或时间、最近日期或时间、c)字段类型为字符型时,可对非空缺值分类并统计出各类别的数量和占比,根据各类别数量或可根据该条记录中其它非空字段的特点,设置关联条件,对空缺值进行填充。设定A字段为待填充a)B字段与A字段存在强关联关系,可通过B字段推理出A字段的内容,如学位为硕士的记录,a)关联分析:使用关联分析的挖掘方法,寻找出强关联的字段,根据强关联字段关联情况寻找b)聚类分析:使用聚类分析的挖掘方法,将非空数据记录聚类成若干簇,根据簇中字段特点选如人的性别名称为缺失值,性别代码为1,按照GB/T2261.1—2003规则,对应填充a)关键字段存在违规值,且无法恢复,如自然人身份证件号码为“330******1420”,无b)编码错误导致大量违规值存在,且无法恢复,如因编码错误导致行驶证中车牌号数据存在大4a)规则替换:设定替换规则,将不同的违规字符对应替换为规则内字符,如设定截取自然人身a)模糊匹配:新增规则字典,设置匹配规则后做模糊对应,如行政区划名称“济南”匹配替换“济南市”;b)精确匹配:新增规则字典,设置匹配规则后做精确对应,如章丘行政区划由“370181”变更而待修正数据单位为厘米,可通过数值转换的方式,对待修正数据除以100。数值转换一般需人工分析a)近似填充:通过考察相近的值平衡违规值,可将违规值修改为离违规值最近的正常值,或修改为离违规值较近的若干个正常值的平均值等,如幼儿园儿童入学年龄数据中,有一条数据b)回归分析:通过回归函数拟合数据,光滑违规值,如幼儿园儿童入学年龄数据中,有一条数c)统计分析:依据统计的方法修改违规值,如将违规值修改为正常值的平均值,如幼儿园儿童5b)条件保留:设置条件规则和约束字段,比如按日期型或日期时间型字段保留离当前日期最近a)完全重复:记录完全一致,选择保留其中一条记录;b)不完全重复:设置对比字段的值,保留一条和对比字段的值完全一致的记录。对于同一字段来自多个部门时,以权威部门来源为准。如“身份证件号码”以公安部门提供的数条记录为1.7m,一条记录为1m,取1.7m为其身高信息。6数据转换主要包括数据格式转换和数据代码转换,数据转换规则示例见附录E。如数据转换失败,应查9数据安全9.1应记录数据探查时间、数据质量检查时间、数据质量检查内容、数据质量检查结果、数据转换结9.2应对待修正数据和待转换数据进行备份,并确保备份数据的可用性。7数据归集数据探查检查规则制定质量检查实施存在问题不存在问题数据转换8数据探查清单包括数据表探查清单和数据字段探查清单。数据表探查清单示例见表B.1是是增0否是否否—未删除;10否否是是0、109检查数据是否存在逻辑或常识性错误,如幼儿园入学年检查数据是否存在格式错误,如身份证件号码长度称12012将各类时间型数据统一转换为符合GB/T7408—2005的时间型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论