公共数据 数据治理规范 第2部分:数据清洗比对_第1页
公共数据 数据治理规范 第2部分:数据清洗比对_第2页
公共数据 数据治理规范 第2部分:数据清洗比对_第3页
公共数据 数据治理规范 第2部分:数据清洗比对_第4页
公共数据 数据治理规范 第2部分:数据清洗比对_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1公共数据数据治理规范第2部分:数据清洗比对本文件规定了公共数据清洗比对的数据探查、数据质量检查、问题数据修正、数据转换和数据安全等要求。本文件适用于对归集至省一体化大数据平台的数据开展数据清洗比对工作,各级公共管理和服务机构数据清洗比对工作参照执行。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T2261.1—2003个人基本信息分类与代码第1部分:个人性别代码GB/T22239—2019信息安全技术网络安全等级保护基本要求GB/T35273—2020信息安全技术个人信息安全规范GB/T36344—2018信息技术数据质量评价指标DB37/T4646.1—2023公共数据数据治理规范第1部分:数据归集3术语和定义DB37/T4646.1—2023界定的以及下列术语和定义适用于本文件。3.1数据标准datastandard数据的命名、定义、结构和取值范围方面的规则和基准。[来源:GB/T36344—2018,2.8]4概述对归集至省一体化大数据平台的数据进行清洗比对,通过数据探查、数据质量检查、问题数据修正和数据转换,提升数据质量。数据清洗比对流程应符合附录A。5数据探查5.1应根据数据库表结构、数据字典等,对归集数据进行数据探查,形成数据探查清单,示例见附录B。5.2如存在数据探查清单与数据库表结构不一致、数据字典缺失等情况,应进行补充修改。6数据质量检查6.1检查规则制定26.1.1数据质量检查规则应基于GB/T36344中的数据质量评价指标制定,数据质量检查规则应符合国家标准、行业标准和地方标准。6.1.2数据质量检查规则应基于业务特征和数据特点制定,并同步至数据质量检查规则库,数据质量检查规则示例见附录C。6.1.3数据质量检查规则应通过数据质量检查规则库统筹管理并进行动态更新维护。6.2质量检查实施应基于数据探查清单为归集数据配置数据质量检查规则,进行数据质量检查,生成数据质量检查报告。数据质量检查报告包括但不限于数据质量总体情况、表数据质量情况、问题数据情况等,数据质量检查报告示例见附录D。7问题数据修正7.1数据修正要求7.1.1对于存在数据质量问题的归集数据,应根据数据质量检查报告选择合适的数据修正方法,其中:a)对于存在字段缺失、记录缺失和数值缺失的数据应选择合适的缺失值修正方法,主要包括删除处理和填充处理;b)对于存在逻辑、格式、值域等问题的数据应选择合适的违规值修正方法,主要包括删除处理和修改处理;c)对于存在字段重复和记录重复的数据应选择合适的重复值修正方法,主要包括字段排重、依关键字段的记录排重和依重复度的记录排重;d)对于存在冲突的数据应选择合适的冲突值修正方法,主要包括字段冲突处理和记录冲突处理;e)对于未及时更新的数据,应对数据尽快进行更新。7.1.2应将完成修正的数据重新归集至省一体化大数据平台。7.2数据修正方法7.2.1缺失值修正7.2.1.1删除处理出现以下情况可删除空缺记录:a)某条记录的一个或多个关键字段空缺;b)某条记录字段缺失率超过设定的值,且缺失值字段重要性低。7.2.1.2填充处理7.2.1.2.1线下人工校验填充缺失字段重要性高时可通过线下人工校验等方法进行填充,以保证填充值的准确率,如人工对接相关机构获取信息进行填充。7.2.1.2.2常量填充可对空缺值进行常量填充,即使用一个常量填充该字段所有空缺值。7.2.1.2.3统计填充3可对该字段中非空缺值进行统计,根据统计结果选择空缺值填充内容,要求包括但不限于:a)字段类型为数值型时,可使用非空缺值的平均值、最大值、最小值、众数、某分位数等进行填充;b)字段类型为日期型和日期时间型时,可使用非空缺值的平均日期或时间、最近日期或时间、最远日期或时间等进行填充;c)字段类型为字符型时,可对非空缺值分类并统计出各类别的数量和占比,根据各类别数量或占比选择如最大量、最小量等进行填充。7.2.1.2.4条件填充可根据该条记录中其它非空字段的特点,设置关联条件,对空缺值进行填充。设定A字段为待填充的含空缺值的字段,B为关联字段,要求包括但不限于:a)B字段与A字段存在强关联关系,可通过B字段推理出A字段的内容,如学位为硕士的记录,对应学历为研究生;b)B字段对A字段有约束关系,可通过B字段推导出A字段内容,如通过身份证件号码可推导出年龄、出生日期、性别等。7.2.1.2.5分析填充可选择分析字段,设置分析方法进行分析并填充,方法包括但不限于:a)关联分析:使用关联分析的挖掘方法,寻找出强关联的字段,根据强关联字段关联情况寻找最可能的值;b)聚类分析:使用聚类分析的挖掘方法,将非空数据记录聚类成若干簇,根据簇中字段特点选择最可能的值;c)回归分析:使用回归分析的挖掘方法计算最可能的值。7.2.1.2.6规则填充可按照相关国家标准、行业标准和地方标准等规范文件中的规则和要求或者预设的规则进行填充,如人的性别名称为缺失值,性别代码为1,按照GB/T2261.1—2003规则,对应填充性别名称为男性。7.2.2违规值修正7.2.2.1删除处理7.2.2.1.1记录删除出现以下情况可删除违规记录:a)关键字段存在违规值,且无法恢复,如自然人身份证件号码为“330******1420”,无法识别到具体人员时可删除记录;b)编码错误导致大量违规值存在,且无法恢复,如因编码错误导致行驶证中车牌号数据存在大量“00000”时可删除记录;c)字段取值不符合逻辑,如存在幼儿园儿童入学年龄大于18岁的记录时可删除记录。7.2.2.1.2内容删除可删除违规值字段内容,作为空缺值处理,如自然人出生年月为违规值“2099-12-12”、自然人身高字段超过3m等,可删除该字段的内容。7.2.2.1.3字符删除4可设置规则后删除违规字符,或直接将违规字符替换为空,出现以下情况可删除违规字符:a)日期型或日期时间型数据中含有如“()”等违规字符;b)姓名等字段中含有空格;c)身份证件号码等字段中含有X以外的其它字母或字符。7.2.2.2修改处理7.2.2.2.1人工校验数据量较小,违规值较少的情况可采用人工校验修改方式,如自然人出生日期为“2010-12/12”,可人工修改为“2010-12-12”,人工修改违规值应保证修正值的准确度。7.2.2.2.2字符替换可将违规字符进行替换,替换方法包括但不限于:a)规则替换:设定替换规则,将不同的违规字符对应替换为规则内字符,如设定截取自然人身份证件号码第7~14位为自然人出生日期的替换规则;b)精确替换:设置匹配规则做精确替换,如“&”替换为“和”;c)模糊替换:设置匹配规则做模糊替换,如“&***”(*代表其他字符)替换为“和”。7.2.2.2.3字典匹配对于数据内容不在字典内的字段,可选择字典匹配方式处理,匹配方式包括但不限于:a)模糊匹配:新增规则字典,设置匹配规则后做模糊对应,如行政区划名称“济南”匹配替换“济南市”;b)精确匹配:新增规则字典,设置匹配规则后做精确对应,如章丘行政区划由“370181”变更为“370114”,可以此设置规则做精准匹配替换。7.2.2.2.4数值转换数值型数据中存在数据单位不统一的情况,可采用数值转换方式处理,如数据标准规定的单位是米,而待修正数据单位为厘米,可通过数值转换的方式,对待修正数据除以100。数值转换一般需人工分析并设置转换规则。7.2.2.3其他方式处理违规值的其他方式包括但不限于:a)近似填充:通过考察相近的值平衡违规值,可将违规值修改为离违规值最近的正常值,或修改为离违规值较近的若干个正常值的平均值等,如幼儿园儿童入学年龄数据中,有一条数据为18岁,其他人为5~8岁,将其修改为离违规值最近的正常值8岁;b)回归分析:通过回归函数拟合数据,光滑违规值,如幼儿园儿童入学年龄数据中,有一条数据为18岁,其他人为5~8岁,可将儿童按年龄分组,使用回归相关算法,计算各年龄人数,将其修改为曲线中最平滑的数值;c)统计分析:依据统计的方法修改违规值,如将违规值修改为正常值的平均值,如幼儿园儿童入学年龄数据中,有一条数据为18岁,其他人为5~8岁,将其修改为正常值的平均值7岁;d)常量替换:将违规值替换为常量,如幼儿园儿童入学年龄数据中,有一条数据为18岁,其他人为5~8岁,将其修改为常量6岁。7.2.3重复值修正5DB37/T4646.2—20237.2.3.1字段排重对于重复字段,可选择保留某一字段,删除其它重复的字段,方式包括但不限于:a)人工选择:由人工选择保留字段,删除其它重复字段;b)依标准保留:依据数据标准,保留符合数据标准的字段;c)依质量保留:依据数据质量检查结果,保留数据质量问题最少的字段;d)顺序保留:按字段出现的顺序,保留第一个或最后一个字段。7.2.3.2依关键字段的记录排重多条记录出现同一字段重复时,可选择关键字段进行排重,方式包括但不限于:a)人工选择:由人工选择保留记录,删除其它重复记录;b)条件保留:设置条件规则和约束字段,比如按日期型或日期时间型字段保留离当前日期最近的记录;c)依质量保留:依据数据质量检查结果,保留数据质量问题最少的记录;d)顺序保留:按记录出现的顺序,保留第一条或最后一条记录。7.2.3.3依重复度的记录排重可根据记录的重复情况进行排重,包括但不限于:a)完全重复:记录完全一致,选择保留其中一条记录;b)不完全重复:设置对比字段的值,保留一条和对比字段的值完全一致的记录。7.2.4冲突值修正7.2.4.1字段冲突处理7.2.4.1.1字段推导方法对于不同字段之间存在冲突时,对具有强约束关系的字段,可以某字段作为标准字段,对其余字段进行修改。如身份证件号码、年龄及性别字段具有强约束关系,以身份证件号码作为标准字段,与年龄或性别字段冲突时,通过身份证件号码推导出正确的值并修改错误值。7.2.4.1.2权威来源方法对于同一字段来自多个部门时,以权威部门来源为准。如“身份证件号码”以公安部门提供的数据为准。7.2.4.1.3大多数方法对于同一字段存在多条不同记录时,以内容相同的数量最多的记录为准。如一个人的“身高”有三条记录为1.7m,一条记录为1m,取1.7m为其身高信息。7.2.4.1.4新鲜度方法对于同一字段存在不同的时间属性时,以时间最近的数据为准。如一个人的“学位”两年前为“硕士”,两年后为“博士”,取“博士”为其学位信息。7.2.4.2记录冲突处理6有关联关系的记录之间存在冲突时,可通过统计或逻辑分析等方式进行处理。如合计项的值与列表项总和不一致,则通过统计方式人工分析处理并修改错误值。如人员列表中,不同的人对应相同的驾驶证件号码,则通过逻辑分析方式人工分析处理并修改错误值。8数据转换应对通过数据质量检查和问题数据修正的归集数据进行转换,将其转换为符合数据标准的标准数据,数据转换主要包括数据格式转换和数据代码转换,数据转换规则示例见附录E。如数据转换失败,应查找原因,并在解决后重新进行数据转换;如数据转换成功,应对完成转换的数据进行核验,确认数据是否符合标准。9数据安全9.1应记录数据探查时间、数据质量检查时间、数据质量检查内容、数据质量检查结果、数据转换结果等形成日志保存,并为查询、导出和删除等日志操作设置权限。9.2应对待修正数据和待转换数据进行备份,并确保备份数据的可用性。9.3应符合GB/T22239—2019中等级保护三级的要求,个人信息安全应符合GB/T35273—2020要求。(规范性)数据清洗比对流程图A.1规定了数据清洗比对流程。图A.1数据清洗比对流程8(资料性)数据探查清单示例数据探查清单包括数据表探查清单和数据字段探查清单。数据表探查清单示例见表B.1。数据字段探查清单示例见表B.2。表B.1数据表探查清单示例是是表B.2数据字段探查清单示例增0否是否否 未删除;10否否是是0、109(资料性)数据质量检查规则示例数据质量检查规则示例见表C.1。表C.1数据质量检查规则示例检查字段数量与数据探查清单相比是否一致检查记录数量与数据探查清单相比是否一致检查数据是否存在逻辑或常识性错误,如幼儿园入检查数据是否存在格式错误,如身份证件号码检查分布在不同表中的相同数据是否一致(资料性)数据质量检查报告示例数据质量检查报告示例见表D.1。表D.1数据质量检查报告示例截止到202X年XX月XX日XX:XX称12012(资料性)数据转换规则示例数据转换规则示例见表E.1。表E.1数据转换规则示例将各类时间型数据统一转换为符合GB/T7408—2005的时间型数据,如h换换参考文献[1]GB/T2261.2—2003个人基本信息分类与代码第2部分:婚姻状况代码[2]

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论