版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
CCSL71DB5120资阳市市场监督管理局发布IDB5120/T19.3—2023 12规范性引用文件 13术语和定义 14缩略语 15清洗目的 26管理职责 27清洗流程 28具体操作 2附录A(规范性)典型业务数据清洗规则表 7参考文献 8DB5120/T19.3—2023本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利,本文件的发布机构不承担识别这些专利的责任。本文件由资阳市政务服务和大数据管理局提出并归口。本文件由资阳市市场监督管理局批准并发布。本文件起草单位:资阳市大数据服务中心、资阳数智科技有限公司。本文件主要起草人:刘桄序、戢培全、邵柏华、袁嘉、刘光乾、杨建康、张亚琴、李爱民、刘西北、郑雪梅、邓森林、彭国林、陈杜宇、杨通、李强、夏荣、张润泽、任良华、冷耀、陈熙。本文件为首次发布。1DB5120/T19.3—2023数据资源体系技术指南第3部分:数据清洗加工规范本文件规定了资阳市域数据清洗加工相关术语和定义、缩略语、清洗目的、管理职责、清洗流程、具体操作等工作规范。本文件适用于资阳市域政务组织、非政务组织和个人信息资源数据清洗加工。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T5271.1信息技术词汇第1部份:基本术语GB/T11457信息技术软件工程术语GB/T18492信息技术系统及软件完整性级别GB/T22032系统工程系统生存周期过程GB/T25000系统与软件工程(所有部分)GB/T29264信息技术服务分类与代码GB/T35295信息技术大数据术语GB/T36625.3智慧城市数据融合第3部分:数据采集规范GB/T38667信息技术大数据数据分类指南GB/T40094.2电子商务数据交易第2部分:数据描述规范GB/T42450信息技术大数据数据资源规划DB51/T3056政务数据数据分类分级指南3术语和定义GB/T5271.1、GB/T11457、GB/T18492、GB/T25000、GB/T29264、GB/T35295、GB/T36625.3、GB/T38667、GB/T40094.2、GB/T42450、DB51/T3056界定的以及下列术语和定义适用于本文件。3.1数据清洗加工datacleaningandprocessing运用一定方法修正识别的数据问题,转化为满足数据质量要求或应用要求的数据的过程。4缩略语下列缩略语适用于本文件。ETL:数据的抽取、转换和加载(ExtractTransformLoad)2DB5120/T19.3—20235清洗目的数据清洗的目的是为了通过纠正不符合要求的数据来提高数据质量,满足数据质量标准要求。其中不符合要求的数据主要有三类:a)残缺数据:缺一些记录,或一条记录里缺一些值(空值),或两者都缺。b)错误数据:数据没有严格按照规范记录,包括格式内容错误、逻辑错误、不合规等。c)重复数据:出现多条相同的记录或多条记录代表同一实体。6管理职责数据提供方:a)数源单位需要参与数据清洗规则和错误处理策略的制定。b)数源单位需要参与数据转换规则的制定。c)数源单位针对重要数据缺失的错误,需要凭借业务经验对缺失数据进行补全。数据管理方:a)数据管理方需要参与数据清洗规则和错误处理策略的制定。b)数据管理方需要参与数据转换规则的制定。7清洗流程资阳市数据资源中心的数据清洗加工采用ETL架构的清洗流程,流程如附录A所示。8具体操作8.1定义规则分析抽取目标数据的范围体量、类型、内容、关系、质量等信息,全面识别数据情况。以需求为导向、应用为目标,考虑目标数据资源特点和工作复杂程度,结合业务要求或用户和其他相关方的需求、期望,定义切实可操作的数据清洗加工目标及规则。8.2数据过滤数据过滤的任务是过滤那些不符合要求的数据,数据过滤包括以下操作:a)将非结构化和半结构化数据转化为结构化数据。b)对噪声数据进行删除。c)对业务数据中不符合应用规则的数据进行删除。d)过滤删除掉的数据应存入问题数据库表,便于后续查证或重新使用。注:噪声数据指存在错误或异常的数据,这些数据对数据的分析造成了干扰。8.3数据检核8.3.1检核要求数据检核应包括以下操作:a)非空检核:应在字段为非空的情况下,对该字段数据进行检核,数据不能为空值。b)长度检核:数据长度应满足转换要求的字段长度。c)数据量检核:过滤后的数据总量应与原始抽取的数据总量吻合。3DB5120/T19.3—2023d)数据类型和数据值检核:数据类型和值应能支持后续数据转换过程,如后续根据定义规则需要将时间字符串数据转换成时间类型时,还需检核时间字符串类型的数据,应符合时间格式。8.3.2检核步骤数据检核步骤如下:a)按检核要求检核数据资源是否满足要求。b)当不满足检核要求时,应进行数据错误标识和错误处理。c)当满足检核要求时,直接进行数据转换。8.4错误标识8.4.1识别方法可采用统计学方法、数据挖掘方法、基于聚类的方法、基于距离的方法、基于分类的方法、基于关联规则的方法、业务区分等方式分析数据,从而识别出数据的错误类型。8.4.2标识步骤错误标识步骤如下:a)按识别方法推荐的方法,分析筛选出数据资源中存在的数据问题。b)按错误的类型,对数据问题进行分类并标识错误。8.5错误处理8.5.1由数源单位进行错误处理的情况,建议数源单位在业务系统中更正数据,并把更正后的数据更新推送到前置库。8.5.2残缺数据处理8.5.2.1处理策略按照字段缺失比例和字段重要性,分别制定策略:a)对重要性高、缺失率高的残缺数据,采用以下策略:1)尝试从其他渠道取数据补全;2)使用其他字段通过计算获取;3)去除该字段,并在结果中标明。b)对重要性低、缺失率高的残缺数据,去除该字段。c)对重要性高、缺失率低的残缺数据,采用以下策略:1)通过计算进行填充;2)通过经验或业务知识估计。d)对重要性低、缺失率低的残缺数据,不做处理或进行简单填充。注:重要性高指该数据如果残缺了会导致业务中断;缺失率按数据质量指标要求应小于10%,因此大于10%可认为是缺失率高。8.5.2.2处理方法去除字段:备份当前数据,直接删除不需要的字段。填充缺失内容:按以下方式填充缺失内容:a)不同指标的计算结果填充:通过数据项与数据项之间的逻辑联系,采取一定的列拆分、列计算等方式得到缺失内容,如年龄字段缺失,但具有公民身份证号,可从公民身份证号提取年龄数据。b)同一指标的计算结果填充:采取均值、中位数、众数等方式进行填充,如时间序列缺失,可使4DB5120/T19.3—2023用前后的均值填充。c)重新获取:对缺失率高且非常重要的数据项,应采取重新抽取不同数据源的数据进行关联对比填充。d)取数补全:以线下收集、业务知识或经验推测的方式补全缺失值。8.5.3错误数据处理8.5.3.1格式内容问题处理对格式内容问题数据,采用以下方法处理:a)全角、半角处理:通过正则表达式将全角、半角符号按照事先定义的规则进行全角、半角符号统一。b)有不该存在的字符:以自动校验结合人工方式来找出存在的问题,自动去除不需要的字符,将数据自动化统一或人工修正为正确字符。c)内容与字段不匹配:详细识别问题类型,如人工填写错误、前端没有校验、导入数据时部分或全部存在列没有对齐、数据源端业务系统缺陷等,不能直接删除,应按照清洗规则,采取加入更多数据源进行数据关联,找到匹配的相应字段进行填补。8.5.3.2逻辑问题处理对逻辑问题数据,采用以下方法处理:a)了解数据潜在的逻辑规则,采取逻辑推理法,过滤掉一些使用简单逻辑推理即可发现的问题数据。b)对于不重要的、不合理的数据可直接删除,对于重要的、不合理值应进行人工干预或引入更多数据源进行关联识别。c)通过字段间相互验证的方法修正矛盾内容,如根据字段的数据来源,判定哪个字段提供的信息更可靠,去除或重构不可靠字段。d)通过分箱、聚类、回归等方法识别离群值(异常值),按照经验和业务流程判断其合理性,若合理,则保留该数值;若不合理,对重要性较高而无法重新采集的数值,按缺失数据处理,对重要性较低的数值,可直接删除。e)对于复杂逻辑数据问题应咨询了解该数据的产生原因,按照协商的清洗加工规则进行处理。8.5.3.3不合规问题处理对不合规问题数据,采用以下方法处理:a)设定判定规则:设定强制合规条件,不在规则范围内的,强制设置最大值或最小值,剔除或判断为无效字段。b)设定警告规则:不在规则范围内的,进行警告及人工处理。8.5.4重复数据处理重复问题处理步骤如下:a)通过元数据血缘关系查询到重复数据的各个来源。b)通过数据主键或寻找相关信息识别重复数据的含义,不是相同含义的数据不能界定为重复数据进行去重处理,应分别保留。c)查询到确定的重复数据,根据权威性和应用场合,选择最恰当渠道来源的数据,或在不影响数据保真度和完整性的情况下进行合并处理。8.5.5质量报告数据检核环节完成后应出具质量报告,内容应包含数据过滤、检核发现的问题(错误标识)和错误5DB5120/T19.3—2023处理的结果。质量报告需推送给相关数源单位。8.6数据转换数据转换应在数据检核通过后执行,按以下操作执行:a)开始前应检查需要转换的数据规则和字段是否一致。b)应实现对数据的格式、信息代码、值的冲突的转换,典型业务数据清洗规则见附录A。c)清洗后的数据结构应与目标数据库的结构相兼容。d)数据向目标移动时,将数据复制到多个目标中。e)转换失败应立即停止,开始查找问题。f)长时间未转换结束,需仔细核查数据量、规则和字段是否一致,如有问题应立即停止。g)转换中查找到问题,应解决问题后再重新开始数据转换。8.7结果检核8.7.1检核内容结果检核应包括以下内容:a)主键重复:多个业务系统中同类数据经过清洗后,在统一保存时,检核主键的唯一性。b)非法代码、非法值:检查个别字段出现的异常信息,包括非法代码、代码与数据标准不一致、取值错误、格式错误、多余字符、乱码等。c)数据格式:根据表中属性值的格式检核其准确性,如时间格式、币种格式、多余字符、乱码。d)记录数:检核各个系统相关数据之间的数据总数,或数据表中每日数据量的波动。e)业务约束:应从业务的角度考虑数据的正确性、一致性、有效性等,如建档日期、入学日期、民族信息等。f)标准约束:对照系统数据应符合的标准进行检核。8.7.2结果要求清洗后的结果应满足以下要求:a)规范性:数据的质量及存储标准应统一,源数据应在源头或备份表中能找到。b)唯一性:数据在字段、记录内容或数据集内不应有重复值。c)准确性:数据所指内容对数据所指对象的反应、表现应准确,数据形式对数据内容的表述、表达应准确。d)完整性:数据集合中应包含足够的数据来响应各种查询和支持各种计算。e)一致性:数据一致性应符合以下要求:1)同一个数据在同一时刻在不同数据库、应用和系统中应只有一个值;2)数据字段内数据应与字段描述一致;3)最终结果数据的统计量应与预测一致。f)时效性:不同类型的应用对数据的时间特性有不同的要求,数据的时间特性应满足业务应用的要求,数据记录应根据时间特性及时更新。g)稳定性:数据来源稳定,数据结果能支撑后续业务。8.8数据加载数据加载方式应匹配数据抽取方式,包含全量加载、增量加载。数据加载操作应满足以下要求:a)存储环境应能支撑相应数据。b)加载工具应具有高效的加载性能。6DB5120/T19.3—2023c)加载策略应考虑加载周期和数据追加策略两方面的内容。d)加载应记录日志。7DB5120/T19.3—2023典型业务数据清洗规则表清洗规则规则描述统一时间日期数据格式将各类日期统一为八位的字符日期,如YYYYMMDD,符合GB/T7408-2005。将各类时间统一为六位的字符时间,如hhmmss,符合GB/T7408-2005。将各类事件日期统一为十四位的字符时间日期,如YYYYMMDDhhmmss,符合GB/T7408-2005。统一分类数据取值代码将人员的性别数据统一转换为标准信息代码(0-未知的性别,1-男性,2-女性,9-未说明的性别),符合GB/T2261.1-2003。将人员的民族数据统一转换为标准信息代码,符合GB/T3304-1991。将人员的户籍地址数据统一转换为行政区划代码,符合GB/T2260-2007。将人员的婚姻登记情况统一转换为标准的婚姻状况代码(10-未婚,20-已婚,21-初婚
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年绿色环保物业管理委托合同书3篇
- 建筑工程结算施工合同协议书
- 房屋建筑施工合同验收
- 园林设施维护制度
- 乡村公路沥青改造协议
- 管道维修包清工施工合同
- 4S店销售顾问招聘合同
- 海洋工程投标保密协议
- 幼儿园体育运动场地建设合同
- 酒类加工场地租赁合同
- 医院“无陪护”病房试点工作方案
- 网络安全与数据传输
- 2024高考日语复习 授受关系 课件
- 清华大学大学物理-光的偏振
- threejs入门基础教程
- 压力管道质量安全员守则
- 艺术《扎染》教案反思
- 心理健康教育-网络与青少年
- 上市公司重组拆分上市的文献综述
- 高中英语人教版(2019) 选择性必修一 Unit 3 课文语法填空(含答案)
- 《护理学研究》自考历年真题题库汇总(含答案)
评论
0/150
提交评论