数据清洗方法_第1页
数据清洗方法_第2页
数据清洗方法_第3页
数据清洗方法_第4页
数据清洗方法_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、目 录 一、数据清洗工作流程一、数据清洗工作流程 二、数据清洗内容二、数据清洗内容 三、数据清洗规则三、数据清洗规则 四、数据清洗策略四、数据清洗策略 五、证件号码清洗报告五、证件号码清洗报告 1. 一、数据清洗工作流程 2. (一)(一)必录项及重要指标项空缺必录项及重要指标项空缺 (二)指标值异常(二)指标值异常 (三)指标值之间逻辑关系异常(三)指标值之间逻辑关系异常 (四)业务逻辑关系异常(四)业务逻辑关系异常 (五)贫困户、贫困人口重复(五)贫困户、贫困人口重复 二、数据清洗内容 3. (一)必录项及重要指标项空缺(一)必录项及重要指标项空缺 1. 1.贫困户识别标准为空贫困户识别标

2、准为空 2. 2.贫困户属性为空贫困户属性为空 3. 3.主要致贫原因为空主要致贫原因为空 4. 4.脱贫状态标识为空脱贫状态标识为空 5. 5.行政区划为空行政区划为空 6. 6.证件号码为空证件号码为空 三、数据清洗规则 4. (一)必录项及重要指标项空缺(一)必录项及重要指标项空缺 7. 7.文化程度为空文化程度为空 8. 8.健康状况为空健康状况为空 9. 9.劳动技能为空劳动技能为空 10. 10.务工状况为空务工状况为空 11. 11.在校生情况为空在校生情况为空 三、数据清洗规则 5. (二)指标值异常(二)指标值异常 1. 1.证件号码不符合校验规则证件号码不符合校验规则 2.

3、 2.其他致贫原因超过两项其他致贫原因超过两项 3. 3.出生日期与身份证号中的出生日期不符出生日期与身份证号中的出生日期不符 三、数据清洗规则 6. (二)指标值异常(二)指标值异常 4. 4.务工时间不符合指标采集规范务工时间不符合指标采集规范 5. 5.人均纯收入为人均纯收入为0 0或超或超5 5位数位数 6. 6.与村主干路距离超过与村主干路距离超过5050公里公里 三、数据清洗规则 7. (三)指标值之间逻辑关系异常(三)指标值之间逻辑关系异常 1. 1.务工状况为务工状况为“非务工非务工”,务工时间不为,务工时间不为0 0 2. 2.贫困户无务工人员,却有工资性收入贫困户无务工人员

4、,却有工资性收入 3. 3.贫困人口丧劳,有外出务工情况贫困人口丧劳,有外出务工情况 三、数据清洗规则 8. (三)指标值之间逻辑关系异常(三)指标值之间逻辑关系异常 4. 4.年收入逻辑关系异常年收入逻辑关系异常 5. 5.人均纯收入逻辑关系异常人均纯收入逻辑关系异常 6. 6.低保贫困户无低保金低保贫困户无低保金 三、数据清洗规则 9. (三)指标值之间逻辑关系异常(三)指标值之间逻辑关系异常 7. 7. “与户主关系与户主关系”和和“性别性别”不符不符 8. 8.贫困户贫困户“家庭人数家庭人数”与实际人口数不符与实际人口数不符 9. 9.贫困户存在多个户主贫困户存在多个户主 10. 10

5、. 残疾人无残疾证残疾人无残疾证 三、数据清洗规则 10. (四)业务逻辑关系异常(四)业务逻辑关系异常 1. 1.贫困户家庭无在校生,主要致贫原因为贫困户家庭无在校生,主要致贫原因为“因学因学” 2. 2.贫困户家庭无残疾人,主要致贫原因为贫困户家庭无残疾人,主要致贫原因为“因残因残” 3. 3.贫困户家庭成员健康状况全部为贫困户家庭成员健康状况全部为“健康健康”, 主要致贫原因为主要致贫原因为“因病因病”。 三、数据清洗规则 11. (四)业务逻辑关系异常(四)业务逻辑关系异常 4. 4.返贫户在上一年度贫困户属性非返贫户在上一年度贫困户属性非“已脱贫已脱贫” 5. 5.贫困户空挂贫困户空

6、挂 7. 7.脱贫户人均纯收入低于国家贫困标准脱贫户人均纯收入低于国家贫困标准 8. 8.年龄在年龄在16-6016-60周岁的健康人口劳动能力为周岁的健康人口劳动能力为“丧劳丧劳” 9. 9.五保户(含五保贫困户、五保农户)存在年龄在五保户(含五保贫困户、五保农户)存在年龄在16-16- 6060周岁的劳动力周岁的劳动力 三、数据清洗规则 12. (五)贫困户、贫困人口重复(五)贫困户、贫困人口重复 (1 1)姓名不一致,如:王思妍,王恩妍)姓名不一致,如:王思妍,王恩妍 (2 2)性别不一致)性别不一致 (3 3)文化程度不一致)文化程度不一致 (4 4) 三、数据清洗规则 13. (五)

7、贫困户、贫困人口重复(五)贫困户、贫困人口重复 (5 5)多省交界处,户籍地混乱)多省交界处,户籍地混乱 三、数据清洗规则 14. (6 6)仅)仅“识别标准识别标准”不同不同 (7 7)仅)仅“家庭人员数量家庭人员数量”不同不同 (8 8)家庭成员互为户主)家庭成员互为户主 (9 9)拆户分户情况拆户分户情况 (1010)嫁娶、改嫁,户口迁移情况)嫁娶、改嫁,户口迁移情况 三、数据清洗规则 15. (一)后台批量处理(一)后台批量处理 1. 1.指标值含有空字符指标值含有空字符 2. 2.指标值含有特殊字符指标值含有特殊字符 3. 3.非指标体系代码选项非指标体系代码选项 4. 4.指标值间

8、存在逻辑关系,指标值间存在逻辑关系, 如错误出生日期可从正确身份证中提取如错误出生日期可从正确身份证中提取 并做更新处理并做更新处理 四、数据清洗策略 16. (二)前台核实修改(二)前台核实修改 1. 1.提取待清洗数据逐级下发提取待清洗数据逐级下发 2. 2.基层扶贫部门核实修改基层扶贫部门核实修改 (三)前台采集补录(三)前台采集补录 1. 1.将应填未填项逐级下发将应填未填项逐级下发 2. 2.基层扶贫部门采集录入基层扶贫部门采集录入 四、数据清洗策略 17. (一)清洗内容(一)清洗内容 1. 1.证件号码重复证件号码重复 2. 2.证件号码有误证件号码有误 3. 3.证件类型值异常

9、证件类型值异常 4. 4.证件类型与证件号码不符证件类型与证件号码不符 五、证件号码清洗报告 18. (二)清洗规则(二)清洗规则 1. 1.证件号码重复证件号码重复 2. 2.证件号码包含空字符证件号码包含空字符 3. 3.证件号码位数非证件号码位数非1515、1818、2020位位 4. 18 4. 18位身份证是否符合校验规则位身份证是否符合校验规则 5. 20 5. 20位残疾证是否符合校验位及残疾类型、等级规则位残疾证是否符合校验位及残疾类型、等级规则 6. 6.证件类型为空或非指标体系代码项证件类型为空或非指标体系代码项 7. 7.证件类型与证件号码不符证件类型与证件号码不符 五、

10、证件号码清洗报告 19. (五)清洗策略(五)清洗策略 1. 1.证件号码清洗证件号码清洗 (1 1)证件号码重复的,提取问题数据并提供修改建议)证件号码重复的,提取问题数据并提供修改建议 ,逐级下发,由基层扶贫部门核实后在前台修改,逐级下发,由基层扶贫部门核实后在前台修改 (2 2)证件号码未采集的(空值),将问题数据逐级下)证件号码未采集的(空值),将问题数据逐级下 发,由基层扶贫部门进行前台采集补录发,由基层扶贫部门进行前台采集补录 (3 3)证件号码包含空字符的,首先从后台批量剔除空)证件号码包含空字符的,首先从后台批量剔除空 字符,然后再进行一轮数据清洗处理字符,然后再进行一轮数据清

11、洗处理 五、证件号码清洗报告 20. (五)清洗策略(五)清洗策略 1. 1.证件号码清洗证件号码清洗 (4 4)非)非1515、1818、2020位的证件号码,除中国人民解放军军位的证件号码,除中国人民解放军军 官证以外,其他证件类型的证件号码,提取问题数据逐级官证以外,其他证件类型的证件号码,提取问题数据逐级 下发,前台核实修改下发,前台核实修改 (5 5)1515位证件号码,需升级为位证件号码,需升级为1818位,将问题数据逐级下位,将问题数据逐级下 发,前台采集补录发,前台采集补录 五、证件号码清洗报告 21. (五)清洗策略(五)清洗策略 1. 1.证件号码清洗证件号码清洗 (6 6

12、)对于证件号码为)对于证件号码为1818、2020位的错误数据,证件号码位的错误数据,证件号码 中第中第1818位校验码应为位校验码应为“X”X”,但原采集录入为,但原采集录入为“、全角、全角 、* *、”等字符的,可通过后台批量处理,统一替换等字符的,可通过后台批量处理,统一替换 为英文半角大写为英文半角大写X X;其他情况需提取问题数据逐级下发,;其他情况需提取问题数据逐级下发, 由基层扶贫部门核实后在前台修改由基层扶贫部门核实后在前台修改 五、证件号码清洗报告 22. (五)清洗策略(五)清洗策略 2. 2.证件类型清洗证件类型清洗 (1 1)证件类型为空的,如果证件号码符合身份证和残疾

13、)证件类型为空的,如果证件号码符合身份证和残疾 人证校验规则,可以通过后台批量处理;否则逐级下发问人证校验规则,可以通过后台批量处理;否则逐级下发问 题数据,通过前台采集补录题数据,通过前台采集补录 (2 2)证件类型非指标体系代码项的数据,如指标值记录)证件类型非指标体系代码项的数据,如指标值记录 为为“1 1”的数据,且证件类型确应为的数据,且证件类型确应为“居民身份证(户口居民身份证(户口 簿)簿)”,通过后台批量处理,统一将证件类型修改为,通过后台批量处理,统一将证件类型修改为 “01”01” 五、证件号码清洗报告 23. (五)清洗策略(五)清洗策略 3. 3.证件类型与证件号码不符证件类型与证件号码不符 (1 1)已通过身份证规则校验的)已通过身份证规则校验的1818位证件号码,若证件类位证件号码,若证件类 型为型为“残疾人证残疾人证” ,且健康状况为,且健康状况为“残疾残疾” ,属残疾人,属残疾人 无残疾证范畴,与残联进行比对后更新。其他情况,统一无残疾证范畴,与残联进行比对后更新。其他情况,统一 批量修改为批量修改为“居民身份证(户口簿)居民身份证(户口簿)” (2 2)已通过残疾证规则校验的)已通过残疾证规则校验的2020位证件号码,证件类型位证件号码,证件类型 批量修改为批量修改为“残疾人证残疾人证”,健康状况修改为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论