中职教育二年级上学期电子与信息《大数据导论1数据清洗》教学课件_第1页
中职教育二年级上学期电子与信息《大数据导论1数据清洗》教学课件_第2页
中职教育二年级上学期电子与信息《大数据导论1数据清洗》教学课件_第3页
中职教育二年级上学期电子与信息《大数据导论1数据清洗》教学课件_第4页
中职教育二年级上学期电子与信息《大数据导论1数据清洗》教学课件_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据清洗《大数据导论》——数据采集与预处理纸质教材参考及视频适用林子雨.大数据导论.北京:人民邮电出版社,2020第5章数据采集与预处理

中职用数据清洗——1.数据清洗的内容缺失值处理姓名年龄体重(KG)身高(cm)性别胖瘦张小洁1845159女瘦李晶17-58161女正常王乐毅1756168男正常王乐毅1756168男正常林间1869男正常何铁强19岁71183男正常异常值处理数据类型转换(年龄、体重为文本或字符串)重复值处理数据清洗——1.数据清洗的内容——缺失值处理(1)缺失值处理:由于调查、编码和录入误差,数据中可能存在一些缺失值,需要给予适当的处理。姓名年龄体重(KG)身高(cm)性别胖瘦张小洁1845159女瘦李晶17-58161女正常王乐毅1756168男正常王乐毅1756168男正常林间1869男正常何铁强19岁71183男正常数据清洗——1.数据清洗的内容——缺失值处理(1)缺失值处理:由于调查、编码和录入误差,数据中可能存在一些缺失值,需要给予适当的处理。常用的处理方法有:估算、整例删除、变量删除和成对删除。姓名年龄体重(KG)身高(cm)性别胖瘦张小洁1845159女瘦李晶17-58161女正常王乐毅1756168男正常王乐毅1756168男正常林间1869男正常何铁强19岁71183男正常数据清洗——1.数据清洗的内容——缺失值处理(1)缺失值处理——估算:最简单的办法就是用某个变量的样本均值、中位数或众数、前后值、零值、……代替缺失值。这种办法简单,但没有充分考虑数据中已有的信息,误差可能较大。另一种办法就是根据调查对象对其他问题的答案,通过变量之间的相关分析或逻辑推论进行估计。例如,身高可能与胖瘦、体重及性别都有关,可以根据另几个量不太准确的推算身高。姓名年龄体重(KG)身高(cm)性别胖瘦张小洁1845159女瘦李晶17-58161女正常王乐毅1756168男正常王乐毅1756168男正常林间1869男正常何铁强19岁71183男正常数据清洗——1.数据清洗的内容——缺失值处理(1)缺失值处理——估算:身高样本均值=身高的总和/身高总和计算时参与的数字个数=839/

。中位数求法之一:先把非缺失数据排序,把数据按照“首尾成对”依次去掉,剩下的最后一个数据(两个数据的平均值)即为这组数据的中位数。身高中位数是

。众数及其他方法的估算填充,有兴趣可自行研究。姓名年龄体重(KG)身高(cm)性别胖瘦张小洁1845159女瘦李晶17-58161女正常王乐毅1756168男正常王乐毅1756168男正常林间1869男正常何铁强19岁71183男正常数据清洗——1.数据清洗的内容——缺失值处理(1)缺失值处理——整例删除:剔除含缺失值的样本,删除整行。由于实践中可能存在较多缺失值,这种做法的结果可能导致有效样本量大大减少,无法充分利用已经收集到的数据。因此只适合关键参考信息缺失难以补全,或者含有异常值或缺失值的样本比重很小的情况。上表缺失值整例删除,删除(

)[单选题]a.林间所在行b.身高所在列c.胖瘦列d.王乐毅所在行姓名年龄体重(KG)身高(cm)性别胖瘦张小洁1845159女瘦李晶17-58161女正常王乐毅1756168男正常王乐毅1756168男正常林间1869男正常何铁强19岁71183男正常数据清洗——1.数据清洗的内容——缺失值处理(1)缺失值处理——变量删除:如果某一变量的缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除,表中是删除身高列。这种做法减少了供分析用的变量数目,但没有改变样本量。上表缺失值变量删除,删除()[单选题]a.林间所在行b.身高所在列c.胖瘦列d.王乐毅所在行姓名年龄体重(KG)身高(cm)性别胖瘦张小洁1845159女瘦李晶17-58161女正常王乐毅1756168男正常王乐毅1756168男正常林间1869男正常何铁强19岁71183男正常数据清洗——1.数据清洗的内容——缺失值处理(1)缺失值处理——成对删除:用特殊码(通常是9、99、999等)代表缺失值,保留了数据集中的全部变量和样本,这里用9或999填入较合理,能明显与正常身高区分开来。但是,在具体计算时只采用有完整答案的样本,因而不同的分析因涉及的变量不同,其有效样本量也会有所不同。这是一种保守的处理方法,最大限度地保留了数据集中的可用信息。你选择用什么码代表林间的身高()[多选题]a.9b.99c.999d.9999e.1000姓名年龄体重(KG)身高(cm)性别胖瘦张小洁1845159女瘦李晶17-58161女正常王乐毅1756168男正常王乐毅1756168男正常林间1869男正常何铁强19岁71183男正常数据清洗——1.数据清洗的内容——异常值处理(2)异常值处理:根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。例如,体重出现了负数或年龄类型为数值但包含非数值内容及出现负数及几百上千上万岁数值,都应视为超出正常范围。SPSS、SAS、和Excel等软件都能够根据定义的取值范围,自动识别每个超出范围的变量值。姓名年龄体重(KG)身高(cm)性别胖瘦张小洁1845159女瘦李晶17-58161女正常王乐毅1756168男正常王乐毅1756168男正常林间1869男正常何铁强19岁71183男正常数据清洗——1.数据清洗的内容——数据类型转换(3)数据类型转换,年龄、体重为文本或字符串:数据类型往往会影响到后续的数据处理分析环节,因此,需要明确每个字段的数据类型,比如,年龄体重是字符串或文本,但后面需要进行数值的比较、回归等操作,又如,来自A表的“出生日期”是字符型,而来自B表的“出生日期”是日期型,在数据清洗的时候就需要对数据类型进行统一处理。姓名年龄体重(KG)身高(cm)性别胖瘦张小洁1845159女瘦李晶17-58161女正常王乐毅1756168男正常王乐毅1756168男正常林间1869男正常何铁强19岁71183男正常数据清洗——1.数据清洗的内容——重复值处理(4)重复值处理:多数整行或整列重复值的存在会影响数据分析和挖掘结果的准确性,可以在数据分析和建模之前进行数据重复性检验,如存在重复值,可以删除多余,仅留一行或一列。有时,重复值也是有用信息,例如在数据用于频繁性统计、序列回归分析等情况下,重复值需要保留。上表的重复值是多余无用的,可以删除()[单选题]a.王乐毅两行中选一行b.王乐毅两行都删c.删除姓名列d.删除胖瘦列姓名年龄体重(KG)身高(cm)性别胖瘦张小洁1845159女瘦李晶17-58161女正常王乐毅1756168男正常王乐毅1756168男正常林间1869男正常何铁强19岁71183男正常数据清洗——2.数据清洗的注意事项(1)数据清洗时优先缺失值、异常值和数据类型转换,最后重复值处理。(2)缺失值、异常值进行处理时,要根据业务需求处理,并非一成不变。(3)数据清洗前及全阶段,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论