Python与机器学习(第2版)(微课版) 课件 01-04-缺失值处理任务实施_第1页
Python与机器学习(第2版)(微课版) 课件 01-04-缺失值处理任务实施_第2页
Python与机器学习(第2版)(微课版) 课件 01-04-缺失值处理任务实施_第3页
Python与机器学习(第2版)(微课版) 课件 01-04-缺失值处理任务实施_第4页
Python与机器学习(第2版)(微课版) 课件 01-04-缺失值处理任务实施_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主讲人:陈清华缺失值处理任务实施【数据挖掘应用】课程用餐数据异常分析会依据数据对缺失值进行检测会使用Pandas包处理缺失值掌握缺失值处理函数的使用方法知识与能力目标主要内容任务工单任务说明引导问题任务评价任务解决方案用餐数据缺失值检测与处理任务工单用餐数据集缺失值会对数据的准确性和完整性造成影响,并且在进行数据分析和建模时会导致模型精度降低或计算错误。因此,处理缺失值对保证数据的质量和可靠性非常重要。任务概述

任务描述:

基于给定的用餐数据集,检测各列是否存在缺失值,并尝试使用不同的方法对缺失值做处理。……010010011001101010100100110110100101110101000100001011011101001010101101010011010010检测缺失值缺失值处理结果

任务要求:任务概述(1)数据中存在缺失值会造成什么样的影响?(2)Pandas工具包中,哪些函数可以用来检测缺失值?(3)处理缺失值的方法有哪些?如何选择合适的处理方法?(4)Pandas工具包中,哪些函数可以用来处理缺失值?”

问题引导:任务概述

任务评价:任务概述评价内容评价要点分值分数评定自我评价1.任务实施缺失值检测2分能正确检测出数据中是否含有缺失值得2分

缺失值输出2分能正确显示含有缺失值的记录得2分

缺失值处理5分会使用不同方式处理缺失值,会使用1种得1分,至多5分

2.任务总结依据任务实施情况总结结论1分总结内容切中本任务的重点要点得1分

合计10分

任务解决方案

(1)检测是否存在缺失值df.isna().any()如果运行结果的某一列显示为True,表示该列数据中存在缺失值。以下数据中tip列中就存在缺失值显示结果任务解决方案df[df['tip'].isna()==True]

(2)输出

tip列为空的具体记录。显示结果任务解决方案df.count()re1

=

df.dropna()

(3)处理缺失值:删除df.count()第1行:显示去除缺失值前的记录数第3行:显示去除后的记录数,结果显示记录数为242条第2行:在数据集中去除含有缺失值的记录数方法一任务解决方案re2=df.fillna(0)re2.iloc[2]

(3)处理缺失值:填0第1行:将缺失值置为0,保存为re2第2行:显示该条记录数方法二任务解决方案re3_1=df.fillna(method='bfill’)re3_2=df.fillna(method='ffill')

(3)处理缺失值:邻近值填充第1行:用下一个非缺失值填充该缺失值第2行:用前一个非缺失值填充该缺失值方法三任务解决方案re4=df.fillna(df['tip2'].mean())

(3)处理缺失值:均值填充第1行:用均值填充方法四显示结果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论