财务大数据基础(第二版)课件 项目八 数据清洗_第1页
财务大数据基础(第二版)课件 项目八 数据清洗_第2页
财务大数据基础(第二版)课件 项目八 数据清洗_第3页
财务大数据基础(第二版)课件 项目八 数据清洗_第4页
财务大数据基础(第二版)课件 项目八 数据清洗_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目八数据清洗目标了解什么是数据清洗掌握数据清洗的常见操作任务一清洗东城区电信客户缺失值数据相关知识空值和缺失值的检测判断删除空值:dropna()函数填充空值:fillna()函数空值的检测判断isna()/isnull()和notna()/notnull()函数:函数返回的结果是True/False矩阵有如下数据说明:Python中None或NaN是空值,而空字符串、空列表等不属于空值。notnull()和isnull()的检测结果正好相反空值的检测判断使用df.isnull().any()方法判断数据集中的哪些“列”存在缺失值删除空值使用dropna()函数删除含有空值的行或列说明:默认情况下,删除有缺失值的行,但此删除并不会影响原来的数据集,只是修改了原数据的副本,返回新的数据。填充空值使用fillna()函数填充空值填充策略,如常数填充、向前、向后填充等fillna()函数也可以通过inplace参数来确定是否对原始数据集进行填充更改填充空值有如下数据集填充空值使用位于缺失值前面的数据进行填充说明:三部和五部的空值都用其上一行的数据进行了填充。填充空值使用位于缺失值后面的数据进行填充说明:三部的空值用其下一行数据进行了填充,五部没有下一行,未得到填充。。填充空值使用指定的值填充说明:三部和五部的空值都用给定的数据进行了填充

(注意,五部仅填充了负责人姓名。填充空值使用平均值填充新建具有“年薪”列的数据集填充空值使用平均值填充说明:三部的年薪值用年薪列的均值((20+29+26+23)/4=24.5)进行了填充。只对年薪一列求均值知识扩展文件类型:文本文件、Excel文件、网页文件、数据库文件等。Pandas提供的read_csv()函数,可将.csv文件中的数据读取出来,并转换为DataFrame对象。.csv文件是文本文件。扩展名为.txt的文本文件也是比较常见的数据存储方式。读取.txt文件中的数据,既可以用read_csv()函数,也可以用read_table()函数。read_csv()与read_table()的区别在于文件中的数据使用的分隔符不同,前者使用逗号作为分隔符,后者使用制表符作分隔符。任务二清洗东城区电信客户重复值数据相关知识检测重复值:duplicated()函数删除重复值:drop_duplicates()函数检测重复值创建有重复值的数据集检测重复值使用duplicated()函数检测数据集中是否有重复值说明:True表示该行与前面的某行重复,False表示该行在数据集中不与其他行重复。检测重复值使用duplicated().value_counts()命令统计重复行信息说明:系统先执行df.duplicated(),然后在df.duplicated()返回的布尔型Series数据基础上进行真假

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论