版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Python基础知识西南财经大学
管理科学与工程学院王俊目录一、读取数据,预处理数据集二、识别并处理缺失值三、识别并处理异常值四、识别并处理重复值
一、读取数据,预处理数据集
脏数据由于记录或者储存的原因,导致部分数据缺失、重复、异常、错误,没有分析意义,就叫做“脏数据”。数据清洗把“脏数据”识别出来,并进行删除、填补、修正等一系列处理的过程,就叫做“数据清洗”。
一、读取数据,预处理数据集
缺失值由于记录或读取的原因,在应该有数据的地方,出现了空白,这就是缺失值。缺失值在一个DataFrame中,会被标记为NaN或者null。异常值指的是不合理的数据。需要根据具体的案例,进行判断。例如:在应该全是正数的数据中,出现了负数;在应该全是非零值的数据中,出现了0;出现了不可能出现的数值等等。重复值指的是在不该重复的地方,出现了异常的重复。比如,在某销售数据集中,订单号order_id应该是唯一的。而当出现了重复的订单号,这就是异常的重复。
二、识别并处理缺失值
1.识别缺失值在pandas中,检查缺失值,我们可以使用info()函数,判断哪一列存在缺失值。
然后,再使用isnull()函数,判断缺失值是在这一列的哪一行,从而实现定位。(1)info()函数输出后快速浏览数据集。info()函数会直接将结果输出出来,因此我们不需要用print。
import
pandas
as
pddf
=
pd.read_csv(路径)df['pay_time']
=
pd.to_datetime(df['pay_time'])#数据预处理()#
输出(),快速浏览数据集二、识别并处理缺失值(1)info()函数我们可以看到,这组数据其他列一共有78049行的非空数据。
但platform这一列仅有77645行非空数据。说明在这一列,有384个缺失值。
payment_provider这一列仅有78029行非空数据。说明在这一列,有20个缺失值。二、识别并处理缺失值(2)isnull()函数info()函数,可以帮助我们定位哪些列存在空值。isnull()函数可以在一列中,找到哪一行是空值。isnull()函数会对每一个数据是否为缺失值进行判断。缺失值返回为True,不是缺失值返回为False。从而生成一列布尔类型的Series。值是True的地方,就是缺失值所在的地方。print(df['platform'].isnull())二、识别并处理缺失值2.处理缺失值缺失值的处理,有3种方式:
删除所在行;补全缺失值;重选数据集。(1)删除所在行如果缺失值的数量非常少,我们可以选择将缺失值所在的这一行删除。例如7.8万行数据中,仅仅有400多个缺失值时,删除对于分析不构成决定性影响。在删除有缺失值的那一行数据时,会用到drop()函数。drop(index=,axis=,inplace=)index表示删除条件;axis=1删除某列,axis=0删除某行;inplace默认情况下为False,表示原数据不变,True表示在原来的数据上改变。二、识别并处理缺失值例:数据清洗(删除某行)#先将缺失值识别出来,并建立一个新的数据集(该数据集使用isnull函数识别空值后,将空值自动返回True)dfPayNull=df[df[‘payment_provider’].isnull()]
#再删除df.drop(index=dfPayNull.index,inplace=True)或者:df.drop(dfPayNull.index,inplace=True)二、识别并处理缺失值例:数据清洗(删除某行)import
pandas
as
pd
data=pd.read_excel('E:\python
code\machine
learning\cluster\kmeans\data\G.xlsx')print(data)#1data_NUll=data[data['2019年'].isnull()]print(data_NUll)#2data.drop(index=data_NUll.index,inplace=True)print(data)#3#1二、识别并处理缺失值例:数据清洗(删除某行)import
pandas
as
pd
data=pd.read_excel('E:\python
code\machine
learning\cluster\kmeans\data\G.xlsx')print(data)#1:打印原始数据data_NUll=data[data['2019年'].isnull()]print(data_NUll)#2:删选缺失值值所在行data.drop(index=data_NUll.index,inplace=True)print(data)#3:删除缺失值所在行#1#2#3二、识别并处理缺失值例:import
pandas
as
pddata={'A':[1,2,3,4],"B":[3,5,7,8],"C":[5,6,8,9],"D":[2,4,7,9]}df=pd.DataFrame(data)print(df)#1
df.drop(“A”,axis=1,inplace=True)#删除列(列固定之后,删除每一行)print(df)#2df.drop(1,axis=0,inplace=True)#删除行(行固定之后,删除每一列)print(df)#3123二、识别并处理缺失值(2)补全缺失值如果缺失值的数量较多,并且缺失值所在的这一列(这一个属性),并不是我们分析的重点时,可以对缺失值进行补全。因为数量较大,直接删除会缺失很多数据,让数据变得不完整,也就会丧失其中的一些规律。在pandas中,补全数据我们会使用到fillna()函数。df[‘columns’].fillna(“XXX",inplace=)
columns:需要补全的列XXX:补的内容inplace默认情况下为False,表示原数据不变,True表示在原来的数据上改变。例:数据清洗(补全缺失值)df[‘payment_provider’].fillna(“wxpay”,inplace=True)#将ayment_provider列中缺失的数据,补全为“wxpay”
二、识别并处理缺失值(3)重选数据集如果缺失值的数量较多,并且这一列,这个属性是分析的重点时。那么我们就需要直接放弃这个数据集,重新采集数据。因为缺失值较多,会丢失数据的原貌。删除后剩下的数据就丧失了统计的意义。也无法补全,因此需要重新采集数据。三、识别并处理异常值异常值面对异常值,我们通常需要挨个进行检查,并处理,以确保数据清洗的有效性。1.识别异常值(1)函数isin(),对列对象执行判断:列对象的元素,是否在传入isin()中的元素中。如果是,则返回True;如果不是,就返回False。使用一个~运算符,作用是取反。print(df['columns'].isin([XX,XX]))columns:需要判断的列对象XX:需要判断的元素例:print(~df[‘price’].isin([25.00,68.00,248.00]))#打印判断price列中是否存在25.00,68.00,248.00这样的元素,如果不存在,返回True(使用了~取反),并且打印出来
三、识别并处理异常值(2)使用布尔索引进行判断2.处理异常值drop()函数等
四、识别并处理重复值
重复值:指的是异常的重复情况duplicated()函数,判断重复的机制:是会把出现相同值的第二个及以后的数据,判断为True。这样,保证每个数据都保留一个唯一值。例:print(df['order_id'].duplicated())
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东财贸职业学院《工程荷载与可靠度设计》2023-2024学年第一学期期末试卷
- 《客户细分》课件
- 广东碧桂园职业学院《餐饮经营与管理》2023-2024学年第一学期期末试卷
- 《民法学课件》课件
- 赣南医学院《税收筹划》2023-2024学年第一学期期末试卷
- 赣南卫生健康职业学院《混凝土与砌体结构设计B》2023-2024学年第一学期期末试卷
- 赣南科技学院《社会工作专业论文写作》2023-2024学年第一学期期末试卷
- 司机培训课件内容
- 《生儿肺透明膜病》课件
- 七年级语文上册第五单元动物世界18狼高效教案新人教版
- 2023-2024学年山东省潍坊市高新区六年级(上)期末数学试卷(含答案)
- 弹性模量自动生成记录
- 老年痴呆患者安全护理
- 2024年教师师德师风工作计划(2篇)
- 物流行业服务质量保障制度
- 养老院物资采购流程及制度
- 眼镜店年终总结及计划
- 汽车行走的艺术学习通超星期末考试答案章节答案2024年
- 一年级新生家长会课件(共25张课件)
- 广东省东华高级中学2025届高一上数学期末考试试题含解析
- 2025届山东省菏泽市部分重点学校高一上数学期末统考模拟试题含解析
评论
0/150
提交评论