大数据基础 课件5-4 Pandas数据预处理1_第1页
大数据基础 课件5-4 Pandas数据预处理1_第2页
大数据基础 课件5-4 Pandas数据预处理1_第3页
大数据基础 课件5-4 Pandas数据预处理1_第4页
大数据基础 课件5-4 Pandas数据预处理1_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江经贸职业技术学院《大数据基础》.移动商务营销课程群5.2.1数据预处理原理5.2数据预处理5.2.2Pandas数据预处理与预处理数据采集大数据基础Unit5

Pandas简介Pandas是Python的一个数据分析包,Pandas中引入了两种新的数据结构:一维数组类型Series、二维表格类型DataFrame。Anaconda已经为我们安装好了Pandas,使用的时候只需要直接import就可以了。导入命令:importpandasaspd#导入pandas,并取个别名pd5.2.2Pandas数据预处理

练习用数据文件商品编号名称产地进价售价30101苹果新疆5630101苹果新疆5625211书包6010030102水晶梨浙江45.5商品编号名称产地进价售价30132凤梨广东7913704滑板车上海150200商品编号库存301011002521130301028030132401370415商品信息1.xlsx商品信息2.xlsx商品信息3.xlsx5.2.2Pandas数据预处理

读取数据文件Pandas提供了读取Excel文件的方法read_excel,参数中传递文件路径即可读取文件内容,并返回DataFrame类型的二维数据。

在数据文件存放路径新建程序文件data_preprocessing.py,在程序文件中添加以下代码读取数据。importpandasaspditem1=pd.read_excel('商品信息1.xlsx')item2=pd.read_excel('商品信息2.xlsx')item3=pd.read_excel('商品信息3.xlsx')print(item1)5.2.2Pandas数据预处理

重复值处理item1的前两行内容重复,可以使用Pandas的drop_duplicates方法去除重复项。item_drop_dup=item1.drop_duplicates()print(item_drop_dup)5.2.2Pandas数据预处理

删除缺失值item_drop_dup的第2行的产地列部分内容缺失,Pandas提供了直接删除缺失行/列的方法,使用dropna方法去除缺失项。item_dropna=item_drop_dup.dropna(axis=1)#axis=1表示删除列,0表示删除行print(item_dropna)5.2.2Pandas数据预处理

填充缺失值item_drop_dup的第2行的产地列部分内容缺失,除了dropna方法,还可以使用fillna方法填充缺失值,如下例直接填充固定值。item_fillna=item_drop_dup.fillna('未知')print(item_fillna)5.2.2Pandas数据预处理

字段抽取

商品编号中包含了商品品类信息,如30101的前3个字段表示品类。下面从item_drop_dup的商品编号截取字段,添加品类项。item_no=item_drop_dup['商品编号'].astype(str)#astype转换数据类型为stritem_drop_dup['品类']=item_no.str.slice(0,3)#截取前三个字段5.2.2Pandas数据预处理

记录抽取item_fillna数据中有多种商品信息,可以通过条件筛选取得进价在5元以上的商品信息。item_filter=item_fillna[item_fillna

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论