版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
乘风破浪,世界就在眼前第3章使用Pandas进行数据分析乘风破浪,世界就在眼前第3章使用Pandas进行数据分析1目录
Pandas安装3.1
Pandas的对象3.2
Pandas基本操作3.3
Pandas的基本运用3.4
Pandas使用案例3.5目录Pandas安装3.1P23.1Pandas安装TEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhereTEXTaddherePandas是什么?Pandas是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的,它纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas提供了大量能快速便捷处理数据的函数和方法,是使Python成为强大而高效的数据分析的重要因素之一。3.1Pandas安装TEXTaddhereTEX33.1Pandas安装TEXTaddhereTEXTaddhereTEXTaddhere在cmd下使用命令:pipinstallpandas注意:若没有配置环境变量,需要先cd到python的安装目录安装完成后实验Pandas是否安装成功3.1Pandas安装TEXTaddhere在cm4Pandas对象Series对象
DataFrame对象是什么?怎么用?有什么特点?3.2Pandas的对象Pandas对象Series对象DataFrame53.2.1Series对象TEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhereSeries是Pandas中最基本的对象,类似于一维数组的对象,由一组数据和一组与之相关的数据标签(索引)组成。Series对象相比于一维数据结构多了一些额外的功能,它的内部结构很简单,由两个相互关联的数组组成(values和index),其中values数组用来存放数据,主数组的每一个元素都有一个与之相关联的标签,这些标签存储在一个index的数组中。3.2.1Series对象TEXTaddhereT63.2.1Series对象TEXTaddhereTEXTaddhereTEXTaddhere标签index内的内容也可以进行指定可以尝试查看这个对象中的两个数组values和index里面的内容3.2.1Series对象TEXTaddhere标73.2.1Series对象TEXTaddhereTEXTaddhereTEXTaddhereSeries对象的values属性本来就是一个Numpy的一个数组对象,而Series对象中的values数组也是对Numpy中的ndarray对象的引用,如果改变原有对象的值,Series对象的值也会跟着改变。3.2.1Series对象TEXTaddhereS83.2.1Series对象TEXTaddhereTEXTaddhereTEXTaddhere因为Series对象的index对应values,所以可以用字典对象来构造Series对象。字典中的所有的键放在Series对象的index数组中,字典中的所有值放在Series对象的values数组中,仍然保持对应关系。下面的代码给出了一个字典实例,如果index中的值在字典中有对应的键,则生成的Series对象中该值对应的元素为在字典中对应的值,如果找不到,则其值为NaN,即空值。3.2.1Series对象TEXTaddhere因93.2.2DataFrame对象TEXTaddhereTEXTaddhereTEXTaddhereDataFrame对象的数据结构跟excel表相似,其目的是将Series的使用场景由一维扩展到多维,它由按一定顺序排列的多列数据组成,各列的数据类型可以有所不同。DataFrame对象有两个索引数组(index和columns),第一个数组index与行相关,它与Series的索引数组极为相似,每个索引值都跟所在的一行相关联;第二个数组columns包含一系列列标签(每个值相当于列名)。DataFrame可以理解为一个由Series组成的字典,其中每一列的名称作为字典的键,形成DataFrame列的Series作为字典的值,每个Series的所有元素映射到称为index的标签数组中。3.2.2DataFrame对象TEXTaddhe103.2.2DataFrame对象TEXTaddhereTEXTaddhereTEXTaddhere与Series对象一样,可以指定index数组的内容,下面的案例中指定了index数组的内容。3.2.2DataFrame对象TEXTaddhe113.2.2DataFrame对象TEXTaddhereTEXTaddhereTEXTaddhere同样可以使用数组矩阵构造DataFrame对象3.2.2DataFrame对象TEXTaddhe12基本操作导入与导出数据数据的查看与检查数据的增删查改是什么?怎么用?有什么特点?3.3Pandas基本操作基本导入与导出数据数据的查看与检查数据的增删查改是什么?怎么133.3.1导入与导出数据1.数据导入(1)csv文件的导入函数原型:read_csv(filrpath,sep,names,encoding)。参数:①filepath完成导入csv文件的路径,一般使用绝对路径,且用“/”或者“\”表示;②sep表示分隔符,一般csv文件默认是逗号;③names表示导入的列和指定列的顺序,默认按顺序导入所有列;④encoding表示文件编码,大多时候会让参数encoding=‘utf-8’。3.3.1导入与导出数据1.数据导入(1)csv文件的导143.3.1导入与导出数据1.数据导入(2)txt文件的导入函数原型:read_table(filrpath,sep,names,encoding)。参数:①filepath完成导入csv文件的路径,一般使用绝对路径,且用“/”或者“\”表示;②sep表示分隔符,一般csv文件默认是逗号;③names表示导入的列和指定列的顺序,默认按顺序导入所有列;④encoding表示文件编码,大多时候会让参数encoding=‘utf-8’。3.3.1导入与导出数据1.数据导入(2)txt文件的导153.3.1导入与导出数据1.数据导入(3)Excel文件的导入函数原型:read_excel(filrpath,sep,names)。参数:①filepath完成导入csv文件的路径,一般使用绝对路径,且用“/”或者“\”表示;②sep表示分隔符,一般csv文件默认是逗号;③names表示导入的列和指定列的顺序,默认按顺序导入所有列。3.3.1导入与导出数据1.数据导入(3)Excel文件163.3.1导入与导出数据2.数据导出函数原型:to_csv(filrpath,sep,names,encoding)。参数:文件路径filrpath的末尾要写上.csv文件格式;分隔符sep是输出文件的分隔符,默认为逗号,也可以用制表符等;names是否输出索引,默认为输出索引,如果不想要可以改为False;encoding是否输出列名,默认为输出列名;编码默认为utf-8。3.3.1导入与导出数据2.数据导出函数原型:to_cs173.3.2数据的查看与检查1.Series对象数据的查看与检查直接通过主数组的下标来获取,或者通过对象的index标签值来获取。可以一次性获取多个元素,同样也有和刚刚类似的两种方法,对于数组下标,只需要用“:”表示起始到终止的位置即可(这个结果只包含起始值但不包含终止值)。3.3.2数据的查看与检查1.Series对象数据的查看183.3.2数据的查看与检查2.DataFrame对象数据的查看与检查3.3.2数据的查看与检查2.DataFrame对象数据193.3.2数据的查看与检查2.DataFrame对象数据的查看与检查DataFrame对象也可以获得一列数据,获得一列数据有两种方法,一种是用“[]”,另一种使用符号“.”来连接。DataFrame对象也可以获得多行数据。3.3.2数据的查看与检查2.DataFrame对象数据203.3.3数据的增删查改1.数据的增加增加数据可以像字典一样直接添加。也可以使用append()函数进行增加,增加效果类似,但区别在于append()函数添加元素后,原来的值没有改变。3.3.3数据的增删查改1.数据的增加增加数据可以像字典213.3.3数据的增删查改2.数据的删除del方法可用于删除元素Pandas也提供了删除函数pop()3.3.3数据的增删查改2.数据的删除del方法可用于删223.3.3数据的增删查改3.数据的查找与修改由于Pandas库是以Numpy库为基础开发的,所以Numpy数组的许多操作方法对Series对象也有效,例如数据的筛选。对于DataFrame对象的数据修改,也是类似。查找某个元素值,类似于二维数组的查找办法,需要用两个[]分别找它的行标和列标;同时,也可以找到它的位置然后修改它的值。3.3.3数据的增删查改3.数据的查找与修改由于Pand23基本运用数据统计算数运算与数据对齐是什么?怎么用?有什么特点?3.4Pandas的基本运用基本数据统计算数运算与数据对齐是什么?怎么用?有什么特点?3243.4.1数据统计1.sum()函数与cumsum()函数sum()函数用于对象求和。cumsum()函数用于累计求和,不同点在于,sum()只显示了单列或者单行结果,而cumsum()函数显示的累计求和的过程。3.4.1数据统计1.sum()函数与cumsum()函253.4.1数据统计2.idxmax()函数与idxmin()函数这两个函数的功能是返回最大最小值的行名称3.4.1数据统计2.idxmax()函数与idxmin263.4.1数据统计3.unique()函数与value_counts()函数unique()函数的功能是去除重复的元素,使用Series对象的unique()函数,返回一个Numpy数组。value_counts()函数的功能是返回一个Series对象,index为原Series对象中不重复的元素,values为不重复的元素出现的次数。3.4.1数据统计3.unique()函数与value_273.4.1数据统计4.isin()函数isin()函数可用于筛选数据,判定Series中的每个元素中是否包含在给定的isin()的参数中,如果包含,则为True,否则为False。3.4.1数据统计4.isin()函数isin()函数可283.4.2算数运算与数据对齐1.算术运算对于使用Numpy数组中的运算符(如+、-、*、/)或者其他的数学函数,也适用于Pandas。3.4.2算数运算与数据对齐1.算术运算对于使用Nump293.4.2算数运算与数据对齐2.数据对齐Pandas的数据对齐是数据清洗的重要过程,可以按索引对齐进行运算,如果没对齐的位置,则补NaN,即空值,在数据的末尾也可以填充NaN。对象除了和标量之间可以进行运算,对象和对象之间也可以进行运算,这样就可能存在没有数据对齐的情况,如果index的值没有对齐,则没有对齐的元素运算之后的值为NaN。3.4.2算数运算与数据对齐2.数据对齐Pandas的数303.5Pandas使用案例1.学生成绩数组导入3.5Pandas使用案例1.学生成绩数组导入313.5Pandas使用案例2.总分计算3.5Pandas使用案例2.总分计算323.5Pandas使用案例3.数据查看4.求和3.5Pandas使用案例3.数据查看4.求和333.5Pandas使用案例5.行标处理6.导出文件3.5Pandas使用案例5.行标处理6.导出文件34ThankYou!ThankYou!35乘风破浪,世界就在眼前第3章使用Pandas进行数据分析乘风破浪,世界就在眼前第3章使用Pandas进行数据分析36目录
Pandas安装3.1
Pandas的对象3.2
Pandas基本操作3.3
Pandas的基本运用3.4
Pandas使用案例3.5目录Pandas安装3.1P373.1Pandas安装TEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhereTEXTaddherePandas是什么?Pandas是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的,它纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas提供了大量能快速便捷处理数据的函数和方法,是使Python成为强大而高效的数据分析的重要因素之一。3.1Pandas安装TEXTaddhereTEX383.1Pandas安装TEXTaddhereTEXTaddhereTEXTaddhere在cmd下使用命令:pipinstallpandas注意:若没有配置环境变量,需要先cd到python的安装目录安装完成后实验Pandas是否安装成功3.1Pandas安装TEXTaddhere在cm39Pandas对象Series对象
DataFrame对象是什么?怎么用?有什么特点?3.2Pandas的对象Pandas对象Series对象DataFrame403.2.1Series对象TEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhereTEXTaddhereSeries是Pandas中最基本的对象,类似于一维数组的对象,由一组数据和一组与之相关的数据标签(索引)组成。Series对象相比于一维数据结构多了一些额外的功能,它的内部结构很简单,由两个相互关联的数组组成(values和index),其中values数组用来存放数据,主数组的每一个元素都有一个与之相关联的标签,这些标签存储在一个index的数组中。3.2.1Series对象TEXTaddhereT413.2.1Series对象TEXTaddhereTEXTaddhereTEXTaddhere标签index内的内容也可以进行指定可以尝试查看这个对象中的两个数组values和index里面的内容3.2.1Series对象TEXTaddhere标423.2.1Series对象TEXTaddhereTEXTaddhereTEXTaddhereSeries对象的values属性本来就是一个Numpy的一个数组对象,而Series对象中的values数组也是对Numpy中的ndarray对象的引用,如果改变原有对象的值,Series对象的值也会跟着改变。3.2.1Series对象TEXTaddhereS433.2.1Series对象TEXTaddhereTEXTaddhereTEXTaddhere因为Series对象的index对应values,所以可以用字典对象来构造Series对象。字典中的所有的键放在Series对象的index数组中,字典中的所有值放在Series对象的values数组中,仍然保持对应关系。下面的代码给出了一个字典实例,如果index中的值在字典中有对应的键,则生成的Series对象中该值对应的元素为在字典中对应的值,如果找不到,则其值为NaN,即空值。3.2.1Series对象TEXTaddhere因443.2.2DataFrame对象TEXTaddhereTEXTaddhereTEXTaddhereDataFrame对象的数据结构跟excel表相似,其目的是将Series的使用场景由一维扩展到多维,它由按一定顺序排列的多列数据组成,各列的数据类型可以有所不同。DataFrame对象有两个索引数组(index和columns),第一个数组index与行相关,它与Series的索引数组极为相似,每个索引值都跟所在的一行相关联;第二个数组columns包含一系列列标签(每个值相当于列名)。DataFrame可以理解为一个由Series组成的字典,其中每一列的名称作为字典的键,形成DataFrame列的Series作为字典的值,每个Series的所有元素映射到称为index的标签数组中。3.2.2DataFrame对象TEXTaddhe453.2.2DataFrame对象TEXTaddhereTEXTaddhereTEXTaddhere与Series对象一样,可以指定index数组的内容,下面的案例中指定了index数组的内容。3.2.2DataFrame对象TEXTaddhe463.2.2DataFrame对象TEXTaddhereTEXTaddhereTEXTaddhere同样可以使用数组矩阵构造DataFrame对象3.2.2DataFrame对象TEXTaddhe47基本操作导入与导出数据数据的查看与检查数据的增删查改是什么?怎么用?有什么特点?3.3Pandas基本操作基本导入与导出数据数据的查看与检查数据的增删查改是什么?怎么483.3.1导入与导出数据1.数据导入(1)csv文件的导入函数原型:read_csv(filrpath,sep,names,encoding)。参数:①filepath完成导入csv文件的路径,一般使用绝对路径,且用“/”或者“\”表示;②sep表示分隔符,一般csv文件默认是逗号;③names表示导入的列和指定列的顺序,默认按顺序导入所有列;④encoding表示文件编码,大多时候会让参数encoding=‘utf-8’。3.3.1导入与导出数据1.数据导入(1)csv文件的导493.3.1导入与导出数据1.数据导入(2)txt文件的导入函数原型:read_table(filrpath,sep,names,encoding)。参数:①filepath完成导入csv文件的路径,一般使用绝对路径,且用“/”或者“\”表示;②sep表示分隔符,一般csv文件默认是逗号;③names表示导入的列和指定列的顺序,默认按顺序导入所有列;④encoding表示文件编码,大多时候会让参数encoding=‘utf-8’。3.3.1导入与导出数据1.数据导入(2)txt文件的导503.3.1导入与导出数据1.数据导入(3)Excel文件的导入函数原型:read_excel(filrpath,sep,names)。参数:①filepath完成导入csv文件的路径,一般使用绝对路径,且用“/”或者“\”表示;②sep表示分隔符,一般csv文件默认是逗号;③names表示导入的列和指定列的顺序,默认按顺序导入所有列。3.3.1导入与导出数据1.数据导入(3)Excel文件513.3.1导入与导出数据2.数据导出函数原型:to_csv(filrpath,sep,names,encoding)。参数:文件路径filrpath的末尾要写上.csv文件格式;分隔符sep是输出文件的分隔符,默认为逗号,也可以用制表符等;names是否输出索引,默认为输出索引,如果不想要可以改为False;encoding是否输出列名,默认为输出列名;编码默认为utf-8。3.3.1导入与导出数据2.数据导出函数原型:to_cs523.3.2数据的查看与检查1.Series对象数据的查看与检查直接通过主数组的下标来获取,或者通过对象的index标签值来获取。可以一次性获取多个元素,同样也有和刚刚类似的两种方法,对于数组下标,只需要用“:”表示起始到终止的位置即可(这个结果只包含起始值但不包含终止值)。3.3.2数据的查看与检查1.Series对象数据的查看533.3.2数据的查看与检查2.DataFrame对象数据的查看与检查3.3.2数据的查看与检查2.DataFrame对象数据543.3.2数据的查看与检查2.DataFrame对象数据的查看与检查DataFrame对象也可以获得一列数据,获得一列数据有两种方法,一种是用“[]”,另一种使用符号“.”来连接。DataFrame对象也可以获得多行数据。3.3.2数据的查看与检查2.DataFrame对象数据553.3.3数据的增删查改1.数据的增加增加数据可以像字典一样直接添加。也可以使用append()函数进行增加,增加效果类似,但区别在于append()函数添加元素后,原来的值没有改变。3.3.3数据的增删查改1.数据的增加增加数据可以像字典563.3.3数据的增删查改2.数据的删除del方法可用于删除元素Pandas也提供了删除函数pop()3.3.3数据的增删查改2.数据的删除del方法可用于删573.3.3数据的增删查改3.数据的查找与修改由于Pandas库是以Numpy库为基础开发的,所以Numpy数组的许多操作方法对Series对象也有效,例如数据的筛选。对于DataFrame对象的数据修改,也是类似。查找某个元素值,类似于二维数组的查找办法,需要用两个[]分别找它的行标和列标;同时,也可以找到它的位置然后修改它的值。3.3.3数据的增删查改3.数据的查找与修改由于Pand58基本运用数据统计算数运算与数据对齐是什么?怎么用?有什么特点?3.4Pandas的基本运用基本数据统计算数运算与数据对齐是什么?怎么用?有什么特点?3593.4.1数据统计1.sum()函数与cumsum()函数sum(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高考物理总复习专题十一交变电流第1讲交变电流的产生和描述练习含答案
- 清算风险管理协议
- 油漆购销合同范例
- 九年级道德与法治上册 第一单元 富强与创新 第一课 踏上强国之路 第2框走向共同富裕教案1 新人教版
- 二年级品德与生活上册 玩中有发现教案1 首师大版
- 2024-2025学年新教材高中生物 第四章 生物的变异 第一节 基因突变可能引起性状改变教案(2)浙科版必修2
- 2024-2025学年高中历史 第一单元 第1课 第一次世界大战的爆发教案1 新人教版选修3
- 2024-2025学年高中地理 第二章 中国的主要自然灾害 2.1 自然资源利用中存在的问题教案 中图版选修6
- 广东省佛山市顺德区江义初级中学九年级化学上册 3.1 分子和原子教案3 (新版)新人教版
- 2023七年级语文下册 第四单元 写作 怎样选材配套教案 新人教版
- 电子元器件有效贮存期、超期复验及装机前的筛选要求
- 停车收费系统购买合同范本
- 农村环境长效保洁服务投标方案(技术方案)
- 2024-2030年中国小口径人工血管行业市场现状分析及竞争格局与投资发展研究报告
- 【课件】第六单元碳和碳的氧化物+新版教材单元分析-2024-2025学年九年级化学人教版(2024)上册
- 厂区升级改造项目方案
- 北京能源集团有限责任公司招聘笔试题库2024
- 人教版高中物理(必修三)同步讲义+练习第十一章 电路及其应用(含解析)
- 重症医学专业医疗质量控制指标(2024年版)学习解读课件
- 2024年军队文职统一考试《专业科目》管理学试卷(网友回忆版)含解析
- GB/T 44456-2024电子竞技场馆运营服务规范
评论
0/150
提交评论