




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Python数据分析
项目三Python数据分析库训练
知识引入pandas是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的。pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
知识框架
目录任务一pandas数据结构任务二pandas索引操作任务三pandas数据运算任务四层次化索引任务五pandas可视化任务六读书榜单分析pandas有两个基本的数据结构:Series和DataFrame。本任务主要讲解这两个数据结构的创建和基本使用。任务介绍任务一pandas数据结构Series数据结构类似于一维数组,但它是由一组数据(各种NumPy数据类型)和一组对应的索引组成的。创建Series数据任务一pandas数据结构Series数据:索引在左边,值在右边。如果没有指定一组数据作为索引的话,Series数据会以0到N-1(N为数据的长度)作为索引,也可以通过指定索引的方式来创建Series数据。创建Series数据任务一pandas数据结构Series有values和index属性,可返回值数据的数组形式和索引对象。创建Series数据任务一pandas数据结构DataFrame数据是Python数据分析最常用的数据,类似于Excel表格型数据。创建DataFrame数据的办法有很多,最常用的是传入由数组、列表或元组组成的字典。创建DataFrame数据任务一pandas数据结构行索引列索引可以通过columns指定列索引的排列顺序。当没有指定行索引的情况下,会使用0到N-1(N为数据的长度)作为行索引,这里也可以使用其他数据作为行索引。创建DataFrame数据任务一pandas数据结构下表中提供了部分常用的为创建DataFrame数据可传入的数据类型。创建DataFrame数据任务一pandas数据结构类型使用说明二维ndarray数据矩阵,可传入行列索引由数组、列表或元组组成的字典参考书中示例由Series组成的字典每个Series为一列,Series索引合并为行索引嵌套字典参考书中示例字典或Series的列表各项成为DataFrame一行,字典键或Series索引称为DataFrame列索引由列表或元组组成的列表类似于“二维数组”通过values属性可以将DataFrame数据转换为二维数组。创建DataFrame数据任务一pandas数据结构Series的索引和DataFrame的行和列索引都是索引对象,用于负责管理轴标签和元数据。索引对象任务一pandas数据结构索引对象是不可以进行修改的,如果修改就会报错。索引对象类似于数组数据,其功能也类似于一个固定大小的集合。索引对象任务一pandas数据结构1、创建Series,要求包含4个元素2、根据给定字典,创建DataFrame任务:完成Series和DataFrame数据的创建任务一pandas数据结构
目录任务一pandas数据结构任务二pandas索引操作任务三pandas数据运算任务四层次化索引任务五pandas可视化任务六读书榜单分析本任务将针对Series和DataFrame数据,讲解Series和DataFrame重新索引和更换索引的操作方法、Series和DataFrame数据结构的索引和选取,以及针对DataFrame数据结构进行数据的编辑操作(包括增、删、改)。任务介绍任务二pandas索引操作这里所说的重新索引并不是给索引重新命名,而是对索引重新排序,如果某个索引值不存在的话,就会引入缺失值(NaN)。重新索引1重新索引和更换索引如果需要对插入的缺失值进行填充的话,可通过method参数来实现,参数值为ffill或pad时为向前填充,参数值为bfill或backfill时为向后填充。重新索引1重新索引和更换索引对于DataFrame数据来说,行和列索引都是可以重新索引的。重新索引1重新索引和更换索引下表为reindex函数的各参数使用说明。重新索引类型使用说明index用于索引的新序列method填充缺失值方法fill_value缺失值替代值limit最大填充量1重新索引和更换索引在DataFrame数据中,如果不希望使用默认行索引的话,可在创建的时候通过index参数来设置行索引。有时我们希望将列数据作为行索引,这时可以通过set_index方法来实现。更换索引1重新索引和更换索引与set_index方法相反的方法是reset_index(恢复索引)方法。更换索引1重新索引和更换索引对DataFrame数据,排序之后其行索引会改变。更换索引1重新索引和更换索引恢复索引的用法如下,原索引可通过drop参数进行删除。更换索引1重新索引和更换索引1、创建Series,并重建该Series的索引2、创建DataFrame数据,并更换该DataFrame索引3、对DataFrame进行恢复索引操作任务:完成Series和DataFrame的重新索引和更换索引1重新索引和更换索引在pandas数据中,需要通过索引来完成数据的选取工作。Series数据的选取较为简单,使用方法类似于Python的列表,这里不仅可以通过0到N-1(N是数据长度)来进行索引,同时也可以通过设置好的索引标签来进行索引。索引和选取2索引和选取索引和选取2索引和选取切片运算与Python列表略有不同,如果是利用索引标签切片,其尾端是被包含的。DataFrame-选取列2索引和选取DataFrame数据的选取更复杂些,因为它是二维数组,选取列和行都有具体的使用方法。通过列索引标签或以属性的方式可以单独获取DataFrame的列数据,返回的数据为Series结构。通过两个中括号,可以获取多个列的数据。DataFrame-选取行2索引和选取通过行索引标签或行索引位置(0到N-1)的切片形式可选取DataFrame的行数据。DataFrame-选取行2索引和选取切片方法选取行有很大的局限性。如果想获取单独的几行,通过loc和iloc方法可以实现。loc方法是按行索引标签选取数据,iloc方法是按行索引位置选取数据。DataFrame-选取行和列2索引和选取在数据分析中,有时可能只是对部分行和列进行操作,这时就需要选取DataFrame数据中行和列的子集,使用loc和iloc方法可以同时选取行和列。DataFrame-布尔选择2索引和选取以上面出现的df2为例,筛选出性别为female的数据,这时就需要通过布尔选择来完成。DataFrame-布尔选择2索引和选取与数组布尔型索引类似,既然可以使用布尔选择,那么同样也适用于不等于符号(!=)、负号(-)、和(&)、或(|)。1、根据给定数据创建DafaFrame2、选取DataFrame中的第2行和第3行数据任务:完成Series和DataFrame的索引和选取2索引和选取增加3DataFrame数据的编辑以df数据为例,该班级转来了一个新生,需要在原有数据的基础上增加一行数据。可以通过append函数传入字典结构数据即可。增加3DataFrame数据的编辑这些学生都是2018级的,这里我们新建一列用于存放该信息。为一个不存在的列赋值,即可创建一个新列。增加3DataFrame数据的编辑如果要新增的列中的数值不一样时,可以传入列表或数组结构数据进行赋值。删除3DataFrame数据的编辑如果王五同学转学了,class字段没有用了,就需要删除其信息。通过drop方法可以删除指定轴上的信息。修改3DataFrame数据的编辑这里的“改”指的是行和列索引标签的修改,通过rename函数,可完成由于某些原因导致的标签录入错误的问题。1、根据给定数据创建DafaFrame,并增加一行数据2、在DataFrame中增加一列数据3、从DataFrame中删除一行数据任务:完成DataFrame数据的编辑3DataFrame数据的编辑
目录任务一pandas数据结构任务二pandas索引操作任务三pandas数据运算任务四层次化索引任务五pandas可视化任务六读书榜单分析本任务将针对Series和DataFrame数据,详细讲解二者的算术运算和函数的应用,这在数据分析中会经常使用。任务介绍任务三pandas数据运算pandas的数据对象在进行算术运算时,如果有相同索引对则进行算术运算,如果没有则会引入缺失值,这就是数据对齐。算数运算任务三pandas数据运算算数运算任务三pandas数据运算对于DataFrame数据而言,对齐操作会同时发生在行和列上。算数运算任务三pandas数据运算DataFrame和Series数据在进行运算时,先通过Series的索引匹配到相应的DataFrame列索引上,然后沿行向下运算(广播)。函数应用和映射任务三pandas数据运算在数据分析时,常常会对数据进行较复杂的数据运算,这时需要定义函数。定义好的函数可以应用到pandas数据中,其中有三种方法:map函数,将函数套用在Series的每个元素中;apply函数,将函数套用到DataFrame的行与列上;applymap函数,将函数套用到DataFrame的每个元素上。函数应用和映射任务三pandas数据运算下面的案例,需要把price列的“元”字去掉,这时就需要用到map函数。函数应用和映射任务三pandas数据运算apply函数的使用方法如下。函数应用和映射任务三pandas数据运算applymap函数可作用于每个元素,便于对整个DataFrame数据进行批量处理。排序任务三pandas数据运算在Series中,通过sort_index函数可对索引进行排序,默认情况为升序。排序任务三pandas数据运算通过sort_values方法可对值进行排序。排序任务三pandas数据运算对于DataFrame数据而言,通过指定轴方向,使用sort_index函数可对行或者列索引进行排序。要根据列进行排序,可以通过sort_values函数,把列名传给by参数即可。汇总与统计任务三pandas数据运算在DataFrame数据中,通过sum函数可以对每列进行求和汇总,与Excel中的sum函数类似。指定轴方向,通过sum函数可按行汇总。汇总与统计任务三pandas数据运算describe方法可对每个数值型列进行统计,经常用于对数据的初步观察时使用。唯一值和值计数任务三pandas数据运算在Series中,通过unique函数可以获取不重复的数组。通过values_counts方法可统计每个值出现的次数。1、完成Series的数据运算2、完成DataFrame的数据运算任务:完成Series和DataFrame数据运算任务三pandas数据运算
目录任务一pandas数据结构任务二pandas索引操作任务三pandas数据运算任务四层次化索引任务五pandas可视化任务六读书榜单分析层次化索引是pandas重要的功能之一,本任务将简单讲解层次化索引的创建过程和使用方法。任务介绍任务四
层次化索引简单地说,层次化索引就是轴上有多个级别索引。下面例子为创建一个层次化索引的Series对象。层次化索引任务四
层次化索引层次化索引的对象,索引和选取操作都很简单。层次化索引任务四
层次化索引对于DataFrame数据而言,行和列索引都可以为层次化索引。层次化索引任务四
层次化索引通过swaplevel方法可以对层次化索引进行重排。层次化索引任务四
层次化索引在对层次化索引的pandas数据进行汇总统计时,可以通过level参数指定在某层次上进行汇总统计。层次化索引任务四
层次化索引1、完成Series层次化索引的创建2、完成DataFrame层次化索引的创建任务:完成层次化索引任务四
层次化索引
目录任务一pandas数据结构任务二pandas索引操作任务三pandas数据运算任务四层次化索引任务五pandas可视化任务六读书榜单分析pandas库中集成了matplotlib中的基础组件,让绘图更加简单。本节将讲解如何利用pandas绘制基本图形。任务介绍任务五pandas可视化pandas库中的数据结构任务五pandas可视化SeriesDataFramepandas库Matplotlib库任务五pandas可视化Matplotlib众多Python可视化包的鼻祖能够实现多种内容丰富的可视化图形复杂可以实现更加复杂、对图表细节要求高pandas可视化任务五pandas可视化pandas的使用变得更加普及它的身影经常见于市场分析、爬虫、金融分析以及科学计算中pandas中的可视化功能比Matplotlib更加简便和功能强大线形图任务五pandas可视化线形图柱状图直方图散点图线形图通常用于描绘两组数据之间的趋势销售行业中月份与销售量之间的趋势情况金融行业中股票收盘价与时间序列之间的走势plot方法:默认可以绘制Series和DataFrame数据结构的线形图pandas库中的Series和DataFrame中都会有绘制各类图表的plot方法,默认情况绘制的是线形图。线形图任务五pandas可视化通过DataFrame数据的plot方法可以为各列绘制一条线,并会给其创建好图例。线形图任务五pandas可视化柱状图任务五pandas可视化柱状图直方图散点图线形图柱状图常用于描述各类别之间的关系班级中男生和女生的分布情况超市中各商品的购买数量分布情况plot方法:需要在这个函数中传入kind=‘bar’参数绘制垂直柱状图;kind='barh'绘制水平柱状图首先,创建一个DataFrame数据的学生信息表格,如果需要分析班级的男女比例是否平衡,这时就可以使用柱状图,通过values_counts计数,获取男女计数的Series数据,进而绘制柱状图。柱状图任务五pandas可视化对于DataFrame数据而言,每一行的值会成为一组。柱状图任务五pandas可视化设置plot函数的stacked参数,可以绘制堆积柱状图。柱状图任务五pandas可视化直方图任务五pandas可视化柱状图直方图散点图线形图直方图(Histogram)是一种在连续间隔、或者是特定时间段内数据分布情况的图表直方图中柱高代表的是每个间隔出现的频次hist方法直方图用于频率分布,y轴可为数值或者比率。直方图在统计分析中是经常使用的,绘制数据的直方图,可以看出其大概分布规律。例如,某班级的身高情况一般是服从正态分布,即高个子和矮个子的人较少,大部分都是在平均身高左右。可以通过hist方法绘制直方图。直方图任务五pandas可视化核密度估计(KernelDensityEstimate,KDE)是对真实密度的估计,其过程是将数据的分布近似为一组核(如正态分布)。通过plot函数的kind=‘kde’可进行绘制。密度图任务五pandas可视化散点图任务五pandas可视化柱状图直方图散点图线形图散点图由一些散乱的点组成的图表,这些点在哪个位置,是由其X值和Y值确定的主要用来表现数据之间的规律,比如身高和体重之间的规律,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定使用plot传入kind='scatter'参数来绘制散点图散点图主要用来表现数据之间的规律。例如,身高和体重之间的规律。下面创建一个DataFrame数据,然后绘制散点图。散点图任务五pandas可视化完成线形图、柱状图、直方图、密度图、散点图的绘制任务:利用pandas绘制基本图形任务五pandas可视化
目录任务一pandas数据结构任务二pandas索引操作任务三pandas数据运算任务四层次化索引任务五pandas可视化任务六读书榜单分析本任务将使用pandas库及其相关操作实现某网站读书榜单分析。任务介绍任务六
读书榜单分析书能给人以知识,给人以智慧,给人以快乐,给人以希望。外物之味,久则可厌。读书之味,愈久愈深。“三立”育人任务六
读书榜单分析任务六
读书榜单分析使用Python数据分析技术进行读书榜单分析,作为选择优质图书的参考。任务六
读书榜单分析出版社作品评分排名书籍排名作家作品数量排名任务六
读书
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江西省赣州市南康三中、兴国一中2025届高三第四次模拟考试化学试卷含解析
- 急诊医学科三基培训试题含答案
- 护理新开展新技术新项目
- 2025年应急交通工程装备项目建议书
- 2025年变电站综合自动化装置项目发展计划
- 客户管理岗位说明书
- 慢性鼻窦炎病人的护理
- 小人热身舞课件
- 小学劳动技术教育
- 感染性疾病科护理
- 中班美术《我心中的太阳》绘画课件幼儿园优质课公开课
- 应急管理工作检查记录表
- 《雷锋叔叔你在哪里》教学案例
- DB32-T 2798-2015高性能沥青路面施工技术规范-(高清现行)
- 《机械设计基础》课程思政教学案例(一等奖)
- 译林版五年级英语下册 Unit 6 第4课时 教学课件PPT小学公开课
- API-620 大型焊接低压储罐设计与建造
- 年产300吨莲子蛋白粉工厂的设计
- 箱变施工安全文明保证措施
- 浙江省杭州市介绍(课堂PPT)
- 擦窗机安全技术交底
评论
0/150
提交评论