




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目六数据分析工具Pandas入门回顾什么是数据分析数据分析是指根据事先确定的分析目标,选择适当的统计分析方法或工具,对收集来的大量数据进行处理与分析,从中提取有价值的信息,形成分析结论。分析结果可以辅助企业进行管理优化、预测和决策。数据分析的流程企业利用大数据进行经营管理和辅助预决策时,大致需要以下四个步骤:数据获取、数据预处理、数据分析、数据可视化等环节。回顾目标掌握Pandas的两种数据结构掌握Pandas索引的相关操作掌握Pandas的常见操作掌握读写数据的方法任务一使用Pandas操作中国软件财报数据Pandas再论Anaconda集成了常用的数据分析工具:Pandas、matplotlib等。Pandas是当前Python数据分析中最为重要的工具,其提供了功能强大且灵活多样的高级函数,极大地简化了数据处理的流程,可以满足使用者在数据分析和处理中的多种选择和实现方式。Pandas包Python之所以功能强大就是因为有非常丰富的第三方包(库),将这些包引入到程序中,就可以很方便地使用包中提供的功能。(想想数学中的sin函数)使用Pandas前需要先导入Pandas包。importpandasaspd此代码用于在当前程序中导入pandas包,并为该包起别名pd。后续在程序中若要使用Pandas,可直接用别名pd代替Pandas数据结构Pandas中有两个主要的数据结构:Series和DataFrame数据结构是计算机存储、组织数据的方式Series一维的数据结构DataFrame二维的、表格型的数据结构Pandas数据结构SeriesSeries是一维数据结构,它能够保存任何类型的数据,如整数、字符串、浮点数。Series对象主要由一组数据和与之相关的标签(索引)构成。DataFrameDataFrame是一种表格型的数据结构,既有行索引index,也有列索引columns。其实可以简单把DataFrame理解为一张数据表。了解Series数据结构带有标签的数据结构,由数据和索引组成使用默认索引创建Series对象索引数据Series数据结构使用自定义索引创建Series对象自定义索引数据Series数据结构使用字典创建Series对象字典数据,字典的键作为索引他们是键Series数据结构输出Series对象的索引和数据了解DataFrame数据结构带有标签的数据结构,由数据和行索引、列索引组成使用默认索引创建DataFrame对象DataFrame数据结构使用自定义索引创建DataFrame对象列标题行标题DataFrame数据结构使用字典形式创建DataFrame对象说明:字典的键自动作为列索引。DataFrame数据结构为行列索引添加名称Pandas读写数据数据采集后一般都会存储到本地硬盘中,不会将数据直接写入到程序中,这样不仅造成程序代码臃肿,而且可用率很低。所以当我们进行数据分析时需要对存储的文件进行读取。Pandas可以读取文本文件、Excel文件、网页文件和数据库文件。我们以财务数据处理中常用的Excel文件为例讲解文件的读取。Pandas读写数据读取Excel文件Pandas提供了read_excel()函数来读取Excel文件,读取到的数据自动转换成DataFrame类型的数据要读取的文件左边第3行代码中将“data.xlsx”文件中的数据读入程序赋值给变量UFSoftDF,UFSoftDF是什么类型呢?答案:是DataFrame类型Pandas读写数据保存Excel文件保存文件的函数保存到外部的文件名Pandas读写数据继续探讨UFSoftDF的数据类型怎样查看UFSoftDF的数据类型呢?importpandasaspdUFSoftDF=pd.read_csv(‘data.xlsx’)print(type(UFSoftDF))#输出UFSoftDF的类型培养读者的程序思维任务二查询中国软件资产负债表数据数据查询一个数据集中的数据量通常都是比较大的,学会如何从大量数据中查询自己需要的数据是一个很重要的技能一、查询Series数据查询单个数据使用切片查询数据(连续的多个数据)查询不连续的数据
对象名[
索引|标签名|切片|列表]一、查询Series数据查询单个数据一、查询Series数据查询切片数据一、查询Series数据查询不连续的数据说明:不连续的标签索引,多个索引值要用列表表示。二、查询DataFrame数据以下列DataFrame对象为例说明:np.random.rand(8,4),返回一个8行4列的0~1之间的随机数。二、查询DataFrame数据使用“对象名[列索引]”的方式获取DataFrame对象的一列数据使用“对象名[[列索引1,列索引2,…]]”的方式来获取多列数据二、查询DataFrame数据使用“对象名[行索引1:行索引2]”的方式来获取DataFrame对象的一行或多行数据二、查询DataFrame数据使用“对象名[列索引][行索引]”的方式获取DataFrame对象的某一个值或某个矩形区域的值(即行列交叉部分的值)说明:DataFrame直接索引只支持先列后行,不支持先行后列。原理如左图所示。二、查询DataFrame数据获取整体信息三、使用loc方法和iloc方法获取DataFrame数据更加灵活的解决办法:loc方法:按照标签索引(名称)选取数据iloc方法:按照位置索引(整数索引)选取数据loc[行名,列名]iloc[行号,列号]注意:loc和iloc后面是方括号,其中行、列可以是单一值,也可以是切片,还可以是列表。如果要获取a到d行的B、D两列的数据,代码如何写?df[['B','D']]['a':'d']使用loc方法注意:列省略表示取所有列。三、使用loc方法和iloc方法获取DataFrame数据使用iloc方法说明:(1)位置编号均从0开始顺序编号(2)位置索引也是类似a[x,y]形式,而x和y可以有多种不同的写法三、使用loc方法和iloc方法获取DataFrame数据loc和iloc方法小结宏观上看是a[x,y]形式,而x和y可以有多种不同的写法df.loc[‘a’:’c’,[‘A’,’C’]]#a行到c行的A列和C列df.i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030年中国镀锌檀条数据监测研究报告
- 2025年癃清片项目可行性研究报告
- 2025年环保多效切削油项目可行性研究报告
- 2025年环氧抗静电地坪漆项目可行性研究报告
- 网络新闻行业发展监测及市场发展潜力预测报告
- 食品购货合同范本
- 2025年女短裤模项目可行性研究报告
- 2025至2030年中国混纺针织无结色纱数据监测研究报告
- 2025年吸尘风闸项目可行性研究报告
- Methyl-tetracosanoate-d4-Methyl-lignocerate-d4-生命科学试剂-MCE
- 2024-2025学年山东省烟台市高三上学期期末学业水平考试英语试题(解析版)
- 2025年益阳医学高等专科学校高职单招高职单招英语2016-2024历年频考点试题含答案解析
- 配套课件-前厅客房服务与管理
- 2025年度药店营业员服务规范及合同约束协议3篇
- 工业和信息化部装备工业发展中心2025年上半年应届毕业生招聘易考易错模拟试题(共500题)试卷后附参考答案
- 法社会学教程(第三版)教学
- AQ6111-2023个体防护装备安全管理规范
- 2023版押品考试题库必考点含答案
- 市政工程施工进度网络图
- 邹县1000MW#7机组最大出力试验报告
- 供应商品质合约 - 立讯协同办公平台
评论
0/150
提交评论