财务大数据分析 课件 项目二 数据处理与数据可视化基础_第1页
财务大数据分析 课件 项目二 数据处理与数据可视化基础_第2页
财务大数据分析 课件 项目二 数据处理与数据可视化基础_第3页
财务大数据分析 课件 项目二 数据处理与数据可视化基础_第4页
财务大数据分析 课件 项目二 数据处理与数据可视化基础_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目二

数据处理与数据可视化基础《财务大数据分析》课程JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江苏信息职业技术学院财务大数据分析课程团队

目录任务一Pandas数据处理基础任务二

Matplotlib数据可视化基础JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江苏信息职业技术学院1.知道横向或纵向堆叠合并数据;

2.掌握主键合并数据;

3.掌握重叠合并数据;

4.了解Pyplot基础语法;

5.绘制直方图、折线图。学习任务JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江苏信息职业技术学院任务一

Pandas数据处理基础JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江苏信息职业技术学院堆叠就是简单地把两个表拼在一起,也被称作轴向连接、绑定或连接。依照连接轴的方向,数据堆叠可分为横向堆叠和纵向堆叠。一1、堆叠合并数据合并数据(1)横向堆叠横向堆叠,即将两个表在x轴向拼接在一起,可以使用concat函数完成。concat函数的基本语法如下。一concat函数的常用参数及相关参数说明如表所示。合并数据当axis=1的时候,concat做行对齐,然后将不同列名称的两张或多张表合并。当两个表索引不完全一样时,可以使用join参数选择是内连接还是外连接。在内连接的情况下,仅仅返回索引重叠部分;在外连接的情况下,则显示索引的并集部分数据,不足的地方则使用空值填补。当两张表完全一样时,不论join参数的取值是inner或者outer,结果都是将两个表完全按照x轴拼接起来,具体实现如图所示。合并数据二一合并数据(2)纵向堆叠对比横向堆叠,纵向堆叠是将两个数据表在y轴向上拼接。concat函数和append方法两者都可以实现纵向堆叠。使用concat函数时,在默认情况下,即axis=0时,concat做列对齐,将不同行索引的两张或多张表纵向合并。在两张表的列名并不完全相同的情况下,可以使用join参数:取值为inner时,返回的仅仅是列名的交集所代表的列;取值为outer时,返回的是两者列名的并集所代表的列。不论join参数的取值是inner或者outer,结果都是将两个表完全按照y轴拼接起来除了concat函数之外,append方法也可以用于纵向合并两张表。但是使用append方法实现纵向表堆叠有一个前提条件,那就是两张表的列名需要完全一致。append方法的基本方法如下。一合并数据主键合并,即通过一个或多个键将两个数据集的行连接起来,类似于SQL中的join。针对两张包含不同字段的表,将其根据某几个字段一一对应拼接起来,结果集的列数为两个原数据的列数和减去连接键的数量。pandas库中的merge函数和join方法都可以实现主键合并,但两者的实现方式并不相同。一2、主键合并数据合并数据merge函数的具体用法如下一合并数据和数据库的join一样,merge函数也有左连接(left)、右连接(right)、内连接(inner)和外连接(outer)。但比起数据库SQL语言中的join,merge函数还有其自身独到之处,例如可以在合并过程中对数据集中的数据进行排序等。根据merge函数中的参数说明,并按照需求修改相关参数,即可以多种方法实现主键合并。merge函数的具体的参数及其说明如表所示。除了使用merge函数以外,join方法也可以实现部分主键合并的功能。但是使用join方法时,两个主键的名字必须相同,其具体用法如下。一合并数据数据分析和处理过程中偶尔会出现两份数据的内容几乎一致的情况,但是某些特征在其中一张表上是完整的,而在另外一张表上的数据则是缺失的。这时除了使用将数据一对一比较,然后进行填充的方法外,还有一种方法就是重叠合并。重叠合并在其他工具或者语言中并不常见,但是pandas库的开发者希望pandas能够解决几乎所有的数据分析问题,因此提供了combine_first方法来进行重叠数据合并。一3、重叠合并数据合并数据一4、任务实现合并数据(1)堆叠不同时间的订单详情表订单详情表meal_order_detail1、meal_order_detail2、meal_order_detail3具有相同的特征,但数据时间不同,订单编号也不同,在数据分析过程中需要使用全部数据,故需要将几张表做纵向堆叠操作。(2)主键合并订单详情表、订单信息表和客户信息表订单详情表、订单信息表和客户信息表之间存在相同意义的字段,因此需通过主键合并的方式将3张表合并为一张宽表。pandas提供了readexcel函数来读取“xls”“xlsx”两种Excel文件,其语法和常用参数如下。二1、Excel文件读取读/写Excel文件read_excel函数的常用参数及其说明将文件存储问Excel文件,可以使用to_excel函数。其使用语法和常用参数如下。DataFrame.to_excel(excel_writer=None,sheetname=’None’,na_rep=’’,header=True,index=True,index_label=None,mode=’w’,encoding=None)to_excel函数和to_csv函数的常用参数基本一致,区别之处在于,to_excel函数指定存储文件的文件路径参数名称为excel_writer,并且没有sep参数;to_csv

函数增加了一个sheetname参数,用来指定存储的ExcelSheet的名称,默认为Sheet1。二2、Excel文件存储读/写Excel文件1、删除法删除法是指将含有缺失值的特征或者记录删除。删除法分为删除观测记录和删除特征两种,它属于通过减少样本量来换取信息完整度的一种方法,是一种最简单的缺失值处理方法。pandas中提供了简便的删除缺失值的方法dropna,通过参数控制,该方法既可以删除观测记录、也可以删除特征,该方法的基本语法如下。三检测与处理缺失值对菜品订单详情表利用dropna方法进行缺失值处理,如图所示。三检测与处理缺失值使用dropna方法删除缺失值当how参数取值为any时,删除了一个特征,说明这个特征存在缺失值。若how参数不取any这个默认值,而是取all,则表示整个特征全部为缺失值时才会执行删除操作。2、替换法替换法是指用一个特定的值替换缺失值。特征可分分为数值型和类别型,两者出现缺失值时的处理方法也是不同的。缺失值所在特征为数值型型时,通常利用其均值、中位数和众数等描述其集中趋势的统计量来代替缺失值:缺失值月所在特征为类别型时,则选择使用众数来替换缺失值。pandas库中提供了缺失值替换的方法fillna,其基本语法如下。三检测与处理缺失值3、插值法在面对数据缺失问题时,除了这两种方法之外,还有一种常用的方法——插值法。常用的插值法有线性插值、多项式插值和样条插值等。线性插值是一种较为简单的插值方法,它针对已知的值求出线性方程,通过求解线性方程得到缺失值。多项式插值是利用已知的值拟合一个多项式,使得现有的数据满足这个多项式,再利用这个多项式求解缺失值。常见的多项式插值有拉格朗日插值和牛顿插值等。样条插值是以可变样条来做出一条经过一系列点的光滑曲线的插值方法。插值样条由一些多项式组成,每一个多项式都由相邻两个数据点决定,这样可以保证两个相邻多项式及其导数在连接处连续。三检测与处理缺失值THANKSFORWATCHING感谢欣赏

JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江苏信息职业技术学院项目二

数据处理与数据可视化基础《财务大数据分析》课程JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江苏信息职业技术学院财务大数据分析课程团队

目录任务一Pandas数据处理基础任务二

Matplotlib数据可视化基础JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江苏信息职业技术学院1.知道横向或纵向堆叠合并数据;

2.掌握主键合并数据;

3.掌握重叠合并数据;

4.了解Pyplot基础语法;

5.绘制直方图、折线图。学习任务JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江苏信息职业技术学院任务二

Matplotlib

数据可视化基础JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江苏信息职业技术学院了解Pyplot基础语法第一部分的主要作用是构建出一张空白的画布,并可以选择是否将整个画布划分为多个部分,方便在同一幅图上绘制多个图形的情况。当只需要绘制一幅简单的图形时,这部分内容可以省略。在pyplot中,创建画布以及创建并选中子图的函数如表所示。一1、创建画布与创建子图了解Pyplot基础语法第二部分是绘图的主体部分。其中的添加标题、添加坐标轴名称、绘制图形等步骤是并列的,没有先后顺序,可以先绘制图形,也可以先添加各类标签。但是添加图例一定要在绘制图形之后。pyplot中添加各类标签和图例的函数如表所示。一2、添加画布内容了解Pyplot基础语法第三部分主要用于保存和显示图形,这部分内容的常用函数只有两个,并且参数很少,如表所示。一3、保存与显示图片绘制直方图、折现图二直方图(Histogram)又称质量分布图,是统计报告图的一种,由一系列高度不等的纵向条纹或线段表示数据分布的情况,一般用横轴表示数据所属类别,用纵轴表示数量或者占比。用直方图可以比较直观地看出产品质量特性的分布状态,便于判断其总体质量分布情况。在直方图中可以发现分布表无法发现的数据模式、样本的频率分布和总体的分布。1、绘制直方图绘制直方图、折现图二bar函数的常用参数及其说明使用bar函数绘制流动比率直方图,如代码所示。绘制直方图、折现图二所用到的流动比率表流动比率直方图绘制直方图、折现图二折线图(LineChart)是一种将数据点按照顺序连接起来的图形。可以看作是将散点图按照x轴坐标顺序连接起来的图形。折线图的主要功能是查看因变量y随着自变量x改变的趋势,最适合用于显示随时间(根据常用比例设置)而变化的连续数据。同时还可以看出数量的差异,增长趋势的变化。2、绘制折线图绘制直方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论