财务大数据-Python基础 课件 3.5Pandas-数据特征分析_第1页
财务大数据-Python基础 课件 3.5Pandas-数据特征分析_第2页
财务大数据-Python基础 课件 3.5Pandas-数据特征分析_第3页
财务大数据-Python基础 课件 3.5Pandas-数据特征分析_第4页
财务大数据-Python基础 课件 3.5Pandas-数据特征分析_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Pandas-数据特征分析课前回顾重复值处理:duplicated()、drop_duplicates()缺失值处理:isna()、dropna()、fillna()其他异常处理:删除特殊字符replace()、更改数据类型astype()索引设置:set_index()、reset_index()科云数据清洗函数:dataClean()目录010203描述性统计分析累计统计数据排序01描述性统计分析描述性统计分析在财务工作中,我们常常需要计算各种财务指标的合计数、平均值、最大最小值、标准差等,那么我们如何才能快速知道这些统计值呢?Pandas提供了很多描述性统计函数,常用统计函数如下:函数描述函数描述函数描述count()非空值的个数median()中位数mad()平均绝对偏差sum()求和mode()众数abs()绝对值mean()平均值prod()数组元素的乘积cov()协方差min()最小值quantile()分位数corr()相关系数max()最大值var()样本方差pct_change()百分数变化describe()统计信息摘要std()样本标准差diff()一阶差分读取数据读取data.xlsx中利润表项目数据:代码#引入pandasimportpandasaspd#读取data.xlsx利润表项目df=pd.read_excel('/webpython/course/d2633ec9ca5c4a288b73f97b4616d541/data.xlsx',sheet_name=1,converters={'年':str,'月':str})#显示前5行show_table(df.head())描述性统计分析可以计算表格中各列的统计指标,也可以结合索引,计算单列统计指标。描述性统计分析可以计算表格中各列的统计指标,也可以结合索引,计算单列统计指标。describe()函数describe()函数:生成描述性统计信息,将所有数值列进行统计,返回DataFrame中常见的统计指标,包括值个数、均值、标准差、最大最小值、百分数。describe()函数语法:DataFrame.describe(percentiles=None,include=None,exclude=None,datetime_is_numeric=False)常用参数说明percentiles百分位数,介于0-1之间,默认[25%,50%,75%]include包含在结果中的数据类型,默认所有数值列exclude排除在结果中的数据类型,默认不排除任何内容datetime_is_numeric是否将datetimedtypes视为数字,默认为Falsedescribe()函数describe()函数结合索引器可以单独提取describe中想要的指标数据。示例1代码#使用索引器获取单项指标print(df.describe().loc['max','营业收入'])输出结果:424000.0代码#查看df统计信息show_table(df.describe())pct_change()函数pct_change()函数:当前元素与先前元素之间的百分比变化,默认计算与前一行的百分比变化,适用于财务报表的环比分析。pct_change()函数语法:DataFrame.pct_change(periods=1,fill_method='pad',limit=None,freq=None,**kwargs)常用参数说明periods计算周期,默认为1fill_method填充空值的方法,默认'pad',表示用前一个非缺失值填充,bfill用后一个非缺失值填充,None不填充limit限制填充次数axis计算方向,{0或'index',1或'columns'},默认axis=0pct_change()函数要求:计算营业收入、营业成本、净利润的环比增长率。示例2代码#计算环比增长率,并使用show_table()展示结果前5行show_table(df.set_index(['年','月']).pct_change().head())例:(329800-274400)/274400=0.20189502累计统计累计统计在会计工作中,除了要计算各期发生额之外,往往还需要计算“本年累计值”。提示axis=0:默认值,沿0轴计算,即计算每列的值axis=1:沿1轴计算,即计算每行的值函数描述cumsum()累计总和cumprod()累计乘积cummax()累计最大值cummin()累计最小值累计统计要求:计算2021年各期”营业收入、营业成本、净利润”的本年累计金额。示例3代码df1=df.loc[df['年']=='2021'].set_index(['年','月']).cumsum()show_table(df1.head())03数据排序

数据排序sort_values()函数:按照某行或某列的值进行升序或降序排序。sort_values()函数语法:DataFrame.sort_values(by,axis=0,ascending=True,inplace=False,kind='quicksort',na_position='last',ignore_index=False,key=None)常用参数描述byaxis轴上的某个索引或索引列表,按什么排序axis要排序的轴,{0或'index',1或'columns'},默认0,按照指定列数据排序ascending排序方式,默认为True,代表升序排序,False代表降序排序inplace默认为False,True表示直接在原数据上排序ignore_index是否重建索引,默认为False数据排序要求:按照净利润降序排序,显示前5行。示例4代码df2=df.sort_values('净利润',ascending=False)show_table(df2.head())sort_index()函数sort_index()函数:在指定轴上根据索引值对数据进行排序,默认使用行索引升序排序。sort_index()函数语法:DataFrame.sort_index(axis=0,level=None,ascending=True,inplace=False,kind='quicksort',na_position='last',sort_remaining=True,ignore_index=False,key=None)代码#按照行索引降序排序df3=df.sort_index(ascending=False)show

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论