Python与机器学习(第2版)(微课版) 课件 2-03-分组分析任务实施_第1页
Python与机器学习(第2版)(微课版) 课件 2-03-分组分析任务实施_第2页
Python与机器学习(第2版)(微课版) 课件 2-03-分组分析任务实施_第3页
Python与机器学习(第2版)(微课版) 课件 2-03-分组分析任务实施_第4页
Python与机器学习(第2版)(微课版) 课件 2-03-分组分析任务实施_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主讲人:陈清华分组分析任务实施【数据挖掘应用】课程碳排放数据分析熟练掌握从Excel文件中读取数据的方法会运用groupby()对碳排放数据进行分组分析会选择使用适当的图表表达数据会对图表中的元素及相关参数进行设置知识与能力目标主要内容任务工单引导问题任务评价标准任务解决方案代码解析对碳排放数据进行分组分析tpf.xlsx教学难点任务工单该文件中总共有四张工作表。其中,第一张工作表是对表格文件的整体说明,第二张工作表是碳排放数据的合计,第三张工作表是按行业和年份对碳排放数据的交叉汇总,最后一张工作表记录了具体的数据明细对第四张工作表进行分析任务概述

任务描述:

本项目从网络中下载了碳排放数据,做了简单处理并将其存储于“tpf.xlsx”文件中。010010011001101010100100110110100101110101000100001011011101001010101101010011010010numyearitemRawCoalCleanedCoal...Scope1Total11997Farming,Forestry,AnimalHusbandry,FisheryandWaterConservancy30.897729120.416359042

74.3789848421997CoalMiningandDressing32.958534775.252869261

44.3459333231997PetroleumandNaturalGasExtraction5.2746735910.000619491

36.9702250641997FerrousMetalsMiningandDressing0.8354291580.002890957

3.81144775537889数据源tpf.xlsx显示结果

任务要求任务概述按年份(1)Excel中数据存储的结构是什么样的?如何从本地Excel文件中读取数据?(2)Pandas包中的read_excel()能读取什么类型的文件?如何使用?(3)read_excel()的关键参数有哪些?哪些是必选的?如何指定需要读取的具体工作表?(4)什么是分组分析?分组分析主要适用于什么需求情境?我们对tpf.xlsx文件中的数据做哪方面的分组分析?(5)Matplotlib包主要用来做什么?如何利用Matplotlib编码实现柱状图、堆积柱状图和折线图?”

问题引导:任务概述

任务评价:任务概述评价内容评价要点分值分数评定自我评价1.任务实施数据读取2分会读取数据得1分,数据正确显示得1分

数据分组分析3分会按行业进行分组分析得2分,会按年份进行分组分析得1分

2.结果展现数据可视化显示4分能展现重点分析对象得1分,能展现行业占比差异得2分,能展现趋势变化得1分

3.任务总结依据任务实施情况总结结论1分总结内容切中本任务的重点要点得1分

合计10分

2行:导入pandas包,并给出别名pd。第3行:使用read_excel()获取数据读取Excel文件‘Sum’工作表中的数据#coding:utf-8importpandas

aspddf_sum=pd.read_excel("tpf.xlsx",sheet_name='Sum')df_sumsec=pd.read_excel("tpf.xlsx",sheet_name='SumSec')第

4行:读取‘SumSec’工作表中的数据任务解决方案步骤一:数据读取。任务解决方案部分数据显示第

6行:显示部分数据df_detail.head()第

5行:读取‘Detail’工作表中的数据df_detail=pd.read_excel("tpf.xlsx",sheet_name=‘Detail')步骤一:数据读取。任务解决方案df_detail_grp=df_detail.groupby(['item'])['RawCoal','Scope1Total'].mean()部分数据显示步骤二:分行业统计1997-2019年原煤(RawCoal)碳排放、总碳排放量(Scope1Total)的平均情况df_detail_grp

=pd.DataFrame(df_detail_grp).reset_index()df_detail_grp.head()第

7行:将‘item’列设为分组列,‘RawCoal’、‘Scope1Total’列设为统计列第

10行:导入绘图包,并给出别名plt。第

11行:对数据列进行排序importmatplotlib.pyplotaspltdf_detail_grp=df_detail_grp.sort_values(by='Scope1Total',ascending=False)

df_detail_grp1=df_detail_grp.head(10)任务解决方案第

13行:创建一个大小为(12,4)的条形图,x轴为‘item’列,y轴为‘Scope1Total’列df_detail_grp1.plot(x='item',y='Scope1Total',kind='bar',figsize=(12,4))步骤三:用柱状图展现总碳排放量排名前10的行业第

12行:显示前十名的数据任务解决方案df_detail_grp2=df_detail.groupby(['year'])[df_detail.columns[3:len(df_detail.columns)-1]].sum()第

14行:将数据按年分组并排序df_detail_grp2=pd.DataFrame(df_detail_grp2).reset_index()第

16行:显示数据部分数据显示步骤四:统计1997-2019年所有行业的碳总排放量df_detail_grp2.head()第

17行:导入random包,命名为rndimportrandomasrnd第

18、19、20行:赋予初始值任务解决方案第

21行:创建一个大小是(12,8)的画布赋值给变量fig,并创建一个axes,赋值给axi=0y=0i=1fig,ax=plt.subplots(figsize=(12,8))步骤五:使用图表显示1997-2019年所有行业不同能源碳排放占比情况whilei<=len(df_detail_grp2.columns)-1:ax.bar(df_detail_grp2['year'],df_detail_grp2[df_detail_grp2.columns[i]],bottom=y,label=df_detail_grp2.columns[i])y=y+df_detail_grp2[df_detail_grp2.columns[i]]i=i+1任务解决方案设置柱状图的图例标签,在y轴底部插入图例,label后面跟的标签参数的值X轴命名为‘Year’,y轴命名为‘CO2/Mt’plt.xlabel(‘Year’)plt.ylabel('CO2/Mt’)plt.legend()使用legend()函数使图例代码显示效果步骤五:使用图表显示1997-2019年所有行业不同能源碳排放占比情况第1行:创建一个大小(10,6)的画布plt.figure(figsize=(10,6))第2行:赋予初始值任务解决方案i=1步骤六:使用图表显示1997-2019年不同能源碳排放变化趋势whilei<=len(df_detail_grp2.columns)-1:plt.plot(df_detail_grp2['year'],df_detail_grp2[df_detail

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论