Python与机器学习(第2版)(微课版) 课件 项目02 碳排放数据分析_第1页
Python与机器学习(第2版)(微课版) 课件 项目02 碳排放数据分析_第2页
Python与机器学习(第2版)(微课版) 课件 项目02 碳排放数据分析_第3页
Python与机器学习(第2版)(微课版) 课件 项目02 碳排放数据分析_第4页
Python与机器学习(第2版)(微课版) 课件 项目02 碳排放数据分析_第5页
已阅读5页,还剩97页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目背景|项目概述|学习目标|任务实施步骤项目碳排放数据分析【数据挖掘应用】背景先导项目概述项目学习目标任务实施步骤01Background02BriefIntroduction03LearningObjectives04ImplementationSteps主要内容碳排放的危害据相关报告显示,2023年7月是全球有记录以来最热的月份。全球平均气温较1850年至1990年的7月平均温度相比,升温超过1.5℃。这是全球月均温首次升温超过1.5℃。1.5℃是什么概念?1.5℃是地球温度关键临界点。超过1.5℃,地球将会大概率出现极端干旱、高温、野火、洪涝灾害等等极端天气。人类活动导致的温室气体排放是引起全球变暖问题的重要原因。二氧化碳作为主要的温室气体,约占温室气体总排放的72%。国际社会为应对全球气温升高达成了一系列国际性公约。其中,《巴黎协定》是全球国家控制气候变化重要全球协议。各国都在更新国家自主贡献目标的同时,纷纷提出碳中和愿景。近年来,许多发达国家已实现碳达峰。而在应对气候变化的国际新格局下,发展中国家的碳排放正日益成为世界关注的焦点。碳排放应对措施全球共同应用对全球变暖中国双碳目标2020双碳目标20302060

中国是二氧化碳排放大国,并在2006年前后超过美国。2013年始,中国的二氧化碳排放迅速增长。2020年9月,习近平总书记向世界宣布,中国将力争2030年前实现碳达峰、2060年前实现碳中和。中国规划近年来,许多发达国家已实现碳达峰。而在应对气候变化的国际新格局下,发展中国家的碳排放正日益成为世界关注的焦点。总书记高度重视双碳工作,指出坚持绿色发展是必由之路,并要求要在推进全面绿色转型中实现新突破。

当前,我国能源结构中化石能源占比较高,尤其是煤炭消费。要推动二氧化碳减排,能源结构调整优化势在必行。项目总体要求

碳排放数据分析

本项目将利用数据分析不同方法,对中国1997-2019年不同行业的二氧化碳排放数据进行简要分析,探查不同年份碳排放的变化趋势、不同行业的碳排放特征、不同碳排放能源占比及排放情况。项目三维目标进一步掌握数据分析流程及Python数据分析工具的使用方法;掌握常用的数据分析方法,包括分组分析、分布分析、交叉分析、结构分析、相关分析等;

(重点:阿里云大数据分析与应用中级4.2.1)

(重点:大数据技术工程人员国家职业标准初级5.2.2)了解不同数据分析方法的适用情境及其应用。知识目标技能目标素养目标证岗会使用Pandas第三方包读取Excel文件中的数据;会熟练使用Pandas第三方包实现分组分析、分布分析、交叉分析、结构分析、相关分析;

(重难点:阿里云大数据分析与应用中级5.1.2)会选择适当的图表类型展现数据分析结果;

(大数据技术工程人员国家职业标准中级6.4.1)能使用Matplotlib、Seaborn等展现数据分析结果。(难点)知识目标技能目标素养目标证证项目三维目标熟悉数据分析师岗位工作任务,培养学生逐步养成勤奋自律的自学习惯和一定的数据思维;深刻认识人类文明与自然环境的关系,进一步培育保护环境的理念;引导学习和探讨力所能及的节能减碳行为,能够主动从自己做起养成节约的好习惯。技能目标素养目标知识目标项目三维目标数据分析方法应用分布分析交叉分析分组分析分组分析是指根据分组字段,将分析对象划分成不同的部分,以进行对比分析各组之间的差异性的一种分析方法。分组分析常用的统计指标是计数、求和、平均值。结构分析相关分析按不同行业对各项碳排放数据进行分组分析按年份对各项碳排放数据进行分组分析数据分析方法应用分布分析交叉分析分布分析是指根据分析的目的,将定量数据进行等距或者不等距的分组,进行研究各组分布规律的一种分析方法。结构分析相关分析按年份进行分析各行业的平均排放情况按不同能源碳排放占比进行分布分析按行业分析平均碳排放量进行分布分析分组分析数据分析方法应用交叉分析交叉分析通常是用于分析两个或两个以上分组变量之间的关系,以交叉表形式进行变量间关系的对比分析;从数据的不同维度,综合进行分组细分,进一步了解数据的构成、分布特征。结构分析相关分析使用数据透视表进行分析:按行业、年份分析平均碳排放量使用交叉表分析:按行业、年份展现天然气平均碳排放量分组分析分布分析数据分析方法应用结构分析是在分组以及交叉的基础上,计算各组成部分所占的比重,进而分析总体的内部特征的一种分析方法。结构分析相关分析分组分析分布分析交叉分析分行业对碳排放量进行结构分析分时期对原煤碳排放占比进行结构分析数据分析方法应用相关分析(correlationanalysis)是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间相关关系的一种统计方法。相关分析分组分析分布分析交叉分析结构分析查看原煤排放量与总排放量间的关联性查看原煤排放量与总排放量间的相关度查看所有数值间的相关性还在等什么?马上动手实施碳排放数据分析项目吧~1.碳排放的危害2.双碳目标3.常见数据分析方法小结分布分析任务实施【数据挖掘应用】课程碳排放数据分析知识与能力目标会结合groupby()、cut()对碳排放数据进行分布分析会区分分组分析与分布分析的异同会选择使用适当的图表表达数据会使用Seaborn可视化包展现数据对碳排放数据进行分布分析主要内容任务工单引导问题任务评价标准任务解决方案代码解析tpf.xlsx教学难点分布分析法又称直方图法,是将搜集到的数据进行分组整理,绘制成频数分布直方图。本项目tpf.xlsx文件碳排放数据中,分组依据可以是年份、行业、能源等。任务概述

任务描述:现需基于获得的数据,我们可使用cut()对数据进行分组,再通过groupby()对分组的数据进行聚合统计010010011001101010100100110110100101110101000100001011011101001010101101010011010010numyearitemRawCoalCleanedCoal...Scope1Total11997Farming,Forestry,AnimalHusbandry,FisheryandWaterConservancy30.897729120.416359042

74.3789848421997CoalMiningandDressing32.958534775.252869261

44.3459333231997PetroleumandNaturalGasExtraction5.2746735910.000619491

36.9702250641997FerrousMetalsMiningandDressing0.8354291580.002890957

3.81144775537889任务工单数据源tpf.xlsx显示结果

任务要求任务概述按年份按原媒

占比(1)什么是分布分析?分布分析和分组分析有何区别?(2)Pandas包中的cut()主要用来做什么?包含哪些参数?(3)Pandas包中的groupby()如何利用cut()得到的分组结果进行统计?(4)Seaborn包主要用来做什么?Matplotlib以及Seaborn包中什么方法可以用来绘制直方图?(5)如何使用distplot()编码绘制频数分布直方图?主要参数有哪些?”

问题引导:任务概述

任务评价:任务概述评价内容评价要点分值分数评定自我评价1.任务实施按年份分布分析2分能对年份进行正确分组得1分,能基于分组结果正确统计碳排放数据得1分

按原煤排放占比分布分析4分能正确求得原煤占比得2分,能对占比进行正确分组得1分,能基于分组结果正确统计碳排放数据得1分

2.结果展现数据可视化显示3分能展现重点分析对象得1分,能展现不同占比分析结果得2分

3.任务总结依据任务实施情况总结结论1分总结内容切中本任务的重点要点得1分

合计10分

第1行:按year列分组并且算出他们的平均值第2行:把之前从表格中取出得df_detail_year列重置索引df_detail_year=df_detail.groupby(['year']).mean()df_detail_year=pd.DataFrame(df_detail_year).reset_index()year_groups=pd.cut(df_detail_year['year'],bins=[1995,2000,2005,2010,2015,2020])第3行:每五年为一组任务解决方案步骤一:按年份实现天然气平均碳排放分布分析。NaturalGas_year=df_detail_year.groupby(year_groups)['NaturalGas'].mean()第4行:按时期分组,求出平均值任务解决方案数据显示第6行:显示数据NaturalGas_year.head()第5行:重置索引NaturalGas_year=pd.DataFrame(NaturalGas_year).reset_index()步骤一:按年份实现天然气平均碳排放分布分析。任务解决方案NaturalGas_year.plot(x='year',y='NaturalGas',kind='bar',figsize=(6,6),width=1,label='NaturalGas')步骤二:为更晰地展现分析结果,我们使用柱状图表达数据plt.xlabel('Period’)plt.ylabel('CO2/Mt')第7行:创建一个大小为(6,6)的柱状图,宽为1,x轴为year列,y轴为‘NaturalGas‘列,图例是'NaturalGas'第1行:以year列进行分组并计算出他们的总数第2行:重置索引df_detail_sum=df_detail.groupby(['year']).sum()df_detail_sum=pd.DataFrame(df_detail_sum).reset_index()df_detail_sum['RawCoalPercent']=df_detail_sum['RawCoal']*100/df_detail_sum['Scope1Total']任务解决方案第4行:每数据集中特征进行分组,对50%-70%的数据进行细分percent_groups=pd.cut(df_detail_sum['RawCoalPercent'],bins=[0,40,50,55,60,65,70,100])步骤三:按原煤碳排放占比进行分组,实现占比计数分布分析第3行:占比百分比任务解决方案percentRawCoal=df_detail_sum.groupby(percent_groups)['year'].count()第6行:显示数据数据显示percentRawCoal.head()步骤三:按原煤碳排放占比进行分组,实现占比计数分布分析第1行:导入seaborn包,命名为snsimportseabornassns任务解决方案第3行:x轴命名为‘CO2/%’sns.distplot(df_detail_sum['RawCoalPercent'],

bins=[0,40,50,55,60,65,70,100])plt.xlabel('CO2/%')步骤五:为更晰地展现分析结果,使用Seaborn中distplot()来汇制分布图以表达数据任务解决方案

练一练:按行业分析碳排放量分布,分析天然气平均碳排放量在各行业的分布情况。(1)统计各行业年平均碳排放情况df_detail_item=df_detail.groupby(['item']).mean()df_detail_item=pd.DataFrame(df_detail_item).reset_index()(2)统计天然气平均碳排放量在不同行业的分布情况gas_groups=pd.cut(df_detail_item['NaturalGas'],bins=[0,1,2,4,6,8])naturalGas=df_detail_item.groupby(gas_groups)['year'].count()任务解决方案(3)可视化显示天然气平均碳排放量分布情况sns.distplot(df_detail_item['NaturalGas'],bins=[0,1,2,4,6,8])plt.xlabel('CO2/Mt')

练一练:按行业分析碳排放量分布:分析天然气平均碳排放量在各行业的分布情况。小结1.分布分析方法2.cut()函数:bins参数3.可视化包Seaborn不急后续会有详细说明与讲解哦~分组分析任务实施【数据挖掘应用】课程碳排放数据分析熟练掌握从Excel文件中读取数据的方法会运用groupby()对碳排放数据进行分组分析会选择使用适当的图表表达数据会对图表中的元素及相关参数进行设置知识与能力目标主要内容任务工单引导问题任务评价标准任务解决方案代码解析对碳排放数据进行分组分析tpf.xlsx教学难点任务工单该文件中总共有四张工作表。其中,第一张工作表是对表格文件的整体说明,第二张工作表是碳排放数据的合计,第三张工作表是按行业和年份对碳排放数据的交叉汇总,最后一张工作表记录了具体的数据明细对第四张工作表进行分析任务概述

任务描述:

本项目从网络中下载了碳排放数据,做了简单处理并将其存储于“tpf.xlsx”文件中。010010011001101010100100110110100101110101000100001011011101001010101101010011010010numyearitemRawCoalCleanedCoal...Scope1Total11997Farming,Forestry,AnimalHusbandry,FisheryandWaterConservancy30.897729120.416359042

74.3789848421997CoalMiningandDressing32.958534775.252869261

44.3459333231997PetroleumandNaturalGasExtraction5.2746735910.000619491

36.9702250641997FerrousMetalsMiningandDressing0.8354291580.002890957

3.81144775537889数据源tpf.xlsx显示结果

任务要求任务概述按年份(1)Excel中数据存储的结构是什么样的?如何从本地Excel文件中读取数据?(2)Pandas包中的read_excel()能读取什么类型的文件?如何使用?(3)read_excel()的关键参数有哪些?哪些是必选的?如何指定需要读取的具体工作表?(4)什么是分组分析?分组分析主要适用于什么需求情境?我们对tpf.xlsx文件中的数据做哪方面的分组分析?(5)Matplotlib包主要用来做什么?如何利用Matplotlib编码实现柱状图、堆积柱状图和折线图?”

问题引导:任务概述

任务评价:任务概述评价内容评价要点分值分数评定自我评价1.任务实施数据读取2分会读取数据得1分,数据正确显示得1分

数据分组分析3分会按行业进行分组分析得2分,会按年份进行分组分析得1分

2.结果展现数据可视化显示4分能展现重点分析对象得1分,能展现行业占比差异得2分,能展现趋势变化得1分

3.任务总结依据任务实施情况总结结论1分总结内容切中本任务的重点要点得1分

合计10分

2行:导入pandas包,并给出别名pd。第3行:使用read_excel()获取数据读取Excel文件‘Sum’工作表中的数据#coding:utf-8importpandas

aspddf_sum=pd.read_excel("tpf.xlsx",sheet_name='Sum')df_sumsec=pd.read_excel("tpf.xlsx",sheet_name='SumSec')第

4行:读取‘SumSec’工作表中的数据任务解决方案步骤一:数据读取。任务解决方案部分数据显示第

6行:显示部分数据df_detail.head()第

5行:读取‘Detail’工作表中的数据df_detail=pd.read_excel("tpf.xlsx",sheet_name=‘Detail')步骤一:数据读取。任务解决方案df_detail_grp=df_detail.groupby(['item'])['RawCoal','Scope1Total'].mean()部分数据显示步骤二:分行业统计1997-2019年原煤(RawCoal)碳排放、总碳排放量(Scope1Total)的平均情况df_detail_grp

=pd.DataFrame(df_detail_grp).reset_index()df_detail_grp.head()第

7行:将‘item’列设为分组列,‘RawCoal’、‘Scope1Total’列设为统计列第

10行:导入绘图包,并给出别名plt。第

11行:对数据列进行排序importmatplotlib.pyplotaspltdf_detail_grp=df_detail_grp.sort_values(by='Scope1Total',ascending=False)

df_detail_grp1=df_detail_grp.head(10)任务解决方案第

13行:创建一个大小为(12,4)的条形图,x轴为‘item’列,y轴为‘Scope1Total’列df_detail_grp1.plot(x='item',y='Scope1Total',kind='bar',figsize=(12,4))步骤三:用柱状图展现总碳排放量排名前10的行业第

12行:显示前十名的数据任务解决方案df_detail_grp2=df_detail.groupby(['year'])[df_detail.columns[3:len(df_detail.columns)-1]].sum()第

14行:将数据按年分组并排序df_detail_grp2=pd.DataFrame(df_detail_grp2).reset_index()第

16行:显示数据部分数据显示步骤四:统计1997-2019年所有行业的碳总排放量df_detail_grp2.head()第

17行:导入random包,命名为rndimportrandomasrnd第

18、19、20行:赋予初始值任务解决方案第

21行:创建一个大小是(12,8)的画布赋值给变量fig,并创建一个axes,赋值给axi=0y=0i=1fig,ax=plt.subplots(figsize=(12,8))步骤五:使用图表显示1997-2019年所有行业不同能源碳排放占比情况whilei<=len(df_detail_grp2.columns)-1:ax.bar(df_detail_grp2['year'],df_detail_grp2[df_detail_grp2.columns[i]],bottom=y,label=df_detail_grp2.columns[i])y=y+df_detail_grp2[df_detail_grp2.columns[i]]i=i+1任务解决方案设置柱状图的图例标签,在y轴底部插入图例,label后面跟的标签参数的值X轴命名为‘Year’,y轴命名为‘CO2/Mt’plt.xlabel(‘Year’)plt.ylabel('CO2/Mt’)plt.legend()使用legend()函数使图例代码显示效果步骤五:使用图表显示1997-2019年所有行业不同能源碳排放占比情况第1行:创建一个大小(10,6)的画布plt.figure(figsize=(10,6))第2行:赋予初始值任务解决方案i=1步骤六:使用图表显示1997-2019年不同能源碳排放变化趋势whilei<=len(df_detail_grp2.columns)-1:plt.plot(df_detail_grp2['year'],df_detail_grp2[df_detail_grp2.columns[i]],label=df_detail_grp2.columns[i],marker='.')i=i+1小结1.Excel文件数据读取2.分组函数groupby()的使用3.排序函数sort_values()4.柱状图与折线图的绘制不

急后续会有详细说明与讲解哦~交叉分析任务实施【数据挖掘应用】课程碳排放数据分析知识与能力目标理解透视表、交叉表的作用会区分交叉分析与分组分析、分布分析的异同会使用透视表、交叉表对碳排放数据进行交叉分析会使用热力图展现交叉分析结果碳排放数据交叉分析主要内容任务工单引导问题任务评价标准任务解决方案代码解析tpf.xlsx教学难点交叉分析以交叉表形式进行变量间关系的对比分析,主要用于分析两个变量之间的关系,通过交叉表呈现。任务概述

任务描述:使用透视表和交叉表工具,对中国1997-2019年各行业的碳排放数据在行业、年份维度进行交叉分析。010010011001101010100100110110100101110101000100001011011101001010101101010011010010numyearitemRawCoalCleanedCoal...Scope1Total11997Farming,Forestry,AnimalHusbandry,FisheryandWaterConservancy30.897729120.416359042

74.3789848421997CoalMiningandDressing32.958534775.252869261

44.3459333231997PetroleumandNaturalGasExtraction5.2746735910.000619491

36.9702250641997FerrousMetalsMiningandDressing0.8354291580.002890957

3.81144775537889任务工单数据源tpf.xlsx显示结果

任务要求任务概述行业与年份(1)什么是交叉分析?与分组分析、分布分析有何不同?(2)常用的交叉分析工具有哪些?Python中如何实现交叉分析?(3)Pandas中pivot_table()主要用来做什么?有哪些参数?如何指定需要分析的维度?(4)Pandas中crosstab()主要用来做什么?有哪些参数?(5)如何展现交叉分析结果?Matplotlib或Seaborn中如何绘制该图?”

问题引导:任务概述

任务评价:任务概述评价内容评价要点分值分数评定自我评价1.任务实施数据透视表分析2分会按行业、年份进行透视表分析得2分

数据交叉表分析2分会按行业、年份进行交叉表分析得2分

2.结果展现数据可视化显示4分能正确显示透视表分析结果得1分,能正确显示交叉表分析结果得1分,能用图表展示交叉分析结果得2分

3.任务总结依据任务实施情况总结结论2分总结内容切中本任务的重点要点得1分,能比较两种方式的异同得1分

合计10分

部分数据显示第2行:导入pandas包,并给出别名pd。第3行:先按行业‘item’分组,再按年份‘year’分组#coding:utf-8importpandasaspdpd.pivot_table(df_detail,index=["item","year"],

values=["NaturalGas","Scope1Total"],

aggfunc=np.mean)任务解决方案步骤一:使用数据透视表对天然气和合计碳排放量进行交叉分析。任务解决方案crs=pd.crosstab(df_detail['item'],df_detail['year'],values=df_detail['NaturalGas'],aggfunc=np.mean)部分数据显示步骤二:使用交叉表对天然气碳排放量进行交叉分析。crs.head()第6行:使用热力图。第7、8行:定义x,y轴对应的列名sns.heatmap(crs,cmap=‘rocket_r’)

plt.xlabel('Year')plt.ylabel('Item')任务解决方案步骤三:使用热力图展现交叉分析结果。小结1.交叉分析方法2.透视表、交叉表3.热力图不

急后续会有详细说明与讲解哦~结构分析任务实施【数据挖掘应用】课程碳排放数据分析知识与能力目标理解结构分析的用途会区分结构分析与分组分析、交叉分析的异同会使用Pandas对碳排放数据进行结构分析会使用饼图展现结构分析结果碳排放数据结构分析主要内容任务工单引导问题任务评价标准任务解决方案代码解析tpf.xlsx教学难点分行业对碳排放量进行结构分析:分析不同行业碳排放量占比分别多少,并找出占比较大的行业,并采用可视化图表展现;分时期对原煤碳排放占比进行结构分析,分析不同时期原煤碳排放占比变化情况。任务概述

任务描述:基于获得的数据,我们可结合使用sum()和div()函数求出不同行业的比重,并用饼图展现数据分析结果。010010011001101010100100110110100101110101000100001011011101001010101101010011010010numyearitemRawCoalCleanedCoal...Scope1Total11997Farming,Forestry,AnimalHusbandry,FisheryandWaterConservancy30.897729120.416359042

74.3789848421997CoalMiningandDressing32.958534775.252869261

44.3459333231997PetroleumandNaturalGasExtraction5.2746735910.000619491

36.9702250641997FerrousMetalsMiningandDressing0.8354291580.002890957

3.81144775537889教学难点任务工单数据源tpf.xlsx显示结果

任务要求任务概述分行业分时期(1)什么是结构分析?与分组分析和交叉分析有何不同?(2)常用的结构分析工具有哪些?Python中如何实现结构分析?(3)如何展现结构分析的结果?Matplotlib或Seaborn中如何绘制该类型的图?”

问题引导:任务概述

任务评价:任务概述评价内容评价要点分值分数评定自我评价1.任务实施分组基础上的结构分析5分能得出分行业的碳排放占比数据得2分,能用图表正确展现占比情况得2分,能适当减少饼图中的扇形数量得1分

分布基础上的结构分析4分能按年份对数据进行分段得2分,能按时期统计占比情况得1分,能用图表正确展现分析结果得1分

2.任务总结依据任务实施情况总结结论1分总结内容切中本任务的重点要点得1分

合计10分

第1行:按“行业”进行分组item_re=df_detail.groupby('item')['Scope1Total'].mean()item_re=item_re.div(item_re.sum())item_re=pd.DataFrame(item_re).reset_index()任务解决方案步骤一:编写如下代码实现按行业分析占比情况。item_re=item_re.sort_values(by=['Scope1Total'],ascending=False)部分数据显示Item_re.head()第4行:排序,占比高的在前第6行:画图plt.pie(item_re['Scope1Total'],labels=item_re['item'],autopct='%.2f%%')plt.show()任务解决方案步骤二:使用饼图展现占比分析结果第7行:显示前九个数据进行展示item_re=item_re.head(9)new_row={"item":"MyOther","Scope1Total":1-item_re['Scope1Total'].sum()}任务解决方案步骤三:改进饼图展现占比结果item_re=item_re.append(new_row,ignore_index=True)bins=[1995,2000,2005,2010,2015,2020]labels=['九五','十五','十一五','十二五','十三五']练一练df_detail_year['时期']=pd.cut(df_detail_year['year'],bins,labels=labels)year_re=df_detail_year.pivot_table(values=['RawCoal'],index=['时期'],aggfunc=[np.mean])按时期分析碳排放量占比:分析原煤碳排放量在各个时期的占比情况。由于数据缺失,我们采用平均值替换总和占比分析。(1)统计每个时期的原煤平均碳排放量year_re1=year_re.div(year_re.sum(axis=0),axis=1)year_re1.head()(2)统计每个时期的占比情况year_re.plot(kind='pie',y='mean',autopct='%.2f%%',figsize=(4,4))(3)用饼图展现数据小结1.结构分析的概念2.结构分析的实现3.饼图的绘制后续会有详细说明与讲解哦~饼图不急相关分析任务实施【数据挖掘应用】课程碳排放数据分析知识与能力目标理解相关分析的作用掌握常用的相关分析方法会使用corr()对碳排放数据进行相关分析会使用散点图、热力图展现相关分析碳排放数据相关分析主要内容任务工单引导问题任务评价标准任务解决方案代码解析相关系数(CorrelationCoefficient)是专门用来衡量两个变量之间的线性相关程度的指标。简单相关分析直接计算两个变量的相关程度。任务概述

任务描述:本任务主要使用散点图展现变量是否存在相关性,并用Pandas中的corr()函数来计算变量间的相关程度。010010011001101010100100110110100101110101000100001011011101001010101101010011010010任务工单tpf.xlsxnumyearitemRawCoalCleanedCoal...Scope1Total11997Farming,Forestry,AnimalHusbandry,FisheryandWaterConservancy30.897729120.416359042

74.3789848421997CoalMiningandDressing32.958534775.252869261

44.3459333231997PetroleumandNaturalGasExtraction5.2746735910.000619491

36.9702250641997FerrousMetalsMiningandDressing0.8354291580.002890957

3.81144775537889数据源tpf.xlsx显示结果

任务要求任务概述不同因素(1)如何展现数据间的相关性?有哪些类型的图表?(2)Pandas包中的计算相关度的函数有哪些?如何使用?(3)corr()的关键参数有哪些?哪些是必选的?(4)corr()返回值代表什么意义?如果值为0表示什么?(5)如何计算所有列数据间的相关度并展现?”

问题引导:任务概述

任务评价:任务概述评价内容评价要点分值分数评定自我评价1.任务实施简单相关分析4分能用图表展现数据是否相关得2分,能正确计算两个变量间的相关度得2分

数据分组分析3分会对所有数据进行相关度分析得1分,会使用热力图展现结果得2分

2.任务总结依据任务实施情况总结结论3分能对所有方法进行比较得1分,总结内容切中各方法的特点得2分,

合计10分

第1行:制作散点图。第3,4行:给x,y轴命名fig,ax=plt.subplots()ax.scatter(df_sum['RawCoal'],df_sum['Scope1Total’])plt.xlabel('RawCoal/Mt’)plt.ylabel('Scope1Total/Mt')任务解决方案步骤一:使用散点图展现RawCoal和Scope1Total两列数据的相关性。任务解决方案df_sum['Scope1Total'].corr(df_sum['RawCoal'])步骤二:计算RawCoal和Scope1Total两列数据的相关度步骤三:计算所有数值列的相关度corr_re=df_sum[df_sum.columns[1:len(df_sum)-1]].corr()

corr_re.head()sns.heatmap(corr_re,cmap='rocket_r')步骤四:使用热力图展现数据相关度小结1.相关分析常见方法2.corr()函数3.热力图不急后续会有详细说明与讲解哦~项目背景|项目概述|学习目标|任务实施步骤拓展实训观影数据复杂分析【数据挖掘应用】01101111011010111101010000101101010100111101

熟练使用Pandas从本地文件读取数据;

熟练使用Pandas对数据进行多维度数据分析;熟练使用Matplotlib工具包展现数据分析结果。技能学习目标项目总体要求原始数据1、分组分析:groupby()2、分布分析:cut()3、交叉分析:pivot_table()、crosstab()4、结构分析:pivot_table()5、相关分析:corr()数据分析方法一、分组分析xk_sum_y=df.groupby(['月'])['想看'].sum()xk_sum_y.plot(kind='bar')二、分布分析按季jj_groups=pd.cut(df['月'],bins=[0,3,6,9,12])sns.distplot(df['月'],bins=[0,3,6,9,12])三、交叉分析透视表:pivot_table()importnumpyasnppd.pivot_table(df,index=["地区","月"],values=["想看"],aggfunc=np.mean)三、交叉分析交叉表:crosstab()crs=pd.crosstab(df['地区'],df['月'])#coding:utf-8importmatplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=Falseimportseabornassnssns.heatmap(crs,cmap='rocket_r')四、结构分析按地区:分组re=df.groupby('地区')['片名'].count()re=re.div(re.sum())re.plot(kind='pie')四、结构分析按季度:交叉bins=[0,3,6,9,12]labels=['第1季度','第2季度','第3季度','第4季度']df['季节']=pd.cut(df['月'],bins,labels=labels)re=df.pivot_table(values=['片名'],index=['季节'],aggfunc=[np.size])re=re.div(re.sum(axis=0),axis=1)df['季节'].v

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论