第11章 Python数据分析_第1页
第11章 Python数据分析_第2页
第11章 Python数据分析_第3页
第11章 Python数据分析_第4页
第11章 Python数据分析_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第11章Python数据分析问题概述要点:Python是进行数据分析所需掌握的基础性语言与分析工具,是未来掌握大数据分析技术的学习基础。GDP数据说明GDP数据说明国内生产总值(GrossDomesticProduct,简称GDP),是一个国家(或地区)所有常住单位在一定时期内生产活动的最终成果。GDP是国民经济核算的核心指标,也是衡量一个国家或地区经济状况和发展水平的重要指标。GDP数据说明选取2006-2021年的我国GDP数据为数据来源。该数据格式为,该数据包括9个属性,分别为Quarter,GDP_Absolute,GDP_YOY,Primary_Industry_Abs,Primary_Industry_YOY,Secondary_Industry_Abs,Secondary_Industry_YOY,Tertiary_Industry_Abs,Tertiary_Industry_YOY。GDP数据说明属性含义Quarter季度GDP_Absolute国内生产总值绝对值GDP_YOY国内生产总值同比增长Primary_Industry_Abs第一产业绝对值_亿元Primary_Industry_YOY第一产业同比增长Secondary_Industry_Abs第二产业绝对值_亿元Secondary_Industry_YOY第二产业同比增长Tertiary_Industry_Abs第三产业绝对值_亿元Tertiary_Industry_YOY第三产业同比增长GDP数据预处理GDP数据预处理一般来说,数据预处理主要包括四个步骤,分别为:1)数据清洗;2)数据集成;3)数据变换;4)数据归约。GDP数据预处理根据原始数据的特点,以及数据分析的要求,该GDP数据预处理的基本思路如下:1)读入存储GDP数据的CSV文件;2)中文字符转换;3)数据类型转换;4)数据重新排序。GDP数据预处理-程序代码importpandasaspdimportnumpyasnpfrommatplotlibimportpyplotaspltimportmatplotlibasmplmpl.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=False#读入存储GDP数据的CSV文件GDP=pd.read_csv('2006-2021GDP.csv',encoding='utf-8')#原始数据print("原始数据:")print(GDP)print(type(GDP['GDP_YOY'][0]))GDP数据预处理-程序代码#中文字符转换defquarter(x):quarter1=x.replace('第','').replace('季度','').replace('年','.')returnquarter1GDP['Quarter']=GDP['Quarter'].apply(lambdax:quarter(x))GDP数据预处理-程序代码#数据类型转换foriinrange(64):GDP['GDP_YOY'][i]=eval(GDP['GDP_YOY'][i][:-1])GDP['Primary_Industry_YOY'][i]=eval(GDP['Primary_Industry_YOY'][i][:-1])GDP['Secondary_Industry_YOY'][i]=eval(GDP['Secondary_Industry_YOY'][i][:-1])GDP['Tertiary_Industry_YOY'][i]=eval(GDP['Tertiary_Industry_YOY'][i][:-1])GDP['GDP_Absolute']=GDP['GDP_Absolute'].astype('float')GDP['GDP_YOY']=GDP['GDP_YOY'].astype('float')GDP['Primary_Industry_Abs']=GDP['Primary_Industry_Abs'].astype('float')GDP['Primary_Industry_YOY']=GDP['Primary_Industry_YOY'].astype('float')GDP['Secondary_Industry_Abs']=GDP['Secondary_Industry_Abs'].astype('float')GDP['Secondary_Industry_YOY']=GDP['Secondary_Industry_YOY'].astype('float')GDP['Tertiary_Industry_Abs']=GDP['Tertiary_Industry_Abs'].astype('float')GDP['Tertiary_Industry_YOY']=GDP['Tertiary_Industry_YOY'].astype('float')GDP数据预处理-程序代码#重新排序GDP.sort_values(['Quarter'],inplace=True)GDP.reset_index(drop=True,inplace=True)#预处理后的数据print("预处理后的数据:")print(GDP)print(type(GDP['GDP_YOY'][0]))GDP数据预处理-运行结果原始数据:

QuarterGDP_Absolute...Tertiary_Industry_AbsTertiary_Industry_YOY02021年第1-4季度1143670.0...609680.08.20%12021年第1-3季度823131.0...450761.09.50%22021年第1-2季度532167.0...296611.011.80%32021年第1季度249310.0...145355.015.60%42020年第1-4季度1015986.2...553976.82.10%.................592007年第1季度57159.3...27703.214.10%602006年第1-4季度219438.5...91762.214.10%612006年第1-3季度155816.8...67187.013.70%622006年第1-2季度99752.2...44996.513.60%632006年第1季度47078.9...22648.013.10%[64rowsx9columns]<class'str'>GDP数据预处理-运行结果预处理后的数据:

QuarterGDP_Absolute...Tertiary_Industry_AbsTertiary_Industry_YOY02006.147078.9...22648.013.112006.1-299752.2...44996.513.622006.1-3155816.8...67187.013.732006.1-4219438.5...91762.214.142007.157159.3...27703.214.1.................592020.1-41015986.2...553976.82.1602021.1249310.0...145355.015.6612021.1-2532167.0...296611.011.8622021.1-3823131.0...450761.09.5632021.1-41143670.0...609680.08.2[64rowsx9columns]<class'numpy.float64'>GDP数据分析GDP数据分析GDP年度总值散点图:需要使用的数据包括:Quarter与GDP_Absolute。运用的绘图方法为:scatter()。GDP数据分析#GDP年度总值散点图x=[]y=[]foriinrange(64):if'1-4'inGDP['Quarter'][i]:x.append(GDP['Quarter'][i][:-4])y.append(GDP['GDP_Absolute'][i])x=np.array(x)y=np.array(y)plt.scatter(x,y,label='GDP年度总值')plt.title('2006-2021年GDP年度总值散点图')plt.legend(loc='best')plt.xlabel('年份')plt.ylabel('GDP年度总值')plt.show()GDP数据分析GDP数据分析GDP同比增长折线图:需要使用的数据包括:Quarter与GDP_YOY。运用的绘图方法为:plot()。GDP数据分析#GDP同比增长折线图x=GDP['Quarter']y=GDP['GDP_YOY']plt.figure(figsize=(9,3),dpi=150)plt.plot(x,y,'k-',label='GDP同比增长')plt.title('2006-2021年GDP同比增长折线图')plt.legend(loc='best')plt.xlabel('季度')plt.ylabel('同比增长')#X轴刻度倾斜显示plt.xticks(rotation=50,fontsize='6')plt.yticks(fontsize='6')plt.show()GDP数据分析GDP数据分析GDP季度总值堆积图:需要使用的数据包括:Quarter与GDP_Absolute。运用的绘图方法为:bar()。GDP数据分析#GDP季度总值堆积图x=[]y1=[]y2=[]y3=[]y4=[]foriinrange(64):ifGDP['Quarter'][i][0:4]notinx:x.append(GDP['Quarter'][i][0:4])if'1-4'inGDP['Quarter'][i]:y4.append(GDP['GDP_Absolute'][i])elif'1-3'inGDP['Quarter'][i]:y3.append(GDP['GDP_Absolute'][i])elif'1-2'inGDP['Quarter'][i]:y2.append(GDP['GDP_Absolute'][i])else:y1.append(GDP['GDP_Absolute'][i])x=np.array(x)y1=np.array(y1)y2=np.array(y2)y3=np.array(y3)y4=np.array(y4)y4=y4-y3y3=y3-y2y2=y2-y1plt.bar(x,y1,label='第1季度GDP')plt.bar(x,y2,bottom=y1,label='第2季度GDP')plt.bar(x,y3,bottom=y1+y2,label='第3季度GDP')plt.bar(x,y4,bottom=y1+y2+y3,label='第4季度GDP')plt.legend()plt.title('2006-2021年GDP季度总值堆积图')plt.xlabel('年份')plt.ylabel('GDP值')plt.savefig('2006-2021年GDP季度总值堆积图.png')plt.show()GDP数据分析GDP数据分析GDP各产业同比增长折线图:需要使用的数据包括:Quarter,Primary_Industry_YOY,Seconda

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论