版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第11章Python数据分析问题概述要点:Python是进行数据分析所需掌握的基础性语言与分析工具,是未来掌握大数据分析技术的学习基础。GDP数据说明GDP数据说明国内生产总值(GrossDomesticProduct,简称GDP),是一个国家(或地区)所有常住单位在一定时期内生产活动的最终成果。GDP是国民经济核算的核心指标,也是衡量一个国家或地区经济状况和发展水平的重要指标。GDP数据说明选取2006-2021年的我国GDP数据为数据来源。该数据格式为,该数据包括9个属性,分别为Quarter,GDP_Absolute,GDP_YOY,Primary_Industry_Abs,Primary_Industry_YOY,Secondary_Industry_Abs,Secondary_Industry_YOY,Tertiary_Industry_Abs,Tertiary_Industry_YOY。GDP数据说明属性含义Quarter季度GDP_Absolute国内生产总值绝对值GDP_YOY国内生产总值同比增长Primary_Industry_Abs第一产业绝对值_亿元Primary_Industry_YOY第一产业同比增长Secondary_Industry_Abs第二产业绝对值_亿元Secondary_Industry_YOY第二产业同比增长Tertiary_Industry_Abs第三产业绝对值_亿元Tertiary_Industry_YOY第三产业同比增长GDP数据预处理GDP数据预处理一般来说,数据预处理主要包括四个步骤,分别为:1)数据清洗;2)数据集成;3)数据变换;4)数据归约。GDP数据预处理根据原始数据的特点,以及数据分析的要求,该GDP数据预处理的基本思路如下:1)读入存储GDP数据的CSV文件;2)中文字符转换;3)数据类型转换;4)数据重新排序。GDP数据预处理-程序代码importpandasaspdimportnumpyasnpfrommatplotlibimportpyplotaspltimportmatplotlibasmplmpl.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=False#读入存储GDP数据的CSV文件GDP=pd.read_csv('2006-2021GDP.csv',encoding='utf-8')#原始数据print("原始数据:")print(GDP)print(type(GDP['GDP_YOY'][0]))GDP数据预处理-程序代码#中文字符转换defquarter(x):quarter1=x.replace('第','').replace('季度','').replace('年','.')returnquarter1GDP['Quarter']=GDP['Quarter'].apply(lambdax:quarter(x))GDP数据预处理-程序代码#数据类型转换foriinrange(64):GDP['GDP_YOY'][i]=eval(GDP['GDP_YOY'][i][:-1])GDP['Primary_Industry_YOY'][i]=eval(GDP['Primary_Industry_YOY'][i][:-1])GDP['Secondary_Industry_YOY'][i]=eval(GDP['Secondary_Industry_YOY'][i][:-1])GDP['Tertiary_Industry_YOY'][i]=eval(GDP['Tertiary_Industry_YOY'][i][:-1])GDP['GDP_Absolute']=GDP['GDP_Absolute'].astype('float')GDP['GDP_YOY']=GDP['GDP_YOY'].astype('float')GDP['Primary_Industry_Abs']=GDP['Primary_Industry_Abs'].astype('float')GDP['Primary_Industry_YOY']=GDP['Primary_Industry_YOY'].astype('float')GDP['Secondary_Industry_Abs']=GDP['Secondary_Industry_Abs'].astype('float')GDP['Secondary_Industry_YOY']=GDP['Secondary_Industry_YOY'].astype('float')GDP['Tertiary_Industry_Abs']=GDP['Tertiary_Industry_Abs'].astype('float')GDP['Tertiary_Industry_YOY']=GDP['Tertiary_Industry_YOY'].astype('float')GDP数据预处理-程序代码#重新排序GDP.sort_values(['Quarter'],inplace=True)GDP.reset_index(drop=True,inplace=True)#预处理后的数据print("预处理后的数据:")print(GDP)print(type(GDP['GDP_YOY'][0]))GDP数据预处理-运行结果原始数据:
QuarterGDP_Absolute...Tertiary_Industry_AbsTertiary_Industry_YOY02021年第1-4季度1143670.0...609680.08.20%12021年第1-3季度823131.0...450761.09.50%22021年第1-2季度532167.0...296611.011.80%32021年第1季度249310.0...145355.015.60%42020年第1-4季度1015986.2...553976.82.10%.................592007年第1季度57159.3...27703.214.10%602006年第1-4季度219438.5...91762.214.10%612006年第1-3季度155816.8...67187.013.70%622006年第1-2季度99752.2...44996.513.60%632006年第1季度47078.9...22648.013.10%[64rowsx9columns]<class'str'>GDP数据预处理-运行结果预处理后的数据:
QuarterGDP_Absolute...Tertiary_Industry_AbsTertiary_Industry_YOY02006.147078.9...22648.013.112006.1-299752.2...44996.513.622006.1-3155816.8...67187.013.732006.1-4219438.5...91762.214.142007.157159.3...27703.214.1.................592020.1-41015986.2...553976.82.1602021.1249310.0...145355.015.6612021.1-2532167.0...296611.011.8622021.1-3823131.0...450761.09.5632021.1-41143670.0...609680.08.2[64rowsx9columns]<class'numpy.float64'>GDP数据分析GDP数据分析GDP年度总值散点图:需要使用的数据包括:Quarter与GDP_Absolute。运用的绘图方法为:scatter()。GDP数据分析#GDP年度总值散点图x=[]y=[]foriinrange(64):if'1-4'inGDP['Quarter'][i]:x.append(GDP['Quarter'][i][:-4])y.append(GDP['GDP_Absolute'][i])x=np.array(x)y=np.array(y)plt.scatter(x,y,label='GDP年度总值')plt.title('2006-2021年GDP年度总值散点图')plt.legend(loc='best')plt.xlabel('年份')plt.ylabel('GDP年度总值')plt.show()GDP数据分析GDP数据分析GDP同比增长折线图:需要使用的数据包括:Quarter与GDP_YOY。运用的绘图方法为:plot()。GDP数据分析#GDP同比增长折线图x=GDP['Quarter']y=GDP['GDP_YOY']plt.figure(figsize=(9,3),dpi=150)plt.plot(x,y,'k-',label='GDP同比增长')plt.title('2006-2021年GDP同比增长折线图')plt.legend(loc='best')plt.xlabel('季度')plt.ylabel('同比增长')#X轴刻度倾斜显示plt.xticks(rotation=50,fontsize='6')plt.yticks(fontsize='6')plt.show()GDP数据分析GDP数据分析GDP季度总值堆积图:需要使用的数据包括:Quarter与GDP_Absolute。运用的绘图方法为:bar()。GDP数据分析#GDP季度总值堆积图x=[]y1=[]y2=[]y3=[]y4=[]foriinrange(64):ifGDP['Quarter'][i][0:4]notinx:x.append(GDP['Quarter'][i][0:4])if'1-4'inGDP['Quarter'][i]:y4.append(GDP['GDP_Absolute'][i])elif'1-3'inGDP['Quarter'][i]:y3.append(GDP['GDP_Absolute'][i])elif'1-2'inGDP['Quarter'][i]:y2.append(GDP['GDP_Absolute'][i])else:y1.append(GDP['GDP_Absolute'][i])x=np.array(x)y1=np.array(y1)y2=np.array(y2)y3=np.array(y3)y4=np.array(y4)y4=y4-y3y3=y3-y2y2=y2-y1plt.bar(x,y1,label='第1季度GDP')plt.bar(x,y2,bottom=y1,label='第2季度GDP')plt.bar(x,y3,bottom=y1+y2,label='第3季度GDP')plt.bar(x,y4,bottom=y1+y2+y3,label='第4季度GDP')plt.legend()plt.title('2006-2021年GDP季度总值堆积图')plt.xlabel('年份')plt.ylabel('GDP值')plt.savefig('2006-2021年GDP季度总值堆积图.png')plt.show()GDP数据分析GDP数据分析GDP各产业同比增长折线图:需要使用的数据包括:Quarter,Primary_Industry_YOY,Seconda
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《纳米材料修饰的神经递质类电化学传感器的研制与应用》
- 《生态翻译学理论在交替传译实践中的应用》
- 塑料厂管理规章制度
- 工业安全与工业互联网平台的深度融合研究
- 2024年经济协议纠纷处理程序与策略版B版
- 《微电网频率控制问题的研究》
- 《γ-氨基丁酸促进拟南芥开花的机理研究》
- 2024汽车销售体验店租赁合同规范文本3篇
- 家用纺织品材料的文化与艺术价值
- 2025年度绿色生态住宅物业租赁与环保物业管理合同3篇
- 安徽省合肥市2023-2024学年高一上学期物理期末试卷(含答案)
- Unit 2 My Schoolbag ALets talk(说课稿)-2024-2025学年人教PEP版英语四年级上册
- 2024年国家公务员考试《行测》真题(行政执法)
- 儒家思想讲解课程设计
- 烟花爆竹安全生产管理人员考试题库附答案(新)
- 国有企业外派董监事、高管人员管理办法
- 寒假作业一年级上册《数学每日一练》30次打卡
- 2024年个人汽车抵押借款合同范本(四篇)
- 春联课件教学课件
- 北师大版五年级上册脱式计算400道及答案
- 安徽省芜湖市2023-2024学年高一上学期期末考试 地理试题
评论
0/150
提交评论