基于SAS分析天津市GDP影响因素的研究_第1页
基于SAS分析天津市GDP影响因素的研究_第2页
基于SAS分析天津市GDP影响因素的研究_第3页
基于SAS分析天津市GDP影响因素的研究_第4页
基于SAS分析天津市GDP影响因素的研究_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于SAS分析天津市GDP影响因素的研究 一、前言天津市作为我国的直辖市,在历史经济发展的过程中一直处于城市定位不明晰的状态,直至2006年3月,“北方经济中心”正式被冠名在天津市上。此时对天津市的经济发展进行全面的分析研究,具有十分重要的现实意义。“十五”期间,我国把经济结构的战略性调整作为经济工作的着力点,而产业结构是经济结构中最主要、最基础的部分,产业结构的调整和升级关系着经济结构的调整,关系着经济能否持续、稳定、健康的发展。天津是我国华北地区经济发展的重要区域,是我国著名的老工业基地,建国以来在经济发展上取得了令人瞩目的成就。除了工业与农业以外高新科技产业如生物制药、移动通信、高科技制

2、造业等已经成为天津经济新的增长点。随着对外开放步伐的不断迈进本市企业在“引进来”的同时也积极的“走出去”,项出口不断增加。人民的生活水平也在不断提高商业日益繁荣,三产业快速发展。在中央把天津作为环渤海的经济中心之一后,全市人民精神振奋,立志让天津加快发展。随着空中客车总装厂等项目的落户,天津经济必将迎来新的快速发展期。2011年天津地区生产总值首次超过万亿元,达到1.1万亿元,年增16.5%。近年来,天津市依靠建设大项目好项目,加快发展高端、高质、高新化实体经济,助推经济结构和发展方式转型。自2007年以来,天津市共累计推出1280个高水平大项目好项目,总投资2.2万亿元,其中已建成投产700

3、多项,新投产项目对工业增长贡献率达到60%。2011年天津工业总产值首次突破2万亿元,达到2.1万亿元,拉动全市经济增长。二、理论背景为了在更高层次上发展天津市的经济,关注天津市GDP是必要的。GDP是按市场价格计算的国内生产总值的简称,它是一个国家(地区)所有常住单位在一定时期内生产活动的最终成果。GDP是国民经济核算的核心指标,也是衡量一个国家或地区经济状况和发展水平的重要指标。而影响到业GDP的因素是多方面。例如,居民消费、政府消费性支出、政府购买、出口、居民收入、投资等。为了实证对GDP具体影响因素,以便于我们根据实证结果,提出政策性建议,针对天津市目前的发展情况,本文选取了1978年

4、到2011年的时序数据作为研究的范围,以天津市GDP为被解释变量,并选取固定资本形成总额、社会消费品零售总额、出口总额为解释变量。研究影响GDP的影响因素可以进一步证实其反映出了人民生活水平,生活质量的提高;也可以反映出天津市经济的脉象,便于天津市更好的发展。三、建立模型本模型是通过对天津市19782011年数据进行研究1. 确定模型所包含的变量,因变量(被解释变量)为GDP(Y单位:亿元),自变量(被解释变量)有3个,固定资本形成总额(X1单位:亿元)社会消费品零售总额(X2单位:亿元)出口总额(X3单位:亿美元)2. 确定模型的数据形式,我们先假设数学模型为:四、实验方法本次研究主要是分析

5、自变量和因变量的关系以及找出合适的模型,并且运用时间序列的方法对社会消费品零售总额进行预测分析。我们先用SAS对我们假定的模型对变量X1,X2,X3分析,看看它们与Y的关系(运用的方法的逐步回归和主成分法)然后在GDP进行时间序列分析,最后预测未来3年的数据。五、数据来源1.数据来源于中国知网2.数据引入年份GDP(亿元)Y固定资本形成总额(亿元)X1社会消费品零售总额(亿元)X3出口总额(亿美元)X5197882.6518.5525.28.65197993.0123.9129.0812.211980103.5325.5634.6415.421981107.962538.0415.371982

6、114.1132.3639.7614.241983123.4238.2744.6314.271984147.5348.6752.1712.341985175.7867.664.1211.531986194.7475.8981.3912.551987220.1281.6395.5715.171988259.7196.85121.2816.831989283.4995.43134.316.861990310.9598.03139.8817.861991342.65144.19159.4416.061992411.04185.12181.217.521993538.94246.16227.4219.

7、421994732.89345.46303.3724.001995931.97417.95375.6429.9819961121.93491.9470.0440.4919971264.63556.43535.0250.1819981374.6640.15587.1254.9919991500.95631.92657.2863.3220001701.88695.1736.6386.2920011919.09805.34832.795.0220022150.76926.65941.36115.9520032578.031180.54922.27143.7420043110.971446.49104

8、4.78208.6520053905.641739.41190.06274.1520064462.742087.241356.79335.4020075252.762615.091603.74381.6120086719.0135942078.7422.2920097521.855077.892430.83299.8520109224.466468.542902.5537538069.943395.06444.98六、SAS操作(1)逐步回归法逐步回归的基本思想是:首先在待选的M个变量中选择一个对因变量影响最大的自变量,这可以通过因变量与每一自变量进行回归得到的F值来

9、判断。若最大的F值在给定的显著性水平下是显著的,则该变量被选中,否则选元结束。第二步,在剩下的M-1个变量中再选择一个变量加入到模型中,这可以通过偏F检验来判断。偏F统计量为: 其中,表示模型已存在变量的条件下新加入变量对因变量的贡献。若最大的偏F统计量在给定的显著性水平下是显著的,则对应的自变量则被加入到模型中,否则不再加入其它变量,选元结束。第三步,对已在模型中的每个变量进行显著性检验。若检验不显著,则去掉该变量,再重复进行第二步和第三步,否则保留该变量,重复进行第二步和第三步,这一过程一直进行到待选的全部自变量根据给定的显著性水平没有一个再能被选入模型或排除出刚构成的回归模型为止。输入程

10、序:data exp3;input Y X1 X2 X3;cards;82.6518.5525.28.6593.0123.9129.0812.21103.5325.5634.6415.42107.962538.0415.37114.1132.3639.7614.24123.4238.2744.6314.27147.5348.6752.1712.34175.7867.664.1211.53194.7475.8981.3912.55220.1281.6395.5715.17259.7196.85121.2816.83283.4995.43134.316.86310.9598.03139.8817.

11、86342.65144.19159.4416.06411.04185.12181.217.52538.94246.16227.4219.42732.89345.46303.3724.00931.97417.95375.6429.981121.93491.9470.0440.491264.63556.43535.0250.181374.6640.15587.1254.991500.95631.92657.2863.321701.88695.1736.6386.291919.09805.34832.795.022150.76926.65941.36115.952578.031180.54922.2

12、7143.743110.971446.491044.78208.653905.641739.41190.06274.154462.742087.241356.79335.405252.762615.091603.74381.616719.0135942078.7422.297521.855077.892430.83299.859224.466468.542902.55375.1711307.38069.943395.06444.98;proc reg graphics;model Y=X1 X2 X3/selection=stepwise sls=0.05 sle=0.2 r;plot stu

13、dent.*p.='*'run;该程序告诉我们先建立一个临时数据集(一般临时的数据集在逻辑库里的work中)名叫EXP3;里面有4个变量Y X1 X2 X3.其中proc reg graphics 是表示回归作图“selection=stepwise”表示逐步回归(选元,并给出回归结果),“sls=0.05”表示变量保留在模型中的显著性水平为0.05,而“sle=0.2”则表示变量选入到模型中的显著性水平为0.2,PLOT语句画标准残差与预测值的残差图。逐步回归结果图和残差图图1图2图3图4图5图6从图1至图6是对因变量Y进行逐步回归的结果,第一步(图1),变量X2被加入到模型

14、中,说明三个自变量分别关于Y回归,其中由X2与Y回归得到的F统计量值最大,为3642.82,对应的概率为0.0001,在0.05的显著性水平下通过检验。第二步,分别把变量X1和X3加入到刚建立的模型中,并分别计算其偏F检验值,结果表明X1的偏F统计值大于X3的偏F统计值,为20.3对应的概率为0.0001,小于进入模型的显著性水平0.20,所以X1被选入到模型中,此时模型中已有EXPEND和ads两个变量。第三步,对X3和X1分别计算其偏F统计量值及其对应的概率(程序繁多就不一一输出),结果两个变量的偏F检验对应的概率都小于保留在模型中的显著性水平0.05,因此两个变量都被保留下来。第四步,重

15、复第二步和第三步,即把最后一个变量加入到由X2和X1对Y进行回归的模型中,结果两个变量的偏F检验对应的概率也都小于保留在模型中的显著性水平0.05,因此两个变量也都可以被保留下来。从残差图(图6)中和逐步回归表中可以得到回归方程如下:统计量值: (0) (854.93) (361.21) (624.13) F=41426.4对应概率:(0.9981)(<0.0001) (<0.0001) (<0.0001) (<0.0001)R-Square = 0.9998 and C(p) = 4,MSE=2164.55531,SSR=649371.固定资产形成总额,社会消费品零售

16、总额和出口总额都与GDP有显著的关系。2.固定资产形成总额的系数表明固定资产形成总额没每加1亿元,GDP将增加0.6353亿元;社会消费品零售总额的系数表明社会消费品零售总额每1亿元,GDP将增加1.21375亿元,出口总额每增加1亿美元,GDP将增加4.48899亿元。(2)多重共线性多重共线性是指在多元回归分析中自变量之间存在线性关系,用数学术语来表达就是系数矩阵的秩<P+1,即R()<P+1,换句话说,某一个自变量可以被其它自变量线性表示,此时称自变量之间完全共线。但实践中,由于系数矩阵来自于样本观测,所以自变量之间的完全共线往往较少,代之的是自变量之间的近似共线性或称为高度

17、共线性。当回归模型中的自变量存在高度共线性时,虽然参数的OLS法估计量仍是的BLUE估计,但其估计量的稳定性却很差,也就是说对于不同的样本得到的参数估计值往往差别很大,从而造成检验失效。因此在进行多元线性回归分析时,判断和处理自变量间多重共线性非常必要。1自变量间多重共线性的判断自变量间多重共线性的判断方法很多。除了利用有关理论经验地判断外,如C-D函数中的劳动力和资本使用量之间往往存在多重共线,通常在统计上一个简单而又有效的判断方法是:对所有自变量关于因变量进行回归,若拟合优度很高,且F检验显著,但每一个自变量的回归系数T检验都不显著,则表明自变量间可能存在高度的多重共线。 关于多重共线,S

18、AS系统提供了以下判断指标:方差膨胀因子VIF,定义为VIF ,它表示回归系数的估计量由于自变量的共线性使得方差增加的一个相对度量,表示第个自变量对模型中其余自变量进行线性回归所得到的拟合优度。一般来说,VIF>10则表明自变量间存在高度共线。条件指数(condition indices) K,定义为:最大特征值与每个特征值比值的平方根,其中最大条件指数K称为矩阵的条件数。一般来说,若1K10,则可以认为自变量之间不存在或弱的多重共线;10<K<30,则认为自变量之间存在较强的多重共线;若K30,则认为存在高度的多重共线。方差比率(Var Prop),通过主成分分析方法把矩阵

19、X的P+1个特征值分解到P+1个主成分变量上(常数项也作为一个变量),每个变量分得的方差称为方差比率。对大的条件数若同时有两个以上的方差比率超过50%,则认为这些变量之间存在一定程度的相关。在SAS中输入代码:proc reg corr; /*对模型进行回归分析过程,并要求计算变量之间的相关系数*/model y=x1 x2 x3/ vif collin collinoint; /* vif要求计算方差膨胀因子,而collin和collinoint则要求进行多重共线诊断*/run;在上面的程序中,proc reg调用回归分析过程,并按MODEL语句给出的模型结构进行分析,其中选项corr要求计

20、算变量之间的相关系数, vif要求计算方差膨胀因子,而collin和collinoint则要求进行多重共线诊断,两者的区别是前者没有对截据项进行调整,而后者进行了调整。当截据项经检验是显著时,应考察由collinoint输出的结果,否则参看由collin输出的结果(由于我们前面已经检验了截距项是显著的,所以我们这里考察collinoint输出的结果)。程序运行结果如下:变量之间线性回归及多重共线诊断结果图7图8图9图10从变量之间线性回归及多重共线诊断结果中最上面的相关系数阵(图7)可以看出,X1、X2、X3与Y都是正相关,并且X1、X2,X3都与Y高度正相关,相关系数分别为0.9853,0.

21、9956和0.9456。在自变量之间,X2与Y的相关系数为0.9956最高,而X2与X1的相关系数高达0.977(X2为社会消费品零售总额,X1为固定资本形成总额)X2和X3以及X1和X3的相关系数也很好高其值分别为0.9356和0.8827;上述说明X2与Y存在高度的线性关系,也说明X2和X1、X3存在高度相关性,且X1和X3也存在高度相关性(可以说明存在多重共线性);这与我们从经济理论得到的判断是一致的。输出表中(图9)的方差膨胀因子(vaiance inflation)和最下面的共线性诊断(因为截据项检验显著)也说明了这一点。其中条件数为14.66908,而在变量X1和X2上的方差比率分

22、别为0.88783和0.99208,远超过50%,说明两变量高度共线。如果不对多重共线进行处理而直接进行线性回归,根据输出分析表可以写出以下方程:检验统计量:(-0.00) (29.24) (19.01) (24.98) F=41426.4对应概率: (<0.0001)(<0.0001) (<0.0001) (<0.0001) (<0.0001)R-Square=0.9998 Adj R-Sq=0.9997 Root MSE=46.52478上述分析中我们发现的X2和X3存在高度相关性,虽然X2和X3的T检验显著。由于自变量X2与X3高度相关,为了消除这一影响,通

23、常可以去掉一个不重要的因素,然后就剩下的两个自变量对因变量进行回归。考虑到X2和X3对Y都很重要,为保留这两个变量,以下我们将REG过程就三个自变量对Y做主成分回归。2主成分回归:利用主成分分析方法,把P个自变量表示成K(K<P)个主成分。由主成分的性质知,这K个主成分是不相关的。再用这K个主成分关于因变量回归,最后把回归结果再转化为由原来的自变量和因变量之间的回归模型。输入代码:proc reg data=EXP3 outest=result1 outvif;/*对模型进行回归,并且把结果输入到数据集result*/model Y=X1 X2 X3/pcomit=1;/* “pcomi

24、t=1”表示去除最后一个主成分*/run;proc print data=result1;run;在上述程序中,MODEL语句后的选项“pcomit=1”表示去除最后一个主成分,用剩下的P-1个主成分作为自变量关于因变量回归。本例中有三个自变量,所以主成分有三个,去除一个后还有两个。用这两个主成分对进口额进行回归,回归的结果存放到由proc reg语句规定的选项“outest=”的数据集result1中。程序运行结果如下:图11由图11第三行可以写出主成分回归方程如下:从方程中我们可以得出如下结果:固定资本形成总额的系数表明固定资本形成总额每增加1亿元,GDP将增加0.63348亿元,而城社会

25、消费品零售总额系数表明社会消费品零售总额每增加1元,GDP将增加1.21941亿元,出口总额每增加1亿美元,GDP将增加4.47803亿元。(3).预测我们预测Y(预测下一年的GDP)可以通过时间序列的方法进行预测。先通过SAS的文件菜单点击导入数据,并且把导入的数据命名为tjsj(一般导入的数据在逻辑库的work里面)。对数据进行平稳性检验。输入代码:data Y; /*建立临时数据集命名为sj*/input year Y; /*输入年份以及变量数据*/cards; /*进行数据录入*/197882.65197993.011980103.531981107.961982114.1119831

26、23.421984147.531985175.781986194.741987220.121988259.711989283.491990310.951991342.651992411.041993538.941994732.891995931.9719961121.9319971264.6319981374.619991500.9520001701.8820011919.0920022150.7620032578.0320043110.9720053905.6420064462.7420075252.7620086719.0120097521.8520109224.46201111307.3

27、;proc gplot data=Y; /*对数据集进行绘制时序图*/plot Y*year/haxis=1978 to 2012 by 2; /*指出曲线图变量所在坐标轴,Y是曲线图的纵轴,year则是曲线图的横轴;haxis则是将横从1978至2012进行等距离划分,相邻两个值间隔2*/symbol c=red i=join v=star; /*各点的形状为星号,通过直线连接,曲线颜色为红色*/run;第一个代码表示对该序列绘制时序图用于观测平稳性,其中plot Y*date的含义是规定将输出以date为横坐标,以Y为纵坐标的曲线图;symbol c=red i=jion v=star该语

28、句的作用是规定所绘制图形的格式。此图形中各点的形状为星号,各点是通过直线连接的,曲线的颜色为红色。绘制图12所示:图12图12为原始数据时序图,可以看出具有明显的趋势性(有点成曲线指数增加的趋势)为非平稳模型。所以对原序列进行1阶差分。输入代码:data Y;input year Y;dif1=dif(Y); /* 对序列Y进行一阶差分*/cards;197882.65197993.011980103.531981107.961982114.111983123.421984147.531985175.781986194.741987220.121988259.711989283.4919903

29、10.951991342.651992411.041993538.941994732.891995931.9719961121.9319971264.6319981374.619991500.9520001701.8820011919.0920022150.7620032578.0320043110.9720053905.6420064462.7420075252.7620086719.0120097521.8520109224.46201111307.3;proc gplot data=Y; /*对数据集进行绘制时序图*/plot dif1*year/haxis=1978 to 2012 b

30、y 2; /* dif1是曲线图的纵轴,year则是曲线图的横轴;haxis则是将横从1978至2012进行等距离划分,相邻两个值间隔2*/symbol c=red i=join v=star; /*各点的形状为星号,通过直线连接,曲线颜色为红色*/run;输出结果如图13所示图13由图13看出1阶差分后序列在某一均值附近较平稳的波动,为了进一步确定序列的平稳性,所以对序列进行自相关以及白噪声检验。对差分后的新序列进行白噪声检验并判断其平稳性输入代码:proc arima data=Y; /*对数据进行arima模型识别*/identify var=Y(1); /*对1阶差分数据进行自相关和纯

31、随机性检验*/run;图14图15图16由图16可以看出,经过白噪声检验,延迟6阶后检验统计量P值为0.694,仍大于给定的显著性水平,所以可以对序列继续进行二阶差分:输入代码;data Y;input year Y;dif1=dif(Y);dif2=dif(dif1); /* 对新序列进行二阶差分*/cards;197882.65197993.011980103.531981107.961982114.111983123.421984147.531985175.781986194.741987220.121988259.711989283.491990310.951991342.651992

32、411.041993538.941994732.891995931.9719961121.9319971264.6319981374.619991500.9520001701.8820011919.0920022150.7620032578.0320043110.9720053905.6420064462.7420075252.7620086719.0120097521.8520109224.46201111307.3;proc gplot data=Y; /*对数据集进行绘制时序图*/plot dif2*year/haxis=1978 to 2012 by 2; /* dif2是曲线图的纵轴

33、,year则是曲线图的横轴;haxis则是将横从1978至2012进行等距离划分,相邻两个值间隔2*/symbol c=red i=join v=star; /*各点的形状为星号,通过直线连接,曲线颜色为红色*/run;输出结果如图17所示。图17由图17可以看出,2阶差分后序列在某一均值附近较平稳波动,为了进一步确定其平稳性,对序列进行自相关检验。输入代码:proc arima data=Y; /*对数据进行arima模型识别*/identify var=Y(2); /*对2阶差分数据进行自相关和纯随机性检验*/run;图18图19图20由图20可以看出,经过白噪声检验,延迟6阶的检验P值小

34、于0.0001,比给定的显著性水平小,因此,拒绝原假设,认为该序列为平稳的非白噪声序列。所以,对该序列建模是有意义的。对平稳序列寻找相对最优定阶输入代码:proc arima data=Y;identify var=Y(2) nlag=8 minic p=(0:7) q=(0:7); /*在identify命令中增加一个可选命令minic,SAS系统会自动输出BIC信息达到最小的模型得阶数*/run;其中BIC信息量达到最小的模型得的阶数,实现模型优化的过程。输出结果如下图所示。图21由图21可以看出,在自相关延迟阶数小于等于7,移动平均延迟阶数也小于等于7的所有ARMA(p,q)模型中,BIC信息量相对最小的是ARMA(6,7)模型,即ARMA模型,并对其进行模型估计。输入代码:proc arima data=Y;identify var=Y(2);estimate p=6 q=7;/*对模型ARMA(5,3)进行参数估计*/run; 该代码表示对模型的参数进行估计,其中estimate p=5 q

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论