大学毕业论文-—多元回归分析中变量的选择spss的应用_第1页
大学毕业论文-—多元回归分析中变量的选择spss的应用_第2页
大学毕业论文-—多元回归分析中变量的选择spss的应用_第3页
大学毕业论文-—多元回归分析中变量的选择spss的应用_第4页
大学毕业论文-—多元回归分析中变量的选择spss的应用_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、遂廈工商大尊毕业论文题目多元回归分析中的变量选取SPSS的应用院(系)数学与统计学院专业年级2010级统计学学生姓名殷婷学号2010101217指导教师职称副教授日期2014-4-22 多元回归分析中的变量选取SPSS的应用殷婷摘要本文不仅对于复杂的统计计算通过常用的计算机应用软件SPSS来实现,同时通过对两组数据的实证分析,来研究统计学中多元回归分析中的变量选取,让大家对统计中的多元回归数据的选取和操作方法有更深层次的了解。一组数据是对于淘宝交易额的未来发展趋势的研究,一组数据时对于我国财政收入的研究。本文通过两个实证从不同程度上对数据选取的研究运用通俗的语言和浅显的描述将SPSS在多元回归

2、分析中的统计分析方法呈现在大家面前,让大家对多元回归分析以及SPSS软件都可以有更深一步的了解。通过SPSS软件对数据进行分析,对数据进行处理的方法进行总结,找出SPSS对于数据处理和分析的优缺点,最后得在对变量的选取和软件的操作提出建议。关键词:统计学SPSS变量的选取多元回归分析AbstractInthispaper,notonlyforcomplexstatisticalcalculationsdonebythecommonlyusedcomputerapplicationsoftwareofSPSS,throughtheempiricalanalysisofthetwogroupsof

3、dataatthesametime,tostudythestatisticsofthevariablesinthemultivariateregressionanalysis,leteverybodytoselectmultipleregressioninstatisticaldataandoperationmethodshaveadeeperunderstanding.Isasetofdataforthefuturedevelopmenttrendoftaobaotransactionsofresearch,asetofdatafortheresearchofourcountrysfinan

4、cialincome.Inthispaper,throughtwoempiricaltoselectdatafromdifferentextentresearchusingacommonlanguageandplaintheSPSSstatisticalanalysismethodinmultipleregressionanalysisofpresentinfrontofeveryone,leteveryonetomultipleregressionanalysisandSPSSsoftwarecanhaveadeeperunderstanding.ThroughtheSPSSsoftware

5、toanalyzedata,andsummarizesmethodofdataprocessing,findouttheadvantagesanddisadvantagesofSPSSfordataprocessingandanalysis,finallyhadtoputforwardtheproposaltotheoperationoftheselectionofvariablesandsoftware.Keywords:StatisticalSPSSTheselectionofvariablesmultipleregressionanalysis目录TOC o 1-5 h z摘要1英文摘要

6、1 HYPERLINK l bookmark4 引言3第一章回归分析31.1自变量的选择41.2国内外研究现状5 HYPERLINK l bookmark16 第二章案例分析一:淘宝交易额的研究62.1数据的来源及变量的选取62.2相关分析72.2.1散点图72.2.2计算相关系数82.3回归分析112.4小结13 HYPERLINK l bookmark28 第三章案例分析二:财政收入的研究143.1数据的来源及变量的选取143.2相关分析153.2.1散点图153.2.2计算相关系数173.3回归分析193.4逐步回归213.5小结24 HYPERLINK l bookmark40 第四章

7、总结及建议25 HYPERLINK l bookmark42 参考文献26引言统计学是一门提供数据信息的收集、处理、归纳和分析的理论与方法的科学。然而随着社会的发展,统计的运用范围越来越广泛,统计学作为高等院校经济类专业和工商管理类专业的核心课程,不管是在经济管理领域,或是在军事、医学等领域的研究中对于数量分析与统计分析都需要更高的要求,需要用到的数学知识较多,应用方面的灵活性也较强,计算量大且复杂。随着我国社会主义市场经济的日趋完善,不管是在宏观经济的经济调控领域还是在微观的企业管理领域中,人们必须准确及时的获得经济运行中的各类信息才能得到高效的监控和科学的管理。然而科学研究的深入,研究的对

8、象也日益变得复杂,复杂系统的研究问题更是成为当今研究的热点。为了更好的描述一个复杂的现象,就需要大量的数据和信息,如何高效、准确地利用已知的信息便成为当今社会研究的一项重要课题。基于以上背景,本文通过总结和吸取其他国内外学者对统计学研究的,并结合我国的实际情况,本文采用了案例一对于网络购物这块的的研究,通过对2005年到2012年的居民消费水平,以及我国网络普及度,我国人人均纯收入以及我国的居民消费水平对淘宝网的未来发展趋势进行定量数据的研究以及案例二对于我国财政收入的研究,通过对2000年到2012年的人均国内生产总值,经济活动人口,全社会固定投资,进出口总额,居民消费价格水平对我国财政收入

9、的影响进行定量数据的研究。通过对数据的选取,以及软件的操作方法来告知读者如何在SPSS的操作中变量选取的原则、要求和方法。第一章自变量的选择1.1自变量的选择在多元线性回归模型中,自变量的选择实质上就是模型的选择。现设一切可供选择的变量是t个,它们组成的回归模型称为全模型(记:m=t+1),在获得n组观测数据后,我们有模型Y=XP+N(0Q21)nn其中:Y是nx1的观测值,P是mx1未知参数向量,X是nxm结构矩阵,并假定X的秩为m。现从x,x,,x这t个变量中选t变量,不妨设x,x,,x,那么对全模型中的参12t12tf数p和结构矩阵X可作如下的分块(记:p二t+1):卩=(p,卩),X:

10、X)pqpq我们称下面的回归模型为选模型:Y=XB+pp卜N(Oq21)n其中:Y是nx1的观测值,卩是px1未知参数向量,X是nxp结构矩阵,并假定Xppp的秩为p。自变量的选择可以看成是这样的两个问题,一是究竟是用全模型还是用选模型,二是若用选模型,则究竟应包含多少变量最适合。如果全模型为真,而我们用了选模型,这就表示在方程中丢掉了部分有用变量,相反,如果选模型为真,而我们选用了全模型,这就表示在方程中引入了一些无用变量,下面从参数估计和预测两个角度来看一看由于模型选择不当带来的后果。为了讨论方便起见,先引入几个记号:全模型中参数卩Q2的估计:P二(XX)-1XY八C)2其中:R(X)为矩

11、阵X的秩。在点x二(xx)点上的预测值为y=x卩1tppp在选模型中参数卩Q2的估计:卜=(XX)-1XYpppp1,a2=YIX(XX)-1XYpnR(X)ppppp在x=(xx)=(x,x)(x,x)J上的预测值为=x卩pq1pp+1tppp1.2国内外研究现状在科学技术飞速发展的今天,统计学广泛吸收和融合相关学科的新理论,不断开发应用新技术和新方法,深化和丰富了统计学传统领域的理论与方法,并拓展了新的领域。今天的统计学已展现出强有力的生命力。在我国,社会主义市场经济体制的逐步建立,实践发展的需要对统计学提出了新的更多、更高的要求。随着我国社会主义市场经济的成长和不断完善,统计学的潜在功能

12、将得到更充分更完满的开掘。在应用回归分析去处理实际问题时,回归自变量选择是首先要解决的重要问题。通常,在做回归分析时,人们根据所研究问题的目的,结合经济理论罗列出对因变量可能有影响的的一些因素作为自变量引进回归模型,其结果是把一些对因变量影响很小的,有些甚至没有影响的自变量也选入了回归模型中,这样一来,不但计算量变大,而且估计和预测的精度也会下降。此外,如果遗漏了某些重要变量,回归方程的效果肯定不好。在一些情况下,某些自变量的观测数据的获得代价昂贵,如果这些自变量本身对因变量的影响很小或根本没有影响,我们不加选择的引进回归模型,势必造成观测数据收集和模型应用的费用不必要的加大。因此,在应用回归

13、分析中,对进入模型的自变量作精心的选择是十分必要的。SPSS软件作为当今国际上运用广泛的统计分析软件,因其具有自动统计绘图、数据的深入分析、易学易用、功能齐全等特点,在各个领域得到了迅速普及,并成为各行业管理组织提高管理水平、形成科学决策的重要手段。然而,我国对该软件的理解和运用还处于早期应用阶段,对其功能的研究开发与实际生活当中的运用与西方发达国家相差甚远。特别是在管理决策方面,管理者对客观现实的准确把握对于决策起着至关重要的作用,他们花费大量人力、物力、财力收集统计数据,但是由于没有进行深度分析而浪费,或者仅仅利用SPSS软件进行简单分析而未进行深度开发,致使所得信息有限、各信息间的关系不

14、明确,最终导致管理者的判断出现偏差。第二章案例分析一:淘宝交易额的研究数据的来源及变量的解释为研究淘宝网未来发展趋势,从新浪官方微博淘宝数据魔方中获得淘宝2009年聚划算中购物群众的年龄比例作为定性数据,进行研究年龄对淘宝购物的影响。并在新浪财经网上获得淘宝网自2005年到2012年的淘宝交易额以及淘宝注册人数的数据。在中商情报局里获得我国近网络普及度等数据并从国家统计年鉴中选取统计指标居民消费水平。淘宝注册人数(x)在一定程度上反应了网络购物的群众的人数,反应了当今社会1网络购物的普遍性。同时淘宝的注册人数也展现了人们对网络购物的认可度,换言之也就是说接受了网络购物并会在网上进行消费,是对网

15、络购物很大程度上的支持。我国网络普及度(x)是指我国近几年网络在我国普及的范围,这一块更好的反映2了网络对居民网络消费的影响,因为网络是网络消费的必要条件。我国网络普及度反映的是在我国日趋发展的经济下,网络也得到了普遍的广泛,人们对网络的接受程度,信任程度也是直接影响到淘宝的网络购物。居民消费水平(x3)是指居民在物质产品和劳务的消费过程中,对满足人们生存、发展和享受需要方面所达到的程度。通过消费的物质产品和劳务的数量和质量反映出来。居民消费水平是指居民在物质产品和劳务的消费过程中,对满足人们生存、发展和享受需要方面所达到的程度。它主要通过消费的物质产品和劳务的数量和质量来反映。居民消费水平的

16、提高也能很好的展现在网络消费上作出的贡献。通过对以上这三个定量数据的研究来其与淘宝交易额的关系,从而研究淘宝未来的发展趋势以及优劣态。原始数据如下:年份淘宝网年交易总额亿)y淘宝注册人数(万人)xl我国网络普及度1%)x2居民消费水平盘20058925008.555962006169350010.562992007433.1530016731020089996980022.68430200920001700028.99283201040003700034.310522201178006500038.3125702012100007000042.114098由于数据之间单位的不同,为了消除量纲的

17、影响,把数据标准化进行处理,得到如下标准化的数据(所有取值保留了两位小数):年份淘宝网年交易总额亿)y淘宝注册入数(万A)xi我国网络普及度(%)x2居民消费水平工3200511112006L90140I1.241.13200T4.872.121.88LSI200811.233.922661.51200922.476,803.401.662010449414.8014.04L88201187.6426.004.512.252012112.3628.004.952.522.2相关分析2.2.1散点图对y与各个变量作出散点图 120.00-3)我国居民消费水平与淘宝交易的相关性检验:y=-91.8

18、87+77.036x3100.00-80.00-牛60.00-40.00-Scale2015105020.00-由以上二个散点图可知,其所有的点均落在了左上至右下的一条直线上,表明了数据之间存在显著相关关系。所-以我们还需要对数据进行进一步的分析,得到确切的答案。1.001.502.002.503.00222计算相关系数(1)复相关系数r是用来衡量回归直线对于观察值配合的密切程度,即用来衡量因变量y与自变量x,x,X之间相关的密切程度。以下是用SPSS对数据进行相关性分123析,得到如下的相关系数图CrirreEationsx3_.965.0000_966.0000_.970-.000.901

19、.0028.917.00181.992.00081yPearson.CorrelationSigZ0;应的概率Sil.000P值为0.000,小于显著性水平0800.917.001.01的显著性水平定的线性关系,相关显著相关,衣示呈一.0005,说明淘宝交易额与淘宝注.000系数检验对册人数之间相关性显著。y诸的相关系数为089010,表示呈一定的线性关系,相关系数检验对应2的概率P值为0.002,小于显著性水平0.05,说明淘宝交易额与我国网络普及度之间相关性显著。y与X3的相关系数为0.9650,表示呈一定的线性关系,相关系数检验对应的概率P值为0.000,小于显著性水平0.05,说明淘宝

20、交易额与居民消费水平之间相关性显著。综上所述通过SPSS得出的相关系数的矩阵得到为:r0.992ryx=0.901ryx=0.965yx123由以上数据可以看出,各列之间存在正相关关系。即淘宝网注册人数X、我国网络普及1度X、我国居民消费水平X3与淘宝交易总额y存在正相关关系。(2)计算偏相关系数:在多变量的情况下,变量之间的相关系数是相当复杂的。任意两个变量之间都有可能存在着相关关系,因此,只知道被解释变量与解释变量的总的相关程度是不够的。如果需要了解某两个变量间的相关程度,就应在消除其他变量影响的情况下来计算他们的相关系数,这就是偏相关系数。下面是用SPSS作出的偏相关系数:消除我国网络普

21、及度和居民消费水平的影响后,计算淘宝注册人数与淘宝交易额的偏相关系数为:CorrelationsControlVariablesyx1x2&x3yCorrelation1.000.894Significance(2-tailed).016df04x1Correlation.8941.000Significance(2-tailed).016df40解析:由上可知,淘宝注册人数与淘宝交易额的偏相关系数为0.894。消除淘宝交易额和居民消费水平的影响后,我国网络普及度和淘宝交易额的偏相关系数为:CorrelationsControlVariablesyx2x3&x1yCorrelation1.00

22、0-.806Significance(2-tailed).053df04x2Correlation-.8061.000Significance(2-tailed).053df40解析:由上可知我国网络普及度与淘宝交易额的偏相关系数为-0.806。消除淘宝注册人数和我国网络普及度的影响后,我国居民消费水平和淘宝交易额的偏相关系数:CorrelationsControlVariablesyx3x1&x2yCorrelation1.000.810Significance(2-tailed).051df04x3Correlation.8101.000Significance(2-tailed).051

23、df40解析:由上可知,我国居民消费水平和淘宝交易额的偏相关系数为0.810。消除我国居民消费水平和淘宝交易额的影响后,淘宝注册人数和我国网络普及度的偏相关系数:CorrelationsControlVariablesx1x2x3&yx1Correlation1.000.584Significance(2-tailed).224df04x2Correlation.5841.000Significance(2-tailed).224df40解析:由上可知,淘宝注册人数和我国网络普及度的偏相关系数为0.584。消除淘宝注册人数和淘宝交易额的影响后,我国居民消费水平和我国网络普及度的偏相关系数:Co

24、rrelationsControlVariablesx2x3y&x1x2Correlation1.000.863Significance(2-tailed).002df04x3Correlation.8631.000Significance(2-tailed).002df40解析:由上可知,我国居民消费水平和我国网络普及度的偏相关系数为0.963。消除我国网络普及度和淘宝交易额的影响后,我国居民消费水平和淘宝注册人数的偏相关系数:CorrelationsControlVariablesx3x1y&x2x3Correlation1.000-.505Significance(2-tailed).3

25、06df04x1Correlation-.5051.000Significance(2-tailed).306df40解析:由上可知,我国居民消费水平和淘宝注册人数的偏相关系数为-0.505。综上:从以上的偏相关系数来看,如果我国网络普及度和居民消费水平保持不变,淘宝注册人数与淘宝交易额之间存在显著相关,当淘宝交易额和居民消费水平的保持不变时,我国网络普及度和淘宝交易额之间存在显著负相关,当淘宝注册人数和我国网络普及度的保持不变时,我国居民消费水平和淘宝交易额的也存在显著相关,当我国居民消费水平和淘宝交易额保持不变时,淘宝注册人数和我国网络普及度之间存在显著相关,当我国网络普及度和淘宝交易额保

26、持不变时,我国居民消费水平和淘宝注册人数存在显著负相关。但是其关系强度较前者略低,所以经过以上系数得到的偏相关系数可以看出,其相关程度较原关系的强度低,应采用原数据的自变量和因变量。即所采用的自变量和因变量保持不变。2.3回归分析对数据进行回归分析,得到如下结果:ModelSummary1*ModeRRSquareAdjustedRSquareStd.ErroroftheEstimateChangeStatisticsDurbinWatsonRSquareChangeFCh日nQEdf1df2Sig.FChange1.997a.995.9904.15702.995244.23134.0002.

27、0323.Predictors:(Constant),x3,x1,x2b.DependentVariable:y解析:复相关系数为0.997,判定系数为0.995,调整系数为0.990,估计值的标准误差为4.157。ANOVAbModelSumofSquaresdfMeanSquareSig.RegressionResidual12661.52469.1234220.508244.231.000a17.281Total12730.6477|a.Predictors:(Constant),x3,x1,x2b.DependentVariable:y解析:由上面结果的看其显著性检验结果为,回归平方和

28、为12661.224,残差平方和69.123,总平方和12730.647,F统计量的值为244.231,对应的概率P值为0.000,小于显著性水平0.05,,即:淘宝交易总额y与淘宝网注册人数x、我国网络普及度x12和我国居民消费水平x之间存在线性关系,所以可认为所建立的回归方程有效。3CoefficientsaModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1(Constant)-59.70921.531-2.773.050 x12.529.636.6593.980.016x2-15.9855

29、.870-.563-2.723.043x370.13925.378.8792.764.031a.DependentVariable:y解析:由上图可知,因变量y与常数项和自变量x,x,x的回归的标准化回归系数分123别为-59.709,2.529,-15.985,70.139。3个回归系数B的显著性水平x小于0.05,这1里可以认为自变量x,x,x对因变量y有显著性影响。于是得到回归方程为:123y=59.709+2.529x-15.985x+70.139x123由上图可知对数据进行t值检验,在给定的a=0.05,自由度n=8-2=6的临界值时,查表得t6=2.4470.025因为x,x,x的

30、参数对应的t统计量的绝对值均大于2.447,这说明5%的显著性水平123下,斜率系数均显著不为0,表明淘宝网注册人数x,我国网络普及度x,我国居民消12费水平x等变量联合起来对该商品的消费支出有显著的影响。3P检验:由上表可以看出各自变量以及常数项的P值分别为:0.05,0.016,0.043及0.031,可以看出其P值均小于0.05,均通过检验综上所述,三个自变量对因变量都有显著性影响,并都通过了检验可以得到最优方程式为:y=59.709+2.529x-15.985x+70.139x1232.4小结通过SPSS操作最后得到的淘宝交易额的预测方程式:y=59.709+2.529x15.985x

31、+70.139x123再加上最后对数据的检验可以得出淘宝网注册人数x,我国网络普及度x,我国居12民消费水平x3等变量联合起来对淘宝交易总额y有显著的影响。影响公式可以近似为:y=59.709+2.529x15.985x+70.139x123即:淘宝注册人数增加就可使得淘宝网的交易额增加。众所周知我国网络普及度是在逐年增加的,这里表现出的网络普及度为负指标,并不代表网络普及度要递减才可以使得淘宝交易额增加,随着社会的发展,中国的发展更是越来越迅速,网络普及度的增加使得更多的地方有网络,更多的人了解网络才能使得我国淘宝注册人数的增加。这两个自变量之间存在着相对严密的关系。人均收入的增加固使得人们

32、的消费指数上升,那么人们在网络购物和日常消费的比例也会发生变化,这里我们可以看出这个比例是在增加的,那么淘宝交易额增加也是必不可少的。第三章案例分析二:我国财政收入的研究数据的来源及变量的解释为研究我国财政收入情况,为研究人均国内生产总值,经济活动人口,全社会固定资产投资,进出口总额,居民消费价格指数对财政收入的影响,通过中国国家统计局下载2000年到2012年的数据进行研究。人均国内生产总值x是指国内生产总值的绝对值与该年平均人口的比值,是衡量一个国家或地区每个居民对该国家或地区的经济贡献或创造价值的指标。经济活动人口x是指在16周岁及以上,有劳动能力,参加或要求参加社会经济活动的2人口。包

33、括就业人员和失业人员。全社会固定资产投资x3是指以货币形式表现的在一定时期内全社会建造和购置固定资产的工作量以及与此有关的费用的总称。其反映固定资产投资规模、结构和发展速度的综合性指标的同时,也是观察工程进度和考核投资效果的重要依据。我国的进出口总额X是指实际进出我国国境的货物总金额。其用以观察一个国家在4对外贸易方面的总规模。财政收入y指国家财政参与社会产品分配所取得的收入,是实现国家职能的财力保证。财政收入按现行分税制财政体制划分为中央本级收入和地方本级收入。原数据如下:年份财政收入(亿元)y人均国内生产总值(元)x1经济活动人口(万人)x2全社会固定资产投资(亿元)x3进出口总额(人民币

34、亿元)x41992年3483.372311.09667828080.19119.61993年4348.952998.366746813072.3112711994年5218.140446813517042.120381.91995年6242.25045.736885520019.323499.91996年7407.995845.896976522913.524133.81997年8651.146420.187080024941.126967.21998年9875.956796.037208728406.126849.71999年11444.087158.57279129854.729896.2

35、2000年13395.237857.687399232917.739273.22001年16386.048621.717388437213.542183.62002年18903.649398.057449243499.951378.22003年21715.25105427491155566.6170483.52004年26396.4712335.67529070477.4395539.12005年31649.2914185.47612088773.611169222006年38760.216499.776315109998.21409742007年51321.7820169.576531137

36、323.91668642008年61330.3523707.777046172828.41799212009年68518.325607.577510224598.81506482010年83101.5130015.178388251683.82017222011年103874.435197.878579311485.12364022012年117253.538459.578894374694.7244160由于数据单位不同,为了消除量纲的影响,用SPSS对数据进行标准化处理,得到如下标准化的数据(所有取值保留了两位小数):year血x.31992年-0.88-1.08-1.82-0.84-1.

37、041993年-0.86-1.01-1.64-0.80-1.011994年-0.83-0.92-1.47-0.76-0.901995年-0.80-0.82-1.28-0.73-0.861996年-0.77-075-1.04-0.71-0.8519盯年-0.73-0.70-0.77-0.69-0.811998年-0.70-0.66-0.43-0.66-0.821999年-0.65-0.63-0.25-0.64-0.782000-0.59-0.560.06-0.61-0.662001-0.51-0.49G.04-0.57-0.622DCI2年-0.43-0.420.20-0.51-0.502003

38、-0.35-0.320.31-0.40-0.262伽年-0.22-0.150.40-0.260.062D戏年-0.060.020.62-0.090.3320070.100.64年0.510.570.730.360.972血年0.800.900.860.691.1320091.011.080.981.1707620101.441.481.211.421.4120112.041.961.261.981.852D12年2.432.261.352.571.953.2相关分析散点图(1)人均国内生产总值与我国财政收入的线性趋势关系3.1.2相关系数(1)本案例中计算的是因变量y与

39、自变量x,x,x,x之间相关的密切程度。以下1234是用SPSS对数据进行相关性分析,得到如下的相关系数图CorrelationsVx1x2x3x4SpearmansrhoyCorrelationCoefficient1.0001.000.988.999.950Sig.(2-tailed).000.000.000N1616161616X1CorrelationCoefficient1.0001.000.988.999.950Sig.(2-tailed).000.000.000N1616161616x2CorrelationCoefficient.900.9001.000.987.935Sig.

40、(2-tailed).000.000.000.000N1616161616x3CorrelationCoefficient.999.999.9071.000.959Sig.(2-tailed).000.000.000.000N1616161616x4CorrelationCoefficient.950.950.935.9591.000Sig.(2-tailed).000.000.000.000N1616161616*.Correlationissignificantatthe0.01level(2-tailed)解析:图中有带“*”号的结果表明有关的两变量在0.01的显著性水平下显著相关,由上

41、图可知,y与x的相关系数为l0,表示呈一定的线性关系,相关系数检验对应的1概率P值为0.000,小于显著性水平0.05,说明人均国内生产总值与我国财政收入之间相关性显著。y与x的相关系数为0.9980,表示呈一定的线性关系,相关系数检验对2应的概率P值为0.000,小于显著性水平0.05,说明经济活动人口与我国财政收入之间相关性显著。y与x3的相关系数为0.9990,表示呈一定的线性关系,相关系数检验对应的概率P值为0.000,小于显著性水平0.05,说明全社会固定资产投资与我国财政收入之间相关性显著。y与x的相关系数为0.9500,表示呈一定的线性关系,相关系数4检验对应的概率P值为0.00

42、0,小于显著性水平0.05,说明我国的进出口总额与财政收入之间相关性显著。综上所述通过SPSS得出的相关系数的矩阵得到为:r=1r=0.998r=0.999r=0.950yx1yx2yx3yx4由以上数据可以看出,各列之间存在正相关关系。即人均国内生产总值x、经济活动人1口x、全社会固定资产投资x、我国的进出口总额x与财政收入y存在显著性相关关234系。(2)计算偏相关系数:下面是用SPSS作出人均国内生产总值x、经济活动人口x、全12社会固定资产投资x、我国的进出口总额x与财政收入y的偏相关系数:34表一:Coefficients3ModelUnstandardizedCoefficient

43、sStandardizedCoefficientstSig.95%ConfidenceIntervalforBCorrelationsBStd.ErrorBetaLowerBciurdUpperBoundZero-orderPartialPart1(Constant)13.2054.5592.397.0153.17123.239X11.385.333.7184.160.002.6522.117.993.732.037-13.8444.536-.131-3.019.012-23.939-3.750.965-.673-.027.300.100.3972.997.012.080.521.993.67

44、0.026x4.013.076.013.233.820-.150.186.957.070.002a.Dependentvariable:y表二:CorreiationsControlVariablesyx1x2&x3&x4yCorrelation1.000.782Significance(2-tailed).002df011x1Correlation.7821.000Significance(2-tailed).002df110解析:表一为回归分析图中的人均国内生产总值X、经济活动人口X、全社会固定资产12投资XJ我国的进出口总额X分别与财政收入y的偏相关系数,表二为SPSS偏相关系数34操作

45、中得出的我国人均国内生产总值与我国财政收入的偏相关系数。由人均国内生产总值x为例可以看出我国人均国内生产总值与我国财政收入的偏相关系数为0.782。P值检验的概率为0.0020.05,可以说明我国人均国内生产总值与我国财政收入之间显著性相关。同理,从以上的偏相关系数来看,如果人均国内生产总值、全社会固定资产投资、我国的进出口总额保持不变,经济活动人口与财政收入的偏相关系数为-0.673,其对应的P值检验为0.0120.05,经济活动人口与财政收入之间存在显著相关,当人均国内生产总值、经济活动人口、我国的进出口总额保持不变,全社会固定资产投资与财政收入的偏相关系数为0.670,其P值检验为0.0

46、120.05,我国的进出口总额与财政收入的相关性不显著。3.3回归分析对数据进行回归分析,得到如下结果:ModelSummaryModelRRSquareAdjustedRSquareStd.ErroroftheEstimate11.000a.999.999.08605a.Predictors:(Constant),x4,x3,x2,x1解析:复相关系数为1,判定系数为0.999,调整系数为0.999,估计值的标准误差为0.08605。ANOVAbModelSumofSquaresdfMeanSquareFSig.1Regression95.071423.7683.210E3.000aResi

47、dual.08111.007Total95.15315Predictors:(Constant),x4,x3,x2,x1DependentVariable:y解析:由上面结果的看其显著性检验结果为,回归平方和为95.071,残差平方和0.081,总平方和95.153,F统计量的值为3.210E3,对应的概率P值为0.000,小于显著性水平0.05,,即:人均国内生产总值x、经济活动人口x、全社会固定资产投资x、我国123的进出口总额x与财政收入y之间存在线性关系,所以可认为所建立的回归方程有效。4CoefficientsaModelUnstandardizedCoefficientsStand

48、ardizedCoefficientstSig.BStd.ErrorBeta1(Constant)13.2054.5592.897.015x11.385.333.7184.160.002x2-13.8444.586-.131-3.019.012x3.300.100.3972.997.012x4.018.076.013.233.820a.DependentVariable:y解析:由上图可知,因变量y与常数项和自变量x,x,x,x的回归的标准化回归1234系数分别为13.205,1.385-13.844,0.300,0.018。4个回归系数中可以看出x的显著性4水平大于0.05,即自变量x对因变

49、量y的显著性不明显。而自变量x,x,x的P值4123检验均小于0.05,说明自变量x,x,x对因变量y有显著性影响。123t检验:在给定的a=0.05,自由度n=13-2=11的临界值时,查表得t11二2.2010.025可以看出常数项及自变量x,x,x的参数对应的t统计量的绝对值均大于2.201,这123说明5%的显著性水平下,斜率系数均显著不为0,表明人均国内生产总值x、经济活动1人口x、全社会固定资产投资x等变量联合起来对我国的财政收入y有显著的影响。而23我国的进出口总额x的t值为0.233小于2.201,说明我国的进出口总额x对我国的财44政收入y的影响不显著。所以需要对数据进行逐步

50、回归,剔除影响不显著的变量。未剔除不显著变量时的回归方程为:y二13.205+1.385x13.844x+0.3x+0.018x12343.4逐步回归由上可知自变量进出口总额未通过检验,因此对数据进行逐步回归的处理。逐步回归模型是以已知地理数据序列为基础,根据多元回归分析法和求解求逆紧凑变换法及双检验法而建立的能够反映地理要素之间变化关系的最优回归模型。逐步回归分析是指在多元线性回归分析中,利用求解求逆紧奏变换法和双检验法,来研究和建立最优回归方程的并用于地理分析和地理决策的多元线性回归分析。它实质上就是多元线性回归分析的基础上派生出一种研究和建立最优多元线性回归方程的算法技巧。主要含义如下:

51、1)逐步回归分析的理论基础是多元线性回归分析法;2)逐步回归分析的算法技巧是求解求逆紧奏变换法;3)逐步回归分析的方法技巧是双检验法,即引进和剔除检验法;4)逐步回归分析的核心任务是建立最优回归方程;5)逐步回归分析的主要作用是降维。其主要用途:主要用于因果关系分析、聚类分析、区域规划、综合评价等等。对人均国内生产总值x、经济活动人口x、全社会固定资产投资x、我国的进出口总额123x与财政收入y进行逐步回归分析得:4VariablesEntered/RemovedaVariablesVariablesModelEnteredRemovedMethod1x1Stepwise(Criteria:P

52、robability-of-F-to-enter=.100).2Stepwise(Criteria:Probability-of-F-to-ent3x3er=.100).Stepwise(Criteria:Probability-of-F-to-entx2er=.100).a.DependentVariable:y解析:以上为逐步回归每一步进入或剔除回归模型中的变量情况。由上可以看出我国的进出口总额x4被剔除。其逐步回归的顺序为x,x.32ModelSummarydModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.998a.996.996.

53、155912.999b.998.998.1095431.000c.999.999.08259Predictors:(Constant),x1Predictors:(Constant),x1,x3Predictors:(Constant),x1,x3,x2DependentVariable:y解析:上表为逐步回归每一步的回归模型的统计量:R为相关系数,RSquare相关系的平方,又叫判定系数,判定线性回归的拟合程度:这里可以看到自变量X,x2,x3的判丄厶O定系数分别为0.996,0.998,0.999,这说明自变量与因变量之间的拟合程度很好。AdjustedRSquare是调整后的判定系数,其

54、值与判定系数相同,最后一列是估计标准误差,分别为0.156,0.109,0.083其值均很小,说明所选值之间的标准误差很小。ANOVAdModelSumofSquaresdfMeanSquareFSig.1Regression94.813194.8133.900E3.000aResidual.34014.024Total95.153152Regression94.997247.4983.958E3.000bResidual.15613.012Total95.153153Regression95.071331.6904.646E3.000cResidual.08212.007Total95.15

55、315Predictors:(Constant),x1Predictors:(Constant),x1,x3Predictors:(Constant),x1,x3,x2DependentVariable:y解析:上表为方差分析表,及逐步回归每一步的回归模型的方差分析,可以看出其显著性水平的概率均为0.000,表明此回归模型极显著。Coenicierrts-MnriftlUnstandardizedCoefficientsStandardizedCoefficientstSig.95%ConfidenceInternalforBBStd.ErrorBetaLowerBoundUpperBound

56、1(Constant)-.996.079-12.659.000-1.164-.3271.925.031.99862.454.0001.8591.9912(Constant)-.404.161-2.512.026-.751-.057x11.006.215.5635.047.000.6211.551.330.084.4373.919.002.148.5123(Constant)12.7753.9993.194.0084.06121.4091.446.196.7507.394.0001.0201.072x3.203.065.3754.346.001.141.425-13.4424.077-.128-

57、3.297.006-22.326-4.558解析:上表为回归方程系数表,根据多元回归模型:yp+Bx+Bx+Bx+Bx011223344通过SPSS作出的逐步回归得到以上的结果,在统计显著水平a0.05,则T检验值为t=2.201下,三个变量及常数项的t检验的绝对值分别为7.394,4.346,-3.297,3.194其绝对值均大于t=2.201,说明三个因子自变量的显著性水平高。可得到的最优回归方程为:y12.775+1.446x+0.283x-13.442x132Trend值为该区域中2000年到2012年的模拟值。该值可以通过最优方程式得出,比如2012年的值为y12.775+1.446

58、x4.89+0.283x11.38-13.442x1.078.68由上结果可以看出误差较小,其误差百分比在土20%以内的占比比较大,说明模拟效果还可以。求得的逐步回归模型效果比较显著。3.5小结通过SPSS操作最后得到的我国财政收入的预测方程式:y12.775+1.446x+0.283x-13.442x132再加上最后对数据的检验可以得出人均国内生产总值x、经济活动人口x、全社会12固定资产投资x3对财政收入y有显著的影响。从上面的操作可以看出变量通过初步的选取是不够的,需要对所选自变量进行检验,然后剔除未通过检验的变量,所以在案例二较案例一的区别在于多了一个逐步回归分析。即:众所周知人均国内

59、生产总值,经济活动人口,全社会固定投资都是逐年变化的,这里表现出的经济活动人口为负指标,随着社会的发展,中国的发展更是越来越迅速,这三个自变量之间存在着相对严密的关系。第四章总结及建议SPSS是世界上最早采用图形菜单驱动界面的统计软件,其最突出的特点就是操作界面极为友好,输出结果美观漂亮,是“统计产品与服务解决方案”软件。除了数据录入及部分命令程序等少数的输入工作需要键盘键,而对于那些常见的统计方法,SPSS的命令语句、子命令及选择项的大部分都是由“对话框”的操作完成。所以不需要花大量时间来记忆这些大量的命令、过程或选择项。SPSS具有完整的数据输入、编辑、统计分析、报表、图形制作等功能,自带11种类型136个函

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论