北航数理统计回归分析大作业_第1页
北航数理统计回归分析大作业_第2页
北航数理统计回归分析大作业_第3页
北航数理统计回归分析大作业_第4页
北航数理统计回归分析大作业_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、薮北京航堂就太大拳/BEIHANGUNIVERSITY数理统计(课程大作业1)逐步回归分析学院:机械工程学院专业:材料加工工程日期:2014年12月7日摘要:本文介绍多元线性回归分析方法以及逐步回归法,然后结合实际,以我国1995-2012年的财政收入为因变量,选取了8个可能的影响因素,选用逐步回归法对各影响因素进行了筛选分析,最终确定了其“最优”回归方程。关键字:多元线性回归逐步回归法财政收入SPSS1引言自然界中任何事物都是普遍联系的,客观事物之间往往都存在着某种程度的关联关系。为了研究变量之间的相关关系,人们常用回归分析的方法,而回归分析是数理统计中一种常用方法。数理统计作为一种实用有效

2、的工具,广泛应用于国民经济的各个方面,在解决实际问题中发挥了巨大的作用,是一种理论联系实践、指导实践的科学方法。财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。本文将以回归分析为方法,运用数理统计工具探求财政收入与各种统计指标之间的关系,总结主要影响因素,并对其作用、前景进行分析和展望。2多元线性回归2.1多元线性回归简介在实际问题中,某一因素的变化往

3、往受到许多因素的影响,多元回归分析的任务就是要找出这些因素之间的某种联系。由于许多非线性的情形都可以通过变换转化为线性回归来处理,因此,一般的实际问题都是基于多元线性回归问题进行处理的。对多元线性回归模型简要介绍如下:如果随机变量y与m(m22)个普通变量”?2Xm有关,且满足关系式:y=:0,桂:mXm.;E名=0,D名=仃2(2.1)其中,432Pm产2是与X1,X2Xm无关的未知参数,齿是不可观测的随机变量,N(0产In)。式(2.1)为m元理论线性回归模型,其中P。,再,比Pm为回归系数,Xi,X2Xm为回归因子或设计因子。Pi(i=1,2,m)实际上反映了因子Xi(i=1,2,,m)

4、对观测值y的作用,因此也称由(i=1,2,m)为因子X(i=1,2,,m)的效应通过对回归系数由(i=1,2,m)进行最小二乘估计后,可以得到m元经验回归方程为:?=?0ZX?2乂2?mXm(2.(2)也称式(2.2)为m元线性回归方程。咒为回归常数,也称回归系数,凡因2着称为回归系数。2.2逐步回归法在多元线性回归分析中,由于有多个自变量,回归自变量的选择成为建立回归模型的重要问题。通常,一方面,为获取全面信息总希望模型中包括的自变量尽可能多;另一方面,考虑到获取很多自变量的观测值的费用和实际困难,则希望模型中包含尽可能少而且重要的变量。因此,人们常根据某种规则对自变量进行筛选。本次选用的方

5、法是逐步回归法。1)回归效果的显著性检验y与变量X1,X2Xm线性相关的密切程度可以用回归平方和U在总平方和Lyy中所占的比例来衡量。称r2=土为样本决定系数。在多元线性回归的实际应用中,用复相关系数来表示Lyy回归方程对原有数据拟合程度的好坏。显然0MR21,其越接近1,回归方程拟合程度越高。2)偏F检验检验某个自变量对y的影响是否显著的正规方法是偏F检验。设原回归方程(全模型)为:尸?0?X1号X2彳Xy彳XN1X1%Xm去掉变量Xi后的新回归方程(减模型)为:?二3ZxiZx2?iXi彳Xi1,?mXm全模型的复相关系数的平方为R2,减模型的复相关系数的平方为R2,定义R:=R2-R2o

6、若AR;几乎为零,则说明x对y没有显著影响,反之则表示x对y有其它变量不可替代的显著影响。检验假设:H0:r2=0;H1:.R::0当H。为真时,检验统计量为lRi2?:八Fi=2=-F(1,n-m-1)(1-R2)/(n-m-1)S2对于给定显著性水平a,由样本计算出Fi的值,若Fi之Fi也(1,n-m-1),则拒绝H。,说明x对y有显著影响,应在减模型中引入自变量x;反之则应剔除x,使之成为减模型。偏F检验通常被用作变量筛选的依据。逐步回归法中就是对各变量采用偏F法进行检验的。3)逐步回归法的步骤逐步回归法的基本思想是:将变量逐个引入,引入条件是该变量的偏F检验是显著的。同时,每引入一个新

7、变量后又对老变量逐个检验,将变得不显著的变量从回归模型中剔除。具体步骤如下:1、对m个自变量分别与y建立回归模型夕=f?,十片0)为,对它们分别计算E,得Fi中最大的那个值,比如口(I)如果F1F进,则计算结束,即y与所有自变量均线性无关;(H)如果FL1之F进,则引入XL1,建立回归方程夕川1)+甲Xi(22、建立y与自变量子集xL1,Xi(i#Li)的二元回归模型(2.4)以式(2.4)为全模型,式(2.3)为减模型求Fi值,并取得Fi中最大的那个值,比如说FL2。(1如果FllrwMitn-I3TOJW-iWOXulrEOMCiB-WOWOT-2)&阳斓林面板(4)%收入IJIMW-ic

8、enoixrBUliiXrwMiijrlgMOXiTrKixciaxoj迹总翻rojjnivr-SfiHHsuxa7HKU00iKHCOUiI包时弧望就业总产越(8)(1)财政收入与国内生产总值散点图;(2)财政收入与人口数散点图;(3)财政收入与能源生产总量;(4)财政收入与农作物总播种面积散点图;(5)财政收入与货运量散点图;(6)财政收入与出口总额散点图;(7)财政收入与进口总额散点图;(8)财政收入与建筑业总产值散点图图1财政收入与各种因素散点图由于多元逐步回归分析方法是一种多元线性回归方法,指标变量若呈非线性关系则会影响模型精度。所以首先判断因变量和自变量是否存在非线性关系。从图1可

9、以看出,人口数X2与财政收入Y之间大致呈指数关系,而农作物总播种面积X4与财政收入Y之间的线性关系很不显著,都是可以首先剔除的变量。其余变量错误!未找到引用源。都与财政收入Y具有线性作用且正相关,需要通过逐步分析方法进行进一步的显著性判断。3.4 线性回归的结果及分析利用统计数据建立回归模型,用SPSS软件的线性回归分析功能,得到以下数据。由表3可以看出货运量、国内生产总值和能源生产总量这三个自变量经过逐步回归过程被选择进入了回归方程。被选择的判据是变量进入回归方程的F的概率不大于0.05,被剔除的判据是变量进入回归方程的F的概率不小于0.10。表3输入/移去的变量模型输入的变量移去的变量方法

10、1货运量(万吨步进(准则:F-to-enter的概率=.100)。2国内生产总值(亿元)步进(准则:F-to-enter的概率=.100)。3能源生产总量(万吨)步进(准则:F-to-enter的概率=.100)。a.因变量:财政收入表4显示三个模型的拟合情况,模型3的复相关系数R=1.000,可决系数R2=0.999,调整可决系数为0.999,估计值的标准差为916.74710,可见模型3的拟合度较高。表4模型汇总模型RR2调整R2标准估计的误差1.999a.998.9981615.3792921.000b.999.9991163.5199131.000c.999.999916.74710a

11、.预测变量:(常量),货运量(万吨)b.预测变量:(常量),货运量(万吨),国内生产总值(亿元)c.预测变量:(常量),货运量(万吨),国内生产总值(亿元),能源生产总量(万吨)d.因变量:财政收入(亿元)从表5中看出方差分析结果可以看出,三个模型的F值检验Sig值远小于0.01,可见,最终模型的整体线性关系是成立的。表5ANOVAd模型平方和df均方FSig.1回归2.044E1012.044E107832.197.000a残差41751204.003162609450.250总计2.048E10172回归2.046E1021.023E107556.322.000b残差20306678.79

12、1151353778.586总计2.048E10173回归2.047E1036.823E98117.999.000c残差11765953.53114840425.252总计2.048E10.17a.预测变量:(常量),货运量(万吨)b.预测变量:(常量),货运量(万吨),国内生产总值(亿元)c.预测变量:(常量),货运量(万吨),国内生产总值(亿元),能源生产总量(万吨)d.因变量:财政收入(亿元)如表6所示,包含的是进入模型的变量,主要描述模型的参数估计值,以及每个变量的系数估计值的显著性检验和共线性检验。结果模型中所有变量系数的t检验Sig值都接近或小于0.01,说明这些系数都显著的不为0

13、,因此,最终的回归方程应当包含货运量、国内生产总值和能源生产总量这三个自变量,且方程拟和效果很好。表6系数模型非标准化系数标准系数tSig.B标准误差试用版1(常量)-39148.932958.303-40.852.000货运量(万吨).038.000.99988.500.0002(常量)-26904.7673152.897-8.533.000货运量(万吨).022.004.5685.233.000国内生产总值(亿元).103.026.4323.980.0013(常量)-15515.4184351.514-3.566.003货运量(万吨).015.004.3853.731.002.国内生产总值

14、(亿元).176.031.7375.744.000能源生产总量(万吨)-.060.019-.124-3.188.00710表6系数模型非标准化系数标准系数tSig.B标准误差试用版1(常量)-39148.932958.303-40.852.000货运量(万吨).038.000.99988.500.0002(常量)-26904.7673152.897-8.533.000货运量(万吨).022.004.5685.233.000国内生产总值(亿元).103.026.4323.980.0013(常量)-15515.4184351.514-3.566.003货运量(万吨).015.004.3853.73

15、1.002国内生产总值(亿元).176.031.7375.744.000能源生产总量(万吨)-.060.019-.124-3.188.007a.因变量:财政收入(亿元)如表7所示,给出的是所有未进入最终模型的变量检验信息,由t检验的Sig值都大于0.1,这些变量对模型的贡献都不明显,所以它们都不包含在最终方程中。表7排除的变量ModelBetaIntSig.偏相关共线性统计量容差1国内生产总值(亿元).432a3.980.001.717.006能源生产总量(万吨).043a.926.369.233.061出口总额(亿元).066a1.929.073.446.092进口总额(亿元).076a1.

16、828.088.427.064建筑业总产值(亿元)-.051a-.195.848-.050.0022能源生产总量(万吨)-.124b-3.188.007-.649.027出口总额(亿元)-.049b-1.117.283-.286.03411进口总额(亿元)-.037b-.779.449-.204.030建筑业总产值(亿元).319b1.660.119.406.0023出口总额(亿元).073c1.478.163.379.016进口总额(亿元).101c2.111.055.505.014建筑业总产值(亿元).188c1.142.274.302.001a模型中的预测变量:(常量),货运量(万吨)b

17、.模型中的预测变量:(常量),货运量(万吨),国内生产总值(亿元)c模型中的预测变量:(常量),货运量(万吨),国内生产总值(亿元),能源生产总量(万吨)d.因变量:财政收入图2标准化残差直方图43NAu3bu_12表8残差统计量极小值极大值均值标准偏差N预测值5652.1587116279.000038679.298334698.4605618残差-1919.031131378.36218.00000831.9344418标准预测值-.9522.236.0001.00018标准残差-2.0931.504.000.90718a.因变量:财政收入(亿元)Histogram标准化残差的P-P图通过

18、比较样本残差分布与假设的正态分布是否相同来检验残差是否符合正态分布,所有残差点都分布在对角的直线附近,说明残差的正态性假设基本成立。NormalP-PPlotofRegressionStandardizedResidual1.0DependentVariable:财政收入心070Z2012/O2011qod30p0K*dx山1920i2002oo2Q0S011995o.o60000.00120000OOH1口00口口_口口10DOOO.OOaCDO.DO-20CQ0QO-.口一-3oaoca-2oaoao_iqo口口口QOQQO1oaooo3口口口口Q200019971006/20090rIT

19、-r0.00.2Q,40.60.B1,0ObservedCumProb图3标准P-P图年份O1自由SL19061997Oigsa1999O200020012002口2003O2004.?2QD5200502007200602009:2010O20112012StandardizedResidual图4散点图13从图4的的财政收入与其标准化残差散点图中可以看到,所有观测量随机地落在垂直围绕i2的范围内,预测值与标准化残差值之间没有明显的关系,所以回归方程应该满足线性关系与方差齐性的假设且拟和效果较好。3.5 最优回归方程由以上多元回归分析可得各个分量的影响关系,从而得出最优”方程为:Y=-15515.418+0.176X1-0.060X3+0.015X5其中R2=0.999,F=8117.999X1代表国内生产总值,X3代表能源生产总量,X5代表货运量代入2011年数据,可得Y2011=-15515.418+0.176473104.0-0.060317987+0.0153696961

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论