北航数理统计回归大作业_第1页
北航数理统计回归大作业_第2页
北航数理统计回归大作业_第3页
北航数理统计回归大作业_第4页
北航数理统计回归大作业_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数理统计(课程大作业1)逐步回归分析 学 院: 机械工程学院 专 业: 材料加工工程 日期:2014年12月7日摘要:本文介绍多元线性回归分析方法以及逐步回归法,然后结合实际,以我国1995-2012年的财政收入为因变量,选取了8个可能的影响因素,选用逐步回归法对各影响因素进行了筛选分析,最终确定了其“最优”回归方程。关键字:多元线性回归 逐步回归法 财政收入 SPSS 1 引言自然界中任何事物都是普遍联系的,客观事物之间往往都存在着某种程度的关联关系。为了研究变量之间的相关关系,人们常用回归分析的方法,而回归分析是数理统计中一种常用方法。数理统计作为一种实用有效的工具,广泛应用于国民经济的各

2、个方面,在解决实际问题中发挥了巨大的作用,是一种理论联系实践、指导实践的科学方法。财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。本文将以回归分析为方法,运用数理统计工具探求财政收入与各种统计指标之间的关系,总结主要影响因素,并对其作用、前景进行分析和展望。2 多元线性回归2.1 多元线性回归简介在实际问题中,某一因素的变化往往受到许多因素的影响,多元

3、回归分析的任务就是要找出这些因素之间的某种联系。由于许多非线性的情形都可以通过变换转化为线性回归来处理,因此,一般的实际问题都是基于多元线性回归问题进行处理的。对多元线性回归模型简要介绍如下:如果随机变量y与m个普通变量有关,且满足关系式:(2.1)其中,是与无关的未知参数,是不可观测的随机变量,。式(2.1)为m元理论线性回归模型,其中为回归系数,为回归因子或设计因子。实际上反映了因子对观测值y的作用,因此也称为因子的效应。通过对回归系数进行最小二乘估计后,可以得到m元经验回归方程为: (2.2)也称式(2.2)为m元线性回归方程。为回归常数,也称回归系数,称为回归系数。2.2 逐步回归法在

4、多元线性回归分析中,由于有多个自变量,回归自变量的选择成为建立回归模型的重要问题。通常,一方面,为获取全面信息总希望模型中包括的自变量尽可能多;另一方面,考虑到获取很多自变量的观测值的费用和实际困难,则希望模型中包含尽可能少而且重要的变量。因此,人们常根据某种规则对自变量进行筛选。本次选用的方法是逐步回归法。1)回归效果的显著性检验y与变量线性相关的密切程度可以用回归平方和U在总平方和中所占的比例来衡量。称为y关于的样本复相关系数,为样本决定系数。在多元线性回归的实际应用中,用复相关系数来表示回归方程对原有数据拟合程度的好坏。显然,其越接近1,回归方程拟合程度越高。2)偏F检验检验某个自变量对

5、y的影响是否显著的正规方法是偏F检验。设原回归方程(全模型)为:去掉变量后的新回归方程(减模型)为:全模型的复相关系数的平方为,减模型的复相关系数的平方为,定义。若几乎为零,则说明x对y没有显著影响,反之则表示x对y有其它变量不可替代的显著影响。检验假设:当为真时,检验统计量为对于给定显著性水平,由样本计算出的值,若则拒绝,说明x对y有显著影响,应在减模型中引入自变量x;反之则应剔除x,使之成为减模型。偏F检验通常被用作变量筛选的依据。逐步回归法中就是对各变量采用偏F法进行检验的。3) 逐步回归法的步骤逐步回归法的基本思想是:将变量逐个引入,引入条件是该变量的偏F检验是显著的。同时,每引入一个

6、新变量后又对老变量逐个检验,将变得不显著的变量从回归模型中剔除。具体步骤如下:1、对m个自变量分别与y建立回归模型,对它们分别计算,得中最大的那个值,比如。()如果,则计算结束,即y与所有自变量均线性无关;()如果,则引入,建立回归方程(2.3)2、建立y与自变量子集()的二元回归模型(2.4)以式(2.4)为全模型,式(2.3)为减模型求值,并取得中最大的那个值,比如说。如果,则计算结束,这时建立的模型为式(2.3);如果,则引入,建立回归方程 (2.5)3、当引入后,对做偏F检验,看是否需要剔除;如果,则不剔除,并继续引入下一个变量;如果,则从式2.4中剔除,再继续引入下一个变量。重复上述

7、步骤,直到所有模型外的变量都不能引入,模型内的变量都不能被剔除为止。3 财政收入回归分析实例本次作业利用SPSS软件和逐步回归法,对原始数据进行了回归分析,并最终获得了“最优”回归方程,解决这个问题。3.1 数据收集及处理首先进行参考数据的选择,根据查阅书籍以及中国统计局网站得到的数据资料,归纳出可能影响国家财政收入的一些主要因素,包括国内生产总值(亿元),人口数(万人)等。本文从中选取了国内生产总值(亿元),人口数(万人),能源生产总量(标准煤)(万吨),农作物总播种面积(千公顷),货运量(万吨),出口总额(亿元),进口总额(亿元),建筑业总产值(亿元)8个因素作为本次考查的重点,并对其与财

8、政收入的相关关系进行分析。表1所示为所选取的自1995年至2012年18年间财政收入与所选变量的数据汇总。年份国内生产总值(亿元)人口数(万人)能源生产总量(标准煤)(万吨)农作物总播种面积(千公顷)货运量(万吨)出口总额(亿元)进口总额(亿元)建筑业总产值(亿元)财政收入(亿元)199560793.7121121129034149879123493812452110485793.756242.2199671176.6122389133032152381129842112576115578282.257407.991997789731236261334601539691278218151611

9、18079126.48865131247611298341557061267427152241162610061.999875.95199989677.11257861319351563731293008161601373611152.8611444.08200099214.61267431350481563001358682206341863912497.613395.232001109655.21276271438751557081401786220242015915361.5616386.042002120332.712845315065615463614834

10、47269482443018527.1818903.642003135822.81292271719061524151564492362883419623083.8721715.252004159878.31299881966481535531706412491034643629021.4526396.472005184937.41307562162191554881862066626485427434552.131649.292006216314.41314482321671521492037060775976337741557.1638760.22007265810.31321292472

11、791534642275822935647330051043.7151321.782008314045.413280226055215626625859371003957952762036.8161330.352009340902.81334502746191586142825222820306861876807.7468518.3201040120213409129691616067532418071070239469996031.1383101.512011473104.01347353179871622833696961123240.6113161.4115734.19103874.43

12、2012518942.11354043318481634164099400129359.3114801.0137217.86117253.523.2 建立回归模型过程为了研究财政收入与各种影响因素的关系,必须要建立二者之间的数学模型。数学模型可以有多种形式,比如线性模型,二次模型,指数模型,对数模型等等。而实际生活中,影响财政收入的因素很多,并且这些因素的影响不能简单的用某一种模型来描述,所以要建立财政收入的数学模型往往是很难的。但是为了便于研究,我们可以建立财政收入与各影响因素的线性回归模型,模型如下:Y=1X1+2X2+3X3+4X4+5X5+6X6+7X7+8X8其中,是因变量, 是自变

13、量,是各个自变量的系数。各变量符号的定义见表2。YX1X2X3X4X5X6X7X8财政收入(亿元)国内生产总值(亿元)人口数(万人)能源生产总量(标准煤)(万吨)农作物总播种面积(千公顷)货运量(万吨)出口总额(亿元)进口总额(亿元)建筑业总产值(亿元)3.3 线性回归模型的验证通过一些假设可以得到工业生产总值与各影响因素的线性回归模型。然而这些假设是否合理,所建模型是否接近实际的工业生产总值,需要进一步验证。故作出数据散点图,观察因变量与自变量之间关系是否有线性特点。散点图结果如图1所示。(2)(1)(3)(4)(6)(5)(8)(7)(1) 财政收入与国内生产总值散点图;(2)财政收入与人

14、口数散点图; (3)财政收入与能源生产总量;(4)财政收入与农作物总播种面积散点图; (5)财政收入与货运量散点图;(6)财政收入与出口总额散点图; (7)财政收入与进口总额散点图;(8)财政收入与建筑业总产值散点图图1 财政收入与各种因素散点图由于多元逐步回归分析方法是一种多元线性回归方法,指标变量若呈非线性关系则会影响模型精度。所以首先判断因变量和自变量是否存在非线性关系。从图1可以看出,人口数X2与财政收入Y之间大致呈指数关系,而农作物总播种面积X4与财政收入Y之间的线性关系很不显著,都是可以首先剔除的变量。其余变量都与财政收入Y具有线性作用且正相关,需要通过逐步分析方法进行进一步的显著

15、性判断。3.4 线性回归的结果及分析利用统计数据建立回归模型,用SPSS软件的线性回归分析功能,得到以下数据。由表3可以看出货运量、国内生产总值和能源生产总量这三个自变量经过逐步回归过程被选择进入了回归方程。被选择的判据是变量进入回归方程的F的概率不大于0.05,被剔除的判据是变量进入回归方程的F的概率不小于0.10。表3 输入/移去的变量模型输入的变量移去的变量方法1货运量(万吨步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。2国内生产总值(亿元)步进(准则: F-to-enter 的概率 <= .050,F-t

16、o-remove 的概率 >= .100)。3能源生产总量(万吨)步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。a. 因变量: 财政收入表4显示三个模型的拟合情况,模型3的复相关系数R=1.000,可决系数=0.999,调整可决系数为0.999,估计值的标准差为916.74710,可见模型3的拟合度较高。表4 模型汇总模型RR 2调整R2标准估计的误差1.999a.998.9981615.3792921.000b.999.9991163.5199131.000c.999.999916.74710a. 预测变量:

17、(常量), 货运量(万吨)b. 预测变量: (常量), 货运量(万吨), 国内生产总值(亿元)c .预测变量: (常量) , 货运量(万吨), 国内生产总值(亿元),能源生产总量(万吨)d. 因变量: 财政收入(亿元)从表5中看出方差分析结果可以看出,三个模型的F值检验Sig值远小于0.01,可见,最终模型的整体线性关系是成立的。表5 ANOVAd模型平方和df均方FSig.1回归2.044E1012.044E107832.197.000a残差41751204.003162609450.250总计2.048E10172回归2.046E1021.023E107556.322.000b残差2030

18、6678.791151353778.586总计2.048E10173回归2.047E1036.823E98117.999.000c残差11765953.53114840425.252总计2.048E1017a. 预测变量: (常量), 货运量(万吨)b. 预测变量: (常量), 货运量(万吨), 国内生产总值(亿元)c .预测变量: (常量) , 货运量(万吨), 国内生产总值(亿元),能源生产总量(万吨)d. 因变量: 财政收入(亿元)如表6所示,包含的是进入模型的变量,主要描述模型的参数估计值,以及每个变量的系数估计值的显著性检验和共线性检验。结果模型中所有变量系数的t检验Sig值都接近或

19、小于0.01,说明这些系数都显著的不为0,因此,最终的回归方程应当包含货运量、国内生产总值和能源生产总量这三个自变量,且方程拟和效果很好。表6 系数模型非标准化系数标准系数tSig.B标准误差试用版1(常量)-39148.932958.303-40.852.000货运量(万吨).038.000.99988.500.0002(常量)-26904.7673152.897-8.533.000货运量(万吨).022.004.5685.233.000国内生产总值(亿元).103.026.4323.980.0013(常量)-15515.4184351.514-3.566.003货运量(万吨).015.00

20、4.3853.731.002国内生产总值(亿元).176.031.7375.744.000能源生产总量(万吨)-.060.019-.124-3.188.007a. 因变量: 财政收入(亿元)如表7所示,给出的是所有未进入最终模型的变量检验信息,由t检验的Sig值都大于0.1,这些变量对模型的贡献都不明显,所以它们都不包含在最终方程中。表7 排除的变量ModelBeta IntSig.偏相关共线性统计量容差1国内生产总值(亿元).432a3.980.001.717.006能源生产总量(万吨).043a.926.369.233.061出口总额(亿元).066a1.929.073.446.092进口

21、总额(亿元).076a1.828.088.427.064建筑业总产值(亿元)-.051a-.195.848-.050.0022能源生产总量(万吨)-.124b-3.188.007-.649.027出口总额(亿元)-.049b-1.117.283-.286.034进口总额(亿元)-.037b-.779.449-.204.030建筑业总产值(亿元).319b1.660.119.406.0023出口总额(亿元).073c1.478.163.379.016进口总额(亿元).101c2.111.055.505.014建筑业总产值(亿元).188c1.142.274.302.001a.模型中的预测变量:

22、(常量) , 货运量(万吨)b.模型中的预测变量: (常量), 货运量(万吨), 国内生产总值(亿元)c模型中的预测变量: (常量), 货运量(万吨), 国内生产总值(亿元), 能源生产总量(万吨)d. 因变量: 财政收入表8 残差统计量极小值极大值均值标准偏差N预测值5652.1587116279.000038679.298334698.4605618残差-1919.031131378.36218.00000831.9344418标准预测值-.9522.236.0001.00018标准残差-2.0931.504.000.90718a. 因变量: 财政收入(亿元) 图2 标准化残差直方图标准化

23、残差的P-P图通过比较样本残差分布与假设的正态分布是否相同来检验残差是否符合正态分布,所有残差点都分布在对角的直线附近,说明残差的正态性假设基本成立。图3 标准P-P图图4 散点图从图4的的财政收入与其标准化残差散点图中可以看到,所有观测量随机地落在垂直围绕±2的范围内,预测值与标准化残差值之间没有明显的关系,所以回归方程应该满足线性关系与方差齐性的假设且拟和效果较好。3.5 最优回归方程由以上多元回归分析可得各个分量的影响关系,从而得出“最优”方程为:Y= -15515.418+0.176X1-0.060X3+0.015X5其中R2=0.999,F=8117.999X1代表国内生产总

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论