北航数理统计大作业逐步回归_第1页
北航数理统计大作业逐步回归_第2页
北航数理统计大作业逐步回归_第3页
北航数理统计大作业逐步回归_第4页
北航数理统计大作业逐步回归_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、北京航空航夭大爭B E I H A N G UNIVERSITY应用数理统计第一次大作业学号: 姓名班级: B11班2015年12月民航客运量的多元线性回归分析摘要:本文为建立以民航客运量为因变量的多元线性回归模型,选取了 1996年 至2013年的统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人数, 城镇居民可支配收入等闵素,利用统计软件SPSS对各闵素进行了筛选分析,采 用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及 随机误差的正态性进行了检验,并采用2014年的数据进行检验,得到的结果达 到预期,证明该模型建立是较为成功的。关键词:多元线性回归,逐步回归法

2、,民航客运量0.符号说明交量符号民用航空客运量Y国民生产总值X铁路客运量x2民航航线里程X3入境过夜旅游人数X4城镇居民人均可支配收入&1 引言随着社会的进步,人民生活水平的提高,如何获得更快捷方便的交通成为人 们日益关注的问题。因为航空的安全性,快速且价格水平越来越倾向大众,越来 越多的人们选择航空这种交通方式。近年来,我国的航空客运量已经进入世界前 列,为掌握航空客运的动态,合理安排班机数量。科学地对我国民航客运量的影 响闵素的分析,并得出其回归方程,进而能够估计航空客运量是非常有必要的。 本文收集整理了与我国航空客运量相关的历年数据,运用SPSS软件对数据进行 分析,研究1996年起至2

3、013年我国民航客运量y (万人)与国民生产总 X.(亿 元)、铁路客运量X,(万人)、民航航线里程 冬(万公里)、入境过夜旅游人数 X4 (万人)、城镇居民人均可支配收入X,(元)的关系。采用逐步回归法建立线性棋型,选出较优的线性回归模型。2数据的统计与分析本文在进行统计时,查阅中国统计摘要,中国统计年鉴2014以及中 国知网数据查询中的数据,收集了 1996年至2013年各个自交量闵素的数据,分 析它们之间的联系。整理如表1所示。表1:年份民航客运量(万人)国内生产总值(亿元)铁路客运量(万人)民航航线里程(万公里)入境过夜旅游人数(万人)城镇居民可支配收入(元)1996555578973

4、94797116.651356.264838.91997563084402.393308142.51578.535160.31998575589677.195085150.581692.455425.11999609488479.2100164152.221765.255854.12000672299214.6105073150.291750.96628020017524109655.2105155155.361880.366859.620028594120332.7105606163.772012.457702.820038759135822.897260174.952033.588472.

5、2200412123159878.3111764204.942519.899421.6200513827184937.4115583199.852925.6310493200615968216314.4125656211.353486.4511759.5200718576265810.313567023433398.5813785.8200819251314045.4146193246.183696.7115780.8200923052340506.9152451234.514025.9617174.7201026769397983.5168145276.54753.8419109.42011

6、29316473104146192349.0549243221809.8201231896519470.1189337328.015668.6324564.7201335397568845.2210597410.65562.3926955.12.1模型的建立以民航客运量y为因交量,以上5种影响因素为自变量S ,构建回归方程:y = 00 + 昭 + 其中血为常数项,为误差项。先观察向变量与因巫量的关系,用SPSS得到各个向变量与闵变量的散点图:图1民航客运量与国内生产总值散点图民用就空客运童民用航空客运鱼40003.0-30003.0-20003.0-10003D-.0-80000.01000

7、030120000.0140000.01600030 1EOOOO.O 20CO00.0 220COO.O铁路客运虽图2民航客运量与铁路客运量散点图O0OO0o0OO0 0o40000 0-coooo.o-20000.0-10000.0.0-I1OD.OD200.00300.00400.00500.00民航航线里程4C00D.0-3000D0-;COODO-1000D0-o-1003.002000 005C00 009ZCC.C0民用M空客运51图3民航客运量与航线里程散点图3:CO0400D.0D过夜游客图4民航客运量与入境过夜人数散点图40030.033030.0-33030.0-1003

8、0.0-.0-.05COO.O10C0C.015000.020303.025000.02OCO0.O城镇居民人均可支配牧入图5民航客运量与人均可支配收入散点图从以上五张散点图,我们可以看出闵交董民航客运量与国内生产总值,入境过夜旅游人数和城镇居民人均可支配收入均有较好的线性关系,这说明建立线性棋型是有意义的。继续下一步逐步回归分析,逐步回归的基本思想是将变量逐个引入摸型,每 引入一个巫量后都要进行F检验,并对已经选入的变量逐个进行t检验,当原来引 入的芟量由于后面巫量的引入交得不再显著时,则将其删除。以确保每次引入新 的交量之前回归方程中只包含先主动变量。这是一个反复的过程,直到既没有显 著的

9、交量选入回归方程,也没用不显著的交量从回归方程中剔除为止。在SPSS 软件中可直接进行逐步回归分析,得出以下结果:由表2知,逐步回归后得出两个模型,模型1只包含城镇居民可支配收入,其 他自变量都没有进入模型,棋型2在1的基砒上再纳入了过夜入境旅游人数,其他 的自交量也都被排除了。方法步进(准则:F-to-enter 的概率=.100)。步进(准则:F-to-enter 的骰率=.100 )。输入移去的变摸型输人的变量侈去的变蟹城锁居民人均“J支配收入竝夜游客2a. 因变址:民用統空咨运母表3巳般的变棋型Beta IntSig.共线性统计欣容差国内生产总值.197*.517.612.132.00

10、31铁路客运1ft-.OOP-.014.989-.004.0581民航加:线里程.040*388,TO4-.100.044过夜游客.42?3.432.004.663018国内生产总值.306*1.059.308.272.0032铁路客运歌020.29.777O77.058帧线里程.oir.138892.037.043a. 因变最:民用航空客运最b. 棋型中的预浏变歆:(常累.城锁居民人均可支配收人c. 模型中的预fflIS:(常累城锁居民人均可支配收.人.过夜浙咨表4横?汇总RR方调整R 标准估计的盪莖更庆克计賢Fdflde二垮F更1.996*993.992876.7400.9932183.8

11、41116xxx2.99附.996.995677.6913.00311.779115.(X4X笊測交賢:(宥買:,城復呂比人均可文配枚入.b. 笊测交看:(當也,械愎呂比人均可之配枚入,过氏游客。C. FlS:比用航空泾运*2.2拟合度检验由表4,模型1的决定系数R2二0.992,棋型2的决定系数RM1995,可以看出回 归方程都高度显著,且漠型2比模型1更优。2.3回归方程的显著性检验:由表5,方差分析表Si若值都0.05,说明每个模型都拒绝回归系数均为0的 假设,每个方程都是显著的。AAova*平方和df均方F国归1678659397.18411678659397.1M2183.H41.0

12、00b1炭羞1229H767.261166672954总卄169095X164.44417国归16H40691X1.3702842034590.6X51833.43:.(xxr2找羞6XX898 二 07515459265.5莎总卄169()958164.44417x Fl爻*:比用航空春运*b. 笊測交暑當出,城愎呂比人均可tKtt入。c. 城愎呂人均可文吃枚入,过氏渺=。由表6可以得到两个模型的回归方程分别:1. 以城镇居民可支配收入为自交量的拟合函数:y二1698.669+14()62. 以城镇居民可支配收入和过夜入境旅游人数为肖变量的拟合函数:y=-3267.728+0.817X5+2

13、.871X4且所有系数的显著性水平都小于().()5,每个回归方程都是有意义的。表6Mi非标准化系社标幽系兰B试斥唳(*)-1698.669423.955-4XKI7.()011城缱呂人均可文配枚入1.406咖.99646.732.000(*)-S267.728562.492-5.8119.0002城缱呂叱人均可支配枚入.817 173.5794.721.000itOS2.S71.837.4213.432.(X4X FlS:比用舱空春运*表7是残差统计结果。主要显示预测值、标准化预测值、残差和标准化残差等统计量的晟大值.晟小值.均值和标准差。残差平方和Q描述的是随机泯差 引起冈变量Y的分散程度

14、,Q越大分散性也越大,则线性关系越不明显。由表7可见标准化残差的晟大绝对值为1.758o而且标准残差的均值为0,说明随机 俣差对Y值的彩响很小。疾垄统计董枚小值枕大值均值标准備埜4581.80435339.836156UU.4449953.034418-1191.5225973-1963.(KXMJ636.5802181071.983.0001.00018-1.7581.436.()0093918X%用號空告运量24多重共线性的诊断共枝惶断维色8伸宅91戈埜比例-域愎昌R人沟可瓷配枚入111.8731.000.06.061227二时3.M428521.000.01.000022474.410(

15、)03.00239&3.62、,、,1.00u. FIS:氏用號空吝毛*表8是SPSS软件的多重共线性诊断表,它包括3项诊断值:特征值、条件 数和方差比率。特征值表明在肖变量中存在多少载然不同的维数,当几个特征值 都接近()是,萸量是高度相关的。条件数是晟大特征值对每一个连续特征值的比 率的平方根,若条件数大于15则表明可能存在多董共线问题,若大于3()则表明 存在严重的多重共线性问题。显然表8中变量过夜入境旅游人数的条件数大 于30,说明回归方程存在多重共线性。25残差检验如图6是残差分布宜方图。在回归分析中,总是假定残塞服从正态分布,这 个图就是根据样本数据的计算结果显示残差分析的实际情况

16、。从图来看标准化残 差还是近似服从正态分布的。百方图囚变量:民用航空客运址回归标准化残差fS(ft= -1 57E-1S J.ftffig. = 0.939N= 18图6如图7残望的积累概率图基本围绕在假设直线(正态分布)周围,说明残 差分布基本符合正态分布,说明民航客运量这个闵更量基本上可以用线性回归方 法建立棋型。3.结论为了解决多重共线性的问题,排除模型2,考虑到模型1的拟合度也是很好的,综合来看认为模型1为更优。晟终得到的回归方程为:y=-l 698.669+1.406X5并以2014年的数据检验该回归方程,2014年航空客运量为39195万人,城 镇居民人均可支配收入为28843.9,将自萸量$带入回归方程得到y二38855.85万 人,与实际的客运量39195万人的泯差为0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论