版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北航数理统计大作业(逐步回归)北航数理统计大作业(逐步回归)北航数理统计大作业(逐步回归)北航数理统计大作业(逐步回归)编制仅供参考审核批准生效日期地址:电话:传真:邮编:应用数理统计第一次大作业学号:姓名:
班级:B11班2015年12月民航客运量的多元线性回归分析摘要:本文为建立以民航客运量为因变量的多元线性回归模型,选取了1996年至2013年的统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人数,城镇居民可支配收入等因素,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,并采用2014年的数据进行检验,得到的结果达到预期,证明该模型建立是较为成功的。关键词:多元线性回归,逐步回归法,民航客运量0.符号说明变量符号民用航空客运量Y国民生产总值X1铁路客运量X2民航航线里程X3入境过夜旅游人数X4城镇居民人均可支配收入X51.引言随着社会的进步,人民生活水平的提高,如何获得更快捷方便的交通成为人们日益关注的问题。因为航空的安全性,快速且价格水平越来越倾向大众,越来越多的人们选择航空这种交通方式。近年来,我国的航空客运量已经进入世界前列,为掌握航空客运的动态,合理安排班机数量。科学地对我国民航客运量的影响因素的分析,并得出其回归方程,进而能够估计航空客运量是非常有必要的。本文收集整理了与我国航空客运量相关的历年数据,运用SPSS软件对数据进行分析,研究1996年起至2013年我国民航客运量y(万人)与国民生产总值X1(亿元)、铁路客运量X2(万人)、民航航线里程X3(万公里)、入境过夜旅游人数X4(万人)、城镇居民人均可支配收入X5(元)的关系。采用逐步回归法建立线性模型,选出较优的线性回归模型。2.数据的统计与分析本文在进行统计时,查阅《中国统计摘要》,《中国统计年鉴2014》以及中国知网数据查询中的数据,收集了1996年至2013年各个自变量因素的数据,分析它们之间的联系。整理如表1所示。表1:年份民航客运量(万人)国内生产总值(亿元)铁路客运量(万人)民航航线里程(万公里)入境过夜旅游人数(万人)城镇居民可支配收入(元)19965555789739479719975630933081998575595085199960941001642000672210507320017524105155200285941056062003875997260200412123111764200513827115583200615968125656200718576135670200819251146193200923052152451201026769168145201129316473104146192201231896189337201335397210597模型的建立以民航客运量y为因变量,以上5种影响因素为自变量Xi,构建回归方程:y=其中β0为常数项,ε先观察自变量与因变量的关系,用SPSS得到各个自变量与因变量的散点图:图1民航客运量与国内生产总值散点图图2民航客运量与铁路客运量散点图图3民航客运量与航线里程散点图图4民航客运量与入境过夜人数散点图图5民航客运量与人均可支配收入散点图从以上五张散点图,我们可以看出因变量民航客运量与国内生产总值,入境过夜旅游人数和城镇居民人均可支配收入均有较好的线性关系,这说明建立线性模型是有意义的。继续下一步逐步回归分析,逐步回归的基本思想是将变量逐个引入模型,每引入一个变量后都要进行F检验,并对已经选入的变量逐个进行t检验,当原来引入的变量由于后面变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含先主动变量。这是一个反复的过程,直到既没有显著的变量选入回归方程,也没用不显著的变量从回归方程中剔除为止。在SPSS软件中可直接进行逐步回归分析,得出以下结果:由表2知,逐步回归后得出两个模型,模型1只包含城镇居民可支配收入,其他自变量都没有进入模型,模型2在1的基础上再纳入了过夜入境旅游人数,其他的自变量也都被排除了。表2表3表4拟合度检验由表4,模型1的决定系数R2=,模型2的决定系数R2=,可以看出回归方程都高度显著,且模型2比模型1更优。回归方程的显著性检验:由表5,方差分析表Sig值都<,说明每个模型都拒绝回归系数均为0的假设,每个方程都是显著的。表5由表6可以得到两个模型的回归方程分别:以城镇居民可支配收入为自变量的拟合函数:y=+2.以城镇居民可支配收入和过夜入境旅游人数为自变量的拟合函数:y=++且所有系数的显著性水平都小于,每个回归方程都是有意义的。表6表7是残差统计结果。主要显示预测值、标准化预测值、残差和标准化残差等统计量的最大值、最小值、均值和标准差。残差平方和Q描述的是随机误差引起因变量Y的分散程度,Q越大分散性也越大,则线性关系越不明显。由表7可见标准化残差的最大绝对值为。而且标准残差的均值为0,说明随机误差对Y值的影响很小。表7多重共线性的诊断表8表8是SPSS软件的多重共线性诊断表,它包括3项诊断值:特征值、条件数和方差比率。特征值表明在自变量中存在多少截然不同的维数,当几个特征值都接近0是,变量是高度相关的。条件数是最大特征值对每一个连续特征值的比率的平方根,若条件数大于15则表明可能存在多重共线问题,若大于30则表明存在严重的多重共线性问题。显然表8中变量X4过夜入境旅游人数的条件数大于30,说明回归方程存在多重共线性。残差检验如图6是残差分布直方图。在回归分析中,总是假定残差服从正态分布,这个图就是根据样本数据的计算结果显示残差分析的实际情况。从图来看标准化残差还是近似服从正态分布的。图6如图7残差的积累概率图基本围绕在假设直线(正态分布)周围,说明残差分布基本符合正态分布,说明民航客运量这个因变量基本上可以用线性回归方法建立模型。3.结论为了解决多重共线性的问题,排除模型2,考虑到模型1的拟合度也是很好的,综合来看认为模型1为更优。最终得到的回归方程为:y=+并以2014年的数据检验该回归方程,2014年航空客运量为39195万人,城镇居民人均可支配收入为,将自变量X5带入回归方程得到y=万人,与实际的客运量39195万人的误差为%。因此可以认为该模型基本达到了预期的目标。通过最优回归方程,我们可以发现航空客运量与城镇居民的可支配收入线性相关十分显著,这是符合常识的,只有居民可支配
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论