北航数理统计大作业1-线性回归分析_第1页
北航数理统计大作业1-线性回归分析_第2页
北航数理统计大作业1-线性回归分析_第3页
北航数理统计大作业1-线性回归分析_第4页
北航数理统计大作业1-线性回归分析_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用数理统计作业一二〇一四年十二月国内生产总值的多元线性回归模型摘要:本文首先选取了选取我国自1978至2012年间的国内生产总值为因变量, 11介绍 22统计分析步骤 32.1数据的采集和整理 2.2采用多重逐步回归分析 62.3进行共线性诊断 2.4进行主成分分析确定所需主成份 2.5进行主成分逐步回归分析 3结论 参考文献 北京航空航天大学数理统计课程论文第1页0符号说明变量符号国内生产总值Y交通运输增加量X₁住宿和餐饮业增加值X₂房地产业X₃人口国民总收入Xs工业生产总值X₆建筑业生产总值X₇北京航空航天大学数理统计课程论文第2页国内生产总值是指在一定时期内(一个季度或一年),一个国家或地区的经它不但可反映一个国家的经济表现,还可以反映一国的国力与财富。2012年1月,国家统计局公布2011年重要经济数据,其中GDP增长9.2%,基本符合预期。2012年10月18日,统计显示,2012年前三季度国内生产总值353480亿元,同比增长7.7%;其中,一季度增长8.1%,二季度增长7.6%,三季度增长7.4%,三季度增幅创下2009年二季度以来14个季度新低。中国的GDP核算历史不长,上世纪90年代之前通常用“社会总产值”来衡上世纪80年代初中国开始研究联合国国民经济核算体系的国内生产总值2003年国家统计局宣布中国将改进GDP核算与数据发布制度,取消容易引2014年将全力推进重点改革创新积极稳妥的推进国家统一核算地区生产总2005年12月20日,中国国家统计局根据一项重大的经济统计计划所获得的数据重新发布了中国2004年国内生产总值为15.98万亿元人民币,比预期增加预期16.8%。此统计过程世界银行向中国政府提供了咨询。根据这项统计,中北京航空航天大学数理统计课程论文第3页国农业的比例占13.1%,工业比例占46.2%,服务业比例上升到40.7%。造成中国2004年经济数据大幅度增长的原因是由于本次第一次全国经济普查(全国经济普查)中发现漏报的第三产业经济总值高达2.4万亿元人民币。国民生产总值是指一个国家(地区)所有常住机构单位在一定时期内(年或季)收入初次分配的最终成果(简称GNP)。一个国家常住机构单位从事生产活动所创造的增加值(国内生产总值)在初次分配过程中主要分配给这个国家的常国内生产总值加上来自国外的劳动报酬和财产收入减去支付给国外的劳动者报国内生产总值是反映一国(地区)全部生产活动最终成果的重要指标,是一个国家(地区)领土范围内,包括本国居民、外国居民在内的常住单位在报告期本文在进行统计时,查阅《中国统计年鉴》中收录的1978年至2012年连续35年的国内生产总值为因变量,考虑一些与国内生产总值关系密切并且直观上有线性关系的因素,经过深思熟虑我初步选取了这35年的交通运输增加量、住表2-错误!未找到引用源。1978-2012年国内生产总值及其影响因素统计表年度通运输增加值宿和餐饮业增加值地产业民总收内生产总值业生产总值筑业生产总值北京航空航天大学数理统计课程论文第4页北京航空航天大学数理统计课程论文第5页480.7447.6402.3479.28068.29655.29095.70332.7431.34977.09453.69878.34937.4北京航空航天大学数理统计课程论文第6页2.2采用多重逐步回归分析解:拟合国民生产总值与这7个因素的线性回归曲线,,我们不知道他们对北京航空航天大学数理统计课程论文第7页散点图由图一可见,有两观察点学生化残差的绝对值大于2,怀疑其为异常点。不考虑该异常点重新拟合回归模型。将自变量xj,x₂,x₃,x₄,x₅,x₆,x₇错误!未找到引用源。作为待筛选量,使用专业统计分析软件IBMSPSSStatistics20进行逐步回归计算,a。=0.05,α=0.1错误!未找到引用源。。有两个变量没有达到选入标准,最终没有进入。其分析结果如表2-1至2-6所示。输入╱移去的变量模型输入的变量移去的变量方法12国民总收入建筑业生产总值步进(准则:F-to-enter的概率<=.050,F-to-remove的概率>=.100)步进(准则:F-to-enter的概率<=.050,F-to-remove的概率>=.100)(北京航空航天大学数理统计课程论文第8页345交通运输增加值房地产业工业生产总值步进(准则:F-to-enter的概率<=.050,F-to-remove的概率>=.100)。步进(准则:F-to-enter的概率<=.050,F-to-remove的概率>=.100)。步进(准则:F-to-enter的概率<=.050,F-to-remove的概率>=.100)。表2-2型RR方调方标准估计的误差更改统计量Durbin-Wa方更改dd改111l111111484218161658.32722.649113332313029北京航空航天大学数理统计课程论文第9页b.预测变量:(常量),国民总收入,建筑业生产总值。c.预测变量:(常量),国民总收入,建筑业生产总值,交通运输增加值。d.预测变量:(常量),国民总收入,建筑业生产总值,交通运输增加值,房地产业。e.预测变量:(常量),国民总收入,建筑业生产总值,交通运输增加值,房地产业,工业生产总f.因变量:国内生产总值表2-3拟合的模型的决定系数的改变情况表2-4模型平方和均方F总残总归差归68593645578427734463.52768596419024768594218251422007733.008685964190247685951473427685964190247123685936455784840438.289342971091257687741.656228650491142410220.009816165.166498691.751557385.028计回23差计归差计23残总回残总北京航空航天大学数理统计课程论文第10页残总残总差计4计差计回归残5总6859539844136859641902476859560198018170445.90968596419024745340194.464281739.514504089.61486943.42b.预测变量:(常量),国民总收入。表2-4对拟合后的模型的方差分析检验结果表2-5模型Bett偏相关共线性统计量容差VIF最小容差交通运输增加值住宿和餐饮业增加值89797值值值值北京航空航天大学数理统计课程论文第11页房地产业人口工业生产总值建筑业生产总交通运输增加住宿和餐饮业增加值2房地产业人口工业生产总值住宿和餐饮业增加值房地产业3人口工业生产总值住宿和餐饮业4增加值-.006°-.04°7467-.0-.0-.00-.024°-1.3-1.4.70-1.-2.-1.-1.2770293981484-.l9-.2400195-.3-.4-.16-.190709650163025.52.567891.63.862032936.20699071240100北京航空航天大学数理统计课程论文第12页人口工业生产总值住宿和餐饮业增加值5人口138202750140000b.模型中的预测变量:(常量),国民总收入。生产总值。表2-5多重线性回归拟合模型过程中未进入模型的变量的检验情况表2-6给出了残差、预测值等一些指标。表2-6极小值极大值均值标准偏差N预测值标准预测值预测值的标准误差调整的预测值34北京航空航天大学数理统计课程论文第13页残差标准残差Student化残差已删除的残差Student化已删除的残差Mahal。距离Cook的距离居中杠杆值87图2所示为残差的直方图。可见,残差分布比较均匀,近似正态分布,反应了变量服从正态分布。直方图因变量:国内生产总值因变量:国内生产总值标准偏差.=0.924N=35回归标准化残差频率如图3所示为残差的正态P-P图,可见残差分布是否正态,可见散点大部分呈期望的累积概率期望的累积概率北京航空航天大学数理统计课程论文第14页国内生产总值的指数P-P图表2-7即为共线性诊断表格表2-7相特征值条件索引方差比例(常量)国民总收入建筑业生产总值交通运输增加值房地产业工业生产总值129150032500324352北京航空航天大学数理统计课程论文第15页1470206445065北京航空航天大学数理统计课程论文第16页56-00506343.l0表2-8系数模型非标准化系数标准系数t共线性统计量B标准误差试用版容差VIF(常量)1国民总收入(常量)国民总收2入建筑业生产总值(常量)国民总收3入建筑业生产总值92.634-978.016-3.0000北京航空航天大学数理统计课程论文第17页交通运输增加值(常量)国民总收入建筑业生4产总值交通运输增加值房地产业(常量)国民总收入建筑业生产总值5交通运输增加值房地产业工业生产总值6669176195930428特征值:实际上是对自变量进行主成份分析,如果特征根为0,则提示有严值,由表可看出第4个模型的第5个因子特征根为0,且VIF值除了模型一的国民北京航空航天大学数理统计课程论文第18页表2-9均值标准差交通运输增加值住宿和餐饮业增加值房地产业人口国民总收入工业生产总值建筑业生产总值45707.1406958.178619.206856587.71419409.2998交通运输增加值住宿和餐饮业增加值房人口国民总收入工业生产总值建筑业生产总值交通运输增加值住宿和餐饮业增加值相关房地产业人口国民总收入010北京航空航天大学数理统计课程论文第19页工业生产总值建筑业生产总值交通运输增加值住宿和餐饮业增加值房地产业人口(单侧)国民总收入工业生产总值建筑业生产总值960000000通过SPSS操作得到如下主成份分析结果。各主成份的的贡献率及累积贡献率。第一主成分的特征根为6.641,它解释了总值的94.87%;第一主成分的特征根为0.333,它解释了总值的4.756%。前两个特征根的累积贡献率为99.625%,即前两个主成份包含了原有7个指标的99.625%的信息,所以本题可以取前两个主成份来代替原有的7个指标变量。特特征值北京航空航天大学数理统计课程论文第20页表2-11成份初始特征值提取平方和载入合计方差的%合计方差的%234567(2)碎石图,显示前两个主成份的特征根接近1及以上,进一步说明取前两成分数图4(3)成分得分系数矩阵,如下表,通过该矩阵可以将所有主成份表示为各个变量的线性组合。北京航空航天大学数理统计课程论文第21页表2-12成份1234567交通运输增加值住宿和餐饮业增加值房地产业人口国民总收入工业生产总值建筑业生产总值0073811643542769提取方法:主成份。由表可得公式(1):z₁=0.150stdx+0.15Ostdx₂+0.150stdx₃+0.13Ostdx₄+0.149stdx₅+0.149stdx₆+0.147stdxz₂=0.070stdx₁+0.040stdx,+0.070stdx₃+1.491stdx₄-0.460stdx₅-0.420stdx,-0.617stdx,北京航空航天大学数理统计课程论文第22页stdx₁=(x₁-711.746)/619.2068stdx₄=(x₄-11880614)/12403620stdx₅=(x₅-113027620)/1414575013由上述前两个主成份包含了原有7个指标的99.625%的信息,所以本题可以取前两个主成份来代替原有的7个变量进行主成份回归分析。运用SPSS得到如(1)由表2-13可见主成份回归分析的模型拟合情况,结果显示模型2拟合较好((R²=0.999方差分析P<0.00D表2-13型RR方方标准估计的误差更改统计量方更改改dd改113332a.预测变量:(常量),REGRfactorscoreb.预测变量:(常量),REGRfactorscore北京航空航天大学数理统计课程论文第23页表2-14主成份回归分析的模型拟合效果及假设检验。表2-14模型平方和均方F总计残差总计残差回归残差回归2总计669231682385685964190247685220406193743784054.20268596419024712669231682385507045692.78734261020309623243251.694b.预测变量:(常量),REGRfactorscore(2)表2-15是主成份分析的参数估计及其假设检验结果:表2-15模型非标准化系数标准系数t共线性统计量B标准误差试用版容差VIF|2(常量)analysis1(常量)analysis1analysis]-2168588(P=0.000,0.000,0.000),即z₁(fac1-1)p=113583545+140297130z₁-21685400z,(3)将主成份分析结果(见表2-12)引入。将公式(1)的z₁与z,表达式≥=113583545+1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论