版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、北京联合大学实训报告课程名称: 空间经济数学方法 项目名称: 回归分析实训 学 院: 应用文理学院 专 业:资源环境与城乡规划管理班 级: 1002B 学 号:姓 名: 成 绩: 2012年10月7日一、任务与目的了解一元线性回归、多元线性回归和逐步回归的原理及基本概念;理解三种回归的模型建立及统计检验;掌握使用应用软件解决回归问题。其中,一元回归可以仿照教材案例分析2-1,多元回归和逐步回归可以仿照教材“2.3 回归分析应用案例住房需求量分析”,具体内容包括:提出问题,定性分析,搜集数据,散点图模拟(仅一元回归),建立模型等;在数据处理中主要介绍计算机求解的步骤和过程;在结论中,除了写出求出
2、的回归方程式外,一定要得出检验的结论。 二、原理(条件)回归分析(regression analysis)是探察变量之间的数量变化规律,并通过一定的数学表达式来描述这种关系,进而确定一个或几个变量的变化对另一个变量的影响程度,确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。一元线性回归分析是研究两个变量间的统计关系。一元线性回归数学模型:其中y是因变量,0是y的截距,1+称为偏回归系数,表示其他变量不变,x变化时所预测y的平均变化率,为随机误差。 多元线性回归是研究多个变量之间的关系,因变量如何受到多个自变量的影响,用多个自变量预测因变量的值。多元线性回归是研究多个变量之间因果关
3、系的常用方法之一,每个自变量和因变量之间的关系都是线性的。多元线性回归数学模型:y=0+1x1+2x2+逐步回归是在建立多元回归方程的过程中,按偏相关系数的大小次序将自变量逐个引入方程,对引入方程中的每个自变量偏相关系数进行统计检验,效应显著的自变量留在回归方程内,循此继续遴选下一个自变量。如果效应不显著,停止引入新自变量。由于新自变量的引入,原已引入方程中的自变量由于变量之间的相互作用其效应有可能变得不显著者,经统计检验确证后要随时从方程中剔除,只保留效应显著的自变量。直至不再引入和剔除自变量为止,从而得到最优的回归方程。三、内容与步骤用回归方法研究问题、进行回归分析的主要内容是:(1)建立
4、回归模型,确定自变量X,因变量Y。(2)确定回归方程(3)方程准确性判断及准确化。回归分析步骤1.做出散点图(观察变量间的趋势)2.考察数据的分布,做出必要的预处理,分析变量的正态性和方差齐等问题3.进行直线回归分析4.残差分析,检验残差的独立性和正态性5.影响点的诊断和多重共线性问题的判断四、数据处理(现象分析)1、一元线性回归分析(以城市化水平研究来分析)模型汇总b模型RR 方调整 R 方标准 估计的误差Durbin-Watson1.972a.944.941.008126.136a. 预测变量: (常量), 人均GDP。b. 因变量: 城市化水平从模型汇总的表中,决定系数R方是0.944,
5、反映因变量Y的全部变异中能通过自变量回归系数被自变量解释的比例为94.4%,接近于1,说明因变量的全部变量中能通过回归系数被自变量解释的比例很高。残差的独立性检验:D.W统计量范围是04,越接近于2,残差与自变量之间越独立。上表中D.W值为0.136,说明独立性差。Anovab模型平方和df均方FSig.1回归.0201.020302.773.000a残差.00118.000总计.02119a. 预测变量: (常量), 人均GDP。b. 因变量: 城市化水平Anovab方差表主要进行回归直线意义的F检验,统计量F=平均回归平方和/平均残差平方和。若F值过小说明自变量对因变量的解释力度很差,拟合
6、的回归直线没有意义,相反若概率值Sig越小则线性方程越明显。该F很大,是302.773,SIG值为0,所以该回归直线有意义。系数a模型非标准化系数B标准 误差1(常量).588.003人均GDP(元)4.761E-6.000系数a模型标准系数tSig.相关性试用版零阶偏部分1(常量)201.441.000人均GDP(元).97217.400.000.972.972.972a. 因变量: 城市化水平根据上表,可写出回归方程:y=0.588+0.972x,其中x是人均GDP,y是城市化水平。T检验是对回归系数的检验,考察是否每一个自变量都对因变量都有显著的影响,其中Sig越接近0越好。由上表可得,
7、常量和人均GDP系数的Sig值都为0,所以该方程中,自变量对因变量由显著的影响。该图为标准化残差直方图,由图可知标准化残差基本符合正态分布,有意义。该图为回归标准化残差的标准P-P图,图中的点基本位于一条直线上,说明该方程有意义。该图为散点图,点基本分布均匀在区域内,残差符合正态分布。2、多元线性回归分析(以研究城市人均居住面积(平米)为例分析进入法)模型汇总b模型RR 方调整 R 方标准 估计的误差Durbin-Watson1.995a.989.983.233021.621a. 预测变量: (常量), 人均基本建设投资额(元), 城镇储蓄存款余额 (亿元), 人均国内生产总值(元), 城镇居
8、民家庭平均每人每年全部收入(元), 城镇居民家庭平均每人每年可支配收入(元), 人均城镇储蓄存款余额(元), 基本建设投资额 (万元)。b. 因变量: 城市人均居住面积(平米)从模型汇总的表中,调整后R方为0.983,表示因变量Y的全部变异中能通过自变量回归系数被自变量解释的比例为98.3%,接近于1,说明因变量的全部变量中能通过回归系数被自变量解释的比例很高。残差的独立性检验:D.W统计量范围是04,越接近于2,残差与自变量之间越独立。上表中D.W=1.621,说明独立性较好。Anovab模型平方和df均方FSig.1回归59.68578.526157.022.000a残差.65212.05
9、4总计60.33619a. 预测变量: (常量), 人均基本建设投资额(元), 城镇储蓄存款余额 (亿元), 人均国内生产总值(元), 城镇居民家庭平均每人每年全部收入(元), 城镇居民家庭平均每人每年可支配收入(元), 人均城镇储蓄存款余额(元), 基本建设投资额 (万元)。b. 因变量: 城市人均居住面积(平米) Anovab方差表主要进行回归直线意义的F检验,统计量F=平均回归平方和/平均残差平方和。若F值过小说明自变量对因变量的解释力度很差,拟合的回归直线没有意义,相反若概率值Sig越小则线性方程越明显。该表中F值为157.022,较大,Sig.值等于0,说明回归方程有意义。系数a模型
10、非标准化系数B标准 误差1(常量)3.466.327城镇居民家庭平均每人每年全部收入(元)-.001.001城镇居民家庭平均每人每年可支配收入(元).000.001城镇储蓄存款余额 (亿元).010.003人均城镇储蓄存款余额(元)-.001.000人均国内生产总值(元).001.000基本建设投资额 (万元)-6.493E-6.000人均基本建设投资额(元).005.002模型标准系数tSig.相关性试用版零阶偏1(常量)10.588.000城镇居民家庭平均每人每年全部收入(元)-2.565-1.805.096.937-.462城镇居民家庭平均每人每年可支配收入(元)-.807-.723.4
11、84.938-.204城镇储蓄存款余额 (亿元)4.8312.902.013.902.642人均城镇储蓄存款余额(元)-4.970-3.451.005.914-.706人均国内生产总值(元)5.2546.555.000.951.884基本建设投资额 (万元)-5.554-2.005.068.938-.501人均基本建设投资额(元)4.8492.521.027.938.588系数a模型相关性共线性统计量部分容差VIF1(常量)城镇居民家庭平均每人每年全部收入(元)-.054.0002243.322城镇居民家庭平均每人每年可支配收入(元)-.022.0011384.324城镇储蓄存款余额.087.
12、0003079.586人均城镇储蓄存款余额(元)-.104.0002304.558人均国内生产总值(元).197.001713.916基本建设投资额-.060.000851.290人均基本建设投资额(元).076.0004110.621a. 因变量: 城市人均居住面积(平米)根据系数表中的B,可写出回归方程为Y=-0.001X1+0.000*X2+0.010X3-0.001X4+0.001X5-6.493E-6X6+0.005X7+3.466该方程中,自变量X1为城镇居民家庭平均每人每年全部收入(元), X2 为城镇居民家庭平均每人每年可支配收入(元), X3为城镇储蓄存款余额, X4为人均城
13、镇储蓄存款余额(元), X5为人均国内生产总值(元), X6为基本建设投资额, X7为人均基本建设投资额(元)。因变量Y为城市人均居住面积(平米)。标准化系数绝对值越大越重要。从表中可见人均国内生产总值(元),基本建设投资额(万元)相对重要通过上表进行T检验 ,T检验是对回归系数的检验,考察是否每一个自变量都对因变量都有显著的影响。Sig.值越小,越接近于0,该变量对Y的影响越显著。越不显著可剔除方程。其中,城镇居民家庭平均每人每年可支配收入(元)Sig.值为0.484,说明其对Y影响不显著,可剔除方程。基本建设投资额和城镇居民人均每人每年全部收入的sig值都较大,也可以剔除方程。 F通过,T
14、不显著,可能存在共线性问题。容差越小,表明该变量与其他变量相关性越强,共线性问题严重。 从上表中可以看出各个自变量的容差都很小,说明该方程共线性问题严重。VIF 方差膨胀因子,>2 则可能存在共线性问题。>10,则共线性问题较严重。从上表中可看出共线性问题很严重。共线性诊断a模型维数特征值条件索引方差比例(常量)城镇居民家庭平均每人每年全部收入(元)城镇居民家庭平均每人每年可支配收入(元)城镇储蓄存款余额 (亿元)117.4861.000.00.00.00.002.4793.954.04.00.00.003.02816.374.08.00.00.004.00636.682.11.0
15、1.01.005.00179.003.03.04.00.026.000143.679.09.01.58.0379.873E-5275.354.06.91.21.3482.682E-5528.369.60.04.20.60特征值越趋近于0,自变量之间共线性越问题越严重。从表中维数3的特征值为0.028,维数4的特征值0.006,维数5的特征值0.001,维数6的特征值0.000可见该方程的共线性问题严重。条件索引值15,可能存在共线性,条件索引值30,共线性问题很严重。从表中维数4-维数8的条件索引值36.682-528.369,可见存在严重的共线性问题。该图为标准化残差直方图,由图可知标准化残
16、差较符合正态分布,有意义。该图为回归标准化残差的标准P-P图(正态概率图),图中的点基本位于一条直线上,有意义。该图为散点图,点均匀的分布在该区域内,残差符合正态分布。3、逐步回归分析(以研究城市人均居住面积(平米)为例分析逐步法)模型汇总d模型RR 方调整 R 方标准 估计的误差Durbin-Watson1.951a.905.900.564122.981b.962.958.366403.988c.976.972.298141.451a. 预测变量: (常量), 人均国内生产总值(元)。b. 预测变量: (常量), 人均国内生产总值(元), 城镇储蓄存款余额。c. 预测变量: (常量), 人均
17、国内生产总值(元), 城镇储蓄存款余额, 城镇居民家庭平均每人每年可支配收入(元)。d. 因变量: 城市人均居住面积(平米)从模型汇总的表中的模型3,调整后R方为0.976,表示因变量Y的全部变异中能通过自变量回归系数被自变量解释的比例为97.6%,接近于1,说明因变量的全部变量中能通过回归系数被自变量解释的比例很高,独立性很好。残差的独立性检验:D.W统计量范围是04,越接近于2,残差与自变量之间越独立。上表中D.W=1.451,说明独立性较好。Anovad模型平方和df均方FSig.1回归54.608154.608171.598.000a残差5.72818.318总计60.336192回归
18、58.054229.027216.215.000b残差2.28217.134总计60.336193回归58.914319.638220.925.000c残差1.42216.089总计60.33619a. 预测变量: (常量), 人均国内生产总值(元)。b. 预测变量: (常量), 人均国内生产总值(元), 城镇储蓄存款余额。c. 预测变量: (常量), 人均国内生产总值(元), 城镇储蓄存款余额, 城镇居民家庭平均每人每年可支配收入(元)。d. 因变量: 城市人均居住面积(平米)Anovab方差表主要进行回归直线意义的F检验,统计量F=平均回归平方和/平均残差平方和。若F值过小说明自变量对因变
19、量的解释力度很差,拟合的回归直线没有意义,相反若概率值Sig越小则线性方程越明显。该表中Sig.值等于0,说明回归方程有意义。系数a模型非标准化系数B标准 误差1(常量)5.787.202人均国内生产总值(元).000.0002(常量)4.647.261人均国内生产总值(元).001.000城镇储蓄存款余额-.003.0013(常量)4.340.234人均国内生产总值(元).001.000城镇储蓄存款余额-.002.001城镇居民家庭平均每人每年可支配收入(元)-.001.000系数a模型标准系数tSig.相关性试用版零阶偏1(常量)28.583.000人均国内生产总值(元).95113.10
20、0.000.951.9512(常量)17.825.000人均国内生产总值(元)2.4528.175.000.951.893城镇储蓄存款余额-1.520-5.066.000.902-.7763(常量)18.548.000人均国内生产总值(元)4.5886.296.000.951.844城镇储蓄存款余额-1.096-3.921.001.902-.700城镇居民家庭平均每人每年可支配收入(元)-2.558-3.110.007.938-.614系数a模型相关性共线性统计量部分容差VIF1(常量)人均国内生产总值(元).9511.0001.0002(常量)人均国内生产总值(元).386.02540.44
21、7城镇储蓄存款余额-.239.02540.4473(常量)人均国内生产总值(元).242.003360.375城镇储蓄存款余额-.151.01953.042城镇居民家庭平均每人每年可支配收入(元)-.119.002458.896a. 因变量: 城市人均居住面积(平米)根据系数表中的B,可写出回归方程为Y=-0.001*X1-0.002*X2-0.001*X3+4.340该方程中,自变量X1为人均国内生产总值(元), X2 为城镇储蓄存款余额, X3为城镇居民家庭平均每人每年可支配收入(元),因变量Y为城市人均居住面积(平米)。标准化系数绝对值越大越重要。从表中可见人均国内生产总值(元)相对重要
22、。通过上表进行T检验 ,T检验是对回归系数的检验,考察是否每一个自变量都对因变量都有显著的影响。Sig.值越小,越接近于0,该变量对Y的影响越显著,越不显著可剔除方程。从上表可见,各变量都对Y有较显著的影响,而城镇居民家庭平均每人每年可支配收入(元)对Y影响不是很显著。 F通过,T不显著,可能存在共线性问题。容差越小,表明该变量与其他变量相关性越强,存在共线性问题。 VIF 方差膨胀因子,>2 则可能存在共线性问题。>10,则共线性问题较严重。人均国内生产总值(元)容差0.003,VIF值 360.375,城镇储蓄存款余额容差0.019,VIF值 53.042,城镇居民家庭平均每人每年可支配收入(元)容差0.002 ,VIF 值458.896.可见其容
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国红木原木行业市场调研及未来发展趋势预测报告
- 2025年中国鱼肝油行业市场深度分析及投资战略规划研究报告
- 2024年白色污染调查总结报告
- 年产2000台套数控弹簧机械设备项目申请可行性研究报告
- 2019-2025年中国肉类加工市场运行态势及行业发展前景预测报告
- 2025年中国氨基酸行业市场竞争格局分析及投资方向研究报告
- 阈值分割法课程设计
- 蓄热式工业炉课程设计
- 西湖文化美术课程设计
- 2022-2027年中国康复设备行业发展监测及投资战略咨询报告
- 2024年高纯氮化铝粉体项目可行性分析报告
- 危险性较大分部分项工程及施工现场易发生重大事故的部位、环节的预防监控措施
- 继电保护试题库(含参考答案)
- 《榜样9》观后感心得体会四
- 2023事业单位笔试《公共基础知识》备考题库(含答案)
- 《水下抛石基床振动夯实及整平施工规程》
- 《住院患者身体约束的护理》团体标准解读课件
- 酒店一线员工绩效考核指标体系优化研究
- 《铁路货车运用维修规程》2018年10月
- 水利工程竣工验收报告表格(共5页)
- 《有效备课、上课、听课、评课》读书笔记
评论
0/150
提交评论