


已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
课 程 设 计 报 告 课程名称 应用回归分析 实验学期 2010 年至 2011 年 第 二 学期所在学院 理学院 年级 专业班级 学生姓名 学号 自评成绩 教师评成绩 学生姓名 学号 自评成绩 教师评成绩 学生姓名 学号 自评成绩 教师评成绩 学生姓名 学号 自评成绩 教师评成绩 学生姓名 学号 自评成绩 教师评成绩 指导教师 目录1. 前言.32. 问题简述.33. 多元线性回归.44. 违背基本假设情况.74.1 多元加权最小二乘估计.74.2 自相关性问题及其处理.85. 自变量选择与逐步回归.125.1 所有子集回归.125.1.1 最优Ra2法.125.1.2 最优Cp法.125.2 逐步回归.135.2.1 前进法.135.2.2 后退法.145.2.3 逐步回归法.176. 多重共线性的情形及其处理.186.1 多重共线性的诊断.186.1.1 方差扩大因子法.186.1.2 特征根判定法.196.2消除多重共线性.196.3 主成分回归.237. 岭回归.248含定性变量的回归模型.28 8.1自变量中含有定性变量的回归模型的应用.288.2 Logistic回归模型.348.3 Probit回归模型. 359. 总结.361. 前言本文以“汽车耗油量消耗因素”的数据为载体,在SPSS软件环境下,验证及梳理了应用回归分析中的数据分析方法和实验原理。本文主要利用了多元线性回归、最小二乘法估计、逐步回归、多重共线性诊断及消除、岭回归分析、定性变量回归等一系列的方法对数据进行处理,通过在实践中学习、学习中相互促进讨论,达到加深学生对应用回归分析的理解,提高学生对相关统计软件的应用能力的效果。2. 问题简述为研究决定汽车的汽油消耗的因素,收集了30种型号的汽车数据。其中包括每辆汽车的汽油消耗量(Y),以英里/加仑为单位,以及另外11个反映物理、机械特征的变量,如下表中数据的来源是1975年的Motor Trend杂志,变量的定义在表1中给出。表1 变量定义变量定义Y英里/加仑X1排气量(立方英寸)X2马力X3扭矩(英尺.磅)X4压缩比X5后轴动力比X6化油器(筒形)X7变速档数X8整体长度(英寸)X9宽度(英寸)X10重量(磅)X11传动类型(1=自动,0=手动)3. 多元线性回归通过软件运行的增广相关矩阵,如表2:表2 增广相关矩阵由相关系数矩阵可以看出,因变量Y(耗油量)与自变量X1(排气量), X2(马力), X3(扭矩), X6(化油器), X8(整体长度), X9(宽度), X10(重量), X11(传动类型)呈现负相关,与X4(压缩比),X5(后轴动力比),X7(变速档数)呈现正相关。这与实际情况相符。回归分析结果:表3 最小二乘回归分析结果通过回归分析表,我们可以知道回归方程高度显著。但同时发现没有一个数据对因变量Y有显著性影响,故使用后退法逐一剔除变量。首先剔除X11,用Y与其余10个自变量作回归,输出结果:表4 剔除x11回归分析表剔除X11后,其余自变量的显著性都发生了不同程度的变化,但仍然没有自变量通过检验,故继续剔除变量,剔除X6,输出结果:表5 剔除x6回归分析表剔除X4:表6 剔除x6回归分析表可以发现,此时已有自变量能通过检验,再一次剔除其余变量,最终方程中保留X8,X10,输出结果:表7 最终回归分析表得回归方程为:Y=16.185+0.213X8-0.01X10再根据公式:Xij*=Xij-XjLjjYi*=Yi-YLYYj*=LjjLYYj对数据进行处理,回归输出结果:表8 标准化回归分析表可得出标准化回归方程:Y*=0.714X8*-1.535X10*4违背基本假设情况4.1 多元加权最小二乘估计首先得到等级相关系数:表9 等级相关系数得等级相关系数re8=-0.161,re10=-0.209,因而选X8构造权函数,输出结果:表10 加权最小二乘分差分析根据以上结果,在m=-2时,对数拟然函数达到极大,因而幂指数m的最优取值为m=-2。加权最小二乘的R2=0.745,F值=39.383;而普通最小二乘的R2=0.771,F值=45.525。所以,普通最小二乘法的拟合效果优于加权最小二乘法。最小二乘法回归方程:Y=15.556+0.201X8-0.009X104.2 自相关性问题及其处理相关性检验:根据输出结果,DW=1.894,略小于2,故可认为存在相关性。1)用迭代法消除自相关。根据公式:=1-12DW=0.053故有:yt=yt-0.053yt-1xt=xt-0.053xt-1得到数据组:表11 迭代法数据组根据以上数据计算作最小二乘,输出结果:表12 迭代法回归分析根据输出结果,DW=1.871,相关性依然没有被消除。2)一阶差分法计算差分:yt=yt-yt-1,xt=xt-xt-1差分结果:表13 一阶差分法数据组根据以上数据计算作最小二乘,输出结果:表13 一阶差分法回归结果由输出结果可以看到,一阶差分仍然没有消除自相关性。3)精确最大似然法表14 精确最大似然法回归结果4)科克伦奥克特法表15 科克伦奥克特法回归结果5)普莱斯温斯登法表16 普莱斯温斯登法回归结果根据上面输出的一系列结果,我们认为普莱斯温斯登法消除差分结果效果最佳。5.自变量选择与逐步回归5.1 所有子集回归 5.1.1 最优Ra2法通过SAS输出结果:由输出结果可知,最优子集为x5,x8,x10,Ra2=0.7804。 5.1.2 最优Cp法通过SAS输出结果:由输出结果可知,最优子集为x5,x8,x10,Cp=-0.5769。5.2 逐步回归5.2.1 前进法取显著性水平为:表17 前进法输出结果由上面的结果可以得出,前进法引入了 最优的回归模型是复决定系数调整的复决定系数为,而全模型的复决定系数,调整的复决定系数为。 5.2.2 后退法:取显著性水平表18 后退法输出结果由上面的结果可以得出,模型1是全模型,从模型2到模型9依次剔除变量,故最优的回归模型是复决定系数,调整的复决定系数为,而全模型的复决定系数,调整的复决定系数为。 5.2.3 逐步回归法:取显著性水平为:表19 逐步回归法输出结果由上面的结果可以得出,逐步回归法的最优回归子集为模型2,回归方程是逐步回归的选元过程为第一步引入;第二步引入。复决定系数,调整的复决定系数为,而全模型的复决定系数,调整的复决定系数为。 6.多重共线性的情形及其处理6.1 多重共线性的诊断6.1.1 方差扩大因子法表20 方差扩大因子法方差分析从输出结果1看到,x1,x2,x3,x7,x8,x10的方差扩大因子均大于10,分别为VIF1=129,VIF2=43.996,VIF3=161.185,VIF7=11.748,VIF8=20.507,VIF10=85.570,说明回归方程存在着严重的多重共线性。6.1.2 特征根判定法表21 方差扩大因子法方差分析特征根分析:从输出结果2可以看到,矩阵XX有多个特征根接近于零,说明X有多个多重共线性关系。条件数:从条件数看到,最大的条件数k12=239.640,说明自变量间存在严重的多重共线性,这与方差扩大因子法的结果一致。从Variance Proportions方差比例表可以看到,第11行x4,x8,x10同时较大,为0.68,0.50,0.45,说明x4,x8,x10存在多重共线性。6.2消除多重共线性 从表20看到,回归系数没能通过显著性检验,应先作自变量的选元,舍去一些变量。依次把P值最大的自变量剔除,再建立回归方程。表22 消除多重共线性回归分析根据表22,依次剔除变量x11,x6,x4,x7,x1,x9,x2,x3。然后得:剩下变量x5,x8,x10。表23多重共线性显著性检验表x5的系数的P值为0.510.05,没能通过显著性检验,剔除。剩下x8,x10.在只剩下变量x8,x10的情况下,回归方程与回归系数均通过了显著性检验,但是x8,x10的方差扩大因子VIF8=VIF10=11.48010,条件数k3=67.41610,说明x8与x10仍存在较强的多重共线性。下面分别建立y对x8,x10的一元线性回归。得y对x8的回归方程1:y=63.138-0.224x8决定系数R=0.566得y对x10的回归方程2:y=40.618-0.006x10决定系数R=0.727所以回归方程2比回归方程1拟合得更好。最终的回归模型为y=40.618-0.006x10标准化回归方程为y*=-0.853x10*6.3 主成分回归表24 输出结果 根据表24,结果中有11个主成分的特征值(Eigenvalues),最大的是1=7.705,最小的是 11=0.003。方差百分比反映主成分所能解释数据变异的比例,也就是包含原数据的信息比例。第一个主成分Factor1的方差百分比=70.049%,含有原始11个变量70%的信息量;前4个主成分累计含有原始11个变量近95%的信息量。因此取四个主成分已经足够了。 现在用y对前4个主成分Factor1,Factor2,Factor3,Factor4做普通最小二乘回归,得主成分回归的回归方程: y=20.043-5.439Factor1+0.062Factor2-0.299Factor3+0.241Factor4不过以上回归方程的自变量是用四个主成分Factor1,Factor2,Factor3和Factor4表示的,应该转换回到用原始自变量表示的回归方程。 分别用四个主成分Factor1,Factor2,Factor3和Factor4做因变量,以11个原始自变量为自变量做线性回归,所得的回归系数就是所需要的线性组合的系数。这个回归中残差为0,这是因为主成分就是原始自变量的线性组合,是确定的函数关系,所做的回归相当于解一个线性方程组。得到Factor1=-1.434+0.001x1+0.003x2+0.002x3-0.209x4-0.182x5+0.069x6-0.166x7+0.006x8+0.019x9+0.250x11Factor2=-20.200+0.001x1+0.005x2+0.001x3+1.694x4+0.549x5+0.432x6+0.451x7+0.003x8-0.001x9-0.342x11Factor3=-10.987-0.002x2-0.001x3-0.469x4+0.936x5-0.443x6+0.379x7+0.020x8+0.109x9 -0.607x11Factor4=-29.540-0.006x2+3.733x4-0.879x5-0.470x6-0.276x7+0.011x8+0.022x9+0.358x11还原后的主成分回归方程为:y=22.756099-0.005377x1-0.016855x2-0.010579x3+2.281663x4+0.532233x5+0.202913x6+0.750999x7+0.715222x8+0.58453x9-1.113183x11 7. 岭回归岭回归是针对出现多重共线性时,普通最小二乘法明显变坏的问题的一种改进的最小二乘估计方法。岭回归计算程序Ridge regression.sps是SPSS软件的附加功能,需要用语法命令实现,菜单对话框中没有此功能。语法命令:Include spss安装地址Ridge regression.sps。(1) 根据样本数据,用SPSS计算XX的11个特征根,其中后两个都很接近于0.表25 共线性诊断而且k=239.64,说明设计矩阵X含较严重的多重共线性。(2)关于岭参数k的选择,有三个方法:岭迹法,方差扩大因子法,由残差平方和来确定K值。根据岭迹分析,把11个回归系数的岭迹绘成图1:图1从图中我们看到当0.05时,岭迹大体上达到稳定。(3)用岭回归选择变量,原则:剔除标准岭回归系数比较稳定且决定值很小的自变量;剔除标准化岭回归系数不稳定,震动趋向于零的自变量;剔除标准化岭回归系数很不稳定的自变量。根据原则1,首先剔除x4,x6,x11,得到岭迹图:图2由于x1,x3当k从0略增加时,很快趋于0所以亦应剔除,得到岭迹图:图3再根据原则1剔除x2,x7,x9, 得到岭迹图如下:图4最后根据原则1把x5剔除,得到岭迹图如下:图5由上图可知,岭参数k在0.05附近趋于稳定,于是去k=0.05重新作岭回归,得到表26:表26得到y对x8,x10的标准化岭回归方程为:y=5.38819+0.79774x8-5.72341x10未标准化岭回归方程为:y*=35.06028+0.0386x8*-0.0062x10*8含定性变量的回归模型 8.1自变量中含有定性变量的回归模型的应用考虑含有交互效应的回归模型检验结果如下:表27 交互效应回归分析从上表上我们可以看出被直接排除了;又的sig=0.977、的sig=0.674,故剔除、重新作模型拟合。表28 剔除x8,x102回归分析由上面分析我们可以看出,这次的模型拟合效果很好,所以模型可以认为是只考虑y(耗油量) 与(整体长度):图6由图6,我们可以看出当时,汽油消耗量明显降低。因此,我们考虑由两段构成的分段线性回归,这可以通过引入一个01型自变量实现。假定回归直线的斜率在=165处改变,建立回归模型来拟合,其中为了更清楚起见,引入两个新的自变量,有 。这样回归模型转化为标准形式的二元线性回归模型 (1)所以回归模型(1)可以分解为两个线性回归方程:当时, 当时, 用普通最小二乘法拟合模型(1)表29 普通最小二乘拟合(1)所以其回归方程为利用此模型可说明整体长度小于165时,每增加一个单位长度,单位耗油量降低1.416英里/加仑,当整体长度大于165时,每增加一个单位长度,单位耗油量降低(-1.416+1.239=)0.177英里/加仑.另外,我们直接对y 和做一元线性回归,有表30 对y和x8的回归分析R=0.752,明显比分段函数的差 其回归方程为上式说明,整体长度每增加1单位,耗油量减少0.224同理我们也可以考虑y 与(重量)的关系:图7由图7可知,2500为分界线。建立回归模型来拟合,其中为了更清楚起见,引入两个新的自变量,有 。这样回归模型转化为标准形式的二元线性回归模型 (2)所以回归模型(1)可以分解为两个线性回归方程:当时, 当时, 用普通最小二乘法拟合模型(2)表31 普通最小二乘法拟合(2)复决定系数,拟合效果不错,拟合的回归方程为:利用此模型可说明重量小于2500时,每增加1个单位重量,耗油量降低0.024英里/加仑;当重量大于2500时,每增加一个单位重量,耗油量降低0.003英里/加仑。另外,我们直接对y 和做一元线性回归表32 对y和x8的回归分析回归方程为:这说明重量每增加1吧磅,耗油量减少0.006英里/加仑。8.2 Logistic回归模型由于本例子数据不能拟合Logistic模型,故我们选择使用另外一组数据。研究一组新型玻璃的耐冲击性。X表示小球对玻璃做自由落体撞击的高度,玻璃破碎记y=1,玻璃未破碎记y=0.表33 数据Xy1.50.01.520.01.540.01.560.01.5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 惊喜发现卫生管理考试中的试题及答案
- 获取光电工程师证书考试知识试题及答案
- 育婴师护理技巧解析试题及答案
- 血液循环试题讲解及答案
- 激光技术发展趋势探讨试题及答案
- 育婴师职业规则与考试内容的关系试题及答案
- 算法英语面试题及答案
- 社会适应性与个体心理之间的互动试题及答案
- 国际专利申请流程探讨试题及答案
- 网络规划设计师考试移动网络知识试题及答案
- Module 7 Unit 2 She couldn't see or hear.(说课稿)-2023-2024学年外研版(三起)英语六年级下册
- 《氢气输送管道工程设计规范》
- 管网工程施工重难点分析及对应措施
- 八项规定试题及答案
- 2024ESC心房颤动管理指南解读-完整版
- 警察执法记录仪使用培训
- DB51T 2943-2022 四川省一体化政务服务平台系统接入规范
- 2024年10月自考00015英语二试卷及答案解释
- 医务人员思政课课件
- 疫苗管理法培训课件
- GB/T 44770-2024智能火电厂技术要求
评论
0/150
提交评论