




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多元回归模型与建模
2005年5月12/31/20221AppliedStatforMBA05D1一、多元线性回归问题
1.一元回归问题的困惑—巴特勒(Butler)运输公司的例子(p661):行驶距离(英里) 运送货物次数 行驶时间(小时)100 49.350 3 4.81004 8.9100 2 6.550 2 4.280 2 6.275 37.4654 6903 7.690 2 6.112/31/20222AppliedStatforMBA05D12.做行驶时间-行驶距离的一元回归
CoefficientstStat P-valueIntercept1.273913
0.9094540.389687行驶距离(英里)0.0678263.976755 0.00408回归方程为可以看出方程整体检验和自变量检验的P值为0.0041,一元回归能够显著成立。但是判定系数偏小,说明有些因变量的解释因素(例如运货次数)没有引入。12/31/20223AppliedStatforMBA05D112/31/20224AppliedStatforMBA05D14.来自p元回归模型的容量为n的样本注意:的第1个脚码k表示变量编号,k=1,…,p;第2个脚码i=1,…,n表示样本编号。12/31/20225AppliedStatforMBA05D15.多元回归总体模型和古典假定总体模型表示式为古典假定
1)E(ei)=0;(E(yi)=x1i+⋯+pxpi);2)对于所有的i,Var(ei)=;3)ei
是服从正态分布N(0,)的;4)对于不同的ei,ej(ij)
是相互独立的。12/31/20226AppliedStatforMBA05D16.多元线性回归方程的估计12/31/20227AppliedStatforMBA05D1巴特勒公司二元线性回归模型的估计自变量:x1-行驶距离,x2-运货次数。回归方程:12/31/20228AppliedStatforMBA05D17.多元回归方程变差分解和判定系数R2总变差的分解:SST=SSR+SSE;多元判定系数:R2=SSR/SST;多重相关系数r;调整(修正)的判定系数:巴特勒公司二元线性回归模型的判定系数12/31/20229AppliedStatforMBA05D18.对回归方程的检验:FTestforOverallSignificance问题:因变量和所有自变量之间是否存在显著的关系?判定系数R2可以
做方程的整体检验,但是遇到分布的困难。检验假设拒绝域
F和R2的关系:R2=pF/(n-p-1+pF)。?12/31/202210AppliedStatforMBA05D19.对回归归系数的检检验:tTestforIndividualSignificance检验假设检验统计量量拒绝域12/23/202211AppliedStatforMBA05D110.巴巴特勒公公司线性性回归模模型的Excel输出出回归统计计R=0.951R2=0.904adjR2=0.876s=0.573n=10方差分析析dfSSMSFSignificanceF总计9 23.9Here:SSR=21.601,SSE=2.299,SST=23.9.系数估计计和检验验Coefficients标标准准误差tStatp-value运送货物次12/23/202212AppliedStatforMBA05D111.多重重共线性(Multicollinearity)(1)巴特特勒运输公公司例题的的修改行驶距离运运送货物物次数(修改数)行行驶时间1004(4)9.3503(2)4.81004(4)8.91002(4)6.5502(2)4.2802(3)6.2753(3)7.4654(3)6903(4)7.6902(4)6.112/23/202213AppliedStatforMBA05D1(2)巴特特勒运输公公司例题的的回归结果果一元回归方方程二元回归方方程运输次数修修改后的二二元回归方方程(F检检验p值:0.021)*括弧内表表示系数的的p-值。12/23/202214AppliedStatforMBA05D1(3)多重重共线性问问题讨论巴特勒运输输回归结果果说明:增增加解释变变量不会降降低R2的值,但是是adjR2的值却会降降低.前两个回归归方程的系系数p-值都很低低(说明甚甚麽?),后一个修修改运输次数的二元元回归的两两个系数p-值都很高高,以至通通不过检验验.但是后后一个方程总体检验的F值的p-值却为0.021(0.05水平下下方程成立立)原因是修改改运输次数数数据,使使得x1,x2的相关系数数由0.16升至0.97,发生了共线线性.自变变量发生多多重共线性性,会出现现一些(甚甚至全部)变量通不过检验,但是方程程总体检验验却能通过过.此时的的解释变量量系数估计计值很不可靠.经验表明::解释变量量数据彼此此的相关系系数绝对值值大于0.7,回归归结果就不可可信,处理理办法就是是剔除p-值高的变变量.对2个以上解解释变量,自变量的相关矩矩阵和方差差膨胀因子子(VarianceInflationFactors,简记作VIF)是识别多多重共线性性的有效方方法,有专专门软件加加以精确检检验.12/23/202215AppliedStatforMBA05D112.利用用模型进行行预测使用计算机机软件产生生回归模型型;通过检验判判断你的模模型;直接利用模模型可以预预测自变量量(x01,x02,…,x0p)对应的的因变变量期期望值值E(y0)的估估计。。预测E(y0)和y0的置信区区域需需要某某些专专门软软件。12/23/202216AppliedStatforMBA05D113.多元回回归的的残差分分析多元回回归的的残差差分析析作用用方法法和一一元基基本相相同。。主要的的差异异在于于:多多自变变量的的观测测值的的杠杆杆率hi的计算算比较较复杂杂,需需要使使用专专门软软件。。回归分分析建建模应应用中中可以以看到到残差差分析析的应应用12/23/202217AppliedStatforMBA05D1二、、定性自自变量量(QualitativeIndependentVariable)1.虚虚拟变变量(Dummyvariable)方差分分析中中定性性变量量的解解决方方案::引入入因子子,处处理。。回归分分析的的解决决方案案:引引入虚虚拟变变量如何定定义虚虚拟变变量??例:x2=0(女女性)),x2=1((男性性)如何解解释回回归模模型??期望值值模型型为::女性:男性:截距变变化,,斜率率相同同。12/23/202218AppliedStatforMBA05D12.Johnson过滤滤水股股份公公司例例子Johnson公司司对遍遍布南南弗罗罗里达达州的的水过过滤系系统提提供维维修服服务。。为了了估计计服务务时间间和成成本,,公司司希望望能够够对顾顾客的的每一一次维维修请请求预预测必必要的的维修修时间间。他他们收收集的的数据据中包包含就就近一一次维维修至至今的的时间间(月月数))、故故障的的类型型(电电子和和机械械)以以及相相应的的维修修时间间(小小时))。你能够够建立立起一一个预预测方方程吗吗?12/23/202219AppliedStatforMBA05D1(1)Johnson公司数数据维修时间间/小时时最最后维维修至本本次维修修请求时时间/月月故故障障类型2.92电电子13.06机机械04.88电电子子11.83机机械02.92电电子14.97电电子14.29机机械04.88机机械械04.44电电子子14.56电电子子112/23/202220AppliedStatforMBA05D1散点图有正相关的的关系,可可做一元回回归。但是是似乎可以以看出有两两条接近平平行的直线线拟合这些些散点。12/23/202221AppliedStatforMBA05D1(2)建立立维修时间间-上次维维修间隔,故障性质质的回归方方程第一个回归归方程第二个回归归方程解释你得到到的回归方方程!讨论论x2的作用。*括弧内表表示系数的的p-值。二元比一元元的判定系系数增大许许多。12/23/202222AppliedStatforMBA05D1(3)更复复杂的定性性变量如果有3种种定性状态态,如何设设虚拟变量量?例:复印机机销售地区区是A、B、C三个个地区,已已知不同地区销售量量不但与价价格有关而而且与地区区也有关系系,利用回归分析建建立销售量量模型。设设x1是价格,还还需要2个个虚拟变量:回归方程期期望值表示示为:地区A方程程:地区B方程程:地区C方程程:注意:k种状态,需需要引入k-1个虚拟拟变量。12/23/202223AppliedStatforMBA05D1三、广义线线性模型有些复杂的的曲线关系系也可以用用多元回归归方法拟合合。1.模拟高阶曲曲线关系(CurvilinearRelationships)(1)Reynolds公公司是一家家生产工业业天平和实实验室设备备的企业。。公司管理理人员想要要对公司销销售人员的的工作年限限和天平的的销售数量量之间的关关系进行研研究。他们们随机抽取取了15名名销售人员员,得到相相应的数据据:12/23/202224AppliedStatforMBA05D1Reynolds公司天天平销销售量量与人人员雇雇用月月数天平销售人人员天平销售人人员销售量量雇用月月数销售量量雇用月月数275418940296106235513177683937610411212162226761501232556367851891930811112/23/202225AppliedStatforMBA05D1(2))散点点图和和一元元回归归结果果12/23/202226AppliedStatforMBA05D1R2=0.781174可以看看出销销售量量和人人员雇雇用月月数的的回归归方程程为Sale=111.23+2.38Months(0.00012)方程的的显著著性也也很高高。但但是从从散点点图看看出似似乎有有非线线性趋趋势,,而且且判定定系数数也不不算大大。从从下页页残差差表和和残差差图看看出有有明显显非线线性特特征,,考虑虑加入入二次次项x2做为第第二个个解释释变量量,做做二阶阶回归归:12/23/202227AppliedStatforMBA05D1Reynolds公公司案案例残差表表预测天天平销销售量量残残差差标标准准残差差12/23/202228AppliedStatforMBA05D1Reynolds公公司司案案例例残残差差图图12/23/202229AppliedStatforMBA05D1(3)二阶阶回归结果果R2=0.90Coefficients标标准准误差tStatp-value回归方程为为Sale=45.35+6.34(Months)-0.35(Months)2(0.000)(0.002)整个方程F检验的p-值为0.000,无论系数数和方程高高度显著通通过检验,,下页给出二二阶回归的的标准化残残差,相当当规范。12/23/202230AppliedStatforMBA05D112/23/202231AppliedStatforMBA05D12.因变量量对数模型型1)汽车耗耗油问题2)散点图图有有负线性相相关趋势12/23/202232AppliedStatforMBA05D13)一元回回归判定系数和和变量系数数都很显著著,方程应应该可以被被接受。12/23/202233AppliedStatforMBA05D14)一元回回归残差分分析残差呈楔形形,有随汽汽车重量增增加而增大大的异方差差趋势。12/23/202234AppliedStatforMBA05D15)因变量量对数一元元回归分析析E(lnY)=0+1x系数显著性性有提高12/23/202235AppliedStatforMBA05D16)因变变量对数数一元回回归分析析残差分分析标准残差差分布比比较均匀匀,方程程可以更更好的被被接受。。12/23/202236AppliedStatforMBA05D13.其他他常用的的非线性性变换为为线性的的公式12/23/202237AppliedStatforMBA05D1四.变量量选取方方法上面一些些例子说说明选取取合适的的解释变变量至关关重要.对于一组备备选的解解释变量量进行挑挑选,逐逐步回归归(Stepwise)是十分有效效的方法法。逐步步回归建建立在向向前选择择和向后后消元的的基础之上上。逐步回归归的基本本思想是是:备选选的解释释变量依依照对因因变量的相关关程度和和在回归归方程中中的地位位,按照照一定的的规则逐逐步吸纳和和剔除,直到不不能吸纳纳和剔除除为止。。不少统计计软件都都具有逐逐步回归归功能,例如:SAS、SPSS、、Minitab、StaPro等。12/23/202238AppliedStatforMBA05D11.增加加或删除除变量的的F检验F检验用来来检验已已含x1┅xk的模型再再增加自自变量xk+1(或者从从已含x1┅xkxk+1删除xk+1)。若F>F[1,n-(k+1)-1]则应该增增加(或或不删除除)xk+1,否则不不应增加(或删除除)xk+1。k=1则有有12/23/202239AppliedStatforMBA05D1增加或删删除变量量的F检验的巴巴特勒例例题巴特勒例例题的一一元回归归和二元元回归方方程分别别为(0.0041)括括号内内为变量量系数的的p-值值(0.0004)(0.0042)F检验中的的分子分分母分别别为F统计量的的p-值=0.0042,x2应该增加加(或不不应删除除)。可以看出出F统计量的的p-值就是是二元中中x2系数的p-值。12/23/202240AppliedStatforMBA05D12.逐步步回归的的基本步步骤1)给定定显著性性水平。2)选择与被被解释变变量相关关系数最最高的变变量做一一元回归归;如果果该变量p-值不显显著,则则回归失失败结束束;否则则一元回回归方程程成立,,进入3)。3)在一一元回归归基础上上利用F-检验筛筛选其余余变量,,选择其其中显著性水平平(p-值)小小于且F值最大的的一个变变量做二二元回归归;如如果不不存在这这种变量量,只能能得出一一元回归归方程,回归结结束;否否则二元元回归成成立,进进入4)。4)在二二元回归归基础上上利用F-检验筛筛选其余余变量,,选择其其中显著性水平平小于且F值最大的的一个变变量做3元回归归;如果果不存在在这种变量,只能得得出二元元回归方方程,回回归结束束;否则则在引入入3元基基础上进入第5)步。。12/23/202241AppliedStatforMBA05D1逐步回归的基基本步骤(续续)5)已有k个变量被引入入基础上利用用F-检验对已被被引入的变量量做检验,删除除其中显著性性水平(p-值)大于且F值最小的一个个变量,做k-1元回归,,然后继续做做删除检验((每次删除1个变量),,直到没有符合合被删除条件件的变量为止止,进入第6)步。。6)在m个变量被引入入基础上利用用F-检验筛选未未被引入的变变量,选择其中显著著性水平小于于且F值最大的一个个变量做m+1元归,然后回到第5)步;;否则如果不不存在这种变变量,只能得得出m元回归方程,回归结结束。123456结结束束12/23/202242AppliedStatforMBA05D13.逐步步回归的的几个问问题1)对于于给定的的显著性性水平,逐步步回归一一定会结结束,其结果唯唯一;不不同的回归结结果不同同。2)前前三步步只引引进变变量,,不剔剔除变变量。。3)可以以分别设设定不同同的进和出,但但是要要求进≤出,否则可可能形成成死循环环不能结结束回归归。12/23/202243AppliedStatforMBA05D14.大型问题题分析-逐步回回归的应应用教材740页提提供9个个变量的的Cravens数据据,讨论论8个自自变量对对因变量SALES的多元元回归问问题。相相关系数数阵为利用StaPro软件件做逐步步回归,,结果在在以下各各片12/23/202244AppliedStatforMBA05D1逐步回归归的应用用—第一一步12/23/202245AppliedStatforMBA05D1逐步回归归的应用用—第二二步12/23/202246AppliedStatforMBA05D1逐步回归归的应用用—第三三步12/23/202247AppliedStatforMBA05D1逐步回归归的应用用—第四四步如果设设置αα进=α出=0.01,则则第二步步就结束束,一般般设α较较大,多多得到几几步,再再根据系系数p-值决定定到哪步步结束。。12/23/202248AppliedStatforMBA05D16.最最佳子子集回回归-逐步回回归方方法是是通过过每次次增加加或者者删除除自变变量来选选择回回归模模型,对对于一一组已已知变变量,方方法并不能能保证证得到到最佳佳的模模型。。不少统统计软软件都都具有有最佳佳子集集回归归过程程,例例如:SAS、、SPSS、Minitab等。。对于于一一组组给给定定的的自自变变量量,这这一一过过程程能能够够得得到到最最佳佳回回归归模模型型。。12/23/202249AppliedStatforMBA05D1总结:如何何建立一个个回归模型型?1、正确选选择自变量量和因变量量(需要虚虚拟变量吗吗?需要引引入非线性性因素吗??);2、正确使使用计算机机软件建立立回归模型型;3、查看残残差图(线线性假设成成立吗?存存在异方方差吗?有有异常值或或影响点存存在吗?是是否存在多多重共线性性问题?))12/23/202250AppliedStatforMBA05D1总结:如何何建立一个个回归模型型?5、小心地地处理系数数的p值比比较大的变变量,切记记:你不应应该马上把把那些p值值较大的自自变量都消消除!6、你可以以尝试使用用软件提供供的变量选选择过程建建立模型。。(但是你你要明白选选择出什么么样的模型型仍然是由由你来控制制的。)7、无论如如何再回到到逐步回归归第5步都是有益益的!12/23/202251AppliedStatforMBA05D1总结:分析析你得到的的模型1、你你必须须回到到你具具体问问题的的情景景中去去!2、如如何对对你的的模型型和系系数进进行解解释??3、使使用你你的模模型进进行预预测。。此时时,你你要注注意很很多问问题!!4、把把具体体的问问题化化成模模型中中的假假设??尝试试着去去找到到检验验的方方法。。5、体体会使使用模模型辅辅助你你进行行决策策!12/23/202252AppliedStatforMBA05D1作业6DueDate:May28,2005.教材704页:47题题教材704页:案例研研究2。说明明:你只需运运用逐步回归归选取高尔夫夫球手比赛成成绩的影响因因素。12/23/202253AppliedStatforMBA05D19、静夜四四无邻,,荒居旧旧业贫。。。12月-2212月-22Friday,December23,202210、雨中黄黄叶树,,灯下白白头人。。。08:38:5708:38:5708:3812/23/20228:38:57AM11、以我我独沈沈久,,愧君君相见见频。。。12月月-2208:38:5708:38Dec-2223-Dec-2212、故人人江海海别,,几度度隔山山川。。。08:38:5708:38:5708:38Friday,December23,202213、乍见翻疑疑梦,相悲悲各问年。。。12月-2212月-2208:38:5708:38:57December23,202214、他他乡乡生生白白发发,,旧旧国国见见青青山山。。。。23十十二二月月20228:38:57上上午午08:38:5712月月-2215、比比不不了了得得就就不不比比,,得得不不到到的的就就不不要要。。。。。十二二月月228:38上上午午12月月-2208:38December23,202216、行动出成果果,工作出财财富。。2022/12/238:38:5708:38:5723December202217、做前,能够够环视四周;;做时,你只只能或者最好好沿着以脚为为起点的射线线向前。。8:38:57上午8:38上上午08:38:5712月-229、没有失败败,只有暂暂时停止成成功!。12月-2212月-22Friday,December23,202210、很多多事情情努力力了未未必有有结果果,但但是不不努力力却什什么改改变也也没有有。。。08:38:5708:38:5708:3812/23/20228:38:57AM11、成功就是是日复一日日那一点点点小小努力力的积累。。。12月-2208:38:5708:38Dec-2223-Dec-2212、世世间间成成事事,,不不求求其其绝绝对对圆圆满满,,留留一一份份不不足足,,可可得得无无限限完完美美。。。。08:38:5708:38:5708:38Friday,December23,202213、不不知知香香积积寺寺,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 绿色环保行业实践指南
- 营销现场作业安全管理和反窃电技能竞赛参考复习测试卷含答案
- 蝴蝶飞舞闯关课件
- 小升初专题01 字音
- 《小摄影师》课件-1
- 《女娲造人》课件-2
- 运输安全培训
- 2025年注册监理工程师《合同管理》知识点:合同的订立与履行
- 2025标准版短期雇佣合同样本
- 速心算培训教师用资料
- 2023年全国职业院校技能大赛-直播电商赛项规程
- 《Unit7Chinesefestivals》(教案)译林版英语五年级下册
- DL∕T 5161.5-2018 电气装置安装工程质量检验及评定规程 第5部分:电缆线路施工质量检验
- 合同到期不续约的通知模板
- 绿化养护服务投标方案(技术标)
- 小区物业服务投标方案(技术标)
- 电缆敷设及管内穿线施工方案
- 广东省江门市鹤山市2023-2024学年七年级下学期期中语文试题
- 幼儿园成语故事《磨杵成针》课件
- 13.第13课:资本主义世界殖民体系的建立与亚非拉民族独立运动
- 2023-2024学年安徽省合肥八中高一(下)期中数学试卷(含解析)
评论
0/150
提交评论