多元回归模型与建模课件_第1页
多元回归模型与建模课件_第2页
多元回归模型与建模课件_第3页
多元回归模型与建模课件_第4页
多元回归模型与建模课件_第5页
已阅读5页,还剩101页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元回归模型与建模

2005年5月12/15/20221AppliedStatforMBA05D1多元回归模型与建模

12/13/20221Applied一、多元线性回归问题

1.一元回归问题的困惑—巴特勒(Butler)运输公司的例子(p661):行驶距离(英里) 运送货物次数 行驶时间(小时)100 49.350 3 4.81004 8.9100 2 6.550 2 4.280 2 6.275 37.4654 6903 7.690 2 6.112/15/20222AppliedStatforMBA05D1一、多元线性回归问题

1.一元回归问题的困惑—巴2.做行驶时间-行驶距离的一元回归

CoefficientstStat P-valueIntercept1.273913

0.9094540.389687行驶距离(英里)0.0678263.976755 0.00408回归方程为可以看出方程整体检验和自变量检验的P值为0.0041,一元回归能够显著成立。但是判定系数偏小,说明有些因变量的解释因素(例如运货次数)没有引入。12/15/20223AppliedStatforMBA05D12.做行驶时间-行驶距离的一元回归12/15/20224AppliedStatforMBA05D112/13/20224AppliedStatforMB4.来自p元回归模型的容量为n的样本注意:的第1个脚码k表示变量编号,k=1,…,p;第2个脚码i=1,…,n表示样本编号。12/15/20225AppliedStatforMBA05D14.来自p元回归模型的容量为n的样本注意:的第1个5.多元回归总体模型和古典假定总体模型表示式为古典假定

1)E(ei)=0;(E(yi)=x1i+⋯+pxpi);2)对于所有的i,Var(ei)=;3)ei

是服从正态分布N(0,)的;4)对于不同的ei,ej(ij)

是相互独立的。12/15/20226AppliedStatforMBA05D15.多元回归总体模型和古典假定总体模型表示式为12/13/6.多元线性回归方程的估计12/15/20227AppliedStatforMBA05D16.多元线性回归方程的估计12/13/20227Applie巴特勒公司二元线性回归模型的估计自变量:x1-行驶距离,x2-运货次数。回归方程:12/15/20228AppliedStatforMBA05D1巴特勒公司二元线性回归模型的估计自变量:x1-行驶距离,x7.多元回归方程变差分解和判定系数R2总变差的分解:SST=SSR+SSE;多元判定系数:R2=SSR/SST;多重相关系数r;调整(修正)的判定系数:巴特勒公司二元线性回归模型的判定系数12/15/20229AppliedStatforMBA05D17.多元回归方程变差分解和判定系数R2总变差的分解:SST=8.对回归方程的检验:FTestforOverallSignificance问题:因变量和所有自变量之间是否存在显著的关系?判定系数R2可以

做方程的整体检验,但是遇到分布的困难。检验假设拒绝域

F和R2的关系:R2=pF/(n-p-1+pF)。?12/15/202210AppliedStatforMBA05D18.对回归方程的检验:FTestforOverall9.对回归系数的检验:tTestforIndividualSignificance检验假设检验统计量拒绝域

12/15/202211AppliedStatforMBA05D19.对回归系数的检验:tTestforIndivid10.巴特勒公司线性回归模型的Excel输出

回归统计

R=0.951R2=0.904adjR2=0.876s=0.573n=10方差分析

df SSMS F SignificanceF回归2 21.60110.80032.878 0.00027624残差 7 2.299 0.328 总计9 23.9

Here:SSR=21.601,SSE=2.299,SST=23.9.

系数估计和检验Coefficients标准误差tStat p-valueIntercept -0.86870.9515 -0.9129 0.39163行驶距离(英里)0.06110.0099 6.1824 0.00045运送货物次数0.9234 0.2211 4.1763 0.0041612/15/202212AppliedStatforMBA05D110.巴特勒公司线性回归模型的Excel输出

回归统计11.多重共线性(Multicollinearity)

(1)巴特勒运输公司例题的修改行驶距离 运送货物次数(修改数) 行驶时间100 4(4)9.350 3(2) 4.81004(4) 8.9100 2(4) 6.550 2(2) 4.280 2(3) 6.275 3(3)7.4654(3) 6903(4) 7.690 2(4) 6.112/15/202213AppliedStatforMBA05D111.多重共线性(Multicollinearity)

(2)巴特勒运输公司例题的回归结果一元回归方程二元回归方程运输次数修改后的二元回归方程(F检验p值:0.021)*括弧内表示系数的p-值。12/15/202214AppliedStatforMBA05D1(2)巴特勒运输公司例题的回归结果一元回归方程12/13/2(3)多重共线性问题讨论巴特勒运输回归结果说明:增加解释变量不会降低R2的值,但是adjR2的值却会降低.前两个回归方程的系数p-值都很低(说明甚麽?),后一个修改运输次数的二元回归的两个系数p-值都很高,以至通不过检验.但是后一个方程总体检验的F值的p-值却为0.021(0.05水平下方程成立)原因是修改运输次数数据,使得x1,x2的相关系数由0.16升至0.97,发生了共线性.自变量发生多重共线性,会出现一些(甚至全部)变量通不过检验,但是方程总体检验却能通过.此时的解释变量系数估计值很不可靠.经验表明:解释变量数据彼此的相关系数绝对值大于0.7,回归结果就不可信,处理办法就是剔除p-值高的变量.对2个以上解释变量,自变量的相关矩阵和方差膨胀因子(VarianceInflationFactors,

简记作VIF)是识别多重共线性的有效方法,有专门软件加以精确检验.12/15/202215AppliedStatforMBA05D1(3)多重共线性问题讨论巴特勒运输回归结果说12.利用模型进行预测使用计算机软件产生回归模型;通过检验判断你的模型;直接利用模型可以预测自变量(x01,x02,…,x0p)对应的因变量期望值E(y0)的估计。预测E(y0)和y0的置信区域需要某些专门软件。12/15/202216AppliedStatforMBA05D112.利用模型进行预测使用计算机软件产生回归模型;12/1313.多元回归的残差分析多元回归的残差分析作用方法和一元基本相同。主要的差异在于:多自变量的观测值的杠杆率hi的计算比较复杂,需要使用专门软件。回归分析建模应用中可以看到残差分析的应用12/15/202217AppliedStatforMBA05D113.多元回归的残差分析多元回归的残差分析作用方法和一元基本二、定性自变量(QualitativeIndependentVariable)1.虚拟变量(Dummyvariable)方差分析中定性变量的解决方案:引入因子,处理。回归分析的解决方案:引入虚拟变量如何定义虚拟变量?例:x2=0(女性),x2=1(男性)如何解释回归模型?期望值模型为:女性:男性:截距变化,斜率相同。12/15/202218AppliedStatforMBA05D1二、定性自变量(QualitativeIndepende2.Johnson过滤水股份公司例子Johnson公司对遍布南弗罗里达州的水过滤系统提供维修服务。为了估计服务时间和成本,公司希望能够对顾客的每一次维修请求预测必要的维修时间。他们收集的数据中包含就近一次维修至今的时间(月数)、故障的类型(电子和机械)以及相应的维修时间(小时)。你能够建立起一个预测方程吗?12/15/202219AppliedStatforMBA05D12.Johnson过滤水股份公司例子Jo(1)Johnson公司数据维修时间/小时最后维修至本次维修请求时间/月 故障类型 2.92 电子13.0 6 机械0 4.8 8 电子1 1.8 3 机械02.92 电子1 4.97 电子1 4.2 9 机械0 4.8 8 机械0 4.4 4 电子14.5 6 电子112/15/202220AppliedStatforMBA05D1(1)Johnson公司数据12/13/202220Appl散点图有正相关的关系,可做一元回归。但是似乎可以看出有两条接近平行的直线拟合这些散点。12/15/202221AppliedStatforMBA05D1散点图有正相关的关系,可做一元回归。但是似乎可以看出有两条接(2)建立维修时间-上次维修间隔,故障性质的回归方程第一个回归方程第二个回归方程解释你得到的回归方程!讨论x2的作用。*括弧内表示系数的p-值。二元比一元的判定系数增大许多。

12/15/202222AppliedStatforMBA05D1(2)建立维修时间-上次维修间隔,故障性质的回归方程第一个回(3)更复杂的定性变量如果有3种定性状态,如何设虚拟变量?例:复印机销售地区是A、B、C三个地区,已知不同地区销售量不但与价格有关而且与地区也有关系,利用回归分析建立销售量模型。设x1是价格,还需要2个虚拟变量:回归方程期望值表示为:地区A方程:地区B方程:地区C方程:注意:k种状态,需要引入k-1个虚拟变量。12/15/202223AppliedStatforMBA05D1(3)更复杂的定性变量如果有3种定性状态,如何设虚拟变量?1三、广义线性模型有些复杂的曲线关系也可以用多元回归方法拟合。1.模拟高阶曲线关系(CurvilinearRelationships)(1)Reynolds公司是一家生产工业天平和实验室设备的企业。公司管理人员想要对公司销售人员的工作年限和天平的销售数量之间的关系进行研究。他们随机抽取了15名销售人员,得到相应的数据:12/15/202224AppliedStatforMBA05D1三、广义线性模型有些复杂的曲线关系也可以用多元回归方法拟合Reynolds公司天平销售量与人员雇用月数

销售人员

销售人员销售量

雇用月数

销售量

雇用月数275 4189 40296 106235 51317 7683 9376 10411212162 2267 6150 12325 56367 85189 19308 11112/15/202225AppliedStatforMBA05D1Reynolds公司天平销售量与人员雇用月数12(2)散点图和一元回归结果12/15/202226AppliedStatforMBA05D1(2)散点图和一元回归结果12/13/202226AppliR2=

0.781174

可以看出销售量和人员雇用月数的回归方程为

Sale=111.23+2.38Months

(0.00012)方程的显著性也很高。但是从散点图看出似乎有非线性趋势,而且判定系数也不算大。从下页残差表和残差图看出有明显非线性特征,考虑加入二次项x2做为第二个解释变量,做二阶回归:12/15/202227AppliedStatforMBA05D1R2=0.781174可以看出销售量和人员雇用月数的Reynolds公司案例残差表预测天平销售量 残差 标准残差208.6756926 66.32430742 1.390020675363.166061 -67.16606097 -1.407662093291.862814 25.13718598 0.526823567358.4125112 17.58748883 0.368597488163.5169695 -1.516969516 -0.031792552139.7492205 10.25077947 0.214835193313.2537881 53.7462119 1.126409738375.0499355 -67.04993546 -1.405228342206.2989177 -17.29891768 -0.362549632232.4434416 2.556558435 0.053580191132.6188958 -49.61889584 -1.039909707139.7492205 -27.74922053 -0.581566423125.4885711 -58.48857114 -1.225799805244.3273161 80.67268394 1.69073305156.3866448 32.61335518 0.68350865212/15/202228AppliedStatforMBA05D1Reynolds公司案例残差表预测天平销售量 Reynolds公司案例残差图12/15/202229AppliedStatforMBA05D1Reynolds公司案例残差图12/13/202229App(3)二阶回归结果R2=0.90 Coefficients标准误差 tStatp-value Intercept 45.34758 22.77465 1.991140.0697 雇用月数 6.344807 1.057851 5.997826.24E-05月数平方-0.03449 0.008948-3.853880.0023

回归方程为Sale=45.35+6.34(Months)-0.35(Months)2(0.000)(0.002)整个方程F检验的p-值为0.000,无论系数和方程高度显著通过检验,下页给出二阶回归的标准化残差,相当规范。12/15/202230AppliedStatforMBA05D1(3)二阶回归结果R2=0.9012/13/20212/15/202231AppliedStatforMBA05D112/13/202231AppliedStatforM2.因变量对数模型1)汽车耗油问题2)散点图有负线性相关趋势12/15/202232AppliedStatforMBA05D12.因变量对数模型1)汽车耗油问题12/13/202232A3)一元回归

判定系数和变量系数都很显著,方程应该可以被接受。

12/15/202233AppliedStatforMBA05D13)一元回归

判定系数和变量系数都很显著,方程应4)一元回归残差分析

残差呈楔形,有随汽车重量增加而增大的异方差趋势。12/15/202234AppliedStatforMBA05D14)一元回归残差分析

残差呈楔形,有随汽车重量增加而5)因变量对数一元回归分析

E(lnY)=0+1x系数显著性有提高12/15/202235AppliedStatforMBA05D15)因变量对数一元回归分析

E(lnY)=6)因变量对数一元回归分析残差分析

标准残差分布比较均匀,方程可以更好的被接受。12/15/202236AppliedStatforMBA05D16)因变量对数一元回归分析残差分析

标准残差分3.其他常用的非线性变换为线性的公式

12/15/202237AppliedStatforMBA05D13.其他常用的非线性变换为线性的公式四.变量选取方法

上面一些例子说明选取合适的解释变量至关重要.对于一组备选的解释变量进行挑选,逐步回归(Stepwise)是十分有效的方法。逐步回归建立在向前选择和向后消元的基础之上。逐步回归的基本思想是:备选的解释变量依照对因变量的相关程度和在回归方程中的地位,按照一定的规则逐步吸纳和剔除,直到不能吸纳和剔除为止。不少统计软件都具有逐步回归功能,例如:SAS、SPSS、Minitab、StaPro等。12/15/202238AppliedStatforMBA05D1四.变量选取方法上面一些例子说明选取合适的解释1.增加或删除变量的F检验F检验用来检验已含x1┅xk

的模型再增加自变量xk+1

(或者从已含x1┅xkxk+1删除xk+1)。若F>F[1,n-(k+1)-1]则应该增加(或不删除)xk+1,否则不应增加(或删除)xk+1。

k=1则有12/15/202239AppliedStatforMBA05D11.增加或删除变量的F检验F检验用来检验已含x1增加或删除变量的F检验的巴特勒例题巴特勒例题的一元回归和二元回归方程分别为

(0.0041)括号内为变量系数的p-值(0.0004)(0.0042)F检验中的分子分母分别为

F统计量的p-值=0.0042,x2应该增加(或不应删除)。可以看出F统计量的p-值就是二元中x2系数的p-值。12/15/202240AppliedStatforMBA05D1增加或删除变量的F检验的巴特勒例题巴特勒例题的一元回归和二2.逐步回归的基本步骤1)给定显著性水平。2)选择与被解释变量相关系数最高的变量做一元回归;如果该变量p-值不显著,则回归失败结束;否则一元回归方程成立,进入3)。3)在一元回归基础上利用F-检验筛选其余变量,选择其中显著性水平(p-值)小于且F值最大的一个变量做二元回归;如果不存在这种变量,只能得出一元回归方程,回归结束;否则二元回归成立,进入4)。4)在二元回归基础上利用F-检验筛选其余变量,选择其中显著性水平小于且F值最大的一个变量做3元回归;如果不存在这种变量,只能得出二元回归方程,回归结束;否则在引入3元基础上进入第5)步。12/15/202241AppliedStatforMBA05D12.逐步回归的基本步骤1)给定显著性水平。12/13/20逐步回归的基本步骤(续)5)已有k个变量被引入基础上利用F-检验对已被引入的变量做检验,删除其中显著性水平(p-值)大于且F值最小的一个变量,做k-1元回归,然后继续做删除检验(每次删除1个变量),直到没有符合被删除条件的变量为止,进入第6)步。6)在m个变量被引入基础上利用F-检验筛选未被引入的变量,选择其中显著性水平小于且F值最大的一个变量做m+1元归,然后回到第5)步;否则如果不存在这种变量,只能得出m元回归方程,回归结束。123456结束12/15/202242AppliedStatforMBA05D1逐步回归的基本步骤(续)5)已有k个变量被引入基础上利用F-3.逐步回归的几个问题1)对于给定的显著性水平,逐步回归一定会结束,其结果唯一;不同的回归结果不同。2)前三步只引进变量,不剔除变量。3)可以分别设定不同的进和出,但是要求进≤出,否则可能形成死循环不能结束回归。12/15/202243AppliedStatforMBA05D13.逐步回归的几个问题1)对于给定的显著性水平,逐步回归一4.大型问题分析-逐步回归的应用教材740页提供9个变量的Cravens数据,讨论8个自变量对因变量SALES的多元回归问题。相关系数阵为利用StaPro软件做逐步回归,结果在以下各片12/15/202244AppliedStatforMBA05D14.大型问题分析-逐步回归的应用教材740页提供9个变量的C逐步回归的应用—第一步12/15/202245AppliedStatforMBA05D1逐步回归的应用—第一步12/13/202245Applied逐步回归的应用—第二步12/15/202246AppliedStatforMBA05D1逐步回归的应用—第二步12/13/202246Applied逐步回归的应用—第三步12/15/202247AppliedStatforMBA05D1逐步回归的应用—第三步12/13/202247Applied逐步回归的应用—第四步

如果设置α进=α出=0.01,则第二步就结束,一般设α较大,多得到几步,再根据系数p-值决定到哪步结束。12/15/202248AppliedStatforMBA05D1逐步回归的应用—第四步如果设置α进=α出=0.06.最佳子集回归-逐步回归方法是通过每次增加或者删除自变量来选择回归模型,对于一组已知变量,方法并不能保证得到最佳的模型。不少统计软件都具有最佳子集回归过程,例如:SAS、SPSS、Minitab等。对于一组给定的自变量,这一过程能够得到最佳回归模型。12/15/202249AppliedStatforMBA05D16.最佳子集回归-逐步回归方法是通过每次增加或者删除自总结:如何建立一个回归模型?1、正确选择自变量和因变量(需要虚拟变量吗?需要引入非线性因素吗?);2、正确使用计算机软件建立回归模型;3、查看残差图(线性假设成立吗?存在异方差吗?有异常值或影响点存在吗?是否存在多重共线性问题?)12/15/202250AppliedStatforMBA05D1总结:如何建立一个回归模型?1、正确选择自变量和因变量(需要总结:如何建立一个回归模型?5、小心地处理系数的p值比较大的变量,切记:你不应该马上把那些p值较大的自变量都消除!6、你可以尝试使用软件提供的变量选择过程建立模型。(但是你要明白选择出什么样的模型仍然是由你来控制的。)7、无论如何再回到逐步回归第5步都是有益的!

12/15/202251AppliedStatforMBA05D1总结:如何建立一个回归模型?5、小心地处理系数的p值比较大的总结:分析你得到的模型1、你必须回到你具体问题的情景中去!2、如何对你的模型和系数进行解释?3、使用你的模型进行预测。此时,你要注意很多问题!4、把具体的问题化成模型中的假设?尝试着去找到检验的方法。5、体会使用模型辅助你进行决策!12/15/202252AppliedStatforMBA05D1总结:分析你得到的模型1、你必须回到你具体问题的情景中去!1作业6

DueDate:May28,2005.教材704页:47题

教材704页:案例研究2。说明:你只需运用逐步回归选取高尔夫球手比赛成绩的影响因素。12/15/202253AppliedStatforMBA05D1作业6

DueDate:May28,2005.教多元回归模型与建模

2005年5月12/15/202254AppliedStatforMBA05D1多元回归模型与建模

12/13/20221Applied一、多元线性回归问题

1.一元回归问题的困惑—巴特勒(Butler)运输公司的例子(p661):行驶距离(英里) 运送货物次数 行驶时间(小时)100 49.350 3 4.81004 8.9100 2 6.550 2 4.280 2 6.275 37.4654 6903 7.690 2 6.112/15/202255AppliedStatforMBA05D1一、多元线性回归问题

1.一元回归问题的困惑—巴2.做行驶时间-行驶距离的一元回归

CoefficientstStat P-valueIntercept1.273913

0.9094540.389687行驶距离(英里)0.0678263.976755 0.00408回归方程为可以看出方程整体检验和自变量检验的P值为0.0041,一元回归能够显著成立。但是判定系数偏小,说明有些因变量的解释因素(例如运货次数)没有引入。12/15/202256AppliedStatforMBA05D12.做行驶时间-行驶距离的一元回归12/15/202257AppliedStatforMBA05D112/13/20224AppliedStatforMB4.来自p元回归模型的容量为n的样本注意:的第1个脚码k表示变量编号,k=1,…,p;第2个脚码i=1,…,n表示样本编号。12/15/202258AppliedStatforMBA05D14.来自p元回归模型的容量为n的样本注意:的第1个5.多元回归总体模型和古典假定总体模型表示式为古典假定

1)E(ei)=0;(E(yi)=x1i+⋯+pxpi);2)对于所有的i,Var(ei)=;3)ei

是服从正态分布N(0,)的;4)对于不同的ei,ej(ij)

是相互独立的。12/15/202259AppliedStatforMBA05D15.多元回归总体模型和古典假定总体模型表示式为12/13/6.多元线性回归方程的估计12/15/202260AppliedStatforMBA05D16.多元线性回归方程的估计12/13/20227Applie巴特勒公司二元线性回归模型的估计自变量:x1-行驶距离,x2-运货次数。回归方程:12/15/202261AppliedStatforMBA05D1巴特勒公司二元线性回归模型的估计自变量:x1-行驶距离,x7.多元回归方程变差分解和判定系数R2总变差的分解:SST=SSR+SSE;多元判定系数:R2=SSR/SST;多重相关系数r;调整(修正)的判定系数:巴特勒公司二元线性回归模型的判定系数12/15/202262AppliedStatforMBA05D17.多元回归方程变差分解和判定系数R2总变差的分解:SST=8.对回归方程的检验:FTestforOverallSignificance问题:因变量和所有自变量之间是否存在显著的关系?判定系数R2可以

做方程的整体检验,但是遇到分布的困难。检验假设拒绝域

F和R2的关系:R2=pF/(n-p-1+pF)。?12/15/202263AppliedStatforMBA05D18.对回归方程的检验:FTestforOverall9.对回归系数的检验:tTestforIndividualSignificance检验假设检验统计量拒绝域

12/15/202264AppliedStatforMBA05D19.对回归系数的检验:tTestforIndivid10.巴特勒公司线性回归模型的Excel输出

回归统计

R=0.951R2=0.904adjR2=0.876s=0.573n=10方差分析

df SSMS F SignificanceF回归2 21.60110.80032.878 0.00027624残差 7 2.299 0.328 总计9 23.9

Here:SSR=21.601,SSE=2.299,SST=23.9.

系数估计和检验Coefficients标准误差tStat p-valueIntercept -0.86870.9515 -0.9129 0.39163行驶距离(英里)0.06110.0099 6.1824 0.00045运送货物次数0.9234 0.2211 4.1763 0.0041612/15/202265AppliedStatforMBA05D110.巴特勒公司线性回归模型的Excel输出

回归统计11.多重共线性(Multicollinearity)

(1)巴特勒运输公司例题的修改行驶距离 运送货物次数(修改数) 行驶时间100 4(4)9.350 3(2) 4.81004(4) 8.9100 2(4) 6.550 2(2) 4.280 2(3) 6.275 3(3)7.4654(3) 6903(4) 7.690 2(4) 6.112/15/202266AppliedStatforMBA05D111.多重共线性(Multicollinearity)

(2)巴特勒运输公司例题的回归结果一元回归方程二元回归方程运输次数修改后的二元回归方程(F检验p值:0.021)*括弧内表示系数的p-值。12/15/202267AppliedStatforMBA05D1(2)巴特勒运输公司例题的回归结果一元回归方程12/13/2(3)多重共线性问题讨论巴特勒运输回归结果说明:增加解释变量不会降低R2的值,但是adjR2的值却会降低.前两个回归方程的系数p-值都很低(说明甚麽?),后一个修改运输次数的二元回归的两个系数p-值都很高,以至通不过检验.但是后一个方程总体检验的F值的p-值却为0.021(0.05水平下方程成立)原因是修改运输次数数据,使得x1,x2的相关系数由0.16升至0.97,发生了共线性.自变量发生多重共线性,会出现一些(甚至全部)变量通不过检验,但是方程总体检验却能通过.此时的解释变量系数估计值很不可靠.经验表明:解释变量数据彼此的相关系数绝对值大于0.7,回归结果就不可信,处理办法就是剔除p-值高的变量.对2个以上解释变量,自变量的相关矩阵和方差膨胀因子(VarianceInflationFactors,

简记作VIF)是识别多重共线性的有效方法,有专门软件加以精确检验.12/15/202268AppliedStatforMBA05D1(3)多重共线性问题讨论巴特勒运输回归结果说12.利用模型进行预测使用计算机软件产生回归模型;通过检验判断你的模型;直接利用模型可以预测自变量(x01,x02,…,x0p)对应的因变量期望值E(y0)的估计。预测E(y0)和y0的置信区域需要某些专门软件。12/15/202269AppliedStatforMBA05D112.利用模型进行预测使用计算机软件产生回归模型;12/1313.多元回归的残差分析多元回归的残差分析作用方法和一元基本相同。主要的差异在于:多自变量的观测值的杠杆率hi的计算比较复杂,需要使用专门软件。回归分析建模应用中可以看到残差分析的应用12/15/202270AppliedStatforMBA05D113.多元回归的残差分析多元回归的残差分析作用方法和一元基本二、定性自变量(QualitativeIndependentVariable)1.虚拟变量(Dummyvariable)方差分析中定性变量的解决方案:引入因子,处理。回归分析的解决方案:引入虚拟变量如何定义虚拟变量?例:x2=0(女性),x2=1(男性)如何解释回归模型?期望值模型为:女性:男性:截距变化,斜率相同。12/15/202271AppliedStatforMBA05D1二、定性自变量(QualitativeIndepende2.Johnson过滤水股份公司例子Johnson公司对遍布南弗罗里达州的水过滤系统提供维修服务。为了估计服务时间和成本,公司希望能够对顾客的每一次维修请求预测必要的维修时间。他们收集的数据中包含就近一次维修至今的时间(月数)、故障的类型(电子和机械)以及相应的维修时间(小时)。你能够建立起一个预测方程吗?12/15/202272AppliedStatforMBA05D12.Johnson过滤水股份公司例子Jo(1)Johnson公司数据维修时间/小时最后维修至本次维修请求时间/月 故障类型 2.92 电子13.0 6 机械0 4.8 8 电子1 1.8 3 机械02.92 电子1 4.97 电子1 4.2 9 机械0 4.8 8 机械0 4.4 4 电子14.5 6 电子112/15/202273AppliedStatforMBA05D1(1)Johnson公司数据12/13/202220Appl散点图有正相关的关系,可做一元回归。但是似乎可以看出有两条接近平行的直线拟合这些散点。12/15/202274AppliedStatforMBA05D1散点图有正相关的关系,可做一元回归。但是似乎可以看出有两条接(2)建立维修时间-上次维修间隔,故障性质的回归方程第一个回归方程第二个回归方程解释你得到的回归方程!讨论x2的作用。*括弧内表示系数的p-值。二元比一元的判定系数增大许多。

12/15/202275AppliedStatforMBA05D1(2)建立维修时间-上次维修间隔,故障性质的回归方程第一个回(3)更复杂的定性变量如果有3种定性状态,如何设虚拟变量?例:复印机销售地区是A、B、C三个地区,已知不同地区销售量不但与价格有关而且与地区也有关系,利用回归分析建立销售量模型。设x1是价格,还需要2个虚拟变量:回归方程期望值表示为:地区A方程:地区B方程:地区C方程:注意:k种状态,需要引入k-1个虚拟变量。12/15/202276AppliedStatforMBA05D1(3)更复杂的定性变量如果有3种定性状态,如何设虚拟变量?1三、广义线性模型有些复杂的曲线关系也可以用多元回归方法拟合。1.模拟高阶曲线关系(CurvilinearRelationships)(1)Reynolds公司是一家生产工业天平和实验室设备的企业。公司管理人员想要对公司销售人员的工作年限和天平的销售数量之间的关系进行研究。他们随机抽取了15名销售人员,得到相应的数据:12/15/202277AppliedStatforMBA05D1三、广义线性模型有些复杂的曲线关系也可以用多元回归方法拟合Reynolds公司天平销售量与人员雇用月数

销售人员

销售人员销售量

雇用月数

销售量

雇用月数275 4189 40296 106235 51317 7683 9376 10411212162 2267 6150 12325 56367 85189 19308 11112/15/202278AppliedStatforMBA05D1Reynolds公司天平销售量与人员雇用月数12(2)散点图和一元回归结果12/15/202279AppliedStatforMBA05D1(2)散点图和一元回归结果12/13/202226AppliR2=

0.781174

可以看出销售量和人员雇用月数的回归方程为

Sale=111.23+2.38Months

(0.00012)方程的显著性也很高。但是从散点图看出似乎有非线性趋势,而且判定系数也不算大。从下页残差表和残差图看出有明显非线性特征,考虑加入二次项x2做为第二个解释变量,做二阶回归:12/15/202280AppliedStatforMBA05D1R2=0.781174可以看出销售量和人员雇用月数的Reynolds公司案例残差表预测天平销售量 残差 标准残差208.6756926 66.32430742 1.390020675363.166061 -67.16606097 -1.407662093291.862814 25.13718598 0.526823567358.4125112 17.58748883 0.368597488163.5169695 -1.516969516 -0.031792552139.7492205 10.25077947 0.214835193313.2537881 53.7462119 1.126409738375.0499355 -67.04993546 -1.405228342206.2989177 -17.29891768 -0.362549632232.4434416 2.556558435 0.053580191132.6188958 -49.61889584 -1.039909707139.7492205 -27.74922053 -0.581566423125.4885711 -58.48857114 -1.225799805244.3273161 80.67268394 1.69073305156.3866448 32.61335518 0.68350865212/15/202281AppliedStatforMBA05D1Reynolds公司案例残差表预测天平销售量 Reynolds公司案例残差图12/15/202282AppliedStatforMBA05D1Reynolds公司案例残差图12/13/202229App(3)二阶回归结果R2=0.90 Coefficients标准误差 tStatp-value Intercept 45.34758 22.77465 1.991140.0697 雇用月数 6.344807 1.057851 5.997826.24E-05月数平方-0.03449 0.008948-3.853880.0023

回归方程为Sale=45.35+6.34(Months)-0.35(Months)2(0.000)(0.002)整个方程F检验的p-值为0.000,无论系数和方程高度显著通过检验,下页给出二阶回归的标准化残差,相当规范。12/15/202283AppliedStatforMBA05D1(3)二阶回归结果R2=0.9012/13/20212/15/202284AppliedStatforMBA05D112/13/202231AppliedStatforM2.因变量对数模型1)汽车耗油问题2)散点图有负线性相关趋势12/15/202285AppliedStatforMBA05D12.因变量对数模型1)汽车耗油问题12/13/202232A3)一元回归

判定系数和变量系数都很显著,方程应该可以被接受。

12/15/202286AppliedStatforMBA05D13)一元回归

判定系数和变量系数都很显著,方程应4)一元回归残差分析

残差呈楔形,有随汽车重量增加而增大的异方差趋势。12/15/202287AppliedStatforMBA05D14)一元回归残差分析

残差呈楔形,有随汽车重量增加而5)因变量对数一元回归分析

E(lnY)=0+1x系数显著性有提高12/15/202288AppliedStatforMBA05D15)因变量对数一元回归分析

E(lnY)=6)因变量对数一元回归分析残差分析

标准残差分布比较均匀,方程可以更好的被接受。12/15/202289AppliedStatforMBA05D16)因变量对数一元回归分析残差分析

标准残差分3.其他常用的非线性变换为线性的公式

12/15/202290AppliedStatforMBA05D13.其他常用的非线性变换为线性的公式四.变量选取方法

上面一些例子说明选取合适的解释变量至关重要.对于一组备选的解释变量进行挑选,逐步回归(Stepwise)是十分有效的方法。逐步回归建立在向前选择和向后消元的基础之上。逐步回归的基本思想是:备选的解释变量依照对因变量的相关程度和在回归方程中的地位,按照一定的规则逐步吸纳和剔除,直到不能吸纳和剔除为止。不少统计软件都具有逐步回归功能,例如:SAS、SPSS、Minitab、StaPro等。12/15/202291AppliedStatforMBA05D1四.变量选取方法上面一些例子说明选取合适的解释1.增加或删除变量的F检验F检验用来检验已含x1┅xk

的模型再

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论