多元回归模型与建模_第1页
多元回归模型与建模_第2页
多元回归模型与建模_第3页
多元回归模型与建模_第4页
多元回归模型与建模_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023/11/26AppliedStatforMBA05D11多元回归模型与建模

2023/11/26AppliedStatforMBA05D12一、多元线性回归问题

1.一元回归问题的困惑—巴特勒(Butler)运输公司的例子(p661):

行驶距离(英里) 运送货物次数 行驶时间(小时)100 49.350 3 4.81004 8.9100 2 6.550 2 4.280 2 6.275 37.4654 6903 7.690 2 6.12023/11/26AppliedStatforMBA05D132.做行驶时间-行驶距离的一元回归

CoefficientstStat P-valueIntercept1.273913

0.9094540.389687行驶距离(英里)0.0678263.976755 0.00408回归方程为可以看出方程整体检验和自变量检验的P值为0.0041,一元回归能够显著成立。但是判定系数偏小,说明有些因变量的解释因素(例如运货次数)没有引入。2023/11/26AppliedStatforMBA05D142023/11/26AppliedStatforMBA05D154.来自p元回归模型的容量为n的样本注意:的第1个脚码k

表示变量编号,k=1,…,p;第2个脚码i=1,…,n

表示样本编号。2023/11/26AppliedStatforMBA05D165.多元回归总体模型和古典假定总体模型表示式为古典假定

1)E(ei)=0;(E(yi)=

x1i+⋯+

pxpi);

2)对于所有的i,Var(ei)=

3)ei

是服从正态分布N(0,

)的;

4)对于不同的ei,ej(ij)

是相互独立的。2023/11/26AppliedStatforMBA05D176.多元线性回归方程的估计2023/11/26AppliedStatforMBA05D18巴特勒公司二元线性回归模型的估计自变量:x1-行驶距离,x2-运货次数。回归方程:2023/11/26AppliedStatforMBA05D197.多元回归方程变差分解和判定系数R2总变差的分解:SST=SSR+SSE;多元判定系数:R2=SSR/SST;多重相关系数r;调整(修正)的判定系数:巴特勒公司二元线性回归模型的判定系数2023/11/26AppliedStatforMBA05D1108.对回归方程的检验:FTestforOverallSignificance问题:因变量和所有自变量之间是否存在显著的关系?判定系数R2可以

做方程的整体检验,但是遇到分布的困难。检验假设拒绝域

F和R2的关系:R2=pF/(n-p-1+pF)。?2023/11/26AppliedStatforMBA05D1119.对回归系数的检验:tTestforIndividualSignificance检验假设检验统计量拒绝域

2023/11/26AppliedStatforMBA05D11210.巴特勒公司线性回归模型的Excel输出

回归统计

R=0.951R2=0.904adjR2=0.876s=0.573n=10方差分析

df SSMS F SignificanceF

回归2 21.60110.80032.878 0.00027624

残差 7 2.299 0.328

总计9 23.9

Here:SSR=21.601,SSE=2.299,SST=23.9.

系数估计和检验

Coefficients标准误差tStat p-valueIntercept -0.86870.9515 -0.9129 0.39163

行驶距离(英里)0.06110.0099 6.1824 0.00045

运送货物次数0.9234 0.2211 4.1763 0.004162023/11/26AppliedStatforMBA05D11311.多重共线性(Multicollinearity)

(1)巴特勒运输公司例题的修改

行驶距离 运送货物次数(修改数) 行驶时间

100 4(4)9.350 3(2) 4.81004(4) 8.9100 2(4) 6.550 2(2) 4.280 2(3) 6.275 3(3)7.4654(3) 6903(4) 7.690 2(4) 6.12023/11/26AppliedStatforMBA05D114(2)巴特勒运输公司例题的回归结果一元回归方程二元回归方程运输次数修改后的二元回归方程(F检验p值:0.021)*括弧内表示系数的p-值。2023/11/26AppliedStatforMBA05D115(3)多重共线性问题讨论

巴特勒运输回归结果说明:增加解释变量不会降低R2的值,但是adjR2的值却会降低.

前两个回归方程的系数p-值都很低(说明甚麽?),后一个修改运输次数的二元回归的两个系数p-值都很高,以至通不过检验.但是后一个方程总体检验的F值的p-值却为0.021(0.05水平下方程成立)

原因是修改运输次数数据,使得x1,x2的相关系数由0.16升至0.97,发生了共线性.自变量发生多重共线性,会出现一些(甚至全部)变量通不过检验,但是方程总体检验却能通过.此时的解释变量系数估计值很不可靠.

经验表明:解释变量数据彼此的相关系数绝对值大于0.7,回归结果就不可信,处理办法就是剔除p-值高的变量.对2个以上解释变量,自变量的相关矩阵和方差膨胀因子(VarianceInflationFactors,

简记作VIF)是识别多重共线性的有效方法,有专门软件加以精确检验.2023/11/26AppliedStatforMBA05D11612.利用模型进行预测使用计算机软件产生回归模型;通过检验判断你的模型;直接利用模型可以预测自变量(x01,x02,…,x0p)对应的因变量期望值E(y0)的估计。预测E(y0)和y0的置信区域需要某些专门软件。2023/11/26AppliedStatforMBA05D11713.多元回归的残差分析多元回归的残差分析作用方法和一元基本相同。主要的差异在于:多自变量的观测值的杠杆率hi的计算比较复杂,需要使用专门软件。回归分析建模应用中可以看到残差分析的应用2023/11/26AppliedStatforMBA05D118二、定性自变量(QualitativeIndependentVariable)1.虚拟变量(Dummyvariable)方差分析中定性变量的解决方案:引入因子,处理。回归分析的解决方案:引入虚拟变量如何定义虚拟变量?例:x2=0(女性),x2=1(男性)如何解释回归模型?期望值模型为:女性:

男性:

截距变化,斜率相同。2023/11/26AppliedStatforMBA05D1192.Johnson过滤水股份公司例子

Johnson公司对遍布南弗罗里达州的水过滤系统提供维修服务。为了估计服务时间和成本,公司希望能够对顾客的每一次维修请求预测必要的维修时间。他们收集的数据中包含就近一次维修至今的时间(月数)、故障的类型(电子和机械)以及相应的维修时间(小时)。你能够建立起一个预测方程吗?2023/11/26AppliedStatforMBA05D120(1)Johnson公司数据

维修时间/小时最后维修至本次维修请求时间/月 故障类型

2.92 电子13.0 6 机械0 4.8 8 电子1 1.8 3 机械02.92 电子1 4.97 电子1 4.2 9 机械0 4.8 8 机械0 4.4 4 电子14.5 6 电子12023/11/26AppliedStatforMBA05D121散点图有正相关的关系,可做一元回归。但是似乎可以看出有两条接近平行的直线拟合这些散点。2023/11/26AppliedStatforMBA05D122(2)建立维修时间-上次维修间隔,故障性质的回归方程第一个回归方程第二个回归方程解释你得到的回归方程!讨论x2的作用。*括弧内表示系数的p-值。二元比一元的判定系数增大许多。

2023/11/26AppliedStatforMBA05D123(3)更复杂的定性变量如果有3种定性状态,如何设虚拟变量?例:复印机销售地区是A、B、C三个地区,已知不同地区销售量不但与价格有关而且与地区也有关系,利用回归分析建立销售量模型。设x1是价格,还需要2个虚拟变量:回归方程期望值表示为:地区A方程:地区B方程:地区C方程:注意:k种状态,需要引入k-1个虚拟变量。2023/11/26AppliedStatforMBA05D124三、广义线性模型

有些复杂的曲线关系也可以用多元回归方法拟合。1.模拟高阶曲线关系(CurvilinearRelationships)(1)Reynolds公司是一家生产工业天平和实验室设备的企业。公司管理人员想要对公司销售人员的工作年限和天平的销售数量之间的关系进行研究。他们随机抽取了15名销售人员,得到相应的数据:2023/11/26AppliedStatforMBA05D125Reynolds公司天平销售量与人员雇用月数

销售人员

销售人员销售量

雇用月数

销售量

雇用月数

275 4189 40296 106235 51317 7683 9376 10411212162 2267 6150 12325 56367 85189 19308 1112023/11/26AppliedStatforMBA05D126(2)散点图和一元回归结果2023/11/26AppliedStatforMBA05D127R2=

0.781174

可以看出销售量和人员雇用月数的回归方程为

Sale=111.23+2.38Months

(0.00012)方程的显著性也很高。但是从散点图看出似乎有非线性趋势,而且判定系数也不算大。从下页残差表和残差图看出有明显非线性特征,考虑加入二次项x2做为第二个解释变量,做二阶回归:2023/11/26AppliedStatforMBA05D128Reynolds公司案例残差表

预测天平销售量 残差 标准残差

208.6756926 66.32430742 1.390020675363.166061 -67.16606097 -1.407662093291.862814 25.13718598 0.526823567358.4125112 17.58748883 0.368597488163.5169695 -1.516969516 -0.031792552139.7492205 10.25077947 0.214835193313.2537881 53.7462119 1.126409738375.0499355 -67.04993546 -1.405228342206.2989177 -17.29891768 -0.362549632232.4434416 2.556558435 0.053580191132.6188958 -49.61889584 -1.039909707139.7492205 -27.74922053 -0.581566423125.4885711 -58.48857114 -1.225799805244.3273161 80.67268394 1.69073305156.3866448 32.61335518 0.6835086522023/11/26AppliedStatforMBA05D129Reynolds公司案例残差图2023/11/26AppliedStatforMBA05D130(3)二阶回归结果R2=0.90 Coefficients标准误差 tStatp-value Intercept 45.34758 22.77465 1.991140.0697 雇用月数 6.344807 1.057851 5.997826.24E-05月数平方-0.03449 0.008948-3.853880.0023

回归方程为

Sale=45.35+6.34(Months)-0.35(Months)2(0.000)(0.002)整个方程F检验的p-值为0.000,无论系数和方程高度显著通过检验,下页给出二阶回归的标准化残差,相当规范。2023/11/26AppliedStatforMBA05D1312023/11/26AppliedStatforMBA05D1322.因变量对数模型1)汽车耗油问题2)散点图有负线性相关趋势2023/11/26AppliedStatforMBA05D1333)一元回归

判定系数和变量系数都很显著,方程应该可以被接受。

2023/11/26AppliedStatforMBA05D1344)一元回归残差分析

残差呈楔形,有随汽车重量增加而增大的异方差趋势。2023/11/26AppliedStatforMBA05D1355)因变量对数一元回归分析

E(lnY)=

0+1x系数显著性有提高2023/11/26AppliedStatforMBA05D1366)因变量对数一元回归分析残差分析

标准残差分布比较均匀,方程可以更好的被接受。2023/11/26AppliedStatforMBA05D1373.其他常用的非线性变换为线性的公式

2023/11/26AppliedStatforMBA05D138四.变量选取方法

上面一些例子说明选取合适的解释变量至关重要.对于一组备选的解释变量进行挑选,逐步回归(Stepwise)是十分有效的方法。逐步回归建立在向前选择和向后消元的基础之上。逐步回归的基本思想是:备选的解释变量依照对因变量的相关程度和在回归方程中的地位,按照一定的规则逐步吸纳和剔除,直到不能吸纳和剔除为止。不少统计软件都具有逐步回归功能,例如:SAS、SPSS、Minitab、StaPro等。2023/11/26AppliedStatforMBA05D1391.增加或删除变量的F检验F

检验用来检验已含x1┅xk

的模型再增加自变量xk+1

(或者从已含x1┅xkxk+1删除xk+1)。若F>F

[1,n-(k+1)-1]则应该增加(或不删除)xk+1,否则不应增加(或删除)xk+1。

k=1则有2023/11/26AppliedStatforMBA05D140增加或删除变量的F检验的巴特勒例题巴特勒例题的一元回归和二元回归方程分别为

(0.0041)括号内为变量系数的p-值

(0.0004)(0.0042)F检验中的分子分母分别为

F统计量的p-值=0.0042,x2应该增加(或不应删除)。可以看出F统计量的p-值就是二元中x2系数的p-值。2023/11/26AppliedStatforMBA05D1412.逐步回归的基本步骤1)给定显著性水平。2)选择与被解释变量相关系数最高的变量做一元回归;如果该变量p-值不显著,则回归失败结束;否则一元回归方程成立,进入3)。3)在一元回归基础上利用F-检验筛选其余变量,选择其中显著性水平(p-值)小于

且F值最大的一个变量做二元回归;如果不存在这种变量,只能得出一元回归方程,回归结束;否则二元回归成立,进入4)。4)在二元回归基础上利用F-检验筛选其余变量,选择其中显著性水平小于

且F值最大的一个变量做3元回归;如果不存在这种变量,只能得出二元回归方程,回归结束;否则在引入3元基础上进入第5)步。2023/11/26AppliedStatforMBA05D142逐步回归的基本步骤(续)5)已有k个变量被引入基础上利用F-检验对已被引入的变量做检验,删除其中显著性水平(p-值)大于

且F值最小的一个变量,做k-1元回归,然后继续做删除检验(每次删除1个变量),直到没有符合被删除条件的变量为止,进入第6)步。6)在m个变量被引入基础上利用F-检验筛选未被引入的变量,选择其中显著性水平小于

且F值最大的一个变量做m+1元归,然后回到第5)步;否则如果不存在这种变量,只能得出m元回归方程,回归结束。

123456结束2023/11/26AppliedStatforMBA05D1433.逐步回归的几个问题1)对于给定的显著性水平,逐步回归一定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论