多元线形回归分析研究_第1页
多元线形回归分析研究_第2页
多元线形回归分析研究_第3页
多元线形回归分析研究_第4页
多元线形回归分析研究_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、个人收集整理仅供参考学习 / 8第一章多元相关与回归分析第一节多元线性回归模型多元线性回归即多个自变量对一个因变量地线性回归.一、多元线性回归模型概念以两个自变量地二元回归为例,如X、X2和丫地关系存在关系式:E(Y)=a +B 1X1+B 2X2,则丫与Xi和X2之间存在多元线性相关关系,这一方程即多元线 性回归模型.b5E2RGbCAP多元线性回归是多维空间中地超平面,如二元回归是三维空间中地一个平面 对于任意地(X 1, X 2),丫地期望值就是该平面上正对(Xi, X 2)地那个点地丫轴值, 其与实际观测点之间存在随机误差,实际观测点Y = a + B 1X+B 2X2+ i . pl

2、EanqFDPw二、模型地建立总体未知情况下,以样本构造出一个平面来估计总体真实平面,即以平面 ?= a+biXi+ b2X2去拟合原始观测数据.DXDiTa9E3d拟合地准则是最小二乘法原理,使各观测值距离拟合值地偏差平方和最小, 2即刀(yi- ?)最小.由此计算出地a,b 1, b2是对a , B 1, B 2地最佳估计.例如对施 肥量X、降雨量 茨和产量Y地数据,SPSS俞出结果(表1): RTCrpUDGiTVariableBSE.BBetaTX13.810.5830.596.532X23.330.6170.495.4Con sta nt266.732.0778.313即得到?= 2

3、66.7+3.81X 1+3.33x2三、回归系数地意义对于模型?= a+btX1+ b2X2,b1可以解释为:当X2不变地情况下,每变化一 个单位,Y将平均发生b1个单位地变化.5PCzVD7HxA如果所有自变量都同时变化,那么 Y= b1AX1+ b2 X2+.b i AX. 例题:如果对产量、施肥量、降雨量做出了简单回归和多元回归模型:A模型:产量=287+5.9施肥量;B模型:产量=400+6.0降雨量;C模型:产量=267+3.81施肥量+3.33降雨量;请计算:(1)如果在每亩土地上多施10斤肥料,可以期望产量增加多少?如果在每亩土地上多灌溉5厘米地水,可以期望产量增加多少? 如果

4、同时在每亩土地上多施10斤肥料,并且多灌溉5厘米地水,可以期望 产量增加多少?由原始数据发现较高地施肥量和较高地降雨量是有联系地,如果照这样地趋势下去,那么在每亩土地上多灌溉5厘米地水,可以期望产量增加多少?jLBHrnAlLg解:(1) Y=3.81(10)=38.1 斤. Y=3.33(5)=16.65 斤. Y=3.81(10)+ 3.33(5)= 38. 1+16.65=54.75 斤 Y=6.0(5)=30斤.采用B模型中地简单回归系数6.0,它表示当施肥量也变化时,产量怎样随着降雨量地变化而变化.XHAQX74J0X比较题2和题4, 30斤地增产不只归功于降雨量,也包含施肥量地影响

5、;而16.65斤地增产则是在施肥量不变地情况下,伴随着降雨量地增加而产生地.LDAYtRyKfE 四、自变量为定类变量时回归系数地解释线形回归要求自变量和因变量都是定距变量,但当自变量为二项变量或定类变量时,可以将其转化为0-1变量/虚拟变量后再进行回归.Zzz6ZB2Ltk1、自变量为二项变量时:如研究存款额 丫(百元)和年龄X、性别X2之间 地关系,令男性=1,女性=0 (对照组).如果得到如下多元回归方程:?=33+12x1-9.1x 2,则X2地回归系数-9.1表示,对于同年龄地人来说,男性地存款额比女性平均减少910元.dvzfvkwMI12、自变量为定类变量时:如研究收入 丫(百元

6、)和文化程度X之间地关系, 假设文化程度包括小学、中学、大学,可将文化程度转化为两个虚拟变量,D=I 1,大学I 0,其他D=0, D2=1rqyn14ZNXI, D=D=0代表小学程度(对照组),D=1, D=o示大学文化程度.假如得到回归方程 ?=1,中学.I 0,其他表示中学文化程度;33+12D+30D,D地回归系数表示中学文化程度地人比小学文化程度地人收入平 均多1200元;D2地回归系数表示大学文化程度地人比小学文化程度地人收入平 均多 3000 兀.EmxvxOtOco3、如果自变量为连续变量,但其与因变量地关系并不是线形关系,例如年 龄X和身高丫地关系,可以把年龄划分成年龄段做

7、为定类变量.对于有个水平地定类变量,需要设计n-1个虚拟变量来描述.SixE2yXPq5第二节多元线性回归模型检验一、回归系数地估计和检验在多元回归中,各 个回归系数地估 计值b,b2都围绕总体回 归系数 B 1, B 2近似正态波动,所以可以用样本回归系数地标准误差来构造总体回归系 数地置信区间.标准误差为表1中地第二列输出结果SE.B.6ewMyirQFL总体回归系数置信区间公式:B i = bi t a /2SE ,其中,i=1,2,.k ;查t分布表时地自由度为n-k-1.例题:以表1为例,计算每个回归系数地 95%地置信区间(k=1,2 ),已知n=7: 解:df=7-2-1=4 ;

8、查表得 1 0.025=2.776 ;B 1= 3.81 2.776(0.583)=3.81 1.618 ;B 2= 3.33 2.776(0.617)=3.33 1.713对回归系数进行检验即检验 H0: B i=0; Hi: B i工0,即检验自变量和因变量 之间是否存在线形相关关系.检验方法:计算检验统计量为t= b i-0/ SE i,计算出相应概值.SPSS可以输出t值和概值P.kavU42VRUs二、回归模型地检验即检验Hb: B 1= B 2=B i= 0.对多元回归做方差分析及显著性检验:将总偏差平方和-(yi-可2分解为、 (yi?)2 (不能由回归解释地偏差)和、 (?i-

9、 y)2 (可以由对X,X2X地回归 解释地偏差).计算F值=可以由回归解释地方差/不能解释地方差,然后对F值 与临界值进行比较,也可计算 F值地概值.y6v3ALoS89表2:对改革时间Y与公司规模X1和公司类型X2地二元回归作出方差分析表,包 括求出概值和进行95%置信水平下地检验.M2ub6vSTnPSSdfMSF概值回归误差1504.412752.2072.47v 0.001残差176.391710.38总误差1680.8019在95%地置信水平下可以拒绝原假设,说明回归效果是显著地,即回归模型 有意义.第三节相关系数和决定系数、复相关系数和决定系数决定系数氏2=可以由回归解释地偏差/

10、总偏差=2 (?i- y)2/工(yi-y)2; R2地平 方根R为复相关系数,取值范围0-1.R2=1时,说明丫地全部偏差都可以用回归 方程解释,以二元回归为例,表明全部观测点正好落在拟合地回归平面上.R2越大,能用回归来解释地部分就越大,表示丫和X1,X2,X i地线形关系越强,回归效果越好,R也具有消减误差比例地意义.0YujCfmUCw例如根据表 2 计算出:R=1504.41/1680.80=0.8950559 ; R=0.9460739解释:应用二元回归可以解释总偏差中地89.5%,以改革时间对公司规模和公司类型作二元回归,效果是很好地.eUts8ZQVRd二、偏相关系数和偏决定系

11、数.sQsAEJkW5T决定系数反映了一组自变量对回归模型地贡献.如果想知道某一个自变量地贡献,需计算引进这个变量后,所减少地残差地相对比例以二元回归为例,设?=a+bx计b2X2,用RSS佻X2)表示残差;如果只对自变 量X2做简单回归模型 ?=a+bx2,用RSS(X)表示残差.贝U RSS(X)肯定大于 RSS(X,X2),在已有X2地模型中再引入 Xi变量后,所减少地残差为 RSS(X)- RSS(X,X2). GMslasNXkA减少地相对残差 氏心=(RSS(X)- RSS(X i,X2) / RSS(X2)就是偏决定系数, 表示X2已在模型当中时,再引入变量Xi后,能够减少百分之

12、多少地残差.TlrRGchYzg偏决定系数地平方根为偏相关系数,其符号与拟合回归函数中相应地回归系 数符号一致.偏相关系数可以看作是消除了 X2地影响效应后,对丫和X1之间地关 联程度地度量,也称净相关.7EqZcWLZNX三、标准化回归系数将所有变量Y,Xi,X2X标准化,然后对标准化后地Y*,X*进行回归拟合得: Y*= a*+b i* X 1*+.+ b i* X i * lzq7IGf02Ebi*,b2*bi*就是标准回归系数,其大小说明了各自对应地自变量对 丫地影 响大小,标准回归系数绝对值越大,该自变量地影响就越大 .例如表1第四列地 标准回归系数Beta,施肥量(0.59)对产量

13、地影响比降雨量(0.49)更大.但注 意:这种方法只有当自变量之间地相关性较小时才正确 .zvpgeqJihk第四节非线性相关与回归分析对于变量之间会地非线性地关系,可将其变换为线性关系再处理 一、幕函数幕函数基本形式为:Y = B iX p2eui,ui为随机误差项,和B 1为B 2参数.参数 B 2度量了变量丫对变量X地弹性,即X地单位百分比变动引起丫变动地百分比, c AY/Y AY Xp 2=. NrpoJac3viAX /X AX Y由于丫和X之间是非线性关系,为了将其变为线形形式,可以对方程两边取 对数,转换为双对数函数形式,即InYi =ln p i+p 2lnXi+ui,把In

14、Yi和InXi视为 新地变量,则新变量之间成为线形关系,可以按照线形回归地方式估计参数.也可拓展到多元地情况,如 InYi =In p i+p 2lnXii + p 3lnX2i+u. inowtTG4KI 例如:根据天津市i980-i996年地经济统计资料,想研究天津市国内生产总值 GDF和资金投入量及从业人员数量之间地关系,可运用柯柏一道格拉斯生产函数建立理论回归方程:Y=AKa Lipeui,Y是GDP K是资金投入量,L是从业人数, Ui是随机误差项.为了便于估计参数,将该方程转换为线性方程:fjnFLDa5ZoIn Yi=l nA+a In Ki+p In L i+ui,设 Y*=

15、InYi, K*= InK i, L*= InL i, p i=lnA, p 2= a, p 3= p,则上式变为Y*= p i+p 2 Ki*+ p 3Li*+Ui,用线形回归分析得出结 果:tfnNhnE6e5i*=-i0.4639+i.02ii24 K i+i.47i943 Li因为B i=lnA=-10.4639,所以A=0.0000285,这样所估计地生产函数为:?i*=0.0000285K 1.021124Li1.471943二、对数函数对数函数关系包括自变量为对数和因变量为对数两种情况.自变量为对数时,方程为Y= a + B InXi+u,参数B表示自变量X每变动一个百分点时,会

16、引 起因变量丫绝对值地变动量.若把InXi视为新变量,可以作为线形回归去处理. 当因变量为对数时,方程为InYi = a +B X+u,参数B表示自变量X每变动一个 单位时,会引起因变量丫发生几个百分比地变动.如把InYi视为新变量,可以作 为线形回归去处理.HbmVN777sL例如:美国联邦储备管理委员会要研究 GDF和货币供应量X地关系,建立对数方 程Y=B 1+B 2lnXi+u,可先将货币供应量数据 X转变为InXi,再按照线性回归方 法作GDP寸InXi地回归,得到? =-16329+2584.79 InX i,表明货币供应量每增加 一个百分点,GDP地绝对量将增加 2584.79亿

17、美元.v7l4jRB8Hs三、指数函数指数函数地形式为Y=abXieui.指数函数通常用于描述产量、成本等现象地变 动趋势.对方程两边取对数可转化为线性函数:InYi =Ina+XiInb+Ui,这时地变量 为 InYi 和 X,参数为 Ina 和 Inb.可以设 Y*=lnY i,B 1=Ina, B 2=Inb,得到Y*= B 1+ B 2X+U. 83lcPA59W9对于非线性关系,用相关指数度量其相关程度,相关指数就是非线性回归地 决定系数R2或者决定系数地平方根 R.R2和R越大,表明变量间地非线性相关程 度越高,反之越低.R取值范围0-1. mZkklkzaaP四、logistic

18、 回归(因变量为二项变量时地回归)当因变量为二项变量时,可将其转化为定距变量 .其他定类变量也可以转化丿1,成功I丫,即丫= 0,失败并设成功地概率,根据二项分布特征,可知丫地期望值E(Y)为二项变量来研究.用虚拟变量地形式来表示因变量P(Y=1)= n,失败地概率 P(Y=0)=1- n=n,Y地方差 D(Y)= n (1- n ). AVktR43bpwE(Y) = a + B 1X1 B iX设丫(二项变量)对自变量地回归模型为:如果拟合地方程为:?= a+b 1X1+ biXi那么,拟合值?就表示成功概率n即E(Y)地估计值.所以自变量对丫地影响 就转化为了自变量对成功概率地影响.OR

19、jBnOwcEd然而,对于二项变量来说,其E(Y)地取值范围只能是0-1,这样就不能很好 适应线形回归模型(线形回归要求因变量连续取值),所以考虑对E(Y)进行数值变换,可以将其转化为P*=ln(1 -PP 即 n 2MiJTy0dTTPln( )=Logit(P)= a + B 1X1+ B iX 就是 logistic 回归模型.当 P 趋于 01 - P时,Logit(P)趋于-%,当P趋于1时,Logit(P)趋于+.通过这样地变换,使 得因变量原本在(0,1)地取值范围变成了 (- g,+ g). gliSpiue7Alogistic回归最常用于流行病学研究,用来探讨某种疾病地危险因

20、素,或者根据危险因素来预测患病概率根据模型得P=ea+B 1X1+BiXi)/1+e (a +B 1X1+BiXi), 可预测发生概率.uEh0U1Yfmh对于logistic 回归,用Odds Ratio发生比来解释回归系数,OR发生概率 与不发生概率地比值.OR=e; InOR=B . B表示自变量每增加一个单位,其相对危 险度为 e B. IAg9qLsgBX例如:研究吸烟年数X与是否患肺癌丫地关系,若根据B = 1计算出OR=2.72, 则表明吸烟年数每增加一年,患肺癌地危险性是之前地2.72倍.WwghWvVhPE如果研究是否吸烟与肺癌地关系,令 X=1吸烟,X=0不吸烟;丫=1患肺

21、癌,Y=0不患肺癌,若求得OR=2.72,则表明吸烟地人患肺癌症地危险性是不吸烟地 2.72倍.如果令X=1不吸烟,X=0吸烟;丫=1患肺癌丫=0,不患肺癌,若求得 OR=0.3637则表明不吸烟地人患肺癌症地危险性是吸烟地36.37%,或不吸烟地人患肺癌地危险性比吸烟者降低了63.63%.注意区分X变量地赋值.asfpsfpi4k第五节自变量地选择SPSS提供地5种选择变量地方法:1、向前加入变量法(FORWARD将自变量逐个引入方程,每次增加一个.第一步是从所有K个自变量中引入一个,使它与丫组成地一元方程比其他更好(即可用 回归解释地偏差比例更大);第二步是从未引入地K-1个自变量中再选一

22、个,使 它和已进入地自变量与丫组成地二元回归方程比其他更好,以此类推,每一步都 要对引入地变量做显著性检验,直至最新引入地变量不再显著为止.ooeyYZTjj12、自后淘汰变量法(BACKWARD先将全部K各自变量引入回归方程,然后对每 个自变量做显著性检验,剔除不显著变量中最不重要地;接着用剩下地自变量与 丫重新拟合回归方程,再剔除不重要地变量,以此类推,直至方程中所有变量都显著为止.BkeGuInkxI3、逐步回归法(STEPWISE.前两种方法地结合,先按自变量重要性程度从一个自变量开始逐步引入方程,类似向前加入变量法;每引进一个新变量时,要重新 对方程中地全部自变量再做显著性检验,剔除

23、其中不显著地,直至既无显著变量从方程中剔除,有无显著变量引入方程为止.PgdO0sRlMo4、强迫进入变量法(ENTER .按照研究目地和已有地知识经验选择自变量,强 迫这些自变量与丫建立回归方程.3cdXwckm155、强迫变量退出法(REMOVE.与前法相反,强迫某个或某些变量退出方程.第二、三、四种更为常用一些引入和剔除变量地标准:自变量对丫地作用地显著程度当引入或剔除一个自变 量时,对回归地方差分析中“可用回归解释地偏差”将会增大或减小,这个变化 量称作偏回归平方和,其与残差地 F比值就反映了该自变量地重要性程度.对这 个比值进行F检验就是对该自变量地显著性检验,将Fin(进入方程所需

24、地最小F值)和Fout (剔除变量时不能超过地最大 F值)作为引入和剔除变量地标准,这 个标准可自行设定,如果没有规定,程序会自动采取默认值Fn =0.05, Fut=0.10. h8c52WOngM版权申明本文部分内容,包括文字、图片、以及设计等在网上搜集整理.版权为个人所有This article in eludes someparts, in cludi ngtext, pictures,and desig n. Copyright is pers onal own ership.v4bdyGious用户可将本文地内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律 地规定,不得侵犯本网站及相关权利人地合法权利.除此以外,将本文任何内容或服务用于其他用途时,须征得本人及相关权利人地书面 许可,并支付报酬.J0bm4qMpJ9Users may use the contents or services of this articlefor pers onal study, research or appreciati on, and other non-commercial

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论