版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一章多元相关与回归分析第一节多元线性回归模型多元线性回归即多个自变量对一个因变量的线性回归。一、多元线性回归模型概念以两个自变量的二元回归为例,女口 X、X2和丫的关系存在关系式:E(Y)= a +B 1X1+B 2X2,如此丫与Xi和之间存在多元线性相关关系,这一方程即多元 线性回归模型。多元线性回归是多维空间中的超平面,如二元回归是三维空间中的一个平 面。对于任意的(Xi, X 2) , 丫的期望值就是该平面上正对(Xi, X 2)的那个点的丫 轴值,其与实际观测点之间存在随机误差,实际观测点Y=a + B iXi+ B 2 X2+ £ i O二、模型的建立总体未知情况下,以样
2、本构造出一个平面来估计总体真实平面,即以平面 ? = a+bixi+ b2X2去拟合原始观测数据。拟合的准如此是最小二乘法原理,使各观测值距离拟合值的偏差平方和最 2小,即刀(yi- ?)最小。由此计算出的a,bi, b 2是对a , B i, B 2的最优估计。例 如对施肥量X、降雨量茨和产量丫的数据,SPSS俞出结果表1:VariableBBetaTXiX2Con sta nt即得到? 12三、回归系数的意义对于模型? = a+biXi+ b2X2,bi可以解释为:当 X不变的情况下,Xi每变化一 个单位,丫将平均发生bi个单位的变化。如果所有自变量都同时变化,那么 丫= biAXi+ b
3、2A夫+.b i X o 例题:如果对产量、施肥量、降雨量做出了简单回归和多元回归模型:A模型:产量=287+5.9施肥量;B模型:产量=400+6.0降雨量; C模型:产量=267+3.81施肥量+3.33降雨量;请计算:1如果在每亩土地上多施10斤肥料,可以期望产量增加多少?2如果在每亩土地上多灌溉5厘米的水,可以期望产量增加多少?3如果同时在每亩土地上多施10斤肥料,并且多灌溉5厘米的水,可以期望 产量增加多少?4由原始数据发现较高的施肥量和较高的降雨量是有联系的,如果照这样的 趋势下去,那么在每亩土地上多灌溉 5厘米的水,可以期望产量增加多少? 解:1A Y=3.81(10)=38.1
4、 斤。2A Y=3.33(5)=16.65 斤。3A4A Y=6.0(5)=30斤。采用B模型中的简单回归系数6.0,它表示当施肥量也 变化时,产量怎样随着降雨量的变化而变化。比拟题2和题4, 30斤的增产不只归功于降雨量,也包含施肥量的影响;而 16.65斤的增产如此是在施肥量不变的情况下,伴随着降雨量的增加而产生的。四、自变量为定类变量时回归系数的解释线形回归要求自变量和因变量都是定距变量,但当自变量为二项变量或定类变量时,可以将其转化为0-1变量/虚拟变量后再进展回归。1、自变量为二项变量时:如研究存款额丫百元和年龄X、性别X2之间 的关系,令男性=1,女性=0对照组。如果得到如下多元回
5、归方程:? = 33+12x12, 如此X2的回归系数-9.1表示,对于同年龄的人来说,男性的存款额比女性平均 减少910元。2、自变量为定类变量时:如研究收入 丫百元和文化程度X之间的关系,假设文化程度包括小学、中学、大学,可将文化程度转化为两个虚拟变量,D=1,中学 表示中学文化程度;2= ” 0,其他卜D=D=0代表小学程度对照组,Df D=°D=0, D2=1表示大学文化程度。假设得到回归方程?=2=33+12D+30D, D的回归系数表示中学文化程度的人比小学文化程度的人收入平均多1200元;D2的回归系数表示大学文化程度的人比小学文化程度的人收入平 均多3000元。3、如
6、果自变量为连续变量,但其与因变量的关系并不是线形关系,例如年 龄X和身高丫的关系,可以把年龄划分成年龄段做为定类变量。 对于有个水平的 定类变量,需要设计n-1个虚拟变量来描述第二节多元线性回归模型检验一、回归系数的估计和检验在多元回归中,各个回归系数的估计值b1,b2都围绕总体回归系数B 1, B2近似正态波动,所以可以用样本回归系数的标准误差来构造总体回归系数的 置信区间。标准误差为表1中的第二列输出结果SE.B。总体回归系数置信区间公式:B i= bi ± t a /2SE ,其中,i=1,2,.k ;查t分布表时的自由度为n-k-1。例题:以表1为例,计算每个回归系数的95%
7、勺置信区间k=1,2,n=7:解:df=7-2-1=4 ;查表得 t=2.776 ;B 1±± 1.618 ;B 2±±对回归系数进展检验即检验 H0:B i=0;卅:“工0,即检验自变量和因变量 之间是否存在线形相关关系。检验方法:计算检验统计量为t= bi-0/ SEi,计算出相应概值。SPS列以输出t值和概值P。二、回归模型的检验即检验H):B 1= B 2=B i= 0。对多元回归做方差分析与显著性检验:将总偏差平方和(yi y)2分解为(yi ? i)2不能由回归解释的偏差和 (? i- y)2可以由对Xi,X2兀的回 归解释的偏差。计算F值二
8、可以由回归解释的方差/不能解释的方差,然后对 F 值与临界值进展比拟,也可计算 F值的概值。表2:对改革时间Y与公司规模X1和公司类型X2的二元回归作出方差分析表,包 括求出概值和进展95泄信水平下的检验。SSdfMSF概值回归误差2残差17总误差19在95%勺置信水平下可以拒绝原假设,说明回归效果是显著的,即回归模型 有意义。第三节相关系数和决定系数、复相关系数和决定系数决定系数 氏2=可以由回归解释的偏差/总偏差=2 (? i- y)2/工(yi y)2 ; R2的 平方根R为复相关系数,取值X围0-1。氏=1时,说明丫的全部偏差都可以用回 归方程解释,以二元回归为例,明确全部观测点正好落
9、在拟合的回归平面上。氏越大,能用回归来解释的局部就越大,表示 丫和Xi,X2,Xi的线形关系越强, 回归效果越好,氏也具有消减误差比例的意义。例如根据表2计算出:氏解释:应用二元回归可以解释总偏差中的 89.5%,以改革时间对公司规模和 公司类型作二元回归,效果是很好的。二、偏相关系数和偏决定系数决定系数反映了一组自变量对回归模型的贡献。 如果想知道某一个自变量的 贡献,需计算引进这个变量后,所减少的残差的相比照例。以二元回归为例,设? =a+bxi+bx2,用RSS(X,X2)表示残差;如果只对自变 量X2做简单回归模型? =a+b2X2,用RSS(X)表示残差。如此 RSS(X)肯定大于R
10、SS(X,X2),在已有X2的模型中再引入 X1变量后,所减少的残差为RSS(X)-RSS(X,X2)。减少的相对残差 氏=RSS(X)- RSS(X,X2)/ RSS(X)就是偏决定系数,表 示X2已在模型当中时,再引入变量 Xi后,能够减少百分之多少的残差。偏决定系数的平方根为偏相关系数,其符号与拟合回归函数中相应的回归系 数符号一致。偏相关系数可以看作是消除了茨的影响效应后,对丫和Xi之间的关联程度的度量,也称净相关。三、标准化回归系数将所有变量Y,Xi,X2X标准化,然后对标准化后的Y*,X*进展回归拟合得:Y*= a*+b i* Xi*+.+ b i* Xi*bi*,b2*bi *就
11、是标准回归系数,其大小说明了各自对应的自变量对丫的影响大小,标准回归系数绝对值越大,该自变量的影响就越大。例如表i第四列 的标准回归系数 Beta,施肥量0.59丨对产量的影响比降雨量0.49更大。 但注意:这种方法只有当自变量之间的相关性较小时才正确。第四节非线性相关与回归分析对于变量之间会的非线性的关系,可将其变换为线性关系再处理。一、幕函数幕函数根本形式为:Y=B iXp2eui,ui为随机误差项,和B 1为B 2参数。参数 B 2度量了变量丫对变量X的弹性,即X的单位百分比变动引起丫变动的百分比,B 2= Y/Y = X /XY X- 。X Y由于丫和X之间是非线性关系,为了将其变为线
12、形形式,可以对方程两边取对数,转换为双对数函数形式,即InYi =In B i+B 2lnXi+ui,把InY和InXi视为新的变量,如此新变量之间成为线形关系,可以按照线形回归的方式估计参数。也可拓展到多元的情况,如 InYi =ln B i+ B 2lnXii+ B 3lnX2i+u。例如:根据某某市i980-i996年的经济统计资料,想研究某某市国内生产总值GDF和资金投入量与从业人员数量之间的关系, 可运用柯柏一道格拉斯生产函数 建立理论回归方程:YmAKk LiB eui,丫是GDP K是资金投入量,L是从业人数, Ui是随机误差项。为了便于估计参数,将该方程转换为线性方程:InYi
13、=lnA+a InKi+ B InLi+ui,设 丫*= InY i, K*= InK i, L*= InL i, B i=lnA,B 2= a,B 3= B,如此上式变为丫*= B i+ B 2 Ki*+ B 3Li*+Ui,用线形回归分析得出结果:? i*=-i0.4639+i.02ii24 K i+i.47i943 Li*因为B i=InA=-i0.4639,所以A=0.0000285,这样所估计的生产函数为:? ii Li二、对数函数对数函数关系包括自变量为对数和因变量为对数两种情况。自变量为对数 时,方程为Y=a +B InXi+u ,参数B表示自变量X每变动一个百分点时,会引起 因
14、变量Y绝对值的变动量。假设把InXi视为新变量,可以作为线形回归去处理。 当因变量为对数时,方程为InYi = a + B X+u,参数B表示自变量X每变动一个单 位时,会引起因变量 丫发生几个百分比的变动。如把InYi视为新变量,可以作 为线形回归去处理。例如:美国联邦储藏管理委员会要研究 GDF和货币供给量X的关系,建立对数方 程Y=B计B 2lnXi+u,可先将货币供给量数据X转变为InXi,再按照线性回归方 法作GDP对InXi的回归,得到? i =-16329+2584.79 InX i ,明确货币供给量每增 加一个百分点,GDP勺绝对量将增加2584.79亿美元。三、指数函数指数函
15、数的形式为Y=abXieui。指数函数通常用于描述产量、本钱等现象的变 动趋势。对方程两边取对数可转化为线性函数:InYi=Ina+XiInb+山,这时的变量 为 InYi 和 X,参数为 Ina 和 Inb。可以设 Y*= InYi, B 1=Ina, B 2=Inb,得到 Y*= B 1+ B 2X+U。对于非线性关系,用相关指数度量其相关程度,相关指数就是非线性回归的 决定系数R2或者决定系数的平方根R。R2和R越大,明确变量间的非线性相关程 度越高,反之越低。R取值X围0-1。四、logistic 回归因变量为二项变量时的回归当因变量为二项变量时,可将其转化为定距变量。其他定类变量也可
16、以转化 为二项变量来研究。1J 1,成功I用虚拟变量的形式来表示因变量 丫,即丫= o,失败 ,并设成功的概率 P(Y=1)= n,失败的概率P(Y=0)=1- n,根据二项分布特征,可知丫的期望值E(Y) =n,Y 的方差 D(Y)= n (1- n )。设丫二项变量对自变量的回归模型为:E(Y) = a +B 1X1+BiX如果拟合的方程为:?= a+btX1+ b iXi那么,拟合值?就表示成功概率n即E(Y)的估计值。所以自变量对 Y的影 响就转化为了自变量对成功概率的影响。然而,对于二项变量来说,其E(Y)的取值X围只能是0-1,这样就不能很好 适应线形回归模型线形回归要求因变量连续
17、取值,所以考虑对E(Y)进展数值 变换,可以将其转化为P*=ln( P ),P即n1 PPln( 匚)=Logit(P)= a + B 1X1+ BX就是logistic回归模型。当P趋于1 P0时,Logit(P)趋于-%,当P趋于1时,Logit(P)趋于+。通过这样的变换, 使得因变量原本在(0,1)的取值X围变成了(- S,+ S)。logistic回归最常用于流行病学研究,用来探讨某种疾病的危险因素,或者根据危险因素来预测患病概率。根据模型得p=e十1X1/1+e (a +卩1XZ+卩刈, 可预测发生概率。对于logistic 回归,用Odds Ratio发生比来解释回归系数,OR发
18、生概率 与不发生概率的比值。OR=d; InOR=B。B表示自变量每增加一个单位,其相对危 险度为e J例如:研究吸烟年数X与是否患肺癌丫的关系,假设根据B = 1计算出 OR=2.72如此明确吸烟年数每增加一年,患肺癌的危险性是之前的2.72倍。如果研究是否吸烟与肺癌的关系,令 X=1吸烟,X=0不吸烟;丫=1患肺癌, 丫=0不患肺癌,假设求得 OR=2.72如此明确吸烟的人患肺癌症的危险性是不吸 烟的2.72倍。如果令X=1不吸烟,X=0吸烟;丫=1患肺癌丫=0,不患肺癌,假设 求得OR=0.3637,如此明确不吸烟的人患肺癌症的危险性是吸烟的36.37%,或不吸烟的人患肺癌的危险性比吸烟者降低了63.63%。注意区分X变量的赋值。第五节自变量的选择SPSS提供的5种选择变量的方法:1、向前参加变量法FORWARD将自变量逐个引入方程,每次增加一个。第一 步是从所有K个自变量中引入一个,使它与丫组成的一元方程比其他更好即可 用回归解释的偏差比例更大;第二步是从未引入的K-1个自变量中再选一个, 使它和已进入的自变量与丫组成的二元回归方程比其
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农村迷信阴阳合同范例
- 垃圾焚烧发电合同范例
- 2025年白城货运资格证模拟考试新题库
- 外贸订舱合同范例
- 生产提成协议合同范例
- 合伙开业合同范例
- 用工雇佣合同范例
- 油漆合同范例版
- 2025年北京考货运从业资格证题库
- 泡水车赔付合同范例
- 《建筑基坑工程监测技术标准》(50497-2019)
- 妇科子宫肌瘤一病一品优质护理汇报
- 《思想道德与法治》试题库
- 人教版数学小学二年级上册无纸笔测试题
- 小学科学实验图片和文字
- 项目总监简历模板
- 拉萨硫氧镁净化板施工方案
- 施工单位自查自纠记录表
- 产品合格证出厂合格证A4打印模板
- IEC60287中文翻译版本第一部分课件
- 《公路隧道设计细则》(D70-2010 )【可编辑】
评论
0/150
提交评论