大课第一讲 多重线性回归(1)_第1页
大课第一讲 多重线性回归(1)_第2页
大课第一讲 多重线性回归(1)_第3页
大课第一讲 多重线性回归(1)_第4页
大课第一讲 多重线性回归(1)_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多重线性回归第一节第一节 偏相关分析偏相关分析概念概念: 偏相关系数是用来衡量任何两个偏相关系数是用来衡量任何两个变量之间的关系,而使与这两个变变量之间的关系,而使与这两个变量有联系的其它变量都保持不变。量有联系的其它变量都保持不变。即控制了其它一个或多个变量的影即控制了其它一个或多个变量的影响下,计算两个变量的相关性。响下,计算两个变量的相关性。当控制一个变量时,偏相关系数的计算公式:)1)(1 (22|XZYZXZYZYXZYXrrrrrr 当控制多个变量时,偏相关系数的计算公式较为复杂,此处省略。例题:例题: 现测得某地现测得某地29名名13岁男童身高岁男童身高X1(cm)、体重)、体重

2、X2(kg)和肺活量)和肺活量Y(ml)的数据)的数据, 请用该资料计算体重请用该资料计算体重与肺活量的偏相关系数。与肺活量的偏相关系数。SPSS操作步骤:操作步骤:Analyze-Correlation-Partial把分析变量选入把分析变量选入 Variable 框框把控制变量选入把控制变量选入 Controlling for 框框ContinueOKCorrelationsCorrelations1.741*.600*.000.001292929.741*1.751*.000.000292929.600*.751*1.001.000292929Pearson CorrelationSig

3、. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N身高体重肺活量身高体重肺活量Correlation is significant at the 0.01 level (2-tailed).*. 身高、体重与肺活量的简单相关系数身高、体重与肺活量的简单相关系数C Co or rr re el la at ti io on ns s1.000.569.002026.5691.000.002.260CorrelationSignificance (2-tailed)dfCorrela

4、tionSignificance (2-tailed)df体重肺活量Control Variables身高体重肺活量身高作为控制变量,肺活量与体重的偏相关系数身高作为控制变量,肺活量与体重的偏相关系数第二节 多重(多元)线性回归 在医学研究中,影响某个结局指标的因在医学研究中,影响某个结局指标的因素常常有很多个,特别对于慢性非传染性素常常有很多个,特别对于慢性非传染性疾病更是如此,例如心血管疾病、肿瘤等。疾病更是如此,例如心血管疾病、肿瘤等。 多重线性回归分析可以用来发现影响某多重线性回归分析可以用来发现影响某个结局变量的多个因素,并有可能建立有个结局变量的多个因素,并有可能建立有效的预测模型

5、。效的预测模型。一、多重线性回归模型 多重线性回归模型可视为简单直线模型多重线性回归模型可视为简单直线模型的直接推广。简单的说,只有一个自变量的直接推广。简单的说,只有一个自变量的线性模型为简单直线回归模型,具有两的线性模型为简单直线回归模型,具有两个以上自变量的线性模型即为多重线性回个以上自变量的线性模型即为多重线性回归模型。归模型。 这里提及的回归模型中,都只有一个因这里提及的回归模型中,都只有一个因变量。变量。总体回归模型:总体回归模型: 0 0为常数项,为常数项,1 1 , , , ,m m 称为称为总体偏回归系数。总体偏回归系数。mmXXY110样本回归模型:样本回归模型:mmxbx

6、bxbby.22110偏回归系数偏回归系数: b0为常数项,为常数项,b1,b2,bm为样本偏回归系数。为样本偏回归系数。 偏回归系数表示在其它所有自变量固定不变的情况偏回归系数表示在其它所有自变量固定不变的情况下,某一个自变量变化一个单位时引起因变量下,某一个自变量变化一个单位时引起因变量y变化的变化的平均大小。平均大小。 残差残差e:y 的变化中不能为自变量所解释的部分。的变化中不能为自变量所解释的部分。eyy 1.L:线性:线性自变量自变量x与应变量与应变量y之间存在线性之间存在线性关系;关系;2.I:独立性:独立性Y值相互独立,在模型中则要值相互独立,在模型中则要求残差相互独立,不存在

7、自相关;求残差相互独立,不存在自相关; 3.N:正态性:正态性随机误差(即残差)随机误差(即残差)e服从均服从均值为零,方差为值为零,方差为 的正态分布;的正态分布;4. E:等方差:等方差 对于所有的自变量对于所有的自变量x,残差,残差e的方差齐。的方差齐。数据类型要求: 因变量必须是数值型变量(连续变量)。因变量必须是数值型变量(连续变量)。 自变量既可以是数值型变量,也可以是分自变量既可以是数值型变量,也可以是分类型变量。但如果是多分类变量,则不能直类型变量。但如果是多分类变量,则不能直接进入回归方程,而要先进行哑变量设置接进入回归方程,而要先进行哑变量设置(略)。(略)。例例2. 某研

8、究者测量了某研究者测量了29名儿童血液中血红蛋名儿童血液中血红蛋白(白(g)、钙)、钙(g)、镁、镁(g) 、铁、铁(g) 、锰、锰(g) 、铜、铜(g)的含量。试以血红蛋白为因的含量。试以血红蛋白为因变量,其它的为自变量,建立回归模型。变量,其它的为自变量,建立回归模型。 做回归分析做回归分析的的第一步第一步通常是做通常是做散点图散点图,以发现因变量与自变量之间是否大致存在以发现因变量与自变量之间是否大致存在直线关系。如有明显的曲线关系,则不能直线关系。如有明显的曲线关系,则不能直接做线性回归模型。直接做线性回归模型。 另外,散点图还有助于发现异常点。另外,散点图还有助于发现异常点。采用最小

9、二乘法(采用最小二乘法(LSLS)估计回归系数)估计回归系数b b即要求残差平方和:即要求残差平方和:达到最小值。达到最小值。 求解过程需要进行矩阵运算,并要借助计算机完成。求解过程需要进行矩阵运算,并要借助计算机完成。二、回归系数的估计212211012)()(niimmiiiniiixbxbxbbyyyQ或写成:或写成: Y=XB+E如矩阵如矩阵XX的逆存在,则回归系数矩阵的逆存在,则回归系数矩阵B=(XX)-1XYnmmnmmnneeebbbxxxxxxyyy2110211121121 11 1所有样本点数据代入模型后可写成如下矩阵形式:所有样本点数据代入模型后可写成如下矩阵形式:Coe

10、fficientsCoefficientsa a.3661.367.268.791-.048.024-.209-1.962.062.001.049.003.023.982.033.004.9518.079.000-.6421.132-.049-.568.576.507.754.073.672.508(Constant)钙镁铁锰铜Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: 血红蛋白a. A AN NO OV VA Ab b113.259522.652

11、26.306.000a19.80523.861133.06428RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), 铜, 锰, 铁, 钙, 镁a. Dependent Variable: 血红蛋白b. SPSS回归分析输出结果1.对整个方程的检验:对整个方程的检验:H0: 1 2 m 0残回残残回回MSMSSSSSF/bbstb三、方程的显著性检验:三、方程的显著性检验:对整个方程的检验:H0: 回归系数全为零回归系数全为零 1=2=m=0H1: 回归系数不全为零回归系数不全为零

12、 0.05FMS回回/MS剩剩26.306自由度自由度 df剩剩5, dfe23, Pt20.023 df2=23 p=0.982t38.079 df3=23 p0.001t50.672 df5=23 p=0.508只有铁的偏回归系数有意义。四、筛选有影响的自变量四、筛选有影响的自变量选择标准:对各自变量的偏回归平方和进行选择标准:对各自变量的偏回归平方和进行检验,检验,F值大于预先设定的值大于预先设定的F,则将此变,则将此变量选入或保留在方程内。量选入或保留在方程内。偏回归平方和:将某个变量引入方程后所引偏回归平方和:将某个变量引入方程后所引起的回归平方和增加的部分;或者,将某起的回归平方和

13、增加的部分;或者,将某个变量剔除方程后所引起的回归平方和减个变量剔除方程后所引起的回归平方和减少的部分。少的部分。例如:将本例中钙剔除后,回归平方和从例如:将本例中钙剔除后,回归平方和从113.26 变为变为109.94,则钙的偏回归平方,则钙的偏回归平方和为和为113.26-109.943.32自变量的选择方法自变量的选择方法1. 强行进入法(强行进入法(Enter):为默认选择项,定):为默认选择项,定义的全部自变量均引入方程。义的全部自变量均引入方程。2. 后退法(后退法(Backward):先建立一个包含全):先建立一个包含全部自变量的回归方程,然后每次剔除一个部自变量的回归方程,然后

14、每次剔除一个偏回归平方和最小且无统计学意义的自变偏回归平方和最小且无统计学意义的自变量,直到不能剔除为止。量,直到不能剔除为止。3. 前进法(前进法(Forward):回归方程由一个自变量):回归方程由一个自变量开始,每次引入一个偏回归平方和最大,且具开始,每次引入一个偏回归平方和最大,且具有统计学意义的自变量,由少到多,直到无统有统计学意义的自变量,由少到多,直到无统计学意义的自变量被引入为止。计学意义的自变量被引入为止。4. 逐步法(逐步法(Stepwise):它是前进法和后退法的):它是前进法和后退法的结合。结合。5. 消去法(消去法(Remove):建立回归方程时,根据):建立回归方程

15、时,根据设定的条件剔除部分自变量。设定的条件剔除部分自变量。选用后退法选用后退法CoefficientsCoefficientsa a.3661.367.268.791-.048.024-.209-1.962.062.001.049.003.023.982.033.004.9518.079.000-.6421.132-.049-.568.576.507.754.073.672.508.3651.338.273.787-.048.023-.208-2.075.049.033.003.95311.235.000-.6501.056-.050-.616.544.513.697.074.736.469

16、.3921.321.297.769-.046.023-.203-2.053.051.033.003.94111.540.000.534.687.077.777.445.2911.304.223.825-.036.018-.159-1.979.058.033.003.94911.846.000(Constant)钙镁铁锰铜(Constant)钙铁锰铜(Constant)钙铁铜(Constant)钙铁Model1234BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: 血

17、红蛋白a. 钙保留下来的钙保留下来的原因:后退法原因:后退法的默认剔除标的默认剔除标准是准是0.1最终回归模型: 以血红蛋白含量作为因变量y,钙、镁、铁、锰、铜的含量作为自变量进行多元线性回归分析,变量筛选方法为后退法(backward),剔除标准为p0.1()。最后结果只有钙和铁保留在方程中。31033. 0036. 0291. 0 xxY其中x1代表钙,x3代表铁(方程和偏回归系数的检验略)两个自变量与因变量的拟合面示意图0X1X2Y注意:自变量的选择不是一个单独的数学问注意:自变量的选择不是一个单独的数学问题,可以放心地交给计算机自动完成,而题,可以放心地交给计算机自动完成,而必须结合专

18、业知识,综合考察。必须结合专业知识,综合考察。1.对因变量确实有影响的,应当选入。对因变量确实有影响的,应当选入。2.不同筛选方法结果不一致时要谨慎,重点不同筛选方法结果不一致时要谨慎,重点考虑共线性的问题。考虑共线性的问题。3.所做出的模型不能视为所做出的模型不能视为“最佳最佳”模型,而模型,而应视为应视为“局部最优局部最优”模型,因为所纳入分模型,因为所纳入分析的自变量中常常不能包括全部的影响因析的自变量中常常不能包括全部的影响因素,甚至是很重要的因素。素,甚至是很重要的因素。iyiissbb CoefficientsCoefficientsa a.2911.304.223.825-.03

19、6.018-.159-1.979.058.033.003.94911.846.000(Constant)钙铁Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: 血红蛋白a. 从本例来看,钙和铁的偏回归系数的从本例来看,钙和铁的偏回归系数的绝对值差不多,但铁的绝对值差不多,但铁的标准化偏回归系数标准化偏回归系数确要大得多,表示铁对血红蛋白的作用比确要大得多,表示铁对血红蛋白的作用比钙要大。钙要大。六、回归模型的优良性评价(拟和六、回归模型的优良性评价(拟和效

20、果)效果)1.决定系数决定系数R2:残回总SSSSSS总回SSSSR 20R21 决定系数反映决定系数反映Y的全部变异中能够被回的全部变异中能够被回归方程中的全部自变量所解释的比例。归方程中的全部自变量所解释的比例。R21, 越接近于越接近于1,说明模型拟和得越好。,说明模型拟和得越好。2.复相关系数复相关系数R:2RR 0R1 复相关系数描述了因变量复相关系数描述了因变量y与方程中与方程中m个自变量的总体相关性大小。个自变量的总体相关性大小。R越接近于越接近于1,说明因变量与自变量的关系越密切,模型拟说明因变量与自变量的关系越密切,模型拟和得越好。和得越好。 复相关系数定义为因变量实测值与预

21、测值的简单直线相关系数:R corr( y, y) 复相关系数与决定系数有如下关系:3.校正决定系数校正决定系数R2adj: R和和R2有一个缺陷,随着自变量有一个缺陷,随着自变量个数的增加,个数的增加,R2总是增加,造成变量总是增加,造成变量数目越多,则拟和效果越优良的错觉。数目越多,则拟和效果越优良的错觉。为解决这一问题,可采用校正决定系为解决这一问题,可采用校正决定系数。数。3.校正决定系数校正决定系数R2adj:总残总回SS12SSSSSSR MS代表均方,用离均差平方和代表均方,用离均差平方和SS除以自由度得到除以自由度得到(详见方差分析):(详见方差分析): MS残残SS残残/(n-m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论