多重线性回归与相关(2讲)_第1页
多重线性回归与相关(2讲)_第2页
多重线性回归与相关(2讲)_第3页
多重线性回归与相关(2讲)_第4页
多重线性回归与相关(2讲)_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多重线性回归与相关(multiplelinearregression&correlation)什么是多重线性回归分析?多重线性回归分析的数学模型多重线性回归分析的方法步骤多重线性回归分析的逐步回归法多元相关分析SPSS过程建立多重线性回归模型第一节多重线性回归的概念及其统计描述一元线性回归是描述一个应变量与一个自变量间线性依存的一种分析方法。但医学研究中,一种事物现象的数量关系往往与多种事物现象的数量变化有关,如肺活量与年龄、体重、胸围等有关。这些事物现象间的关系在应变量的取值上可以是确定型的与概率型的;在几何上可以是线性的,也可以是非线性的。多重线性回归是确定型的线性回归,是研究一个应变量与多个自变量间线性依存关系数量变化规律的一种方法。连续型因变量(y)---线性或非线性回归分析多个因变量(y1,y2…yk)分类型因变量(y)---Logistic回归分析时间序列因变量(t)---时间序列分析生存时间因变量(t)---生存风险回归分析路径分析结构方程模型分析一个因变量y回归分析的分类各种回归分析的比较例2-1为了研究糖尿病患者体内脂联素水平的有关影响因素,某医师测定了30名患者的体重指数BMI(kg/m2)、病程DY(年)、瘦素LEP(ng/ml)、空腹血糖FPG(mmol/L)及脂联素ADI(ng/ml)水平,测定数据如下:例号体重指数x1病程x2瘦素x3空腹血糖x4脂联素y124.2210.05.7513.629.36224.223.09.326.214.31319.0315.02.5011.126.08423.393.05.669.719.62………………3029.393.020.567.56.12脂联素水平及有关影响因素的检测数据一、数据与模型观察单位应变量自变量yX1X2…Xk1y1X11X12…X1k2y2X21X22…X2k………………nynXn1Xn2…Xnk多重线性回归原始数据形式回归模型假定y与x1,x2,,…,xp间存在线性关系,则y满足多重线性回归模型:回归模型估计按最小二乘法估计原理(leastsquaresmethod),计算式中的各项偏回归系数的估计值bi,则估计模型为:回归模型图示二、偏回归参数的估计1.计算基本统计量2.建立正规方程组(normalequations)例2-1的回归系数估计结果回归方程:

ParameterStandardVariableDFEstimateErrortP

Intercept158.1993711.575425.03<.0001x11-1.029780.53022-1.940.0635x21-0.131130.21129-0.620.5405x31-0.811300.25270-3.210.0036x41-0.578730.44750-1.290.2077偏回归系数的标准化

ParameterStandardStandardized

VariableDFEstimateErrortPEstimate

Intercept158.1993711.575425.03<.00010

x11-1.029780.53022-1.940.0635-0.34312

x21-0.131130.21129-0.620.5405-0.06653

x31-0.811300.25270-3.210.0036-0.56620

x41-0.578730.44750-1.290.2077-0.13939

标准化偏回归系数的公式计算例号体重指数x1病程x2瘦素x3空腹血糖x4脂联素y124.2210.05.7513.629.36224.223.09.326.214.31………………3029.393.020.567.56.12均数24.90036.757010.07308.070018.8290标准差3.047114.640106.382192.202539.14500脂联素水平及有关影响因素的检测数据多重线性回归方程的SPSS过程例2-1的SPSS过程例2-1的回归SPSS参数确定例2-1的SPSS输出结果第二节多重线性回归方程的假设检验目的:考察回归方程是否符合资料特点1.方差分析法H0:β1=β2=…=βp=0

统计量:例2-1资料的方差分析analysisofVariance变异来源SSdfMSFP总变异2425.30129回归模型1773.3434443.33617.000<0.0001残差651.9582526.078结论:

由这4个变量构成的回归方程解释糖尿病患者体内的脂联素变化是有统计学意义的。2.偏回归系数的t检验法在多重回归分析中,可能有的自变量对应变量的影响很强,而有的较弱,甚至完全没有作用。这样就有必要对自变量进行选择,使回归方程只包含对应变量有统计学意义的自变量。对某一自变量xj的统计学检验等价于对其相应的偏回归系数βj作统计学假设检验。例2-1资料的偏回归系数的t检验

ParameterStandardStandardizedVariableDFEstimateErrortPEstimate

Intercept158.1993711.575425.03<.00010x11-1.029780.53022-1.940.0635-0.34312x21-0.131130.21129-0.620.5405-0.06653

x31-0.811300.25270-3.210.0036

-0.56620x41-0.578730.44750-1.290.2077-0.13939第三节复相关系数与偏相关系数1.确定系数R2(coefficientofdetermination)用于评价在y的总变异中,由x变量组建立的线性回归方程所能解释的比例。对R2的假设检验等价于对回归方程的方差分析。H0:总体确定系数R2=0例2-1的确定系数2.复相关系数R

(multiplecorrelationcoefficient)确定系数的平方根R称为复相关系数,0≤R≤1,它表示p个自变量共同对应变量线性相关的密切程度。例1的复相关系数:3.校正确定系数R2α(adjustedR-square)例2-1的校正确定系数:4.偏相关系数(partialcorrelationcoefficient)冷饮销售量、游泳人数与气温数据冷饮销售量(元)游泳人数(人)气温(C0)冷饮销售量(元)游泳人数(人)气温(C0)x1x2x3x1x2x3267722296901593353978143074017613645192431780193137528106632889223138618125333996274939655136934冷饮销售量与游泳人数的相关性冷饮销售量与气温的相关性游泳人数与气温的相关性扣除气温因素后,冷饮销售量与游泳人数的相关性偏相关系数统计量在一共只有3个变量(不分自变量与因变量)时,偏相关系数的公式为:冷饮销售量(x1)、游泳人数(x2)与气温(x3)各变量间pearson相关系数x1x2x3x11.000000.972390.98909

x20.972391.000000.97617

x30.989090.976171.00000x1x2x11.000000.21495

x20.214951.00000p=0.5509x2x3x21.000000.41860x30.418601.00000

p=0.2286x1x3x11.000000.78728

x30.787281.00000

p=0.0069偏相关系数计算的SPSS过程偏相关系数r12.3的参数设计偏相关系数r12.3结果结论:冷饮销售量与游泳人数的相关性在0.05水平下没有显著性意义。脂联素水平与各自变量的相关系数和偏相关系数自变量简单相关系数偏相关系数系数P值系数P值体重指数x1-0.7758<0.001-0.362000.064病程x20.010980.954-0.124000.538瘦素x3-0.81053<0.001-0.540120.004空腹血糖x4-0.051300.788-0.25050.208第四节自变量筛选(1)向后剔除法(backwardselection)先建立一个包含全部自变量的回归方程,然后每次剔除一个偏回归系数最小且无统计学意义的自变量,由多到少直至不能剔除时为止。(2)向前引入法(forwardselection)回归方程由一个自变量开始,每次引入一个偏回归平方和最大且具有统计学意义的变量,由少到多直至无显著性变量可引入。(3)逐步筛选法(stepwiseselection)取上述两种方法的优点,在向前引入一个新自变量之后,都应重新对前已选入自变量进行检查,以评价有无保留在方程中的价值。为此,引入和剔除交替进行,直至无具有统计学意义的新变量可以引入,同时也无可剔除的无统计学意义的自变量。筛选方法:例2-1资料自变量的筛选糖尿病患者体内脂联素水平(y)与体重指数(x1)、病程(x2)、瘦素(x3)、空腹血糖(x4)的变量筛选。

ParameterStandardStandardizedVariableDFEstimateErrortPEstimate

Intercept158.1993711.575425.03<.00010x11-1.029780.53022-1.940.0635-0.34312x21-0.131130.21129-0.620.5405-0.06653

x31-0.811300.25270-3.210.0036

-0.56620x41-0.578730.44750-1.290.2077-0.13939backwardselectionforwardselectionstepwiseselection筛选准则—(确定系数准则)1.R21筛选准则—(残差均方准则)2.MS误差0筛选准则—(MallowsC.L准则)3.Cp

选模型自变量个数+1=P+11例2-1的Cp例2-1的所有可能子集回归的参数估计与统计量R2Ra2CpMS残p模型参数估计截距x1x2x3x40.0001-0.035666.989486.607518.683-0.02164--0.0026-0.033066.755886.389920.549----0.213070.0028-0.071068.736989.571320.389-0.02813--0.216810.60180.587611.030634.489276.805-2.32839---0.60500.575712.738135.484078.711-2.32943---0.232920.61810.589911.513234.300980.243-2.39703-0.25576--0.62050.576713.297735.404081.7800-2.39629-0.24967--0.200300.65700.64475.901929.712430.528---1.16141-0.65770.63237.835730.748930.902--0.05265-1.16319-0.69040.66744.795027.812137.159---1.20368-0.768870.69060.65506.770128.856837.355--0.03239-1.20456-0.764970.70690.68523.259726.329253.481-1.08707-0.75294-0.71320.68014.673426.753856.521-1.17699-0.16084-0.72548-0.72700.69553.390425.466955.818-0.94934--0.83812-0.608160.73120.68825.000026.078358.199-1.02981-0.13199-0.81072-0.57865第五节多重线性回归应用注意事项1.多重共线性问题的表现一、多重共线问题(multicollinearity)多重共线性是指自变量之间存在线性相关性,主要表现有:⑴模型的方差分析检验结果P<,但各自变量的偏回归系数检验P>。⑵自变量偏回归系数符号明显与实际相违背,难以解释。⑶专业上认为有统计学意义的,检验结果却没有显著性。⑷增加或删除一个变量,自变量偏回归系数发生较大变化。显著性消失符号错误例2-2对8名学生的身高(x1)、体重(x2)、体重指数(x3)与肺活量(y)进行回归分析。资料如下:身高(x1)体重(x2)体重指数(x3)肺活量(y)135.128.50.0015611.85139.833.80.0017292.03163.651.20.0019132.64146.848.10.0022322.29156.851.90.0021112.42158.261.80.0024692.75154.248.80.0020522.39146.541.80.0019482.32其中:体重指数=体重/身高2计算各变量的相关系数x1x2x3yx11.000000.88720.638530.94149x20.88721.000000.917260.95521x30.638530.917261.000000.79655y0.941490.955210.796551.00000相关系数估计与假设检验结论:整体回归效果很好。R2=0.954,F=27.677(P=0.004)显著性全失!!所有P>0.05,显著性消失!!2.多重共线性问题的诊断(1)容忍度:某自变量的容忍度等于1减去以该自变量为因变量,其他自变量为自变量所得到的线性回归模型的决定系数R2。1-R2越小,多重共线性越严重。(2)反差膨胀因子(VarianceinflationfactorVIF):等于容忍度的倒数。VIF越大,多重共线性越严重。一般认为VIF不应大于5。(3)特征根(Eigenvalue):对模型中所有自变量计算主成分,如果自变量间存在较大的线性相关关系,则前面几个主成分的特征根数值较大,而后面几个主成分特征根数值较小,甚至接近0。SPSS的CollinearityDiagnostics

—特征根法CollinearityDiagnostics结果第4个主成分对身高、体重、体重指数的贡献率均超过96%。说明这3个自变量之间存在高度共线性。3.多重共线性的处理1.剔除某个造成共线性的自变量;2.定义新的自变量代替具有高度共线性的自变量,或将一组具有高度共线性的自变量合并;3.采用逐步回归方法遏制有较强相关关系的变量同时进入方程。例2-2资料逐步回归结果二、自变量交互效应问题有两个或两个以上的自变量,当一个自变量的效果在另一个自变量的每一个水平上不一样时,称自变量之间存在交互作用。ABA×BY交互效应举例对于道德品质(A)好的人而言,智商(B)越高往往对社会贡献(Y)也越大;但对于道德品质低劣的人而言,智商越高往往对社会破坏越大。于是这个人的智商高低对于他对社会做的贡献的大小(对社会的破坏算作负值)的影响就与道德品质的好坏发生交

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论