多重线性回归分析_第1页
多重线性回归分析_第2页
多重线性回归分析_第3页
多重线性回归分析_第4页
多重线性回归分析_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多重线性回归分析多重线性回归分析军事医学科学院军事医学科学院统计学教研室统计学教研室高高 辉辉2内内 容容 基本原理基本原理 方法简介方法简介 分析步骤分析步骤 几点补充几点补充3一、方法简介一、方法简介 1.1 分析目的与方法选择分析目的与方法选择 研究一个因变量与一个自变量间的线性关系时研究一个因变量与一个自变量间的线性关系时 简单线性回归分析简单线性回归分析 研究一个因变量与多个自变量间的线性关系时研究一个因变量与多个自变量间的线性关系时 多重线性回归分析多重线性回归分析 研究多个因变量与多个自变量间的线性关系时研究多个因变量与多个自变量间的线性关系时 多元多重线性回归分析多元多重线性回

2、归分析4一、方法简介一、方法简介 1.2 概念概念 用回归方程用回归方程定量地刻画一个因变量与多个自定量地刻画一个因变量与多个自变量之间的线性依存关系变量之间的线性依存关系,称为多重线性回归分,称为多重线性回归分析(析(multiple linear regression analysis)。)。 自变量是相互独立的连续型变量或分类变量。自变量是相互独立的连续型变量或分类变量。 一、方法简介一、方法简介 1.3 数据结构数据结构 表表1 进行多重线性回归分析资料的数据结构进行多重线性回归分析资料的数据结构5编号编号X1X2XkY1X11X12X1kY12X21X22X2kY2:nXn1Xn2X

3、nkYn6二、基本原理二、基本原理 2.1 原理简介原理简介 多重线性回归模型:多重线性回归模型: Y=b b0+ +b b1X1+ +b b2X2+ + +b bkXk+ +e e= =b bX+ +e e 其中,其中,b bj (j=0, 1 , 2 , k)为未知参数,为未知参数,e e为随机为随机误差项。误差项。7二、基本原理二、基本原理 2.1 原理简介原理简介 多重线性回归模型中包含多个自变量,它们多重线性回归模型中包含多个自变量,它们同时对因变量同时对因变量Y 发生作用。发生作用。 若要考察一个自变量对若要考察一个自变量对Y 的影响,就必须假的影响,就必须假设其他自变量保持不变。

4、设其他自变量保持不变。8二、基本原理二、基本原理 2.1 原理简介原理简介 因此,多重线性回归模型中的回归系数为因此,多重线性回归模型中的回归系数为偏偏回归系数回归系数。 它反映的是当模型中的它反映的是当模型中的其他自变量不变时其他自变量不变时,其中其中一个自变量对因变量一个自变量对因变量Y 的均值的影响的均值的影响。9二、基本原理二、基本原理 2.2 前提条件前提条件 多重线性回归分析要求资料满足线性多重线性回归分析要求资料满足线性(Linear)、独立性、独立性(Independence)、正态性、正态性(Normality)和方差齐性和方差齐性(Equal variance),即,即LI

5、NE条件条件。 除此之外,还要求多个自变量之间相关性不除此之外,还要求多个自变量之间相关性不要太强。要太强。 10二、基本原理二、基本原理 2.2 前提条件前提条件线性线性指自变量与因变量之间的关系是线性的指自变量与因变量之间的关系是线性的独立性独立性指各观测值之间是相互独立的指各观测值之间是相互独立的正态性正态性指自变量取不同值时,因变量服从正指自变量取不同值时,因变量服从正 态分布态分布方差齐性方差齐性指自变量取不同值时,因变量的方指自变量取不同值时,因变量的方 差相等差相等 11三、分析步骤三、分析步骤 1. 基本任务基本任务 求出模型中参数的估计值,对模型和参数进求出模型中参数的估计值

6、,对模型和参数进行假设检验;行假设检验; 对自变量进行共线性诊断,对观测值进行异对自变量进行共线性诊断,对观测值进行异常值诊断;常值诊断; 结合统计学知识和专业知识,对回归方程进结合统计学知识和专业知识,对回归方程进行合理的解释,并加以应用。行合理的解释,并加以应用。 12三、分析步骤三、分析步骤 2. 具体步骤具体步骤 2.1 回归参数估计回归参数估计 多重线性回归分析的参数估计,常采用最小多重线性回归分析的参数估计,常采用最小二乘法二乘法(OLS)进行。进行。 参数估计值为:参数估计值为:-1X XX Yb=13三、分析步骤三、分析步骤 2. 具体步骤具体步骤 2.2 模型检验模型检验 根

7、据方差分析的思想,将总的离均差平方和根据方差分析的思想,将总的离均差平方和SS总总分解为回归平方和分解为回归平方和SS回回和残差平方和和残差平方和SS残残两部两部分。分。 SS总总的自由度为的自由度为n-1, SS回回的自由度为的自由度为k, SS残残的自由度为的自由度为n-k-1。14三、分析步骤三、分析步骤 2. 具体步骤具体步骤 2.2 模型检验模型检验 222SSyySSyySSyy=总回残15三、分析步骤三、分析步骤 2. 具体步骤具体步骤 2.2 模型检验模型检验 模型的显著性检验步骤为:模型的显著性检验步骤为:第一步,建立检验假设。第一步,建立检验假设。H0:b b1=b b2=

8、 =b bk=0H1: b b1, b b2, , b bk不同时为不同时为016三、分析步骤三、分析步骤 2. 具体步骤具体步骤 2.2 模型检验模型检验 模型的显著性检验步骤为:模型的显著性检验步骤为:第二步,计算统计量第二步,计算统计量F的值。的值。,1/1k n kSSkFFSSnk =回残17三、分析步骤三、分析步骤 2. 具体步骤具体步骤 2.2 模型检验模型检验 模型的显著性检验步骤为:模型的显著性检验步骤为:第三步,确定第三步,确定P值,下统计学结论。值,下统计学结论。 根据检验统计量根据检验统计量F的值和自由度,确定其对的值和自由度,确定其对应的应的P值。若值。若Pa a,则

9、接受,则接受H0,认为回归模型的系,认为回归模型的系数全部为数全部为0;若;若P ta a/2(n-k-1)或或t - ta a/2(n-k-1),则,则P FModel 61985.79167330.9652854.99 |t|Intercept1-83.1803616.97446-4.90l l2 l lk。 63三、分析步骤三、分析步骤 2.6 共线性诊断共线性诊断2.6.1 条件数条件数 最大特征根与其余每个特征根比值的平方根,最大特征根与其余每个特征根比值的平方根,称为条件指数称为条件指数(conditional number),公式为:,公式为: 1=2,3,iiCNikll=64

10、三、分析步骤三、分析步骤 2.6 共线性诊断共线性诊断2.6.1 条件数条件数 而最大条件指数,简称为条件数,其值为最而最大条件指数,简称为条件数,其值为最大特征根与最小特征根之比值的平方根。即:大特征根与最小特征根之比值的平方根。即: 1=kkCNll65三、分析步骤三、分析步骤 2.6 共线性诊断共线性诊断2.6.1 条件数条件数 条件数越大,说明设计矩阵条件数越大,说明设计矩阵X具有越强的共具有越强的共线性。线性。 经验上,若经验上,若0CNk30,则认,则认为自变量间存在严重的多重共线性。为自变量间存在严重的多重共线性。 66三、分析步骤三、分析步骤 2.6 共线性诊断共线性诊断2.6

11、.2 方差分量方差分量 SAS软件在给出条件数的同时,还会给出每软件在给出条件数的同时,还会给出每个主成分变量分得的方差,即方差分量,个主成分变量分得的方差,即方差分量,SAS输输出结果时的标志是出结果时的标志是“Var Prop”。 67三、分析步骤三、分析步骤 2.6 共线性诊断共线性诊断2.6.2 方差分量方差分量 若条件数若条件数(即最大条件指数即最大条件指数)大于大于10,且所在,且所在行同时有两个以上的变量方差分量超过行同时有两个以上的变量方差分量超过0.5,就意,就意味着这些变量间存在一定程度的相关。味着这些变量间存在一定程度的相关。 68三、分析步骤三、分析步骤 2.6 共线性

12、诊断共线性诊断2.6.3 共线性的解决方法共线性的解决方法(1)变量筛选变量筛选 采用自变量筛选的方法一般可选出对因变量采用自变量筛选的方法一般可选出对因变量有统计学影响且相互之间独立或相关性较低的一有统计学影响且相互之间独立或相关性较低的一组自变量。组自变量。69三、分析步骤三、分析步骤 2.6 共线性诊断共线性诊断2.6.3 共线性的解决方法共线性的解决方法(2)有偏估计有偏估计 自变量间存在多重共线性且专业上认为需要自变量间存在多重共线性且专业上认为需要保留在模型中时,不宜使用最小二乘法估计模型。保留在模型中时,不宜使用最小二乘法估计模型。此时,可采用有偏估计。此时,可采用有偏估计。 此

13、类方法包括岭回归分析、主成分回归分析此类方法包括岭回归分析、主成分回归分析等。等。70三、分析步骤三、分析步骤 2.6 共线性诊断共线性诊断2.6.3 共线性的解决方法共线性的解决方法(3)增大样本含量增大样本含量 通过增加样本含量,减少估计量的方差,提通过增加样本含量,减少估计量的方差,提高估计精度,可在一定程度上克服多重共线性。高估计精度,可在一定程度上克服多重共线性。71三、分析步骤三、分析步骤 2.7 异常点诊断异常点诊断 2.7.1 异常点异常点 对因变量的预测值影响特别大,甚至容易导对因变量的预测值影响特别大,甚至容易导致相反结论的观测点,称为异常点。致相反结论的观测点,称为异常点

14、。 异常点的诊断,可采用学生化残差统计量、异常点的诊断,可采用学生化残差统计量、Cooks D统计量。统计量。 72三、分析步骤三、分析步骤 2.7 异常点诊断异常点诊断2.7.2 学生化残差统计量学生化残差统计量 Studentized residual,计算公式为:,计算公式为: 该统计量的该统计量的绝对值大于绝对值大于2时,所对应的观测点时,所对应的观测点可能是异常点。可能是异常点。 iiiiieyySe eSe e=73三、分析步骤三、分析步骤 2.7 异常点诊断异常点诊断2.7.3 Cooks D统计量统计量 库克距离统计量。库克距离统计量。 一般认为,一般认为, Cooks D0.

15、5时,可认为此观测时,可认为此观测点对回归模型的拟合有强影响,即可认为是异常点对回归模型的拟合有强影响,即可认为是异常点。点。 74三、分析步骤三、分析步骤 2.7 异常点诊断异常点诊断 2.7.4 异常点的处置异常点的处置 认真核对原始数据。若属抄写或输入等人为认真核对原始数据。若属抄写或输入等人为错误,应予以纠正;若非人为错误,可删除异常错误,应予以纠正;若非人为错误,可删除异常点,重新拟合回归模型。点,重新拟合回归模型。 如有可能,最好在此实验点上补做实验,进如有可能,最好在此实验点上补做实验,进一步确定此可疑异常点是否属实。一步确定此可疑异常点是否属实。 75三、分析步骤三、分析步骤

16、2.8 自变量作用大小评价自变量作用大小评价 由于自变量由于自变量量纲不同量纲不同,不能直接根据原始数,不能直接根据原始数据计算得来的偏回归系数来评价各自变量对因变据计算得来的偏回归系数来评价各自变量对因变量的影响大小。量的影响大小。 也不能依据也不能依据P 值来判断自变量对因变量的影值来判断自变量对因变量的影响大小。因为响大小。因为P 值的大小,不表示自变量的影响值的大小,不表示自变量的影响强弱,仅表示认为它有影响的可能性有多大。强弱,仅表示认为它有影响的可能性有多大。76三、分析步骤三、分析步骤 2.8 自变量作用大小评价自变量作用大小评价 先对原始数据进行标准化变换,然后再计算先对原始数

17、据进行标准化变换,然后再计算偏回归系数,此时的偏回归系数称为标准化偏回偏回归系数,此时的偏回归系数称为标准化偏回归系数。归系数。 标准化偏回归系数值越大,说明该自变量对标准化偏回归系数值越大,说明该自变量对因变量的影响越大因变量的影响越大。 77三、分析步骤三、分析步骤 例例1 为推算少年儿童心脏面积,重庆医科大为推算少年儿童心脏面积,重庆医科大学对学对33名名8岁正常男童进行观测,获得身高岁正常男童进行观测,获得身高(x1,cm)、体重体重(x2,cm) 、心脏横径、心脏横径(x3,cm) 、心脏纵径、心脏纵径(x4,cm) 、心脏宽径、心脏宽径(x5,cm) 、胸腔横径、胸腔横径(x6,c

18、m)及心及心脏面积脏面积(y,cm2)的值,结果如表的值,结果如表2。78三、分析步骤三、分析步骤表表2 33名名8岁正常男童的观测数据岁正常男童的观测数据idx1x2x3x4x5x6y1120.5020.508.338.807.2018.4048.282133.5027.509.6010.308.1021.6066.893121.5021.008.809.708.0019.8054.73:25126.0025.009.1010.207.7020.9049.09:33124.5024.009.509.907.8020.8057.0079三、分析步骤三、分析步骤 SAS程序如下程序如下data

19、a; input id x1-x6 y; cards; 1 120.50 20.50 8.33 8.80 7.20 18.40 48.28 2 133.50 27.50 9.60 10.30 8.10 21.60 66.89 3 121.50 21.00 8.80 9.70 8.00 19.80 54.73 ;run;proc reg; model y=x1-x6/ selection=stepwise sle=0.3 sls=0.05 r ;run;排除标准残差分析纳入标准逐步回归法80三、分析步骤三、分析步骤SAS结果结果 逐步回归过程摘要逐步回归过程摘要 Summary of Stepw

20、ise SelectionStepVariableEnteredVariableRemovedNumberVars InPartialR-SquareModelR-SquareC(p)F ValuePr F1x4 10.85820.858221.4690187.64 FIntercept-58.481996.52360478.6106080.37 |t|Intercept1-58.862434.37621-13.45.0001x31 2.315710.88998 2.600.0146x41 6.014020.94290 6.38.0001x51 4.637370.87766 5.28 |t|S

21、tandardizedEstimateIntercept1-58.862434.37621-13.45.00010 x31 2.315710.88998 2.600.01460.20224x41 6.014020.94290 6.38.00010.54398x51 4.637370.87766 5.28.00010.3014287三、分析步骤三、分析步骤SAS结果结果 模型拟合效果模型拟合效果Root MSE 1.63690R-Square0.9639Dependent Mean57.08438Adj R-Sq0.9601Coeff Var 2.86751 88三、分析步骤三、分析步骤SAS结

22、果结果 未校正截距项的共线性诊断结果未校正截距项的共线性诊断结果(截距项无意义截距项无意义)Collinearity DiagnosticsNumberEigenvalueConditionIndexProportion of VariationInterceptx3x4x513.994311.000000.000273330.000080030.000060160.0001151920.0036133.243110.844940.062320.032070.0023530.0014752.210310.154370.187760.015040.8915740.0006111680.84309

23、0.000417130.749840.952830.1059689三、分析步骤三、分析步骤SAS结果结果 校正截距项的共线性诊断结果校正截距项的共线性诊断结果(截距项有意义截距项有意义)Collinearity Diagnostics (intercept adjusted)NumberEigenvalueConditionIndexProportion of Variationx3x4x512.587641.000000.027960.024210.0469220.303462.920120.179800.041890.8768430.108904.874570.792240.933900.

24、0762490三、分析步骤三、分析步骤 结论:结论: 结合以上结果,可知:自变量结合以上结果,可知:自变量X3、X4、X5对对因变量的影响有统计学意义。所得模型为:因变量的影响有统计学意义。所得模型为: Y=-58.86+2.32X3+6.01X4+4.64X5 根据标准化偏回归系数的大小可知:根据标准化偏回归系数的大小可知: X4 (0.54)对因变量的影响最大,)对因变量的影响最大, X5 (0.30)次之,)次之, X3 (0.20)最小。)最小。91三、分析步骤三、分析步骤 结论:结论: 即心脏横径、心脏纵径和心脏宽径对心脏面即心脏横径、心脏纵径和心脏宽径对心脏面积的影响有影响,最终模型的决定系数为积的影响有影响,最终模型的决定系数为0.96,说明由这三者估计心脏面积有较大的实用价值。说明由这三者估计心脏面积有较大的实用价值。 92四、几点补充四、几点补充 4.1 哑变量哑变量 多重线性回归分析中,多重线性回归分析中, 自变量为多值名义变自变量为多值名义变量时,需对其进行哑变量变换。量时,需对其进行哑变量变换。 每个哑变量都是一个二值变量,所需哑变量每个哑变量都是一个二值变量,所需哑变量的数目为多值名义变量的类别数减的数目为多值名义变量的类别数减1。如。如“血型血型”是一个多值名义变量,有是一个多值名义变量,有A、B、AB、O四种,若四种,若以以O型血为基

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论