多元线性回归分析课件_第1页
多元线性回归分析课件_第2页
多元线性回归分析课件_第3页
多元线性回归分析课件_第4页
多元线性回归分析课件_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十五章多元线性回归分析

(MultipleLinear

Regression)第十五章多元线性回归分析

(MultipleLinea1

讲述内容第一节多元线性回归第二节自变量选择方法第三节多元线性回归的应用及其注意事项讲述内容2

人的体重与身高、胸围血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、与照射的时间例子人的体重与身高、胸围例子3目的:作出以多个自变量估计应变量的多元线性回归方程。资料:应变量为定量指标,一定是随机的;自变量全部或大部分为定量指标,可以是随机变动的,也可以是人为选定的,若有少量定性或等级指标需作转换。用途:解释和预报。更精确目的:作出以多个自变量估计应变量的多元线性回归方程。4第一节

多元线性回归第一节

多元线性回归5变量:应变量1个,自变量m个,共m+1个。样本含量:n数据格式见表15-1回归模型一般形式:一、多元线性回归模型变量:应变量1个,自变量m个,共m+1个。一、多元6表15-1多元回归分析数据格式

条件表15-1多元回归分析数据格式条件7两自变量与应变量的散点图两自变量与应变量的散点图8一般步骤建立回归方程(2)检验并评价回归方程及各自变量的作用大小一般步骤建立回归方程(2)检验并评价回归方程9

二、多元线性回归方程的建立

例15-127名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表15-2中,试建立血糖与其它几项指标关系的多元线性回归方程。二、多元线性回归方程的建立例15-12710表15-227名糖尿病人的血糖及有关变量的测量结果

表15-227名糖尿病人的血糖及有关变量的测量结果11采用最小二乘法建立多元线性回归方程,即寻找适宜的系数b0,b1,b2,…,使得因变量观测值yi与其回归估计值之间残差平方和最小。采用最小二乘法建立多元线性回归方程,即寻找适宜的系数b012求偏导数(一阶)原理最小二乘法统计软件包最小求偏导数(一阶)原理统计软件包最小13三、假设检验及其评价

1.方差分析法:(一)对回归方程方差分析法可将回归方程中所有自变量X1,X2,…Xm,,作为一个整体来检验他们与应变量Y之间是否具有线性关系,并对回归方程的预测或解释能力做出综合评价。三、假设检验及其评价1.方差分析法:(一)对回归方程方差14表15-4例15-1的方差分析表

表15-3多元线性回归方差分析表表15-4例15-1的方差分析表表15-3多元线15SPSS软件输出结果AnalysisofVariance

ModelSumofSquaresdf

MeanSquareFSig.RegressionResidualTotal133.710788.8412222.5519

4222633.42774.03828.280.000SPSS软件输出结果ModelSumofSquare162.决定系数R2:2.决定系数R2:173.复相关系数

可用来度量应变量与多个自变量间的线性相关程度,亦即观察值与估计值之间的相关程度。Y

YYˆ

计算公式:2RR=,本例7751060080..R==

若m=1自变量,则有|r|R=,r为简单相关系数。

3.复相关系数可用来度量应变量与多个自变量间的线性相Y18(二)对各自变量的假设检验与评价

指明方程中的每一个自变量对Y的影响1.偏回归平方和

在其它自变量存在于回归方程中的条件下,考察某一自变量Xj对应变量Y的回归效应

(二)对各自变量的假设检验与评价1.偏回归平方和在其它19多元线性回归分析ppt课件20表15-5对例15-1数据作回归分析的部分中间结果

各自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到,表15-5给出了例15-1数据分析的部分中间结果。表15-5对例15-1数据作回归分析的部分中间结果21结果结222.t检验法是一种与偏回归平方和检验完全等价的一种方法。计算公式为2.t检验法是一种与偏回归平方和检验完全等价的一种方23结果结论对于同一资料,不同自变量的t值间可以相互比较,t的绝对值越大,说明该自变量对Y的回归所起的作用越大。结果结论对于同一资料,不同自变量的t值间可以相互比较,t243.标准化回归系数

自变量取值的单位及其离散程度是不同的,因此量纲不同的各回归系数之间不能直接比较大小,可对变量进行标准化变换,然后拟合回归方程,这样获得的回归系数称为标准化回归系数。(可说明各自变量相对贡献大小)。

变量标准化是将原始数据减去相应变量的均数,然后再除以该变量的标准差。3.标准化回归系数

自变量取值的单位及25计算得到的回归方程称作标准化回归方程,相应的回归系数即为标准化回归系数。

计算得到的回归方程称作标准化回归方程,相应的26注意:

一般回归系数有单位,用来解释各自变量对应变量的影响,表示在其它自变量保持不变时,增加或减少一个单位时Y的平均变化量。不能用各来比较各对的影响大小。

标准化回归系数无单位,用来比较各自变量对应变量的影响大小,越大,对的影响越大。注意:27结论结28第四节

自变量筛选

目的:使得预报和(或)解释效果好第四节

自变量筛选

目的:使得预报和(或)解释效果好29多元线性回归方程中所包含的自变量是根据专业知识和经验事先选择好的,但在许多回归分析的、应用中,由于没有清晰的理论依据,回归模型所包含的自变量难以预先确定,如果将一些不重要的自变量也引入方程,会降低模型的精度,因此选择有意义的自变量是回归分析的第一步。

选择自变量的基本思路是:尽可能将回归效果显著的自变量选入回归方程中,将作用不显著的特别是与自变量有密切线性关系的自变量排除在外。多元线性回归方程中所包含的自变量是根据专业知识和30一、全局择优法目的:根据一些准则建立“最优”回归模型意义:对自变量各种不同的组合所建立的回归方程进行比较,择优选择方法:一、全局择优法目的:根据一些准则建立“最优”回归模型31决定系数R2的缺点:

当回归方程中包含有很多自变量,即使其中有一些自变量对解释应变量变异的贡献极小,随着回归方程的自变量的增加,R2值表现为只增不减。决定系数R2的缺点:

当回归方程中包含有很多自变量,即使其32多元线性回归分析ppt课件33多元线性回归分析ppt课件34例15-2用全局择优法对例15-1数据的自变量进行选择。

例15-2用全局择优法对例15-1数据的自变量进行选择35全局择优法的局限性

如果自变量个数为4,则所有的回归模型有24-1=15个;当自变量数个数为10时,所有可能的回归为210-1=1023个;……;当自变量数个数为50时,所有可能的回归为250-1≈1015个。全局择优法的局限性如果自变量个数为4,36二、逐步选择法1.

1.前进法,回归方程中的自变量从无到有、从少到多逐个引入回归方程。此法已基本淘汰。

2.

后退法,先将全部自变量选入方程,然后逐步剔除无统计学意义的自变量。

剔除自变量的方法是在方程中选一个偏回归平方和最小的变量,作F检验决定它是否剔除,若无统计学意义则将其剔除,然后对剩余的自变量建立新的回归方程。重复这一过程,直至方程中所有的自变量都不能剔除为止。理论上最好,建议使用采用此法。

3.逐步回归法,逐步回归法是在前述两种方法的基础上,进行双向筛选的一种方法。该方法本质上是前进法。

二、逐步选择法1.1.前进法,回371.从不包含任何自变量的模型开始(截距)2.添加具有最大统计学意义的变量进入模型,如p值最小,小于预先给定的进入标准的变量。3.重复第二步,直到没有p值小于预先给定的进入标准的变量。1.从不包含任何自变量的模型开始(截距)381.从整个模型开始(包含研究所涉及所有自变量及其交互项2.剔除对参数进行t检验或方差分析的结果中最无统计学意义的变量。如p值最大,大于预先给定的剔除标准的变量。3.重复第二步,直到没有p值大于预先给定的剔除标准的变量。1.从整个模型开始(包含研究所涉及所有自变量及其交互项391.从不包含任何自变量的模型开始。2.添加具有最大统计学意义的变量进入模型。3.剔除对参数进行t检验或方差分析的结果中最无统计学意义的变量。3.重复第二步和第三步,直到模型外没有可进入的变量或模型内没有可剔除的变量为止。1.从不包含任何自变量的模型开始。40多元线性回归分析ppt课件41表15-7逐步回归过程

表15-7逐步回归过程42表15-8例15-3方差分析表

“最优”回归方程为结果表明:血糖的变化与甘油三脂、胰岛素和糖化血红蛋白有线性回归关系,其中与胰岛素负相关。由标准化回归系数看出,糖化血红蛋白对空腹血糖的影响最大。

表15-8例15-3方差分析表“最优”回归方程为43表15-9例15-3的回归系数的估计及检验结果

表15-9例15-3的回归系数的估计及检验结果44第四节多元线性回归的应用及其注意事项第四节多元线性回归的应用及其注意事项45

一、多元线性回归的应用影响因素分析,控制混杂因素预测:由自变量值推出应变量Y的值控制:指定应变量Y的值查看自变量的改变量一、多元线性回归的应用影响因素分析,控制混杂因素46二、应用条件二、应用条件47三、应用的注意事项(一)变量的数量化

(二)样本含量

(三)统计“最优”与专业的“最优”

(四)多重共线性

(五)交互作用

(六)残差图

三、应用的注意事项(一)变量的数量化

(二)样本含量

481.影响因素分析

例如影响高血压的因素可能有年龄、饮食习惯、吸烟状况、工作紧张度和家族史等,在影响高血压的众多可疑因素中,需要研究哪些因素有影响,哪些因素影响较大。1.影响因素分析

例如影响高血压的因素可能有年龄、49

在临床试验中,则可能由于种种原因难以保证各组的指标基线相同,如在年龄、病情等指标不一致出现混杂的情况下,如何对不同的治疗方法进行比较等。这些问题都可以利用回归分析来处理。控制混杂因素(confoundingfactor)的一个简单办法就是将其引入回归方程中,与其他主要变量一起进行分析

在临床试验中,则可能由于种种原因难以保证各组的指标基线相同502.估计与预测

如由儿童的心脏横径、心脏纵径和心脏宽径估计心脏的表面积;由胎儿的孕龄、头颈、胸径和腹径预测出生儿体重等。

2.估计与预测

如由儿童的心脏横径、心脏纵径和心脏宽径估513.统计控制

逆估计。

例如采用射频治疗仪治疗脑肿瘤,脑皮质的毁损半径与射频温度及照射时间有线性回归关系,建立回归方程后可以按预先给定的脑皮质毁损半径,确定最佳控制射频温度和照射时间。

3.统计控制逆估计。例如采用射频治疗仪治疗脑52二、多元线性回归应用的注意事项1.指标的数量化

分2类,可用一个(0,1)变量。如性别分k类,k-1个(0,1)变量,如血型。

二、多元线性回归应用的注意事项1.指标的数量化分2类,可用53数据格式回归方程

建立回归方程

b1

:相当A型相对于O型的差别b2

:相当B型相对于O型的差别b3

:相当AB型相对于O型的差别数据格式回归方程建立回归方程b1:相当A型相对于O54(3)等级

定量。一般是将等级从弱到强转换为(或)如文化程度分为小学、中学、大学、大学以上四个等级。Y为经济收入。解释:b(b1)反映X(X1)增加1个单位,

增加b个单位(如:500元)。表示中学文化较小学收入多500,大学较中学多500,余类推。(3)等级定量。解释:b(55b1,b2,b3分别反映中学、大学、大学以上相对于小学文化程度者经济收入差别的大小也可将K个等级转换为K-1个(0,1)变量b1,b2,b3分别反映中学、大学、大学以上相对于小学文化程562.样本含量:n=(5~10)m。3.关于逐步回归:对逐步回归得到的结果不要盲目的信任,所谓的“最优”回归方程并不一定是最好的,没有选入方程的变量也未必没有统计学意义。例如,例15-3中若将选入标准和剔除标准定为和选入的变量是,而不是,结果发生了改变。不同回归方程适应于不同用途,依专业知识定。2.样本含量:n=(5~10)m。57统计“最优”与专业的“最优”不同准则、方法得出的“最优”方程不同不同的引入、剔除标准获得的“最优”方程不同;方程还受数据的正确性、共线性影响研究者应结合问题本身和专业知识及经验来决定统计“最优”与专业的“最优”不同准则、方法得出的“最优”方程58多重共线性自变量间存在着相关关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性(collinearity)。xxxxxxxxxxxxxX1X2Y多重共线性自变量间存在着相关关系,使一个或几个自变量594.多重共线性

即指一些自变量之间存在较强的线性关系。如高血压与年龄、吸烟年限、饮白酒年限等,这些自变量通常是高度相关的,有可能使通过最小二乘法建立回归方程失效,引起下列一些不良后果:(1)参数估计值的标准误变得很大,从而t值变得很小。(2)回归方程不稳定,增加或减少某几个观察值,估计值可能会发生很大的变化。(3)t检验不准确,误将应保留在模型中的重要变量舍弃。(4)估计值的正负符号与客观实际不一致。消除多重共线性:剔除某个造成共线性的自变量,重建回归方程;合并自变量;采用逐步回归方法。

4.多重共线性即指一些自变量之间存在较强的线性关系。如60多重共线性的识别与解决办法筛选自变量用主成分回归岭回归回归系数的符号与专业知识不符变量的重要性与专业不符R2高,但各自变量对应的回归系数均不显著。方差膨胀因子(VarianceInflationFactors,VIF)>10多重共线性的识别与解决办法筛选自变量回归系数的符号与专业知识61交互作用

当某一自变量对应变量的作用大小与另一个自变量的取值有关时,则表示两个变量有交互作用(interaction)。检验两变量间有无交互作用,普遍的做法是在方程中加入它们的乘积项再做检验。如考察X1、X2间的交互作用,可在模型中加入X1X2项。交互作用当某一自变量对应变量的作用大小与另一个62多元线性回归分析ppt课件63多元线性回归分析ppt课件64

(六)、残差图(residualplot)0ResidualsHomoscedasticity:Residualsappearcompletelyrandom.Noindicationofmodelinadequacy.0ResidualsCurvedpatterninresidualsresultingfromunderlyingnonlinearrelationship.0ResidualsResidualsexhibitalineartrendwithtime.Time0ResidualsHe

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论