数学医学统计学第十五章-多元线性回归分析课件_第1页
数学医学统计学第十五章-多元线性回归分析课件_第2页
数学医学统计学第十五章-多元线性回归分析课件_第3页
数学医学统计学第十五章-多元线性回归分析课件_第4页
数学医学统计学第十五章-多元线性回归分析课件_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十五章多元线性回归分析

(MultipleLinear

Regression)11/21/2022医学统计学第十五章多元线性回归分析

(MultipleLinea1MultiplelinearregressionChoiceofindependentvariable

ApplicationContent11/21/2022医学统计学MultiplelinearregressionCon2讲述内容第一节多元线性回归第二节自变量选择方法第三节多元线性回归的应用及其注意事项11/21/2022医学统计学讲述内容11/21/2022医学统计学3目的:作出以多个自变量估计应变量的多元线性回归方程。资料:应变量为定量指标;自变量全部或大部分为定量指标,若有少量定性或等级指标需作转换。用途:解释和预报。意义:由于事物间的联系常常是多方面的,一个应变量的变化可能受到其它多个自变量的影响,如糖尿病人的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂等多种生化指标的影响。11/21/2022医学统计学目的:作出以多个自变量估计应变量的多元线性回归方程。11/24第一节

多元线性回归11/21/2022医学统计学第一节

多元线性回归11/21/2022医学统计学5变量:应变量1个,自变量m个,共m+1个。样本含量:n数据格式见表15-1回归模型一般形式:一、多元线性回归模型11/21/2022医学统计学变量:应变量1个,自变量m个,共m+1个。一、多元6表15-1多元回归分析数据格式

条件11/21/2022医学统计学表15-1多元回归分析数据格式条件11/21/20227一般步骤建立回归方程(2)检验并评价回归方程及各自变量的作用大小11/21/2022医学统计学一般步骤建立回归方程(2)检验并评价回归方程11/21/208二、多元线性回归方程的建立

例15-127名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表15-2中,试建立血糖与其它几项指标关系的多元线性回归方程。11/21/2022医学统计学二、多元线性回归方程的建立例15-19表15-227名糖尿病人的血糖及有关变量的测量结果

11/21/2022医学统计学表15-227名糖尿病人的血糖及有关变量的测量结果110求偏导数原理最小二乘法11/21/2022医学统计学求偏导数原理11/21/2022医学统计学11三、假设检验及其评价

1.方差分析法:(一)对回归方程11/21/2022医学统计学三、假设检验及其评价1.方差分析法:(一)对回归方程1112表15-4例15-1的方差分析表

表15-3多元线性回归方差分析表11/21/2022医学统计学表15-4例15-1的方差分析表表15-3多元线132.决定系数R2:11/21/2022医学统计学2.决定系数R2:11/21/2022医学统计学143.复相关系数

11/21/2022医学统计学3.复相关系数11/21/2022医学统计学15(二)对各自变量

指明方程中的每一个自变量对Y的影响(即方差分析和决定系数检验整体)。1.偏回归平方和

11/21/2022医学统计学(二)对各自变量指明方程中的每一个自变量对Y的影响(即方差1611/21/2022医学统计学11/21/2022医学统计学17表15-5对例15-1数据作回归分析的部分中间结果

各自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到,表15-5给出了例15-1数据分析的部分中间结果。11/21/2022医学统计学表15-5对例15-1数据作回归分析的部分中间结果18结果11/21/2022医学统计学结11/21/2022医学统计学192.t检验法是一种与偏回归平方和检验完全等价的一种方法。计算公式为11/21/2022医学统计学2.t检验法是一种与偏回归平方和检验完全等价的一种方20结果结论11/21/2022医学统计学结果结论11/21/2022医学统计学213.标准化回归系数

变量标准化是将原始数据减去相应变量的均数,然后再除以该变量的标准差。计算得到的回归方程称作标准化回归方程,相应的回归系数即为标准化回归系数。

11/21/2022医学统计学3.标准化回归系数

变量标准化是将原始22注意:

一般回归系数有单位,用来解释各自变量对应变量的影响,表示在其它自变量保持不变时,增加或减少一个单位时Y的平均变化量。不能用各来比较各对的影响大小。

标准化回归系数无单位,用来比较各自变量对应变量的影响大小,越大,对的影响越大。11/21/2022医学统计学注意:11/21/2022医学统计学23结论11/21/2022医学统计学结11/21/2022医学统计学24第二节

自变量选择方法

目的:使得预报和(或)解释效果好11/21/2022医学统计学第二节

自变量选择方法

目的:使得预报和(或)解释效25一、全局择优法目的:预报效果好意义:对自变量各种不同的组合所建立的回归方程进行比较择优。选择方法:11/21/2022医学统计学一、全局择优法目的:预报效果好11/21/2022医学统计学2611/21/2022医学统计学11/21/2022医学统计学2711/21/2022医学统计学11/21/2022医学统计学28例15-2用全局择优法对例15-1数据的自变量进行选择。

11/21/2022医学统计学例15-2用全局择优法对例15-1数据的自变量进行选择29二、逐步选择法1.

1.前进法,回归方程中的自变量从无到有、从少到多逐个引入回归方程。此法已基本淘汰。

2.

后退法,先将全部自变量选入方程,然后逐步剔除无统计学意义的自变量。

剔除自变量的方法是在方程中选一个偏回归平方和最小的变量,作F检验决定它是否剔除,若无统计学意义则将其剔除,然后对剩余的自变量建立新的回归方程。重复这一过程,直至方程中所有的自变量都不能剔除为止。理论上最好,建议使用采用此法。

3.逐步回归法,逐步回归法是在前述两种方法的基础上,进行双向筛选的一种方法。该方法本质上是前进法。

11/21/2022医学统计学二、逐步选择法1.1.前进法,回3011/21/2022医学统计学11/21/2022医学统计学31表15-7逐步回归过程

11/21/2022医学统计学表15-7逐步回归过程11/21/2022医学统计学32表15-8例15-3方差分析表

“最优”回归方程为结果表明:血糖的变化与甘油三脂、胰岛素和糖化血红蛋白有线性回归关系,其中与胰岛素负相关。由标准化回归系数看出,糖化血红蛋白对空腹血糖的影响最大。

11/21/2022医学统计学表15-8例15-3方差分析表“最优”回归方程为33表15-9例15-3的回归系数的估计及检验结果

11/21/2022医学统计学表15-9例15-3的回归系数的估计及检验结果1134第三节多元线性回归的应用及注意事项11/21/2022医学统计学第三节多元线性回归的应用及注意事项11/21/2022医35

一、多元线性回归的应用11/21/2022医学统计学一、多元线性回归的应用11/21/2022医学统计学361.影响因素分析

例如影响高血压的因素可能有年龄、饮食习惯、吸烟状况、工作紧张度和家族史等,在影响高血压的众多可疑因素中,需要研究哪些因素有影响,哪些因素影响较大。11/21/2022医学统计学1.影响因素分析

例如影响高血压的因素可能有年龄、37

在临床试验中,则可能由于种种原因难以保证各组的指标基线相同,如在年龄、病情等指标不一致出现混杂的情况下,如何对不同的治疗方法进行比较等。这些问题都可以利用回归分析来处理。控制混杂因素(confoundingfactor)的一个简单办法就是将其引入回归方程中,与其他主要变量一起进行分析

11/21/2022医学统计学在临床试验中,则可能由于种种原因难以保证各组的指标基线相同382.估计与预测

如由儿童的心脏横径、心脏纵径和心脏宽径估计心脏的表面积;由胎儿的孕龄、头颈、胸径和腹径预测出生儿体重等。

11/21/2022医学统计学2.估计与预测

如由儿童的心脏横径、心脏纵径和心脏宽径估393.统计控制

逆估计。

例如采用射频治疗仪治疗脑肿瘤,脑皮质的毁损半径与射频温度及照射时间有线性回归关系,建立回归方程后可以按预先给定的脑皮质毁损半径,确定最佳控制射频温度和照射时间。

11/21/2022医学统计学3.统计控制逆估计。例如采用射频治疗仪治疗脑40二、多元线性回归应用的注意事项1.指标的数量化

分2类,可用一个(0,1)变量。如性别分k类,k-1个(0,1)变量,如血型。

11/21/2022医学统计学二、多元线性回归应用的注意事项1.指标的数量化分2类,可用41数据格式回归方程

建立回归方程

b1

:相当A型相对于O型的差别b2

:相当B型相对于O型的差别b3

:相当AB型相对于O型的差别11/21/2022医学统计学数据格式回归方程建立回归方程b1:相当A型相对于O42(3)等级

定量。一般是将等级从弱到强转换为(或)如文化程度分为小学、中学、大学、大学以上四个等级。Y为经济收入。解释:b(b1)反映X(X1)增加1个单位,

增加b个单位(如:500元)。表示中学文化较小学收入多500,大学较中学多500,余类推。11/21/2022医学统计学(3)等级定量。解释:b(43b1,b2,b3分别反映中学、大学、大学以上相对于小学文化程度者经济收入差别的大小也可将K个等级转换为K-1个(0,1)变量11/21/2022医学统计学b1,b2,b3分别反映中学、大学、大学以上相对于小学文化程442.样本含量:n=(5~10)m。3.关于逐步回归:对逐步回归得到的结果不要盲目的信任,所谓的“最优”回归方程并不一定是最好的,没有选入方程的变量也未必没有统计学意义。例如,例15-3中若将选入标准和剔除标准定为和选入的变量是,而不是,结果发生了改变。不同回归方程适应于不同用途,依专业知识定。11/21/2022医学统计学2.样本含量:n=(5~10)m。11/21/202454.多重共线性

即指一些自变量之间存在较强的线性关系。如高血压与年龄、吸烟年限、饮白酒年限等,这些自变量通常是高度相关的,有可能使通过最小二乘法建立回归方程失效,引起下列一些不良后果:(1)参数估计值的标准误变得很大,从而t值变得很小。(2)回归方程不稳定,增加或减少某几个观察值,估计值可能会发生很大的变化。(3)t检验不准确,误将应保留在模型中的重要变量舍弃。(4)估计值的正负符号与客观实际不一致。消除多重共线性:剔除某个造成共线性的自变量,重建回归方程;合并自变量;采用逐步回归方法。

11/21/2022医学统计学4.多重共线性即指一些自变量之间存在较强的线性关系。如4611/21/2022医学统计学11/21/2022医学统计学4711/21/2022医学统计学11/21/2022医学统计学4811/21/2022医学统计学11/21/2022医学统计学49谢谢大家!11/21/2022医学统计学谢谢大家!11/21/2022医学统计学50第十五章多元线性回归分析

(MultipleLinear

Regression)11/21/2022医学统计学第十五章多元线性回归分析

(MultipleLinea51MultiplelinearregressionChoiceofindependentvariable

ApplicationContent11/21/2022医学统计学MultiplelinearregressionCon52讲述内容第一节多元线性回归第二节自变量选择方法第三节多元线性回归的应用及其注意事项11/21/2022医学统计学讲述内容11/21/2022医学统计学53目的:作出以多个自变量估计应变量的多元线性回归方程。资料:应变量为定量指标;自变量全部或大部分为定量指标,若有少量定性或等级指标需作转换。用途:解释和预报。意义:由于事物间的联系常常是多方面的,一个应变量的变化可能受到其它多个自变量的影响,如糖尿病人的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂等多种生化指标的影响。11/21/2022医学统计学目的:作出以多个自变量估计应变量的多元线性回归方程。11/254第一节

多元线性回归11/21/2022医学统计学第一节

多元线性回归11/21/2022医学统计学55变量:应变量1个,自变量m个,共m+1个。样本含量:n数据格式见表15-1回归模型一般形式:一、多元线性回归模型11/21/2022医学统计学变量:应变量1个,自变量m个,共m+1个。一、多元56表15-1多元回归分析数据格式

条件11/21/2022医学统计学表15-1多元回归分析数据格式条件11/21/202257一般步骤建立回归方程(2)检验并评价回归方程及各自变量的作用大小11/21/2022医学统计学一般步骤建立回归方程(2)检验并评价回归方程11/21/2058二、多元线性回归方程的建立

例15-127名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表15-2中,试建立血糖与其它几项指标关系的多元线性回归方程。11/21/2022医学统计学二、多元线性回归方程的建立例15-159表15-227名糖尿病人的血糖及有关变量的测量结果

11/21/2022医学统计学表15-227名糖尿病人的血糖及有关变量的测量结果160求偏导数原理最小二乘法11/21/2022医学统计学求偏导数原理11/21/2022医学统计学61三、假设检验及其评价

1.方差分析法:(一)对回归方程11/21/2022医学统计学三、假设检验及其评价1.方差分析法:(一)对回归方程1162表15-4例15-1的方差分析表

表15-3多元线性回归方差分析表11/21/2022医学统计学表15-4例15-1的方差分析表表15-3多元线632.决定系数R2:11/21/2022医学统计学2.决定系数R2:11/21/2022医学统计学643.复相关系数

11/21/2022医学统计学3.复相关系数11/21/2022医学统计学65(二)对各自变量

指明方程中的每一个自变量对Y的影响(即方差分析和决定系数检验整体)。1.偏回归平方和

11/21/2022医学统计学(二)对各自变量指明方程中的每一个自变量对Y的影响(即方差6611/21/2022医学统计学11/21/2022医学统计学67表15-5对例15-1数据作回归分析的部分中间结果

各自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到,表15-5给出了例15-1数据分析的部分中间结果。11/21/2022医学统计学表15-5对例15-1数据作回归分析的部分中间结果68结果11/21/2022医学统计学结11/21/2022医学统计学692.t检验法是一种与偏回归平方和检验完全等价的一种方法。计算公式为11/21/2022医学统计学2.t检验法是一种与偏回归平方和检验完全等价的一种方70结果结论11/21/2022医学统计学结果结论11/21/2022医学统计学713.标准化回归系数

变量标准化是将原始数据减去相应变量的均数,然后再除以该变量的标准差。计算得到的回归方程称作标准化回归方程,相应的回归系数即为标准化回归系数。

11/21/2022医学统计学3.标准化回归系数

变量标准化是将原始72注意:

一般回归系数有单位,用来解释各自变量对应变量的影响,表示在其它自变量保持不变时,增加或减少一个单位时Y的平均变化量。不能用各来比较各对的影响大小。

标准化回归系数无单位,用来比较各自变量对应变量的影响大小,越大,对的影响越大。11/21/2022医学统计学注意:11/21/2022医学统计学73结论11/21/2022医学统计学结11/21/2022医学统计学74第二节

自变量选择方法

目的:使得预报和(或)解释效果好11/21/2022医学统计学第二节

自变量选择方法

目的:使得预报和(或)解释效75一、全局择优法目的:预报效果好意义:对自变量各种不同的组合所建立的回归方程进行比较择优。选择方法:11/21/2022医学统计学一、全局择优法目的:预报效果好11/21/2022医学统计学7611/21/2022医学统计学11/21/2022医学统计学7711/21/2022医学统计学11/21/2022医学统计学78例15-2用全局择优法对例15-1数据的自变量进行选择。

11/21/2022医学统计学例15-2用全局择优法对例15-1数据的自变量进行选择79二、逐步选择法1.

1.前进法,回归方程中的自变量从无到有、从少到多逐个引入回归方程。此法已基本淘汰。

2.

后退法,先将全部自变量选入方程,然后逐步剔除无统计学意义的自变量。

剔除自变量的方法是在方程中选一个偏回归平方和最小的变量,作F检验决定它是否剔除,若无统计学意义则将其剔除,然后对剩余的自变量建立新的回归方程。重复这一过程,直至方程中所有的自变量都不能剔除为止。理论上最好,建议使用采用此法。

3.逐步回归法,逐步回归法是在前述两种方法的基础上,进行双向筛选的一种方法。该方法本质上是前进法。

11/21/2022医学统计学二、逐步选择法1.1.前进法,回8011/21/2022医学统计学11/21/2022医学统计学81表15-7逐步回归过程

11/21/2022医学统计学表15-7逐步回归过程11/21/2022医学统计学82表15-8例15-3方差分析表

“最优”回归方程为结果表明:血糖的变化与甘油三脂、胰岛素和糖化血红蛋白有线性回归关系,其中与胰岛素负相关。由标准化回归系数看出,糖化血红蛋白对空腹血糖的影响最大。

11/21/2022医学统计学表15-8例15-3方差分析表“最优”回归方程为83表15-9例15-3的回归系数的估计及检验结果

11/21/2022医学统计学表15-9例15-3的回归系数的估计及检验结果1184第三节多元线性回归的应用及注意事项11/21/2022医学统计学第三节多元线性回归的应用及注意事项11/21/2022医85

一、多元线性回归的应用11/21/2022医学统计学一、多元线性回归的应用11/21/2022医学统计学861.影响因素分析

例如影响高血压的因素可能有年龄、饮食习惯、吸烟状况、工作紧张度和家族史等,在影响高血压的众多可疑因素中,需要研究哪些因素有影响,哪些因素影响较大。11/21/2022医学统计学1.影响因素分析

例如影响高血压的因素可能有年龄、87

在临床试验中,则可能由于种种原因难以保证各组的指标基线相同,如在年龄、病情等指标不一致出现混杂的情况下,如何对不同的治疗方法进行比较等。这些问题都可以利用回归分析来处理。控制混杂因素(confoundingfactor)的一个简单办法就是将其引入回归方程中,与其他主要变量一起进行分析

11/21/2022医学统计学在临床试验中,则可能由于种种原因难以保证各组的指标基线相同882.估计与预测

如由儿童的心脏横径、心脏纵径和心脏宽径估计心脏的表面积;由胎儿的孕龄、头颈、胸径和腹径预测出生儿体重等。

11/21/2022医学统计学2.估计与预测

如由儿童的心脏横径、心脏纵径和心脏宽径估893.统计控制

逆估计。

例如采用射频治疗仪治疗脑肿瘤,脑皮质的毁损半径与射频温度及照射时间有线性回归关系,建立回归方程后可以按预先给定的脑皮质毁损半径,确定最佳控制射频温度和照射时间。

11/21/2022医学统计学3.统计控制逆估计。例如采用射频治疗仪治疗脑90二、多元线性回归应用的注意事项1.指标的数量化

分2类,可用一个(0,1)变量。如性别分k类,k-1个(0,1)变量,如血型。

11/21/2022医学统计学二、多元线性回归应用的注意事项1.指标的数量化分2类,可用91数据格式回归方程

建立回归方程

b1

:相当A型相对于O型的差别b2

:相当B型相对于O型的差别b3

:相当AB型相对于O型的差别11/21/2022医学统计学数据格式回归方程建立回归方程b1:相当A型相对于O92(3)等级

定量。一般是将等级从弱到强转换为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论