多元线性回归分析(第15章)课件_第1页
多元线性回归分析(第15章)课件_第2页
多元线性回归分析(第15章)课件_第3页
多元线性回归分析(第15章)课件_第4页
多元线性回归分析(第15章)课件_第5页
已阅读5页,还剩119页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

MultipleLinearRegressionAnalysis

多元线性回归分析第15章第二军医大学卫生统计学教研室张罗漫1MultipleLinearRegressionAna

讲课内容第一节多元线性回归(重点)第二节自变量选择方法(重点)第三节多元线性回归的应用及注意事项2讲课内容2第一节多元线性回归一、多元线性回归模型3第一节多元线性回归一、多元线性回归模型3

44

多元回归:多个Y,多个X多重回归:一个Y,多个X5多元回归:多个Y,多个X5

β0

常数项βj

偏回归系数(partialregressioncoefficient):

在其它自变量保持不变时,Xj增加或减少一个单位时Y的平均变化量。e去除m个自变量对Y影响后的随机误差。6β0常数项6

多元线性回归模型应用条件:1.Y与X1,X2,,Xm之间具有线性关系;2.各个Yi间相互独立;3.e服从均数为0、方差为2的正态分布。7多元线性回归模型应用条件:7

多元线性回归分析步骤:1.根据样本数据求得模型参数估计值:2.对回归方程及各Xj作假设检验。8多元线性回归分析步骤:8

二、多元线性回归方程的建立9二、多元线性回归方程的建立9YX10YX101111X1X2Y12X1X2Y12用最小二乘法解正规方程组,使残差平方和Q最小。13用最小二乘法解正规方程组,使残差平方和Q最小。131414用最小二乘法解正规方程组,使残差平方和Q最小。15用最小二乘法解正规方程组,15

1616

1717

1818

三、多元线性回归方程的假设检验及评价19三、多元线性回归方程的19

(一)回归方程的假设检验及评价1.方差分析法不全为0。20(一)回归方程的假设检验及评价1.方差分析法不全为0

2121

2222

2.决定系数R2血糖含量变异的60%可由总胆固醇、甘油三酯、胰岛素和糖化血红蛋白的变异解释。232.决定系数R2血糖含量变异的60%可由总胆固醇、甘3.复相关系数RY与多个自变量间的线性相关程度;Y与估计值间的Pearson相关系数r。243.复相关系数RY与多个自变量间的线性相关程度;24

(二)各自变量的假设检验及评价1.偏回归平方和表示模型中含有其它m-1个自变量的条件下该自变量对Y的回归贡献。其值愈大说明相应的自变量愈重要。25(二)各自变量的假设检验及评价1.偏回归平方和表示模

2626

0.6129+11.9627+20.0635+27.7939≠133.7107270.6129+11.9627+20.0635+27.

胰岛素(X3)与糖化血红蛋白(X4)与血糖(Y)有线性回归关系。28胰岛素(X3)与糖化血红蛋白(X4)与血糖(Y)有线

2.t检验法292.t检验法29

胰岛素(X3)与糖化血红蛋白(X4)与血糖(Y)有线性回归关系。30胰岛素(X3)与糖化血红蛋白(X4)与血糖(Y)有线

标准化回归系数bj’的绝对值用来比较各个自变量Xj对Y的影响程度大小;绝对值越大影响越大。标准化回归方程的截距为0。3.标准化回归系数标准化回归系数与一般回归方程的回归系数的关系:标准化回归方程

31标准化回归系数bj’的绝对值用来比较各个自变量Xj对血糖影响大小的顺序依次为糖化血红蛋白(X4)、胰岛素(X3)、甘油三酯(X2)与总胆固醇(X1)。胰岛素为负向影响。32对血糖影响大小的顺序依次为糖化血红蛋白(X4)、胰岛素(X3

第二节自变量选择方法33第二节自变量选择方法33

一、全局选择法对自变量各种不同的组合所建立的回归方程进行比较,从全部组合中挑出一个“最优”的回归方程。34一、全局选择法34

R2可用来评价回归方程优劣。随着自变量增加,R2不断增大,对两个不同个数自变量回归方程比较,须考虑方程包含自变量个数影响,应对R2进行校正。所谓“最优”回归方程指最大者。1.校正决定系数选择法35R2可用来评价回归方程优劣。1.校正决定系数

P为方程中自变量个数。最优方程的Cp期望值是p+1。应选择Cp最接近P+1的回归方程为最优。2.选择法36P为方程中自变量个数。2.选择法36

3737

二、逐步选择法全局选择计算量很大:6个变量,计算26-1=63个方程;10个变量,计算210-1=1023个方程。按选入变量顺序不同分前进法、后退法

与逐步回归法,共同特点是每一步只引入或剔除一个自变量Xj。38二、逐步选择法38对Xj的取舍要进行F检验:计算进行到第l步时:p:方程中自变量个数SS回:Xj的偏回归平方和SS残:残差平方和39对Xj的取舍要进行F检验:计算进行到第l步时:39

1.前进法(只选不剔)开始方程中无自变量,然后从方程外选取偏回归平方和最大的自变量作F检验以决定是否选入方程,直至无自变量可以引入方程为止。缺点:后续变量的引入可能使先前引入的变量变的不重要。Xj入选401.前进法(只选不剔)缺点:后续变量的引入可能使先前

2.后退法(只剔不选)开始方程中包含全部自变量,然后从方程中选取偏回归平方和最小的自变量作F检验以决定是否从方程中剔除,直至无自变量可以从方程中剔除为止。缺点:当某些自变量高度相关时,可能得不出正确结果。Xj剔除412.后退法(只剔不选)缺点:当某些自变量高度相关时,

3.逐步回归法(先选后剔,双向筛选)开始方程中无自变量,从方程外选取偏回归平方和最大的自变量作F检验以决定是否选入方程;每引一个自变量进入方程后,从方程中选取偏回归平方和最小的自变量作F检验以决定是否从方程中剔除;直至方程外无自变量可引入,方程内无自变量可剔除为止。423.逐步回归法(先选后剔,双向筛选)42

Xj剔除内剔Xj入选外引α入值定的越小选取自变量标准越严,被选入方程内自变量数越少。α入值越大则反之。小样本:α入=0.05,α出=0.10。

大样本:α入=0.10,α出=0.15。

α入<α出,以免Xj上一步剔除后下一步又被选入43Xj剔除内剔Xj入选外引α入值定的越小选取自变量标准

选X4前先建立4个直线回归方程;选X1前先建立1个含3个自变量、3个含2个自变量的多元线性回归方程。44选X4前先建立4个直线回归方程;44

4545

4646

4747

4848

4949第三节多元线性回归的应用及注意事项50第三节50

一、多元线性回归的应用

1.影响因素分析

年龄(X1)饮食习惯(X2)吸烟状况(X3)工作紧张度(X4)家族史(X5)

高血压(Y)bj的意义为在其它自变量保持不变时,Xj增加或减少一个单位时Y的平均变化量。故可排除混杂因素。51一、多元线性回归的应用年龄(X1)高血压(Y)bj

2.估计与预测心脏表面积(Y)=b0+b1心脏横径(X1)+b2心脏纵径(X2)+b3心脏宽径(X3)新生儿体重(Y)=b0+b1胎儿孕龄(X1)+b2胎儿头径(X2)+b3胎儿胸径(X3)+b4胎儿腹径(X4)522.估计与预测52

3.统计控制利用回归方程进行逆估计,确定Y后控制X。采用射频治疗仪治疗脑肿瘤:脑皮质毁损半径(Y)=b0+b1射频温度(X1)+b2照射时间(X2)533.统计控制53

二、多元线性回归应用的注意事项

1.指标的数量化

应变量Y为连续变量自变量X可为连续、有序分类或无序分类变量(1)连续变量:X(2)有序分类变量:1轻X=2中3重54二、多元线性回归应用的注意事项54

(3)无序分类变量哑变量(dummyvariables)55(3)无序分类变量哑变量(dummyvariabl

2.样本含量

n至少是X个数m的5~10倍3.多重共线性

实际应用中非常普遍,可使最小二乘法建立的回归方程失效;消除方法:主成分回归;剔除某个造成共线性的自变量。562.样本含量56

4.变量间的交互作用某一自变量对Y的作用大小与另一自变量的取值有关。血糖(Y)与总胆固醇(X1)、甘油三酯(X2)、胰岛素(X3)、糖化血红蛋白(X4)间逐步回归方程:X3与X4间有交互作用:574.变量间的交互作用血糖(Y)与总胆固醇(X1)、

5.残差分析标准化残差585.残差分析标准化残差58e’059e’0590000e’e’e’e’600000e’e’e’e’60

讲课内容第一节多元线性回归(重点)第二节自变量选择方法(重点)第三节多元线性回归的应用及注意事项61讲课内容61Thankyou!62Thankyou!62MultipleLinearRegressionAnalysis

多元线性回归分析第15章第二军医大学卫生统计学教研室张罗漫63MultipleLinearRegressionAna

讲课内容第一节多元线性回归(重点)第二节自变量选择方法(重点)第三节多元线性回归的应用及注意事项64讲课内容2第一节多元线性回归一、多元线性回归模型65第一节多元线性回归一、多元线性回归模型3

664

多元回归:多个Y,多个X多重回归:一个Y,多个X67多元回归:多个Y,多个X5

β0

常数项βj

偏回归系数(partialregressioncoefficient):

在其它自变量保持不变时,Xj增加或减少一个单位时Y的平均变化量。e去除m个自变量对Y影响后的随机误差。68β0常数项6

多元线性回归模型应用条件:1.Y与X1,X2,,Xm之间具有线性关系;2.各个Yi间相互独立;3.e服从均数为0、方差为2的正态分布。69多元线性回归模型应用条件:7

多元线性回归分析步骤:1.根据样本数据求得模型参数估计值:2.对回归方程及各Xj作假设检验。70多元线性回归分析步骤:8

二、多元线性回归方程的建立71二、多元线性回归方程的建立9YX72YX107311X1X2Y74X1X2Y12用最小二乘法解正规方程组,使残差平方和Q最小。75用最小二乘法解正规方程组,使残差平方和Q最小。137614用最小二乘法解正规方程组,使残差平方和Q最小。77用最小二乘法解正规方程组,15

7816

7917

8018

三、多元线性回归方程的假设检验及评价81三、多元线性回归方程的19

(一)回归方程的假设检验及评价1.方差分析法不全为0。82(一)回归方程的假设检验及评价1.方差分析法不全为0

8321

8422

2.决定系数R2血糖含量变异的60%可由总胆固醇、甘油三酯、胰岛素和糖化血红蛋白的变异解释。852.决定系数R2血糖含量变异的60%可由总胆固醇、甘3.复相关系数RY与多个自变量间的线性相关程度;Y与估计值间的Pearson相关系数r。863.复相关系数RY与多个自变量间的线性相关程度;24

(二)各自变量的假设检验及评价1.偏回归平方和表示模型中含有其它m-1个自变量的条件下该自变量对Y的回归贡献。其值愈大说明相应的自变量愈重要。87(二)各自变量的假设检验及评价1.偏回归平方和表示模

8826

0.6129+11.9627+20.0635+27.7939≠133.7107890.6129+11.9627+20.0635+27.

胰岛素(X3)与糖化血红蛋白(X4)与血糖(Y)有线性回归关系。90胰岛素(X3)与糖化血红蛋白(X4)与血糖(Y)有线

2.t检验法912.t检验法29

胰岛素(X3)与糖化血红蛋白(X4)与血糖(Y)有线性回归关系。92胰岛素(X3)与糖化血红蛋白(X4)与血糖(Y)有线

标准化回归系数bj’的绝对值用来比较各个自变量Xj对Y的影响程度大小;绝对值越大影响越大。标准化回归方程的截距为0。3.标准化回归系数标准化回归系数与一般回归方程的回归系数的关系:标准化回归方程

93标准化回归系数bj’的绝对值用来比较各个自变量Xj对血糖影响大小的顺序依次为糖化血红蛋白(X4)、胰岛素(X3)、甘油三酯(X2)与总胆固醇(X1)。胰岛素为负向影响。94对血糖影响大小的顺序依次为糖化血红蛋白(X4)、胰岛素(X3

第二节自变量选择方法95第二节自变量选择方法33

一、全局选择法对自变量各种不同的组合所建立的回归方程进行比较,从全部组合中挑出一个“最优”的回归方程。96一、全局选择法34

R2可用来评价回归方程优劣。随着自变量增加,R2不断增大,对两个不同个数自变量回归方程比较,须考虑方程包含自变量个数影响,应对R2进行校正。所谓“最优”回归方程指最大者。1.校正决定系数选择法97R2可用来评价回归方程优劣。1.校正决定系数

P为方程中自变量个数。最优方程的Cp期望值是p+1。应选择Cp最接近P+1的回归方程为最优。2.选择法98P为方程中自变量个数。2.选择法36

9937

二、逐步选择法全局选择计算量很大:6个变量,计算26-1=63个方程;10个变量,计算210-1=1023个方程。按选入变量顺序不同分前进法、后退法

与逐步回归法,共同特点是每一步只引入或剔除一个自变量Xj。100二、逐步选择法38对Xj的取舍要进行F检验:计算进行到第l步时:p:方程中自变量个数SS回:Xj的偏回归平方和SS残:残差平方和101对Xj的取舍要进行F检验:计算进行到第l步时:39

1.前进法(只选不剔)开始方程中无自变量,然后从方程外选取偏回归平方和最大的自变量作F检验以决定是否选入方程,直至无自变量可以引入方程为止。缺点:后续变量的引入可能使先前引入的变量变的不重要。Xj入选1021.前进法(只选不剔)缺点:后续变量的引入可能使先前

2.后退法(只剔不选)开始方程中包含全部自变量,然后从方程中选取偏回归平方和最小的自变量作F检验以决定是否从方程中剔除,直至无自变量可以从方程中剔除为止。缺点:当某些自变量高度相关时,可能得不出正确结果。Xj剔除1032.后退法(只剔不选)缺点:当某些自变量高度相关时,

3.逐步回归法(先选后剔,双向筛选)开始方程中无自变量,从方程外选取偏回归平方和最大的自变量作F检验以决定是否选入方程;每引一个自变量进入方程后,从方程中选取偏回归平方和最小的自变量作F检验以决定是否从方程中剔除;直至方程外无自变量可引入,方程内无自变量可剔除为止。1043.逐步回归法(先选后剔,双向筛选)42

Xj剔除内剔Xj入选外引α入值定的越小选取自变量标准越严,被选入方程内自变量数越少。α入值越大则反之。小样本:α入=0.05,α出=0.10。

大样本:α入=0.10,α出=0.15。

α入<α出,以免Xj上一步剔除后下一步又被选入105Xj剔除内剔Xj入选外引α入值定的越小选取自变量标准

选X4前先建立4个直线回归方程;选X1前先建立1个含3个自变量、3个含2个自变量的多元线性回归方程。106选X4前先建立4个直线回归方程;44

10745

10846

10947

11048

11149第三节多元线性回归的应用及注意事项112第三节50

一、多元线性回归的应用

1.影响因素分析

年龄(X1)饮食习惯(X2)吸烟状况(X3)工作紧张度(X4)家族史(X5)

高血压(Y)bj的意义为在其它自变量保持不变时,Xj增加或减少一个单位时Y的平均变化量。故可排除混杂因素。113一、多元线性回归的应用年龄(X1)高血压(Y)bj

2.估计与预测心脏表面积(Y)=b0+b1心脏横径(X1)+b2心脏纵径(X2)+b3心脏宽径(X3)新生儿体重(Y)=b0+b1胎儿

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论