多元线性回归分析(正式)_第1页
多元线性回归分析(正式)_第2页
多元线性回归分析(正式)_第3页
多元线性回归分析(正式)_第4页
多元线性回归分析(正式)_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1Multiple Linear Regression Analysis 华中科技大学同济医学院公共卫生学院华中科技大学同济医学院公共卫生学院流行病学与卫生统计学系流行病学与卫生统计学系蒋红卫蒋红卫Email: 2第一节第一节 多元线性回归多元线性回归(重点重点)第二节第二节 自变量选择方法自变量选择方法(重点重点)第三节第三节 多元线性回归的应用及注多元线性回归的应用及注 意事项意事项3一、多元线性回归模型一、多元线性回归模型45多元回归:多元回归:多个多个Y,多个,多个X多重回归:多重回归:一个一个Y,多个,多个X6 eXXXYmm22110 0 常数项常数项j 偏回归系数偏回归系数(pa

2、rtial regression coefficient): 在其它自变量保持不变时,在其它自变量保持不变时,Xj增加或减少增加或减少 一个单位时一个单位时Y的平均变化量。的平均变化量。e 去除去除m个自变量对个自变量对Y影响后的随机误差。影响后的随机误差。7 多元线性回归模型应用条件:多元线性回归模型应用条件:1.Y与与X1,X2,Xm之间具有线性关系;之间具有线性关系;2.各个各个Yi间相互独立;间相互独立;3.e服从均数为服从均数为0、方差为、方差为 2的正态分布。的正态分布。8多元线性回归分析步骤:多元线性回归分析步骤:1.根据样本数据求得模型参数估计值:根据样本数据求得模型参数估计值

3、:2.对回归方程及各对回归方程及各Xj作假设检验。作假设检验。mm22110XbXbXbbY 9二、多元线性回归方程的建立二、多元线性回归方程的建立10YX bXaY 110XbbY 11110XbbY 110XbYb 11Y11llb Y1111lbl XXXY2ll)XX()YY)(XX(b XbYa 12X1X2Y22110XbXbbY 1102XbbX 1322110XbXbbY )(22110XbXbYb Y1212111lblbl Y2222121lblbl 用最小二乘法解正规方程组,使残差平方和用最小二乘法解正规方程组,使残差平方和Q最小。最小。 2221102XbXbbYYYQ

4、 14mm22110XbXbXbbY )(mm22110XbXbXbYb Y1mm1212111lblblbl Y2mm2222121lblblbl mYmmm22m11mlblblbl 15 2mm221102XbXbXbbYYYQ 用最小二乘法解正规方程组,用最小二乘法解正规方程组,使残差平方和使残差平方和Q最小。最小。16 17 222.5519 84.5570 142.4347- 89.8025 67.6962 84.5570 86.4407 57.3863- 26.7286 31.3687 142.4347- 57.3863- 350.3106 9.4929- 53.9523-89.

5、8025 26.7286 9.4929- 172.3648 67.3608 67.6962 31.3687 53.9523- 67.3608 0103.66 l ij84.5570 b86.4407b 57.3863-b26.7286b31.3687 142.4347- b57.3863-b350.3106b9.4929-b53.9523-89.8025b26.7286b9.4929-b172.3648 b67.360867.6962 b31.3687 b53.9523- b67.3608 b0103.664321432143214321 6382. 0b 2706. 0b 3515. 0b

6、1424. 0b4321 18 9259.11Y1185. 9X 1467. 6X 8407. 2X 8126. 5X6382. 0b 2706. 0b 3515. 0b 1424. 0b43214321 9433. 5XbXbXbYbmm22110 )(4321X6382. 0X2706. 0X3515. 0X1424. 09433. 5Y 19 三、多元线性回归方程的三、多元线性回归方程的 假设检验及评价假设检验及评价20 (一)回归方程的假设检验及评价(一)回归方程的假设检验及评价1.1.方差分析法方差分析法残残回回残残回回回回总总残残回回)(MSMS1mn /SSm/SSF SSSSS

7、S lblblbSS )m,2, 1j(:H 0:H mYmY22Y11j1m210 不全为不全为0。21 22 23 6008. 05519.2227107.133SSSSR2 总总回回2.决定系数决定系数R2血糖含量变异的血糖含量变异的60%可由总胆固醇、甘可由总胆固醇、甘油三酯、胰岛素和糖化血红蛋白的变异油三酯、胰岛素和糖化血红蛋白的变异解释。解释。247751. 06008. 0RR2 3.复相关系数复相关系数RY与多个自变量间的与多个自变量间的线性相关程度线性相关程度;Y与估计值与估计值 间的间的Pearson相关系数相关系数r。Y25 (二)各自变量的假设检验及评价(二)各自变量的

8、假设检验及评价)()(残残回回1mn/SS1/XSSF 0.05 0:H ,0:H jjj1j0 1.偏回归平方和偏回归平方和表示模型中含有其它表示模型中含有其它m-1个自变量的条个自变量的条件下该自变量对件下该自变量对Y的回归贡献。其值愈的回归贡献。其值愈大说明相应的自变量愈重要。大说明相应的自变量愈重要。26 27 7939.279168.1057107.133XSS0635.206472.1137107.133XSS9627.117480.1217107.133XSS6129.00978.1337107.133XSS4321 回回回回回回回回0.6129+11.9627+20.0635+

9、27.7939133.710728 30. 4F0.05P 883. 61427/8412.881/7939.27F0.05P 968. 41427/8412.881/0635.20F0.05P 962. 21427/8412.881/9627.11F0.05P 152. 01427/8412.881/6129. 0F)22,1(05. 04321 )()()()(胰岛素胰岛素(X3)与糖化血红蛋白与糖化血红蛋白(X4)与血糖与血糖(Y)有有线性回归关系。线性回归关系。29 jbjjSbt 2433. 0S 1214. 0S 2042. 0S 3656. 0S6382. 0b 2706. 0b

10、 3515. 0b 1424. 0b4321bbbb4321 2.t检验法检验法30 074. 2t0.05P 623. 22433. 06382. 0t0.05P 229. 21214. 02706. 0t0.05P 721. 12042. 03515. 0t0.05P 390. 03656. 01424. 0t22,2/05. 04321 胰岛素胰岛素(X3)与糖化血红蛋白与糖化血红蛋白(X4)与血糖与血糖(Y)有线性回归关系。有线性回归关系。31 标准化回归系数标准化回归系数bj 的绝对值用来比较各个的绝对值用来比较各个自变量自变量Xj 对对Y的影响程度大小;绝对值越的影响程度大小;绝对

11、值越大影响越大。标准化回归方程的截距为大影响越大。标准化回归方程的截距为0。3.标准化回归系数标准化回归系数 YjjYYjjjjSSbllbb p标准化回归系数与一般回归方程的回归系标准化回归系数与一般回归方程的回归系 数的关系:数的关系: SXXX jjjj 标准化回归方程标准化回归方程p 323977. 09257. 28234. 16382. 0b3395. 09257. 26706. 32706. 0b3093. 09257. 25748. 23515. 0b0776. 09257. 25934. 11424. 0b4321 对血糖影响大小的顺序依次为糖化血红蛋对血糖影响大小的顺序依次

12、为糖化血红蛋白白(X4)、胰岛素、胰岛素(X3)、甘油三酯、甘油三酯(X2)与总胆与总胆固醇固醇 (X1)。胰岛素为负向影响。胰岛素为负向影响。33 34 一、全局选择法一、全局选择法对自变量各种不同的组合所建立的回归方程对自变量各种不同的组合所建立的回归方程进行比较,从全部组合中挑出一个进行比较,从全部组合中挑出一个“最优最优”的回归方程。的回归方程。35 uR2可用来评价回归方程优劣。可用来评价回归方程优劣。u随着自变量增加,随着自变量增加,R2不断增大,对两个不不断增大,对两个不 同个数自变量回归方程比较,须考虑方程同个数自变量回归方程比较,须考虑方程 包含自变量个数影响,应对包含自变量

13、个数影响,应对R2进行校正。进行校正。u所谓所谓“最优最优”回归方程指回归方程指 最大者。最大者。2cR总总残残)(MSMS11pn1nR11R 22c 2cR1.校正决定系数校正决定系数 选择法选择法36 pCuP为方程中自变量个数。为方程中自变量个数。u最优方程的最优方程的Cp期望值是期望值是p+1。 应选择应选择Cp最接近最接近P+1的回归方程为最优。的回归方程为最优。 mp 1p2nMSSSC mpp )()(残残残残2. 选择法选择法37 38 二、逐步选择法二、逐步选择法n全局选择计算量很大:全局选择计算量很大: 6个变量,计算个变量,计算26-1=63个方程;个方程; 10个变量

14、,计算个变量,计算210-1=1023个方程。个方程。n按选入变量顺序不同分按选入变量顺序不同分前进法、后退法前进法、后退法 与与逐步回归法逐步回归法,共同特点是每一步只引,共同特点是每一步只引 入或剔除一个自变量入或剔除一个自变量Xj。39n对对Xj的取舍要进行的取舍要进行F检验:检验: )()(残残回回1pn/SS1/XSSF ljlj 计算进行到第计算进行到第l步时:步时:p :方程中自变量个数方程中自变量个数SS回:回:Xj的偏回归平方和的偏回归平方和SS残:残:残差平方和残差平方和40 1.前进法前进法(只选不剔)(只选不剔)开始方程中无自变量开始方程中无自变量,然后从方程外选取偏,

15、然后从方程外选取偏回归平方和最大的自变量作回归平方和最大的自变量作F F检验以决定是检验以决定是否选入方程,直至无自变量可以引入方程为否选入方程,直至无自变量可以引入方程为止。止。缺点:缺点:后续变量的引入可能使先前引入的变后续变量的引入可能使先前引入的变量变的不重要。量变的不重要。入入入入 P FF )1pn, 1(jXj入选入选41 2.后退法后退法(只剔不选)(只剔不选)开始方程中包含全部自变量开始方程中包含全部自变量,然后从方程中,然后从方程中选取偏回归平方和最小的自变量作选取偏回归平方和最小的自变量作F F检验以检验以决定是否从方程中剔除,直至无自变量可以决定是否从方程中剔除,直至无

16、自变量可以从方程中剔除为止。从方程中剔除为止。缺点:缺点:当某些自变量高度相关时,可能得不当某些自变量高度相关时,可能得不 出正确结果。出正确结果。出出出出 P FF )1pn, 1(jXj剔除剔除42 3.逐步回归法(先选后剔,双向筛选)逐步回归法(先选后剔,双向筛选)p 开始方程中无自变量,从方程外选取偏回归开始方程中无自变量,从方程外选取偏回归平方和最大的自变量作平方和最大的自变量作F检验以决定是否选入检验以决定是否选入方程;方程;p 每引一个自变量进入方程后,从方程中选取每引一个自变量进入方程后,从方程中选取偏回归平方和最小的自变量作偏回归平方和最小的自变量作F检验以决定是检验以决定是

17、否从方程中剔除;否从方程中剔除;p 直至方程外无自变量可引入,方程内无自变直至方程外无自变量可引入,方程内无自变量可剔除为止。量可剔除为止。43 出出出出 P FF )1pn, 1(jXj剔除剔除内剔内剔入入入入 P FF )1pn, 1(jXj入选入选外引外引入入值定的越小选取自变量标准越严,被选值定的越小选取自变量标准越严,被选 入方程内自变量数越少。入方程内自变量数越少。 入入值越大则反之。值越大则反之。小样本:小样本:入入=0.05,出出=0.10。 大样本:大样本:入入=0.10,出出=0.15。 入入出出,以免以免Xj上一步剔除后下一步又被选入上一步剔除后下一步又被选入44 选选X

18、4前先建立前先建立4个直线回归方程;个直线回归方程;选选X1前先建立前先建立1个含个含3个自变量、个自变量、 3个含个含2个个 自变量的多元线性回归方程。自变量的多元线性回归方程。45 0.10P 92. 2FF788.14)1127/(837.139714.821pn/SS1/XSSF0.10(1,25)141 )()(残残回回)第第一一步步(选选:4X 0.10P 93. 2FF244. 5) 1227/(762.114076.251pn/SS1/XSSF0.10(1,24)212 )()(残残回回)第第二二步步(剔剔:无无,选选:1X46 0.10P 94. 2FF185. 3)1327

19、/(804.100958.131pn/SS1/XSSF0.10(1,23)333 )()(残残回回)第第三三步步(剔剔:无无,选选:3X 0.10P 95. 2FF962. 2) 1427/(841.88963.111pn/SS1/XSSF0.10(1,22)424 )()(残残回回)第第四四步步(剔剔:无无,选选:2X47 0.15P 92. 2FF0.15(1,22) 152. 0) 1427/(841.88613. 01pn/SS1/XSSF515 )()(残残回回)第第五五步步(剔剔:1X48 逐逐步步回回归归方方程程的的方方差差分分析析表表 变变异异来来源源 自自由由度度 SS MS

20、 F P 总总变变异异 26 222.5519 回回 归归 3 133.0980 44.366 11.41 0.0001 残残 差差 23 89.4540 3.889 49 432X6632. 0X2871. 0X4023. 04996. 6Y 5051 一、多元线性回归的应用一、多元线性回归的应用 1.影响因素分析影响因素分析 年龄年龄(X1)饮食习惯饮食习惯(X2)吸烟状况吸烟状况(X3)工作紧张度工作紧张度(X4)家族史家族史(X5) 高高血血压压(Y)bj的意义为在的意义为在其它自变量保其它自变量保持不变时,持不变时,Xj增加或减少一增加或减少一个单位时个单位时Y的的平均变化量。平均变

21、化量。故可排除混杂故可排除混杂因素。因素。52 2.估计与预测估计与预测心脏表面积心脏表面积(Y)=b0+b1心脏横径心脏横径(X1) + b2心脏纵径心脏纵径(X2)+ b3心脏宽径心脏宽径(X3)新生儿体重新生儿体重(Y)=b0+b1胎儿孕龄胎儿孕龄(X1)+ b2 胎儿胎儿 头径头径(X2)+ b3胎儿胸径胎儿胸径(X3)+ b4胎儿腹径胎儿腹径(X4)53 3.统计控制统计控制利用回归方程进行逆估计,确定利用回归方程进行逆估计,确定Y后控制后控制X 。采用射频治疗仪治疗脑肿瘤:采用射频治疗仪治疗脑肿瘤:脑皮质毁损半径脑皮质毁损半径(Y) =b0+b1射频温度射频温度(X1)+ b2照射时间照射时间(X2)54 二、多元线性回归应用的注意事项二、多元线性回归应用的注意事项 1.1.指标的数量化指标的数量化 应变量应变量Y为连续变量为连续

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论