《医学统计学》最新版Ch10回归分析(72H)_第1页
《医学统计学》最新版Ch10回归分析(72H)_第2页
《医学统计学》最新版Ch10回归分析(72H)_第3页
《医学统计学》最新版Ch10回归分析(72H)_第4页
《医学统计学》最新版Ch10回归分析(72H)_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Medical Statistics 医学统计学回归分析Regression Analysis主要内容 直线回归的定义(掌握) 直线回归方程的估计(掌握) 回归方程的解释(掌握) 回归系数的t检验(掌握) 回归方程中变异的分解(掌握) 回归方程的方差分析(掌握) 与回归有关的区间估计(熟悉) 两直线回归方程的比较(了解) 过定点的直线回归(了解) 相关与回归的区别和联系(掌握) 回归分析的正确应用(掌握) 其他类型的回归(了解)周长C这两个关系有什么不同?YabX体重 X体表面积Y1112131415165.05.56.06.5半径r123424 6 8 2CrYabX直线回归的定义 宏观上来

2、讲,体重和体表面积呈直线关系,但并不能用来描述。所以我们用“hat”表示估计值,给定x时y的条件均数YabXYabX Y 因变量,响应变量 (dependent variable, response variable) X 自变量,解释变量 (independent variable, explanatory variable) b 回归系数,斜率 (regression coefficient, slope) a 截距 (intercept) YabX不同斜率时回归直线的表现0YabX b0YabX bXY0YabX bRegression 释义小插曲:为什么叫”回归“? F. Galton

3、 K.Pearson小插曲:为什么叫”回归“?分析实例:3岁男童体重与体表面积编号体重X体表面积Y111.05.283211.85.299312.05.358412.35.292513.15.602613.76.014714.45.830814.96.102915.26.0751016.06.411合计133.457.266绘制散点图体重 X体表面积Y1112131415165.05.56.06.5X(1)Y(2)11.05.28311.85.29912.05.35812.35.29213.15.60213.76.01414.45.83014.96.10215.26.07516.06.411直

4、线回归方程的求解:最小二乘原理bXaY 1112131415165.05.56.06.5目标:使点到回归直线的综合距离为最小!iiYY直线回归方程的求解XXXYllnXXnYXXYXXYYXXb/)()(222XbYaniiiniiibXaYYYYYQ12122)()(最小二乘法(Least Square Method)回归方程的估计 对于本例,经计算得5.93961.543924.90407266. 544.13XYYYXXlllYX5.93960.238524.90405.7266-13.44 0.2385=2.5212baYbX回归方程3岁男童体重和体表面积间的直线回归方程XY2385.

5、 05212. 2回归直线体重 X体表面积Y1112131415165.05.56.06.5(12, 5.3832)(15, 6.0987)(13.44,5.7266)回归直线的有关性质直线通过均点 直线上方各点到直线的纵向距离之和 = 直线下方各点到直线的纵向距离之和即: 各点到该回归线纵向距离平方和较到其它任何直线者为小。 0)(YY 22bXaYYY),(YX回归系数和回归方程的意义及性质回归系数和回归方程的意义及性质b 的意义a 的意义 和 的意义 的意义bXaY YY21 niiiYY Y回归系数的解释b的涵义:体重增加1(kg),则体表面积平均递增0.2385 (103cm2 )。

6、体重为X1(kg)的3岁男童,其平均体表面积比体重为X(kg)的3岁男童之平均体表面积多0.2385(103cm2)。XY2385. 05212. 2a 的意义bXaY a 截距(intercept, constant)X=0 时,Y的估计值a的单位与Y值相同当X可能取0时,a才有实际意义。估计值 的意义 X=12kg, =5.3832 (103cm2) 即体重为12kg的3岁男童 其体表面积之均数的估计值为5.3832 (103cm2) 给定X时,Y的均数的估计值。 当 时, 这里的均数是给定X的条件下,由回归方程估计得到的,故又称条件均数(conditional mean)。YYXX YY

7、 编号(1)体重(kg),X(2)体表面积(103cm2),Y(3)(4)(5)111.05.2835.1450.138211.85.2995.336-0.037312.05.3585.383-0.025412.35.2925.455-0.163513.15.6025.646-0.044613.76.0145.7890.225714.45.8305.956-0.126814.96.1026.0750.027915.26.0756.146-0.0711016.06.4116.3370.074合计133.457.26657.2660.000YYY残差体重 X体表面积Y1112131415165.0

8、5.56.06.5YY 残差平方和 (residual sum of squares). 综合表示点距直线的距离。 在所有的直线中,回归直线的残差平方和是最小的。(最小二乘) 的意义 2)(YY直线回归系数的t检验回归系数也有抽样误差!检验方法针对回归系数b的检验:t检验针对整个回归方程的检验:方差分析直线回归系数的t检验总体回归系数 =0,则回归关系不存在。H0:总体回归系数为0, =0;H1:总体回归系数不为0,0;=0.05。.2 2Y XbXXY XsslYYsn0 2bbbtns,直线回归系数的t检验Y的剩余标准差扣除X的影响(即回归所能解释的部分)后Y本身的变异程度什么叫做本身的变

9、异?甲在学习某学科之前,只知晓该学科10%的知识点,如果当时去考试,不一定恰好考10分,但是大约会在10分附近波动;如果他考了12分。甲在学习某学科1周,知晓该学科40%的知识点,如果当时去考试,不一定恰好考40分,但是大约会在40分附近波动;如果他考了36分。甲在学习某学科5周,知晓该学科80%的知识点,如果当时去考试,不一定恰好考80分,但是大约会在80分附近波动;如果他考了85分。甲在学习某学科10周,知晓该学科95%的知识点,如果当时去考试,不一定恰好考95分,但是大约会在95分附近波动; 如果他考了92分。在本例中,从成绩来看,四次成绩波动很大,但请注意,这四次这么大的波动,并非主要

10、是由于考生考运等原因造成的,而是由于不同的学习时间导致对知识掌握程度不同。只有将学习时间这个影响因素去除,2(12-10)、-4 (36-40)、5(85-80)、-3(92-95),这些分数的差别才是一种变异,即考生各次考试间的变异。直线回归系数的t检验 名词辨析: Y的变异 Y本身的变异 Y 体重增加量(g)X 进食量(g)600 650 700 750 800 850 900 950120140160180200154.42gSY22.63iiYY0SY.X12.39H0:总体回归系数0,即体重与体表面积无回归关系;H1:总体回归系数0,即体重与体表面积有回归关系。 =0.05。 =10

11、-2=8按=8查t界值表,得P0.001。按 =0.05水准拒绝H0,接受H1。可以认为体重与体表面积之间有回归关系。.12620210127318. 0XYs0.12620.0252824.9040bs 435. 902528. 02385. 0bt回归系数与相关系数的假设检验rbtt 结果等价。因变量总变异的分解X P (X,Y)YY)(YY )( YYY)(YY YYYYY-=-YY+- 实际上是原始观察值Y的离均差平方和,又称为总离均差平方和,或总变异,记为SS总。 回归直线与Y的均数之距离平方和,称为回归平方和反映在总平方和中可以用X解释的部分,记为SS回。 为原始观察值离回归直线的

12、纵向距离平方和,又称剩余平方和,记为SS剩。在总变异中,扣除由X解释的部分后剩余的部分,或不能由X解释的部分。YYYYYY222111nnniiiYYYYYY2)(YY2)(YY2)(YYY的总变异分解 222 YYYYYY 剩回总SSSSSS 112nn总回剩总回剩回归方程的方差分析MSSSFMSSS回归回归回归剩余剩余剩余H0:体重与体表面积间无直线回归关系;H1:体重与体表面积间有直线回归关系。=0.05。列方差分析表变异来源SSMSF回 归1.416611.416689.01剩 余0.127380.0159总变异1.543990.1715F=89.01,今1=1,2=8,查F界值表,得

13、P0.01,按 =0.05水准拒绝H0,接受H1,故可认为3岁男童的体重与体表面积之间有线性回归关系。.0.01590.1261Y Xs直线回归中三种假设检验间的关系在直线回归中,相关系数的假设检验,回归系数的假设检验,以及回归方程的方差分析结果等价。Fttbr 与直线回归有关的区间估计回归系数的可信区间估计(掌握)估计值 的可信区间估计(了解)个体Y值的容许区间估计(了解)Y总体回归系数 的可信区间估计根据 t 分布原理估计:2 0 nsbtbb ,bnstb2, 总体回归系数 的可信区间估计根据 t 分布原理估计:本例中已计算得sb=0.025282 0 nsbtbb ,bnstb2, ,

14、232= 0.23852.3060 0.02528 0.2385+2.3060 0.02528=( 0.1802 0.2968) (10 cm /kg)nbbts,复习 可信区间 容许区间均数的可信区间: 均数界值标准误 个体的容许区间(参考值范围): 均数界值标准差 的可信区间估计 Y 样本 总体Y的总平均给定X时Y的平均 (Y的条件均数) YYY 22.2,2,)()(1XXXXnstYstYXYnYn 根据 t t 分布原理:X=12时,求 的95%可信区间 =13.44,lXX=24.9040, =0.1262。 当X=12 时, =5.3832 5.38322.3060.0540=5

15、.25875.5077 即体重为12kg的3岁男童,估计其平均体表面积为5.3832(103cm2),95可信区间为(5.2587,5.5077) (103cm2)。Y XXYs. Y0540. 09040.24)1244.13(1011262. 02YsY的容许区间估计 给定 X 时 Y 的估计值是 Y 的均数的一个估计。 给定X 时 Y 值的容许区间是 Y 值的可能范围。 Y的100(1- )%容许限: 22.2,2,)()(11XXXXnstYstYXYnYn 5.38322.3060.1372=5.06665.6998即体重为12kg的3岁男童,估计有95的人体表面积在5.0666到5

16、.6998 (103cm2/kg)之间。1373. 09040.24)1244.13(10111262. 02Ys剩余标准差、条件标准误、条件标准差 22.2,2,)()(1XXXXnstYstYXYnYn 22.2,2,)()(11XXXXnstYstYXYnYn 抽样误差抽样误差个体变异估计值、95%可信区间和95%容许区间1112131415164.55.05.56.06.57.0体表面积Y(103cm2)体重X(Kg)两直线回归方程的比较在实际工作中,有时需要对两条回归方程进行比较,以推断相应的两总体回归直线是否平行,是否重叠。决定直线回归方程的参数是回归系数b和截距a,两回归直线平行

17、,等价于1=2 ;两回归直线重叠,等价于1=2且1=2。在第十章例10.3中已对成年男子和女子的心率与心脏左室电机械收缩时间的线性相关进行了比较。这里,对该资料进行回归分析,并对两个回归方程进行比较。1、散点图 50607080901003003504004502、分别建立回归方程,并进行假设检验男子:t=5.941,=10,P0.001女子:t=7.317,=10,P0.10,按 = 0.10水准,不拒绝H0,可认为两总体回归系数相等,即两条直线平行。2526. 03714. 0)7561. 1(6623. 1t斜率相等,说明两条回归线平行,但还不能说明两条回归线重合。若需进一步了解这两条回

18、归线是否重合,还须检验两条回归线的截距是否相等。如果斜率不等,则没有必要对截距进行检验。(P130)过定点的直线回归医学研究中应用直线回归,经常会遇到一种特殊情况,即所求回归直线除了要根据若干对观察值进行最佳拟合外,还要求所拟合的直线必须经过某一定点(X0,Y0)。这在应用光电比色分析、荧光分析、火焰光度测定以及同位素测定等实验方法来绘制标准直线时常会遇到。 设有n对观察值及定点(X0,Y0),求经过此定点并拟合此n对(X,Y) 值的直线回归方程为: 00YYb XX=n-1 2000)()(XXYYXXb20)(XXssXYbbsbt 在用荧光光度法测定全血硒的研究中,分别取不同硒含量的标准

19、液,消化后测定其荧光强度,试作标准直线。 含硒量(g)X荧光强度Y(X-X0)2= X2(Y-Y0)2= Y2(X-X0)(Y-Y0)= XY0.0254.360.00062519.0096000.1090000.0509.310.00250086.6761000.4655000.10017.130.010000293.4369001.7130000.15025.030.022500626.5009003.7545000.20033.220.0400001103.5684006.644000合计0.0756252129.19190012.6860007488.167075625. 068600

20、0.12bXY7488.167荧光强度Y00.025 0.05 0.075 0.1 0.125 0.15 0.175 0.2 05 10 15 20 25 30 35 硒含量X (g)直线回归与直线相关的联系 均表示线性关系; 符号相同:共变方向一致; 假设检验结果相同:是否存在共变关系;总回SSSSrbbrllrblllrllbyxxyxxyyyyxxxyxxxy 2. , ,决定系数 R直线回归与直线相关的区别 r 没有单位,b有单位;所以,相关系数与单位无关,回归系数与单位有关; 相关表示相互关系;回归表示数量依存关系; 对资料的要求不同: 当X和Y都是随机的,可以进行相关和回归分析;

21、当Y是随机的(X是控制的),理论上只能作回归而不能作相关分析; I型回归:X是精确控制的; II型回归:X是随机的。 由X推算Y: 由Y推算X:YbaXXbaYYXYXXYXY. 相关和回归分析的正确应用作直线回归分析要有实际意义充分利用散点图。回归系数的统计学意义。不能仅根据回归系数假设检验之P值判断回归效果的优劣。对于判断大样本回归系数的统计学意义尤其要谨慎。要想说明回归的贡献大小,需用决定系数r2作定量的度量。回归关系可以内插,不宜外延;应用条件(LINELINE):线性(linear)独立(independent)给定X时,Y正态分布(normal)等方差(equal variance

22、)直线回归不允许任意外推体重 X体表面积Y1112131415165.05.56.06.5内插(Interpolate)外推(extrapolate)我国19401988年间不同月份的男性婴儿死亡率()的季节性分析 男性婴儿死亡率()月份事故发生数与时间的关系170事故数时间 (月)0102030405060708090 100 110 120 130 140 150 160400500600700800900100011001200给定X时,Y是正态分布、等方差示意图给定X时,Y是正态分布、不等方差示意图男性年龄与血糖的关系 (方差随自变量的增加而增加)glucoseage203040506

23、0708036912其他的回归分析多元线性回归多元Logistic回归时间序列回归模型Poisson回归等等广义线性模型族多元线性回归分析 考察多个因素对某一个结果的影响。 排除干扰因素(混杂因素)的影响,考察所关心的因素对结果的影响。01 1ppYbb xb x研究初生儿体重与胎儿的孕龄,头径,胸径的关系 孕龄(天)头径(mm)胸径(mm)新生儿体重(g)X1X2X3Y12891011093900228286842500327010210134004284989632005275101100310062851019432007270981033100825997802400928510910

24、2380010268103953200112801079935001226711290350013271100102300014283101106370015287102106390016273103102300017276102983100182761061033650参数估计结果变量回归系数标准误tPx122.166.093.640.003x242.648.604.960.000 x320.367.082.880.012截距-9181.341769.60-5.190.0001239181.3422.1642.6420.36yxxx 用多元回归模型来预测孕龄为280天,头径为100mm,胸径为100mm的胎儿,估计其出生体重为多少?9181.3422.16 28042.64 10020.36 1003325.23yg Logistic回归模型若观察结果为二分类的,可以使用Logistic回归模型01 1Logitlog1ppPPbb xb xP研究产妇状况(经产、初产)对电针引产成功率的影响,需要考虑胎膜状况的干扰。胎膜x2产妇状况x1例数成功失败成功率已破初产3312587377.9%经产6760790.0%未破初产27317010362.3%经产100683268.0%建模结果变量OR标准误ZP模型1产妇状况1.35.271.470.1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论