医学统计学课件第九章双变量回归与相关(第九章)_第1页
医学统计学课件第九章双变量回归与相关(第九章)_第2页
医学统计学课件第九章双变量回归与相关(第九章)_第3页
医学统计学课件第九章双变量回归与相关(第九章)_第4页
医学统计学课件第九章双变量回归与相关(第九章)_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、医学统计学课件第九章双变量回归与相关(第九章) 讲课内容: 第一节 直线回归(重点) 第二节 直线相关(重点) 第三节 秩相关 第六节 两条回归直线的比较 第七节 曲线拟合7/25/20222 第2、第3、第4章介绍了计量资料单变量的统 计描述与统计推断:P.13 例2-1:计算101名成年女子血清总胆固 醇的平均指标与变异指标。P.51 例3-7:比较阿卡波糖胶囊(试验组)与拜 糖苹胶囊(对照组)降低糖尿病人的空腹血糖值 有无差别。P.73 例4-2:比较安慰剂组、降血脂新药2.4g 组、降血脂新药4.8g组、降血脂新药7.2g组降 低患者的低密度脂蛋白含量有无差别。7/25/20223在医

2、学研究中常要分析两变量间或多变 量间的关系: 年龄与血压 药物剂量与动物死亡率 肺活量与身高、体重、胸围和肩宽等 7/25/20224事物间的相关关系确定性关系 两变量间的函数表达式 圆的周长与半径的关系: C2R 路程与速度、时间的关系:LST 数学中X与Y的直线函数关系:Ya+bX 非确定性关系 两变量间存在关系,但未精 确到可以用函数表达式来描述。 年龄与血脂的关系; 身高与体重的关系; 体重与体表面积的关系。7/25/20225第一节 直线回归Linear Regression7/25/20226一、直线回归的概念“回归”是一个借用已久因而相沿成习 的统计学术语。直线回归是分析成对观测

3、数据中两变量 间线性依存关系的方法。7/25/20227生物遗传学上的“回归” Pearson K(英,18571936)1903年搜集了1078个家庭人员的身高、前臂长等指标的记录,发现儿子身高(Y,英寸)与父亲身高间(X,英寸)存在线性依存关系: =33.73+0.516 X 但不少身材高的父亲的儿子成年后身高比其父亲矮,不少身材矮的父亲的儿子成年后身高比其父亲高。Galton F (英,18221911 ) 将这种现象称之为子一代身高向人群平均身高的“回归”。7/25/20228Regression 释义210=10247/25/20229Francis GaltonFrancis Ga

4、lton 爵士 (英,18221911) 是达尔文(Charles Darwin) 的表弟。他对统计学的主要贡献是提出“相关”与“回归”的概念,用统计方法对进化论中的变异进行研究,开创了生物统计学。7/25/202210Karl PearsonKarl Pearson (英,18571936)是Francis Galton 的得意门生,他开创了统计方法学。他对统计学的主要贡献:变异数据的处理、分布曲线的选配、卡方检验的提出、回归与相关的发展。7/25/202211天文学上的“回归”地球绕太阳公转,在公转的同时本身还自转,在本身自转的同时地球的假设轴心还来回摆动。由于地球轴心的来回摆动,太阳光垂

5、直照射到地球上就有南、北两个极限位置(南、北纬23027),分别称南、北回归线,太阳光对赤道“回归”垂直照射到南、北回归线的时间分别为我国农历的冬至与夏至。 7/25/202212日常生活中的“回归”现象 1岁姜二狗,7岁姜二狗同学,20岁小姜同志,30岁姜科长,40岁姜处长,50岁姜局长,60岁姜老,70岁老姜,80岁姜二狗。 目前“回归”已成为表示变量之间数量依存关系的统计术语,并且衍生出“回归方程”、 “回归系数”等统计学概念。7/25/202213例 某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h),试估计尿肌酐含量(Y)对其年龄(X)的回归方程。7/25/202214

6、年龄(岁)X尿肌酐含量Y(mmol/24h)hat7/25/202215各散点呈直线趋势但并非均在一条直线上根据原始数据拟合的直线方程与数理 上二元一次函数方程在内涵上有区别, 称为直线回归方程。7/25/202216二、直线回归方程的求法最小二乘法在所有直线中最小7/25/2022177/25/202218CASIO fx-3600PV计算器计算a、b与r步骤 键 盘 说 明 1 MODE 2 进入线性回归模式 LR 2 SHIFT KAC 清除以前储存数据 3 13 XDYD 3.54 DATA 数据输入 11 XDYD 3.01 DATA 9 XDYD 3.09 DATA 4 SHIFT

7、 r 显示相关系数 0.8818 5 SHIFT a 显示截距 1.6617 6 SHIFT b 显示回归系数 0.1392 SHIFT DEL 删除输错的一对数据7/25/202219年龄(岁)X尿肌酐含量Y(mmol/24h)(8,2.8)(12,3.3)7/25/202220 b 的意义斜率(slope) 年龄每增加1岁, 尿肌酐含量平均增加0.1392(mmol/24h)b的单位为 (Y的单位/X的单位)7/25/202221a 截距(intercept, constant)X=0 时,Y的估计值a的单位与Y值相同当X可能取0时,a才有实际意义。 a 的意义7/25/202222回归直

8、线的有关性质直线通过均点 各点到该回归线纵向距离平方和较到其它任何直线者为小。 为来自的一个样本对于X各个取值,相应Y的总体均数7/25/202223XY7/25/202224三、直线回归方程中的统计推断(一)回归方程的假设检验1.方差分析(1)建立检验假设并确定检验水准 H0:=0 H1: 0 =0.05的分解重点7/25/202225因变量Y总变异 的分解X Y Y7/25/202226SS总=SS回+SS残7/25/202227未引进回归时的总变异: (sum of squares of deviation from mean)引进回归以后的剩余变异: (sum of squares o

9、f residuals)回归的贡献,回归平方和: (sum of squares due to regression)Y的总变异分解7/25/202228 (3)计算检验统计量F值SS总=lYY =1.0462 SS回=blXY=l2XY/lXX=5.8452/42=0.8134SS残= SS总SS回=1.04620.8134=0.2328v总=v回+v剩v总=n1,v回=1, v残=n27/25/202229F0.01(1,6)=13.747/25/2022302. t 检验回归的剩余标准差扣除了X的影响后Y方面的变异;引进回归方程后, Y方面的变异。7/25/202231(2)计算检验统计

10、量 t 值(1)建立检验假设并确定检验水准(3)确定P值下结论 7/25/202232 (二)总体回归系数的可信区间此区间不包括=0,结论为b有统计学意义。7/25/202233 SPSS结果7/25/202234 (三)利用回归方程进行估计与预测1.总体均数 的可信区间: 给定X后对应Y的总体均数给定X后对应Y的样本均数7/25/2022352.个体Y值的容许区间 给定X后对应个体Y值波动范围7/25/202236 X Y (体重,kg) (体表面积,103cm2 )11.0 5.28311.8 5.29912.0 5.35812.3 5.29213.15.60213.7 6.01414.4

11、 5.83014.9 6.10215.2 6.07516.0 6.411例 某地10名三岁儿童体重与体表面积7/25/2022371112131415164.55.05.56.06.57.0可信区间与容许区间示意(confidence band & tolerance band)X 体重Y 体表面积7/25/202238第二节 直线相关Linear Correlation7/25/202239生物遗传学上的“相关” 在回归分析中,有理由认为父亲身高决定儿子身高,故把父亲身高作为自变量X,儿子身高作为应变量Y。Pearson K(英,18571936)在对同一家庭中兄弟与姐妹身高间关系进行分析时

12、,发现两者难以象父亲与儿子身高间关系那样区别自变量X与应变量Y,也不必计算回归方程。Galton F(英,18221911)将这种现象称之为 “相关”。7/25/202240 当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,或相关。两个变量有共变现象,称为有相关关系。 相关关系不一定是因果关系。一、直线相关的概念7/25/202241r = 0(h)r 0(f)r-1(d)r1(b)0r1(a)-1r0(c)r 0(e)r 0(g)零相关正相关负相关完全正相关完全负相关零相关零相关零相关相互关系示意图7/25/202242相关系数的性质两变量间的线性关系密切程度与相关方 向用

13、直线相关系数r表示。1 r 1r0为正相关r0为负相关r0为零相关或无相关7/25/202243二、相关系数的意义与计算 Pearson 相关系数 标准化后的协方差7/25/2022447/25/202245SPSS结果7/25/202246三、相关系数的统计推断(一)相关系数的假设检验尿肌酐含量与年龄之间无直线相关关系7/25/202247附表2附表137/25/202248(二)总体相关系数的可信区间相关系数的抽样分布在0时呈偏态分布Z的1-可信区间:变换后r的1-可信区间:Z变换后服从正态分布7/25/202249相关系数的抽样分布(| | = 0.8,n=100,1000次抽样) -0

14、.8-0.6-0.4-0.20.00100200300-1.0 00.20.40.60.81.00100200300 = - 0.8 = 0.87/25/202250R.A. Fisher(1921) 的 z 变换 z 近似服从均数为 , 标准差为 的正态分布。 7/25/202251相关系数的z变换值的抽样分布( = - 0.8)00.51.01.52.0050100150200-0.8-0.6-0.4-0.20.00100200300-1.0变换前变换后7/25/202252 01234050100150200 00.20.40.60.81.00100200300相关系数的z变换值的抽样分

15、布( =0.8)变换前变换后7/25/202253相关系数的可信区间估计1. 将 r 变换为 z 。2. 根据 z 服从正态分布,估计 z 的可信区间。3. 再将 z 变换回 r。7/25/202254求得8名健康成人血清总胆固醇与低密度脂蛋白胆固醇含量间的 r=0.974,试求总体相关系数 的95%可信区间。z的95%可信区间: 总体相关系数的95%可信区间 : (0.8587 0.9954)7/25/202255四、决定系数 0R21 Y的总变异中回归关系所能解释的百分比 年龄可解释尿肌酐含量变异性的77.75%7/25/202256五、直线回归与直线相关的区别与联系 区别 r没有单位,b

16、有单位;相关表示相互关系,没有依存关系; 回归有依存关系;对资料的要求不同: 当X和Y都是随机的,可以进行相关和回 归分析; 当Y是随机变量,X是控制变量时,理论 上只能作回归而不能作相关分析;7/25/202257 区别 I型回归: Y是随机变量,X是控制变量; II型回归: Y与X均是随机变量。同一资料中由X推算Y与由Y推算X的回归方程不同:7/25/202258 联系均表示线性关系符号相同:共变方向一致假设检验结果相同:tr=tb 可以互相换算: 7/25/202259六、直线回归与相关应用的注意事项相关:X与Y没有主次,为双向。回归:Y依X变化而变化,为单向。自变量的选择: 原因、容易

17、测量、变异小要有实际意义。1.根据分析目的选择变量及统计方法7/25/202260孩子的身高与小树的高度间显示出显著的相关性7/25/202261有无异常点,谨慎剔除。2.进行相关、回归分析前要绘制散点图, 进行判断7/25/202262离群值对相关的影响7/25/202263样本的间杂性对相关性的误导7/25/2022643.用残差图考察数据是否符合模型假设条件 Y与X为线形关系误差服从均数为0的正态分布方差相等各观察单位独立回归模型应用前提条件:7/25/202265e07/25/2022660000eeee7/25/202267P值越小越有理由认为变量间直线关系 存在,不能说关系越密切。

18、直线回归关系可以内插,不宜外延。当样本含量较大时,统计学检验的作用 减弱。r0.05/2,100=0.1954.结果的解释及正确应用7/25/202268第三节 秩相关Rank Correlation 一、Spearman 秩相关7/25/202269应用条件:1.不服从双变量正态分布而不宜作积差 相关分析;2.总体分布类型未知;3.原始数据用等级表示。7/25/202270work years of potential life lost7/25/2022717/25/202272或用秩Pi、Qi直接计算积差相关系数r附表14(n50)7/25/202273SPSS结果7/25/202274第六节 两条回归直线的比较 一、两个回归系数的比较二、两个截距的比较7/25/2022757/25/202276YXbcb2b1bc07/25/202277第七节 曲线拟合 7/25/202278一、曲线拟合的一般步骤 1.依据分析目的确定X与Y,根据两变量 散点图、结合专业知识选择曲线类型。 2.求回归方程:曲线直线化。 3.拟合优度:R2。7/25/202279CRF:促肾上腺皮质激素释放因子 ACTH:肾上腺皮质激素例9-137/25

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论