南华大学公共卫生学院卫生学双变量直线回归与相关_第1页
南华大学公共卫生学院卫生学双变量直线回归与相关_第2页
南华大学公共卫生学院卫生学双变量直线回归与相关_第3页
南华大学公共卫生学院卫生学双变量直线回归与相关_第4页
南华大学公共卫生学院卫生学双变量直线回归与相关_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、. 双变量直线回归与相关双变量直线回归与相关 (2 (2学时)学时) 吴成秋吴成秋 公共卫生学院预防医学系公共卫生学院预防医学系 . 在大量的医学科研与实践中,经常会遇到对在大量的医学科研与实践中,经常会遇到对 两个变量之间关系的研究,例如糖尿病人的血糖两个变量之间关系的研究,例如糖尿病人的血糖 与其胰岛素水平的关系如何;某人群年龄的变化与其胰岛素水平的关系如何;某人群年龄的变化 与其收缩压的关系怎样等;此时常用回归与相关与其收缩压的关系怎样等;此时常用回归与相关 分析。分析。 1.直线相关直线相关(简单相关简单相关): 是研究事物或现象之间有是研究事物或现象之间有 无关系以及关系的方向和密切

2、程度。无关系以及关系的方向和密切程度。 2.直线回归直线回归(简单回归简单回归): 是研究事物或现象之间的是研究事物或现象之间的 数量依存关系。数量依存关系。 . 设两个连续性变量分别为:设两个连续性变量分别为:x y x -为自变量。为自变量。要求为随机正态变量或为精确控制的变量要求为随机正态变量或为精确控制的变量 y为依赖于为依赖于x的变量,称作因变量的变量,称作因变量(反应变量反应变量)。要求为随要求为随 机正态变量。机正态变量。 若若x为精确控制的变量,为精确控制的变量,y为随机正态变量。只能作回为随机正态变量。只能作回 归分析,即由归分析,即由x的大小来推算的大小来推算y的大小。的大

3、小。 若若x与与y均为随机正态变量。既可作相关分析,也可作均为随机正态变量。既可作相关分析,也可作 回归分析。回归分析。 由由x的大小来推算的大小来推算y的大小的大小型回归型回归 由由 y的大小来推算的的大小来推算的x大小大小型回归型回归 。 . 一、直线回归的概念一、直线回归的概念 以某市以某市汽车流量与大气中二氧化氮浓汽车流量与大气中二氧化氮浓 度的数据度的数据( (见例见例12-1)12-1)在坐标纸上描点,得在坐标纸上描点,得 到图所示散点图。到图所示散点图。 第一节第一节 直线回归直线回归 . 汽车流量汽车流量(辆辆/小时小时)NO2(mg/l)汽车流量汽车流量(辆辆/小时小时) N

4、O2(mg/l) 13000.06615000.120 14440.07614760.129 16520.17018200.135 17560.15610600.029 12000.040 汽车流量与大气中二氧化汽车流量与大气中二氧化氮氮浓度的关系浓度的关系 .图图 汽车流量与大气中二氧化汽车流量与大气中二氧化氮氮浓度的关系浓度的关系 汽车流量( 辆/ 小时 ) 200018001600140012001000 二氧化氮浓度( m g / l ) .18 .16 .14 .12 .10 .08 .06 .04 .02 . 设两个连续性变量分别为:设两个连续性变量分别为:x yx y 汽车流量为

5、自变量汽车流量为自变量x x,大气中二氧化氮浓度,大气中二氧化氮浓度 为因变量为因变量y y。从图中可以看出,两个变量之间有。从图中可以看出,两个变量之间有 一定的数量关系,但并非一一对应的函数关系。一定的数量关系,但并非一一对应的函数关系。 这种关系被称为回归关系。这种关系被称为回归关系。 直线回归分析的主要任务是找出最合适的一直线回归分析的主要任务是找出最合适的一 条直线回归方程,以确定一条最接近各实测点的条直线回归方程,以确定一条最接近各实测点的 直线来描述两个变量之间的线性回归关系。直线来描述两个变量之间的线性回归关系。 . 设直线回归方程为设直线回归方程为: : y=a+by=a+b

6、x a为回归直线在为回归直线在y轴上的截距,轴上的截距,其统计意义是其统计意义是 当当X X取值为取值为0 0时相应时相应y y的均数估计值;的均数估计值; a0, 交点在原点之上交点在原点之上 a0b0时直线从左下方走向右上方,时直线从左下方走向右上方,y y随随x x的增大的增大 而增大;而增大; b0b0时直线从左上方走向右下方,时直线从左上方走向右下方,y y随随x x的增大的增大 而减小;而减小; b=0b=0时直线与时直线与x x轴平行,轴平行,y y与与X X无直线关系。无直线关系。 . 二二 直线回归方程的求法直线回归方程的求法 如果能够从样本数据中求得如果能够从样本数据中求得

7、a、b的数值,回归的数值,回归 方程即可唯一确定。从散点图中来看,求解方程即可唯一确定。从散点图中来看,求解a、b实实 际上就是怎样际上就是怎样“合理地合理地”找到一条能最好地代表数找到一条能最好地代表数 据点分布趋势的直线。据点分布趋势的直线。 将实测值将实测值y与假定回归线上的估计值与假定回归线上的估计值 y 的纵向的纵向 距离距离(y- y) , 称为残差或剩余值称为残差或剩余值 . 各点残差要尽可能的小。由于考虑所有点之各点残差要尽可能的小。由于考虑所有点之 残差有正有负,所以通常取各点残差平方和最小残差有正有负,所以通常取各点残差平方和最小 的直线为所求,这就是所谓的直线为所求,这就

8、是所谓“最小二乘最小二乘” 原则原则。 在一定假设条件下,如此得到的回归系数最为理在一定假设条件下,如此得到的回归系数最为理 想。按照这一原则,数学上可以容易地得到想。按照这一原则,数学上可以容易地得到a、b 的计算公式为的计算公式为: . l lxyxy, ,为为x x与与y y的离均差乘积和,简称的离均差乘积和,简称 离均差积和离均差积和 b= l lxyxy = (x- x)(y- y) = xy-xy/n l lxxxx(x- x)2x2-(x)2/n a= y-b x . 可以在散点图上绘制出样本回归直线作为一可以在散点图上绘制出样本回归直线作为一 种直观的统计描述补充形式,此直线必

9、然通过点种直观的统计描述补充形式,此直线必然通过点 ( ( X X, , Y Y) )且与纵坐标轴相交于截距且与纵坐标轴相交于截距a a。 如果散点图没有从坐标系原点开始,可在自如果散点图没有从坐标系原点开始,可在自 变量实测范围内远端取易于读数的变量实测范围内远端取易于读数的X X值代人回归值代人回归 方程得到一个点的坐标,连接此点与点方程得到一个点的坐标,连接此点与点( ( X,X, Y Y) ) 也可绘出回归直线。也可绘出回归直线。 . 1.绘制散点图绘制散点图 2.计算基本数据计算基本数据 x=13208, x2=19892352, y=0.921, y2=0.115075, xy=1

10、445.164, x=1467, y=0.1023 lxx= (x- x)2= x2 -( x)2/n=19892352-132082/9=508878.223 lyy= (y- y)2= y2 -( y)2/n=0.115075-0.9212/9=0.020826 lxy= (x- x)(y- y)= xy-( x)( y)/n=1445.164- 13208 0.921/9=93.545 . .计算计算a、b的大小的大小 b= lxy/lxx=93.545/508878.223=0.0001838 a=0.1023-0.0001838 1467.56=-0.1674 .建立回归方程建立回归

11、方程 y = -0.1674+0.0001838x 5.直线回归的图示法直线回归的图示法回归线回归线 根据已求得的直线回归方程,可在自变量实测范围内根据已求得的直线回归方程,可在自变量实测范围内 远端取易于读数的远端取易于读数的X X值代人回归方程得到一个点的坐标,值代人回归方程得到一个点的坐标, 连接此点与点连接此点与点( ( X, Y) )也可绘出回归直线也可绘出回归直线 . 三三 直线回归中的统计推断:直线回归中的统计推断:即回归方程的假设检验即回归方程的假设检验 建立样本直线回归方程,还必须回答它所来自总建立样本直线回归方程,还必须回答它所来自总 体的直线回归关系是否确实存在,即是否对

12、总体有体的直线回归关系是否确实存在,即是否对总体有0? 0? 若无论若无论X X如何取值,如何取值,y y的总体均数的总体均数 y.x y.x总在一条水平 总在一条水平 线上,即线上,即 =0=0,总体直线回归方程并不成立,总体直线回归方程并不成立,Y Y与与X X无直无直 线关系。线关系。 然而在一次随机抽样中,则会得到一个并不等于然而在一次随机抽样中,则会得到一个并不等于0 0 的样本回归系数的样本回归系数b b。b b与与0 0相差到多大可以认为具有统计相差到多大可以认为具有统计 学意义学意义? ?可用方差分析或与其等价的可用方差分析或与其等价的t t检验。检验。 . t t检验:检验:

13、检验检验 0 0? Sy.x =(y- y) y)2 2 (y-y )2lyyyy-b-blxy xy = = (y - y)2- (x- x)(y- y) S Sy.xy.x为回归的剩余标准差,为回归的剩余标准差,S Sb b为样本回归系数标准误。为样本回归系数标准误。 扩大自变量的取值范围可减小扩大自变量的取值范围可减小S Sb b,使得回归系数的估计更,使得回归系数的估计更 稳定。稳定。 (x- x)2 tb= b Sb Sb= Sy.x = Sy.x (x- x)x)2 2lxx n-2 . H H0 0: =0=0,即大气中二氧化氮浓度与汽车流量之间无直线关系,即大气中二氧化氮浓度与

14、汽车流量之间无直线关系 H H1 1:0 0,即大气中二氧化氮浓度与汽车流量之间有直线关系,即大气中二氧化氮浓度与汽车流量之间有直线关系 =0.05=0.05 (y-y )2lyy-blxy=0.020826-93.5452/508878.223=0.00363 Sy.x= 0.00363 = 0.022772 Sb= 0.022772 0.022772 = 0.00003192 tb= 0.0001838 = 5.76 9-2 508878.223 0.00003192 查查t t界值表,得界值表,得P0.01P0: r0: 为正表示正相关,为正表示正相关, r0: r0: 为负表示负相关,

15、为负表示负相关, r=0: r=0: 为零相关为零相关 r=r=1: 1: 为完全相关为完全相关 在生物界由于影响因素众多,很少在生物界由于影响因素众多,很少 完全相关。完全相关。 . 注意:注意: (1)r(1)r实际上是就总体相关系数实际上是就总体相关系数 来说的,来说的,r r是是 的估计值。的估计值。 (2)(2)有相关并不一定表示一个变量的改变是有相关并不一定表示一个变量的改变是 另一个变量变化的原因,有可能同受另一个因素另一个变量变化的原因,有可能同受另一个因素 的影响。因此,的影响。因此,相关关系并不一定是因果关系。相关关系并不一定是因果关系。 . 计算相关系数计算相关系数 1.

16、绘制散点图绘制散点图 2.计算基本数据计算基本数据 x=100.8, x2=641.5648, y=554.34, y2=19804.6540, xy=3543.9281, r = xy-( xy-( x)(x)( y)/ny)/n = 3543.9281-(100.8)(554.34)/16 3543.9281-(100.8)(554.34)/16 = 0.8304 x2-( x)2/n y2-( y)2/n 641.5648-100.82/1619804.6540-554.342/16 . 三、相关系数的统计推断三、相关系数的统计推断 从同一总体抽出的不同样本会得到不同从同一总体抽出的不同

17、样本会得到不同 的样本相关系数,所以要判断的样本相关系数,所以要判断x x、y y间是否确间是否确 有相关关系,就要检验有相关关系,就要检验r r是否来自是否来自0 0的总体。的总体。 因为即使从因为即使从 =0=0的总体作随机抽样,由于的总体作随机抽样,由于 抽样误差的影响,所得抽样误差的影响,所得r r值也常不等于零。故值也常不等于零。故 当计算出当计算出r r值后,接着做值后,接着做 =0=0的假设检验。的假设检验。 . 1.t1.t检验检验 t tr r= = r rn n-2 -2 式中分母为相关系数的标准误。式中分母为相关系数的标准误。 求得求得t t值后查值后查t t界值表得界值

18、表得P P值,按所值,按所 取检验水准做出推断结论;取检验水准做出推断结论; 1-r2 . 例例9-6 9-6 对例对例12-212-2所得所得r r值,检验值,检验学生的言语测验得分和母学生的言语测验得分和母 亲的教育水平亲的教育水平是否有直线相关关系是否有直线相关关系? ? H H0 0: =0=0,即,即学生的言语测验得分和母亲的教育水平学生的言语测验得分和母亲的教育水平之间之间 无直线相关关系无直线相关关系 H H1 1:0 0,即,即学生的言语测验得分和母亲的教育水平学生的言语测验得分和母亲的教育水平之间之间 有直线相关关系有直线相关关系 =0.05=0.05 本例本例n=16n=1

19、6,r=0.8304, t tr r=r=r n-2 n-2 =0.8304 =0.8304 16 - 2 16 - 2 = 5.58 = 5.58 查查t t界值表,得界值表,得P0.01Prrr0.01,14 0.01,14 , P0.01 , P0.01 按按 =0.05=0.05水准拒绝水准拒绝H H0 0, ,接受接受H H1 1,可以认为,可以认为 学生的言语测验得分和母亲的教育水平学生的言语测验得分和母亲的教育水平之间之间 有直线关系有直线关系 . 注意:对同一份数据,对总体相关系数作假注意:对同一份数据,对总体相关系数作假 设检验的设检验的t t值与前述对总体回归系数作假设检值

20、与前述对总体回归系数作假设检 验的验的t t值相等。即值相等。即t tb b=t=tr r 对既可以作回归又可以作相关的同一样对既可以作回归又可以作相关的同一样 本,理论上二者的假设检验等价。本,理论上二者的假设检验等价。 实际应用中通过查附表实际应用中通过查附表12-412-4的的r r界值表代界值表代 替对替对 的假设检验的假设检验。 . 第三节第三节 秩相关秩相关 一、一、秩相关的概念秩相关的概念 秩相关秩相关(rank correlation)或称等级相或称等级相 关是用双变量等级数据作直线相关分析,关是用双变量等级数据作直线相关分析, 这类方法由于对原变量分布不作要求,故这类方法由于

21、对原变量分布不作要求,故 而属于非参数统计方而属于非参数统计方 . 适用于下列资料:适用于下列资料: 不服从双变量正态分布不服从双变量正态分布而不宜作积差相关分而不宜作积差相关分 析,这一点从原始数据的基本统计描述或直观析,这一点从原始数据的基本统计描述或直观 的散点图中可以看出;的散点图中可以看出; 总体分布型未知总体分布型未知,例如限于仪器测量精度个,例如限于仪器测量精度个 别样品的具体数值无法读出而出现别样品的具体数值无法读出而出现“超限值超限值 时时 ( (如如X0.001)X50n50时,按下式计算检验统计量时,按下式计算检验统计量u u, 查查u u界值表确定界值表确定P P值。值

22、。 u = rsn-1 . 例例12-3 某医师研究高中生心理素质与个人身体某医师研究高中生心理素质与个人身体 健康状况之间的关系,心理素质与个人身体健健康状况之间的关系,心理素质与个人身体健 康状况均按康状况均按5个等级记分个等级记分(记为记为1,2,3,4,5;5 为最好为最好),见表,见表12-3。用。用Spearman等级相关分析等级相关分析 二者之间的关系。二者之间的关系。 . 编编 号号 (1) 身体健康状身体健康状 况自我评分况自我评分x (2) 心理素质心理素质 自我评分自我评分y (3) x的秩次的秩次 (4) y的秩次的秩次 (5) 的秩次的秩次 差值差值d (6) d2

23、(7) 1212111 2324.522.56.25 34374.52.56.25 4334.54.500 52324.5-2.56.25 62324.5-2.56.25 7549.572.56.25 84579-24 9559.590.50.25 104579-24 高中生心理素质与个人身体健康状况之间的高中生心理素质与个人身体健康状况之间的Spearman等级相关分析等级相关分析 d2 =40.5 . 计算等级相关系数的步骤计算等级相关系数的步骤: 1.将每个变量的观察值分别由小到大排列等级将每个变量的观察值分别由小到大排列等级 2.求每对观察值等级的差值求每对观察值等级的差值d及差值的平

24、方及差值的平方d2、及、及 平方和平方和d2 3.求等级相关系数求等级相关系数 4.秩相关秩相关系数系数假设检验假设检验 rs=1- 6d2 n(n2-1) =1- 640.5 =0.755 10(102-1) . 查表法:查表法: H H0 0: s s=0=0, H H1 1: s s 0 0, =0.05=0.05 按按n n和和 查附表查附表12-5 r12-5 rs s界值表,界值表, r rs(0.05,10) s(0.05,10)=0.648, r =0.648, rs srrs(0.05,10) s(0.05,10), P0.05 , P0.05 按按 =0.05=0.05水准

25、拒绝水准拒绝H H0 0, ,接受接受H H1 1,可以认为,可以认为高中生心高中生心 理素质与个人身体健康状况之间有理素质与个人身体健康状况之间有Spearman等级相关等级相关 关系关系 . 第四节第四节 直线回归与相关应用直线回归与相关应用 的注意事项的注意事项 . 1.1.根据分析目的选择变量及统计方法根据分析目的选择变量及统计方法 直线相关:直线相关:用于说明两变量之间直线关系的方用于说明两变量之间直线关系的方 向和密切程度。向和密切程度。x x与与y y没有主次之分;没有主次之分; 直线回归:直线回归:更进一步地用于定量刻画应变量更进一步地用于定量刻画应变量y y对对 自变量自变量

26、x x在数值上的依存关系。其中哪一个作为应变在数值上的依存关系。其中哪一个作为应变 量主要是根据专业上的要求而定,可以考虑把易于量主要是根据专业上的要求而定,可以考虑把易于 精确测量的变量作为精确测量的变量作为x x,另一个随机变量作,另一个随机变量作y y。例如。例如 用身高估计体表面积。用身高估计体表面积。 两个变量的选择一定要结合专业背景,不能把两个变量的选择一定要结合专业背景,不能把 毫无关联的两种现象勉强作回归或相关分析。毫无关联的两种现象勉强作回归或相关分析。 . 例如例如: :当样本足够大时,身高当样本足够大时,身高y y与家庭中的每月用与家庭中的每月用 电量电量X X的线性回归

27、关系具有统计学意义的线性回归关系具有统计学意义( (回归系数回归系数 的假设检验的假设检验P0.05)P0.05),但这种结果很难说有什么,但这种结果很难说有什么 专业上可解释的实际意义。专业上可解释的实际意义。 同理,相关系数的假设检验只是在冒一定风险情同理,相关系数的假设检验只是在冒一定风险情 况下说明况下说明0 0,总体中可能是,总体中可能是 =0.01=0.01, =0.04=0.04等,等, 这种相关并不一定在专业上有意义。这种相关并不一定在专业上有意义。r r应达到应达到 0.400.40以上。以上。 . 2.2.进行相关、回归分析前应绘制散点图进行相关、回归分析前应绘制散点图 两

28、变量之间两变量之间 可能的关系除了从专业角度考虑,对现有数据来说散可能的关系除了从专业角度考虑,对现有数据来说散 点图是很重要的提示。回归或相关分析的点图是很重要的提示。回归或相关分析的第一步就是第一步就是 绘制散点图绘制散点图。 直线相关分析:直线相关分析:要求要求x x与与y y服从双变量正态分布服从双变量正态分布 直线回归要求:直线回归要求:至少对于每个至少对于每个x x相应的相应的y y要服从正态分要服从正态分 布,布,x x可以是服从正态分布的随机变量也可以是能精确可以是服从正态分布的随机变量也可以是能精确 测量和严格控制的非随机变量测量和严格控制的非随机变量(x(x也正态分布时,根据也正态分布时,根据 研究目的可选择由研究目的可选择由x x估计估计y y或者由或者由y y估计估计x x,但一般隋况,但一般隋况 下两个回归方程并不相同下两个回归方程并不相同) )。 . 散点图是考察数据是否满足这一分布

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论