线性相关与回归人卫第6版教材_第1页
线性相关与回归人卫第6版教材_第2页
线性相关与回归人卫第6版教材_第3页
线性相关与回归人卫第6版教材_第4页
线性相关与回归人卫第6版教材_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学统计学

第十一章线性回归与相关教学目的和要求掌握线性相关分析的基本步骤和注意事项;掌握线性回归的基本步骤和参数意义理解分类变量间的关联性分析方法。了解相关系数的区间估计。

CompanyLogo

英国统计学家F·Galton(1822——1911年)\现代统计学的奠基者之一K·Pearson(1856——1936年)研究父母身高与其子女身高的遗传问题时,观察了1078对父子,发现:历史背景:Regression

释义

Galton数据散点图(英寸)

目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。Regression10名3岁男童体重与体表面积散点图1112131415165.05.56.06.5体重(kg),X体表面积Y(103cm2)此时,体重X与体表面积Y之间角色、地位不同目的:用一个变量预测或估计另一个变量。方法:回归X是预测变量,又叫自变量或解释变量Y是待预测变量,又叫因变量或(响)应变量一、直线回归的概念Y因变量,(响)应变量

(dependentvariable,responsevariable)X自变量,解释变量

(independentvariable,explanatoryvariable)

直线回归:研究应变量Y对自变量X的数量依存关系.例110名3岁男童体重与体表面积的关系

编号体重(X,kg)体表面积(Y,103cm2) 1 11.0 5.283 2 11.8 5.299 3 12.0 5.358 4 12.3 5.292 5 13.1 5.602 6 13.7 6.014 7 14.4 5.830 8 14.9 6.102 9 15.2 6.075 10 16.0 6.411

合计 133.4 57.266实例10名3岁男童体重与体表面积散点图1112131415165.05.56.06.5体重(kg),X体表面积Y(103cm2)

1112131415165.05.56.06.5体重(kg),X体表面积Y(103cm2)

对点代表性最好直线:目的:X对Y的预测回归10名3岁男童体重与体表面积图10名3岁男童体重与体表面积回归图1112131415165.05.56.06.5体重(kg),X体表面积Y(103cm2)

此X与关系,称为直线回归(linearregression),其方程叫直线回归方程。直线回归方程的一般表达式为

为各X处Y的总体均数的估计。一、直线回归的概念与X之间的关系叫直线回归(关系)求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。二、直线回归方程的建立10名3岁男童体重与体表面积回归图1112131415165.05.56.06.5体重(kg),X(黑板)体表面积Y(103cm2)

最小二乘法原则(leastsquaremethod):使各实际散点(Y)到直线()的纵向距离的平方和最小。即:使最小。二、直线回归方程的建立例1某地10名三岁儿童体重与体表面积

XY(体重,kg)(体表面积,103cm2) 11.0 5.283 11.8 5.299 12.0 5.358 12.3 5.292 13.1 5.602 13.7 6.014 14.4 5.830 14.9 6.102 15.2 6.075 16.0 6.411体重与体表面积的回归三、回归系数和回归方程的意义及性质b的意义a的意义的意义的意义的意义b

的意义斜率(slope),回归系数=2.5212+0.2385

X

体重每增加1kg,

则体表面积平均增加0.2385(103cm2)b

的单位为(Y的单位/X的单位)b与0关系a的意义a截距(intercept,constant)X=0时,Y的估计值a的单位与Y值相同当X可能取0时,a才有实际意义。估计值的意义X=11时,=5.145,

即体重为11kg的三岁男童,其平均体表面积的估计值为5.145(103cm2);X=15时,=6.099,

即体重为15kg的三岁男童,其平均体表面积的估计值为6.099(103cm2).给定X时,Y的估计值。当时,=2.5212+0.2385

X残差平方和(residualsumofsquares).综合表示点距直线的距离。在所有的直线中,回归直线的残差平方和是最小的。(最小二乘)

的意义一、线性回归的概念线性回归方程(linearregressionequation

):第一节线性回归

用于描述两个变量间依存变化的数量关系。也称简单回归(simpleregression)。

FrancisGaltonX-自变量(independentvariable);Y-应变量(dependentvariable);-给定X时Y的估计值;a-截距(intercept)或常数项(constantterm);b-回归系数(regressioncoefficient)。simpleregression

表示X与Y的离均差积和;表示X的离均差平方和;和分别为两个变量的均值。

simpleregression例11-1

研究饮水氟含量与成人骨X线改变指数间的关系,得到了表11-1中所示的资料,试进行回归分析。

二、回归方程的估计

表11-1饮水氟含量(mg/L)与骨X线改变指数调查对象饮水氟含量(X)骨X线改变指数(Y)XY

X2Y210.240.400.100.060.1620.800.560.450.640.3131.001.911.911.003.6541.800.861.553.240.7453.125.2516.389.7327.5664.103.4013.9416.8111.5675.6058.38326.9331.363408.22810.2770.33722.29105.474946.31910.81116.301257.20116.8613525.69合计37.74257.392340.75285.1721924.20(1)绘制散点图:由散点图可见,饮水氟含量与骨X线改变指数之间存在着直线趋势,可以考虑建立二者之间的线性回归方程。simpleregression(2)计算回归系数与常数项本例:simpleregression单变量资料:研究中仅观察一个变量双变量资料:研究中同时观察两个变量

目的:研究两个变量的关系(关联)

引入:CompanyLogo受教育的水平工作后的收入预防疾病支出疾病的发病率引入:CompanyLogo医学中双变量关系的例子儿童的身高与体重体温与脉搏次数的关系血压与年龄的关系20岁男青年身高与前臂长之间的关系引入:CompanyLogo一、线性相关的概念

两个变量之间存在的线性相关关系称为线性相关或简单相关。用于分析双变量正态分布资料。第二节线性相关

KarlPearson

图11-211名男青年身高与前臂长散点图

linearcorrelation

图11-3线性相关性质示意图

正相关完全正相关线性相关完全负相关一.线性相关的概念负相关非线性相关零相关CompanyLogo二、相关系数及其计算相关系数(correlationcoefficient):又称Pearson积差相关系数(coefficientofproductmomentcorrelation),是说明具有线性相关关系的两个数值变量间相关的密切程度与相关方向的统计量。相关系数r没有度量衡单位,其数值为。表示正相关;表示负相关;表示无相关,即无直线关系。当时称为完全相关。相关系数的绝对值愈接近1,表示相关愈密切;相关系数愈接近0,表示相关愈不密切。linearcorrelation

相关系数的计算公式:linearcorrelation

例11-2

从男青年总体中随机抽取11名男青年组成样本,分别测量每个男青年的身高和前臂长,测量结果如表11-3所示,试计算身高与前臂长之间的相关系数。表11-3

11名男青年身高与前臂长的测量结果(cm)编号身高X前臂长YXY1170477990289002209217342726629929176431604470402560019364155416355240251681517347813129929220961885094003534425007178478366316842209818346841833489211691804988203240024011016543709527225184911166447304275561936合计18915008618532608122810本例:结论:前臂长与身高呈正相关关系,而且相关程度较高。linearcorrelation

相关系数没有单位,其值为-1r1r符号反映相关方向r值为正表示正相关,r值为负表示负相关r绝对值反映两变量间相关关系的密切程度|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切。二、相关系数的意义与计算意义CompanyLogo习惯上,相关系数的绝对值|r|在:

0.4以下,称为低度线性相关;

0.4~0.7,称为中度线性相关;

0.7以上,称为高度线性相关。二、相关系数的意义与计算意义CompanyLogo三、相关系数的假设检验

1.

t

检验法:根据r

作总体相关系数是否为零的假设检验。2.

根据计算出的r

值,直接查r

界值表得到P

值,若

,则可以认为两变量之间存在线性相关关系。对例11-2计算得到的

r

值进行假设检验:(1)建立检验假设

,即身高与前臂长之间不存在线性相关系,即身高与前臂长之间存在线性相关关系

(2)计算统计量linearcorrelation

(3)确定P值,作出结论查

t界值表,得,,拒绝,接受,可以认为男青年身高与前臂长之间存在正相关关系。或查r界值表,,结论相同。linearcorrelation

一、线性回归分析的应用1.

线性回归方程可应用于以下三个方面:①

分析两个变量之间是否存在线性依存关系;②利用回归方程由自变量X对应变量Y进行估计,必要时可以作区间估计;第三节线性回归与相关应用的注意事项③利用回归方程进行统计控制,即利用回归方程进行逆运算,通过控制自变量X取值来限定应变量Y在一定范围内波动。2.

作回归分析时,如果两个有内在联系的变量之间存在因果关系,那么应该以原因变量为X

,以结果变量为Y

;如果变量之间因果关系难以确定,则应以易于测定或变异较小者为X

。3.

在回归分析中,自变量X既可以是随机变量(称为Ⅱ型回归模型,两个变量都服从正态分布),也可以是给定的量(称为I型回归模型,在X取值固定时Y服从正态分布)。如果Y不服从正态分布,在进行回归分析前,应先进行变量的变换以使应变量符合回归分析的要求。4.

使用回归方程估计Y值时,尽量不要把估计的范围扩大到建立方程时的自变量的取值范围之外,由于超出样本取值范围,其线性关系是否成立难以判断,外推要慎重。如例11-1中,X

的取值范围为0.24~10.81,计算估计值时X

的取值最好在0.24~10.81之间。二、线性相关分析的应用

1.

相关分析理论上适用于两个变量都服从正态分布的情形,如果资料不服从正态分布,应先通过变量变换,使之近似正态化后计算相关系数。如果不能正态化,或针对有序数据则可以计算Spearman或Kendall相关系数进行分析(参考SPSS软件说明)。2.

相关系数r值究竟多大有实际意义,需要根据具体问题而定。实际经验而言,时,表示相关性较差;时,表示中度相关;时,表示有较高度的相关性;时,表示有很高的相关性。3.

相关系数可以描述两个变量间相互关系的密切程度和方向。然而,不能因为两变量间的相关系数有统计学意义,就认为两者之间存在着因果关系,要证明两事物间确实存在因果关系,必须凭借专业知识加以阐明。医学中很多变量的数量变化可能由于相同的因子调控引起。三、线性回归与相关的区别

1.

相关系数的计算只适用于两个数值变量都服从正态分布的情形,而在回归分析中,应变量是随机变量,自变量既可以是随机变量(Ⅱ型回归模型),也可以是给定的量(I型回归模型)。

2.

线性相关表示两个变量之间的相互关系是双向的,线性回归则反映两个变量之间单向的依存关系,更适合分析因果关系的数量变化。直线回归与直线相关的区别与联系区别r没有单位,b有单位;所以,相关系数与单位无关,回归系数与单位有关;相关表示相互关系,没有依存关系;而回归有依存关系;四、线性回归与相关的联系

1.

相关系数r与回归方程中的b正负号相同,r和b为正,说明X与Y的数量变化的方向是一致的,X增大,Y也增大;符号为负,变化方向相反。2.

对同一样本可以得出r与b互相转化的公式,两种假设检验完全等价。3.

相关与回归可以互相解释。r的平方称为决定系数(coefficientofdetermination),可表示为:

表示回归平方和在总平方和中所占的比重,即其值越接近1,回归效果越好。决定系数和相关系数有确定的关系,例如r=0.5,有=0.25,说明一个变量的变异有25%可以由另一变量所解释。先做散点图五、线性相关应用中注意事项观察线性趋势(lineartendencyofthetwovariables)2)发现异常值(outliers)CompanyLogo样本相关系数接近零,不意味两变量一定无相关性,如存在曲线联系。五、线性相关应用中注意事项

r=0.00

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论