《医学统计学》课件11章 相关与回归_第1页
《医学统计学》课件11章 相关与回归_第2页
《医学统计学》课件11章 相关与回归_第3页
《医学统计学》课件11章 相关与回归_第4页
《医学统计学》课件11章 相关与回归_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十一章 线性相关与回归教师:卫生统计教研室 胡冬梅世间万物是普遍联系的医学上,许多现象之间也都有相互联系糖尿病病人的血糖与胰岛素水平的关系;某人群年龄与收缩压的关系;儿童身高与体重的关系;动物实验中动物进食量与增加体重的关系等。常用回归与相关分析,属双变量分析范畴(bivariate analysis)。相关就是用于研究和解释两个变量之间相互关系的,给两个变量定性。回归是设法找出变量间的依存变化(数量)关系, 用函数关系式表达出来,给出两个或多个变量的定量的关系第一节 线性相关相关关系当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,或相关(correlation)。两个变量

2、有共变现象,称为有相关关系。 相关关系不一定是因果关系。相关分析的任务:两变量间有无相关关系?两变量间如有相关关系,相关的方向?相关的程度?直线相关的资料要求:直线相关(linear correlation),又称简单相关,用于双变量正态分布资料。例如,同性别成人的身高与体重的关系:对某一身高(如女性160cm),体重为正态分布;对某一体重(如女性50kg),身高为正态分布。主要内容一、散点图二、相关系数三、相关注意事项一、散点图 为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的。例如,每人的身高和体重。然后在直角坐标系上描述这些点,这一组点集称为散点图。作法:为了研究父

3、亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。 作用:粗略地给出了两个变量的关联类型与程度相关类型:二、相关系数相关系数(correlation coefficient)是衡量两个连续变量之间关联的强度的指标,样本的相关系数用r 表示,总体的相关系数用表示。相关系数取值: -1相关系数1二、相关系数正相关: 0r1,散点云图是斜向上的,这时一个变量增加,另一个变量也

4、增加;负相关:-1r0,散点云图是斜向下的,此时一个变量增加,另一个变量将减少。二、相关系数相关系数的绝对值越接近1,两变量的关联程度越强,相关系数的绝对值越接近0,两变量的关联程度越弱。010.40.7低度相关中度相关高度相关相关系数计算公式: Pearson原理:取图形的中心点O( ),任意一点P(x,y) 例11.2 从男青年总体中随机抽取11名男青年组成样本,分别测量每个男青年的身高和前臂长,身高和前臂长均以cm为单位,测量结果如下表所示,试计算身高与前臂长之间的相关系数。 编号身高(cm)前臂长(cm)XYX2Y2(X)(Y)1 170 47 7990 2890022092 173

5、42 7266 2992917643 160 44 7040 2560019364 155 41 6355 2402516815 173 47 8131 2992922096 188 50 9400 3534425007 178 47 8366 3168422098 183 46 8418 3348921169 180 49 8820 32400240110 165 43 7095 27225184911 166 44 3174 285612116合计18915008618532608122810三、相关系数的显著性检验 与前面讲的其它统计量一样,根据样本资料计算出来的相关系数同样存在抽样误差

6、。即假设在一个X与Y无关总体中作随机抽样,由于抽样误差的影响,所得的样本相关系数也常常不等于零。 因此要判断两个变量X与Y是否真的存在相关关系,仍需根据作总体相关系数是否为零的假设检验。 相关系数的假设检验查表法 当n52,v=n-2,查r界值表,得到P值t检验法 当n52,计算检验统计量tr,查t界值表,得到P值 例11.2所得的 值检验男青年身高与前臂长之间是否存在相关关系?相关注意事项线性相关的前提条件是X、Y都服从正态分布(双变量正态分布)必须在假设检验认为相关的前提下才能以r的大小判断相关程度相关关系并不一定是因果关系,有可能是伴随关系前面我们讨论了身高和前臂长之间的关系,知道了二者

7、之间成正相关。那么,如果我们知道了一人的身高,能推断出其前臂长吗?或前臂长可能在什么范围内呢?还有,随着身高的增加,体重也在增大,它们之间也成正相关关系。那么,身高每增加1厘米,体重增加多少克呢?上面的相关关系分析不能提供给我们需要的答案。这些要用直线回归的方法来解决。第二节 线性回归主要内容一、线性回归基本概念二、线性回归方程计算三、线性回归方程的假设检验四、回归注意事项一、线性回归基本概念自变量(X):容易得到的、变化小的量,原因因变量(Y):不容易得到的、变化大的变量、结果当两个变量存在准确、严格的直线关系时,可以用Y=a+bX,表示两者的函数关系,但在实际生活当中,由于其它因素的干扰,

8、许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为直线回归方程,这种关系为直线回归. 二、线性回归方程的计算式中的 是由自变量X推算应变量Y的估计值,a是回归直线在Y 轴上的截距,即X=0时的Y值;b为样本的回归系数,即回归直线的斜率,表示当X变动一个单位时,Y平均变动b个单位。计算原理:最小二乘法,即保证各实测点到回归直线的纵向距离的平方和最小,并使计算出的回归方程最能代表实测数据所反映出的直线趋势。二、线性回归方程的计算 例 有人研究了温度对蛙的心率的影响,得到了下表中所示的资料,试进行回归分析。对象温度(X) 心率(Y) XY

9、X2Y21 2 5 10 4 252 4 11 44 16 1213 6 11 66 36 1214 8 14 112 64 196510 22 220 100 484612 23 276 144 529714 32 448 1961024816 29 464 256 841918 32 576 32410241020 34 680 40011561122 33 726 4841089合计132246362220246610根据表中数据绘制散点图,如下图所示:2.计算回归系数与常数项 在本例中: 则,回归方程为3. 作回归直线三、回归方程的假设检验与直线相关一样,直线回归方程也是从样本资料计算

10、而得的,同样也存在着抽样误差问题。所以,需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得。为了判断抽样误差的影响,需对回归系数进行假设检验。总体的回归系数一般用表示。 H0:=0 回归方程无意义 H1:0 回归方程有意义 =0.05选择合适的假设检验方法(方差分析或t检验),计算统计量计算概率值P做出推论:统计学结论和专业结论回归方程检验:方差分析法基本思想:Y值的变异可用 表示, 为离均差平方和,又称总平方和,表示Y总的变异,用SS总表示; 称回归平方和,表示在Y总的变异中,可以用X与Y的线性关系一起Y变异来解释的部分,可用SS回归表示; 称离均差平方和或残差平方和

11、,说明除X对Y的线性影响之外的一切其他随机因素对Y的影响,可用SS剩余表示。回归方程检验:方差分析法因变量总变异的分解X P (X,Y)Y回归系数检验的基本思想如果X与Y无线性回归关系,在SS回归和SS剩余都是其他随机因素对Y的影响,由此,MS回归MS剩余,总体回归系数=0,反之, 0。所以用F检验对X与Y之间有无回归关系进行检验。公式:自由度:回归系数检验:t检验法基本思想同样本均数与总体均数的比较t检验 Sb是样本回归系数的标准误,反映样本回归系数与总体回归系数之间的抽样误差,SY*X为剩余标准差,表示Y对于回归直线的离散程度四、线性回归分析的注意事项 只有将两个内在有联系的变量放在一起进

12、行回归分析才是有意义的。 作回归分析时,如果两个有内在联系的变量之间存在的是一种依存因果的关系,那么应该以“因”的变量为X ,以“果”的变量为Y 。如果变量之间并无因果关系,则应以易于测定、较为稳定或变异较小者为X 。 在回归分析中,因变量是随机变量,自变量既可以是随机变量(II型回归模型,两个变量应该都服从正态分布),也可以是给定的量(I型回归模型,这时,与每个X 取值相对应的变量Y必须服从正态分布),如果数据不符合要求,在进行回归分析前,必须先进行变量的变换。 回归方程建立后必须作假设检验,只有经假设检验拒绝了无效假设,回归方程才有意义。 使用回归方程计算估计值时,不可把估计的范围扩大到建

13、立方程时的自变量的取值范围之外。 第三节 线性相关和回归的 区别和联系一、线性相关与回归的区别 相关系数的计算只适用于两个变量都服从正态分布的情形,而在回归分析中,因变量是随机变量,自变量既可以是随机变量(II型回归模型,两个变量都应该服从正态分布),也可以是给定的量(I型回归模型,这时,与每个X 取值相对应的变量Y必须服从正态分布)。 线性相关表示两个变量之间的相互关系是双向的,回归则反映两个变量之间的依存关系,是单向的。 二、线性相关与回归的联系1. 如果对同一资料进行相关与回归分析,则得到的相关系数r与回归方程中的b正负号是相同的。2. 在相关分析中,求出r后要进行假设检验,同样,在回归

14、分析中,对b也要进行假设检验。实际上,通过数学推导,对同一样本可以得出r与b互化的公式,同一样本的这两种假设检验也是等价的。因此,由于r的假设检验可以直接查表,较为简单,所以可以用其代替对b的假设检验。 r与b的符号一致,检验等价3. 相关回归可以互相解释。R 的平方称为确定系数 (coefficient of determination)应用确定系数,也可以从回归的角度对相关程度做进一步的了解。二、线性相关与回归的联系 第四节 等级相关如果观测值是等级资料,则可以用等级相关来 表达两事物之间的关系。等级相关是分析X、Y 两变量等级间是否相关的一种非参数方法。常用的等级相关方法是Spearma

15、n等级相关。与线性相关系数r 一样,等级相关系数 rs的数值亦在 -1与 +1之间,数值为正表示正相关,数值为负表示负相关。 一、等级相关系数的计算 Spearman 等级相关系数 rs 可由公式计算式中,n 表示样本含量; d 表示 X、Y 的秩次之差。例10.4 某医生做一种研究,欲了解人群中氟骨症患病率(%)与饮用水中氟含量(mg/l)之间的关系。随机观察8个地区氟骨症患病率与饮用水中氟含量,数据如表10-4(2)、(4)两栏。试计算等级相关系数rs。2.差数d,见(6)栏,注意3.算d2见(7)栏,本例 4.代入公式(10-18)计算 rs若资料中相同观察值的例数较多时,计算的结果偏差较大,此时可由公式 计算校正的 rs 值 rs。 二、等级相关系数的显著性检验 rs 是由样本资料计算出的相关系数,亦存在抽样误差问题,故要推断总体中两变量间有无线性相关关系,须经假设检验。 检验步骤 1.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论