卫生统计学10线性相关与回归2课件_第1页
卫生统计学10线性相关与回归2课件_第2页
卫生统计学10线性相关与回归2课件_第3页
卫生统计学10线性相关与回归2课件_第4页
卫生统计学10线性相关与回归2课件_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中医科研设计与统计湖北中医学院基础部卫生生物教研室(J-C204)Tel-Mail:annworld@163.com《医学统计学》马斌荣主编人民卫生出版社2006年第四版中医科研设计与统计1卫生统计学10线性相关与回归2在上一节中我们通过直线相关分析知道了待产妇尿中雌三醇含量和新生儿体重之间成正相关关系。那么,如果我们知道了一位待产妇的尿雌三醇含量,能推断出这个新生儿的体重吗?或者这个新生儿的体重可能在什么范围内呢?对此相关分析不能给我们答案,这些问题需要使用直线回归的方法来解决。中医科研设计与统计2卫生统计学10线性相关与回归2第二节线性回归当我们知道了两个变量之间有直线相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,那么它们的变化可用函数方程来表示。在实际生活当中,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程来反映。但是,我们需要利用数学函数的理论去研究两变量之间的数量依存关系,为了区别于数学上确定的函数方程,我们称这种关系式为直线回归方程,这种关系为直线回归。中医科研设计与统计3卫生统计学10线性相关与回归2直线回归的统计模型1.yi是xi的线性函数部分加上误差项εi;2.α:截距(intercept),是x=0时y的本底水平;3.回归部分βx:y的变化中随x变化而变化的部分;β称为回归系数(regressioncoefficient):自变量x每改变一个度量单位,应变量y改变量的平均估计值;4.随机误差εi

:又称残差(residual);是不能由变量x所解释的变异部分;反映了除变量x之外的随机因素对y的影响。中医科研设计与统计4卫生统计学10线性相关与回归2建立直线回归方程利用样本数据计算参数α和β的估计值a和b,建立模型的估计方程,即寻找一条与所有散点都最为接近(实测点到直线的纵向距离)的直线,使得总的预测误差最小。中医科研设计与统计5卫生统计学10线性相关与回归2寻找总的预测误差最小的直线X观测值预测值预测误差(残差)Y中医科研设计与统计6卫生统计学10线性相关与回归2最小二乘法(leastsquaremethod)怎样的最好的代表了所有的y,需要有个标准。经典的标准是最小二乘(leastsquares)原则:每个观察点距离回归线的纵向距离的平方和最小,即残差平方和最小:因为直线一定经过“样本均数”点中医科研设计与统计7卫生统计学10线性相关与回归2计算例1资料的估计值a和b中医科研设计与统计8卫生统计学10线性相关与回归2将估计值a和b代入方程回归参数a、b的解释1.斜率(b):当x每增加1个单位时,y平均改变b个单位;本例b=0.0608,表明待产妇尿中雌三醇含量每增加1mg/24h,新生儿体重平均增加0.0608kg。2.截距(a):当x=0时y本底水平的平均估计值;本例a=2.1523,表示待产妇尿中雌三醇含量为0时,新生儿体重的本底值为2.1523kg(注意这种解释有时候并无实际意义,如x是否可取0)。中医科研设计与统计9卫生统计学10线性相关与回归2问题:直线回归方程的建立是否一定能说明雌三醇含量与新生儿体重之间存在回归关系?与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。所以,需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得(即检验总体回归系数β是否为0)。中医科研设计与统计10卫生统计学10线性相关与回归2(一)回归系数的假设检验(t检验):1.建立检验假设:H0:β=0H1:β≠0α=0.052.计算统计量t:回归方程的假设检验中医科研设计与统计11卫生统计学10线性相关与回归2Sb:回归系数的标准误;Sy.x

:残差标准差(又称剩余标准差),即去除x对y的影响后y的变异。中医科研设计与统计12卫生统计学10线性相关与回归2例1资料回归系数的t检验查t界值表t0.05(29)=2.045<t,在α=0.05水准拒绝H0,认为总体回归系数不为零,雌三醇含量与新生儿出生体重之间存在线性回归关系。中医科研设计与统计13卫生统计学10线性相关与回归2(二)回归模型的假设检验(方差分析,ANOVA):1.建立检验假设:H0:回归模型不成立H1:回归模型成立α=0.052.计算统计量F:方差分析的基本思想:将应变量y的总变异分解成两个部分,一个是处理因素(自变量x)带来的回归变异,另一个是随机误差带来的残差变异。回归变异:又称回归均方(方差),即y的变异中因为x对y的线性回归关系而带来的变异;残差变异:又称残差均方(方差),是除了自变量x之外的其他随机因素对y带来的变异;中医科研设计与统计14卫生统计学10线性相关与回归2F检验就是将两部分的变异进行比较:如果F值接近1,说明回归变异和残差变异没有多大差别,两者都是随机误差,处理因素(自变量x)对应变量y没有线性回归关系,回归模型不成立;如果F值远大于1,说明回归变异远大于残差变异,处理因素(自变量x)带来的变异不能简单的解释为随机误差,即处理因素(自变量x)对应变量y存在回归关系,回归模型成立。中医科研设计与统计15卫生统计学10线性相关与回归2中医科研设计与统计16卫生统计学10线性相关与回归2从上图可以看出:上式两端平方,数学上可以证明:y的总离均差平方和等于回归离均差平方和加上残差离均差平方和,y的自由度等于回归自由度加上残差自由度。即:SS总=SS回+SS残,v总=v回+v残中医科研设计与统计17卫生统计学10线性相关与回归2例1资料的方差分析表变异来源离均差平方和(SS)自由度(v)均方(MS)F值回归2.5057412.5057417.16残差4.23426290.14601总变异6.7400030查F界值表F0.05(1,29)=4.18<F,在α=0.05水准拒绝H0,认为处理因素(自变量x)对应变量y存在回归关系,回归模型成立。中医科研设计与统计18卫生统计学10线性相关与回归2相关系数与回归系数假设检验的关系从上述计算结果可以看到:相关系数和回归系数的t检验结果完全等价,并且与各自的方差分析结果完全等价(分子的自由度为1,即两变量分析)中医科研设计与统计19卫生统计学10线性相关与回归2直线回归分析的应用

1.建立统计模型解释应变量对自变量的数量依存关系2.自变量预测应变量:利用已知、容易测量或可以测量的变量去预测未知、不易测量或不可测量的变量由父亲的身高预测儿子成人后的身高;3.应变量控制自变量:利用应变量反向控制自变量已知铅作业的时间(x)与血铅浓度(y)的回归关系,当制定人体血铅正常值上限标准后,控制工人铅作业的时间;已知汽车流量(x)与空气氮氧化物污染浓度(y)的回归关系,当制定空气氮氧化物的限制标准后,控制汽车流量。中医科研设计与统计20卫生统计学10线性相关与回归21.β的置信区间:

意义:估计总体回归系数取值范围的大小例1资料:回归系数为0.0608,计算置信区间是(0.0308,0.0908)区间范围不包括0,即总体回归系数不为0,说明尿雌三醇含量对新生儿的体重存在回归关系。利用回归方程进行估计和预测

中医科研设计与统计21卫生统计学10线性相关与回归22.总体的置信区间:意义:当自变量x取值为某一定值xi时,回归方程对应的估计值yi的总体条件均数的取值范围。例1资料:如果某位待产妇尿中雌三醇含量为16mg/24h,估计其新生儿体重的均数是3.1251kg,总体均数的95%置信区间是2.98~3.27kg。中医科研设计与统计22卫生统计学10线性相关与回归2总体的95%置信区间中医科研设计与统计23卫生统计学10线性相关与回归23.个体y值的预测区间:意义:当自变量x取值为某一定值xi时,预测应变量估计值yi取值的参考值范围。例1资料:如果某位待产妇尿中雌三醇含量为16mg/24h,估计其新生儿体重的均数是3.1251kg,95%参考值范围是2.33~3.92kg。中医科研设计与统计24卫生统计学10线性相关与回归2个体y值的95%预测区间中医科研设计与统计25卫生统计学10线性相关与回归295%置信区间和参考值范围中医科研设计与统计26卫生统计学10线性相关与回归2线性回归的类型与条件

(一)线性回归的类型:Ⅰ型回归:y是来自正态分布总体的随机变量,x是精确测量或可控制的变量。(溶液浓度与光密度)Ⅱ型回归:y是来自正态分布总体的随机变量,x也是来自正态分布总体的随机变量。(父高与子高)(二)线性回归的条件:1.线性(linearity):y与x之间存在直线关系;2.独立性(independence):各观察值间彼此独立;3.正态性(normality):对于任何给定的自变量x,应变量y都有一个服从正态分布的取值范围对应;4.等方差(equalvariance):对于任何给定的自变量x,应变量y每一个取值范围的方差相等。中医科研设计与统计27卫生统计学10线性相关与回归2给定x,y是正态分布、方差相等示意图中医科研设计与统计28卫生统计学10线性相关与回归2给定x,y是正态分布、方差不等示意图中医科研设计与统计29卫生统计学10线性相关与回归2相关与回归的区别(一)资料要求不同:1.相关分析:对称地对待两个变量,对自变量和应变量不加以区别。要求:x与y均为随机变量(有概率分布),且x和y都来自正态分布总体(双变量正态分布)。2.回归分析:应变量和自变量的处理不对称。自变量x:被看做是(在重复抽样中)可精确测量或严格控制的变量。应变量y:是随机变量,并且对于任何一个选定的x,应变量y都有一个正态分布的总体与之对应,且这些总体的方差都相等。中医科研设计与统计30卫生统计学10线性相关与回归2(二)应用方向不同:1.相关分析:研究两个变量之间的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。通过相关分析可以知道两个变量是否有关系,关系是否密切,性质是属于正相关还是负相关。2.回归分析:研究两个变量在数量比例上的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。回归是对两个变量做定量描述,研究变量间的数量依存关系,已知一个变量值可以预测或控制另一个变量值,并且得到定量的结果。中医科研设计与统计31卫生统计学10线性相关与回归2(三)参数性质不同:1.相关系数r:说明具有直线关系的两个变量间相关方向和密切程度的统计指标。没有单位,取值范围【-1,1】;绝对值意义:绝对值越大,散点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。2.回归系数b:表示x每增大(或减小)一个单位,y平均增大(或减小)b个单位。有单位(y的单位/x的单位),取值范围无限;绝对值意义:绝对值越大,回归直线越陡,说明当x变化一个单位时,y的平均变化就越大。中医科研设计与统计32卫生统计学10线性相关与回归2相关与回归的联系(一)相关系数和回归系数的联系:对于同一组样本资料,如果知道变量x和y的标准差sx、sy,相关系数和回归系数可以互相推算。中医科研设计与统计33卫生统计学10线性相关与回归2(二)方向一致且假设检验等价1.对于同一组样本资料,r与b符号一致。r为正时,b也为正,表示两变量是正相关,是同向变化(x变大y也变大)。r为负时,b也为负,表示两变量是负相关,是反向变化(x变大y会变小)。2.对于同一组样本资料,r与b的假设检验结果等价,可用r的显著检验代替b的显著性检验。中医科研设计与统计34卫生统计学10线性相关与回归2(三)相关回归可以互相解释确定系数(coefficientofdetermination):相关系数的平方,反映x对y的回归贡献的程度大小。计算公式:在应变量y的总离均差平方和中自变量x的回归离均差平方和所占的比例,即自变量x的回归贡献对应变量y的总变异能解释的百分比。取值范围:【0,1】,越接近1,说明实际观测点离回归直线越近,回归模型的拟合度越高。

例1:r=0.6097,R2=0.3717,即待产妇尿中雌三醇含量大约可解释新生儿体重变异性的37.17%。中医科研设计与统计35卫生统计学10线性相关与回归2相关回归分析的注意事项1.实际意义:进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。例如:有人说,孩子长,公园里的小树也在长。但是求孩子身高和小树高度之间的相关关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论