卫生统计学线性相关与回归_第1页
卫生统计学线性相关与回归_第2页
卫生统计学线性相关与回归_第3页
卫生统计学线性相关与回归_第4页
卫生统计学线性相关与回归_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

卫生统计学线性相关与回归卫生统计学线性相关与回归第1页中医科研设计与统计湖北中医学院卫生教研室2在上一节中咱们经过直线相关分析知道了待产妇尿中雌三醇含量和新生儿体重之间成正相关关系。那么,假如咱们知道了一位待产妇尿雌三醇含量,能推断出这个新生儿体重吗?或者这个新生儿体重可能在什么范围内呢?对此相关分析不能给咱们答案,这些问题需要使用直线回归方法来处理。卫生统计学线性相关与回归第2页中医科研设计与统计湖北中医学院卫生教研室3第二节线性回归当咱们知道了两个变量之间有直线相关关系,而且一个变量改变会引发另一个变量改变,这时,假如它们之间存在准确、严格关系,那么它们改变可用函数方程来表示。在实际生活当中,因为其它原因干扰,许多双变量之间关系并不是严格函数关系,不能用函数方程来反应。不过,咱们需要利用数学函数理论去研究两变量之间数量依存关系,为了区分于数学上确定函数方程,咱们称这种关系式为直线回归方程,这种关系为直线回归。卫生统计学线性相关与回归第3页中医科研设计与统计湖北中医学院卫生教研室4直线回归统计模型1.yi是xi线性函数个别加上误差项εi;2.α:截距(intercept),是x=0时y本底水平;3.回归个别βx:y改变中随x改变而改变个别;β称为回归系数(regressioncoefficient):自变量x每改变一个度量单位,应变量y改变量平均预计值;4.随机误差εi

:又称残差(residual);是不能由变量x所解释变异个别;反应了除变量x之外随机原因对y影响。卫生统计学线性相关与回归第4页中医科研设计与统计湖北中医学院卫生教研室5建立直线回归方程利用样本数据计算参数α和β预计值a和b,建立模型预计方程,即寻找一条与全部散点都最为靠近(实测点到直线纵向距离)直线,使得总预测误差最小。卫生统计学线性相关与回归第5页中医科研设计与统计湖北中医学院卫生教研室6寻找总预测误差最小直线X观察值预测值预测误差(残差)Y卫生统计学线性相关与回归第6页中医科研设计与统计湖北中医学院卫生教研室7最小二乘法(leastsquaremethod)怎样最好代表了全部y,需要有个标准。经典标准是最小二乘(leastsquares)标准:每个观察点距离回归线纵向距离平方和最小,即残差平方和最小:因为直线一定经过“样本均数”点卫生统计学线性相关与回归第7页中医科研设计与统计湖北中医学院卫生教研室8计算例1资料预计值a和b卫生统计学线性相关与回归第8页中医科研设计与统计湖北中医学院卫生教研室9将预计值a和b代入方程回归参数a、b解释1.斜率(b):当x每增加1个单位时,y平均改变b个单位;本例b=0.0608,表明待产妇尿中雌三醇含量每增加1mg/24h,新生儿体重平均增加0.0608kg。2.截距(a):当x=0时y本底水平平均预计值;本例a=2.1523,表示待产妇尿中雌三醇含量为0时,新生儿体重本底值为2.1523kg(注意这种解释有时候并无实际意义,如x是否可取0)。卫生统计学线性相关与回归第9页中医科研设计与统计湖北中医学院卫生教研室10问题:直线回归方程建立是否一定能说明雌三醇含量与新生儿体重之间存在回归关系?与直线相关一样,直线回归方程也是从样本资料计算而得,一样也存在着抽样误差问题。所以,需要对样本回归系数b进行假设检验,以判断b是否从回归系数为零总体中抽得(即检验总体回归系数β是否为0)。卫生统计学线性相关与回归第10页中医科研设计与统计湖北中医学院卫生教研室11(一)回归系数假设检验(t检验):1.建立检验假设:H0:β=0H1:β≠0α=0.052.计算统计量t:回归方程假设检验卫生统计学线性相关与回归第11页中医科研设计与统计湖北中医学院卫生教研室12Sb:回归系数标准误;Sy.x

:残差标准差(又称剩下标准差),即去除x对y影响后y变异。卫生统计学线性相关与回归第12页中医科研设计与统计湖北中医学院卫生教研室13例1资料回归系数t检验查t界值表t0.05(29)=2.045<t,在α=0.05水准拒绝H0,认为总体回归系数不为零,雌三醇含量与新生儿出生体重之间存在线性回归关系。卫生统计学线性相关与回归第13页中医科研设计与统计湖北中医学院卫生教研室14(二)回归模型假设检验(方差分析,ANOVA):1.建立检验假设:H0:回归模型不成立H1:回归模型成立α=0.052.计算统计量F:方差分析基础思想:将应变量y总变异分解成两个个别,一个是处理原因(自变量x)带来回归变异,另一个是随机误差带来残差变异。回归变异:又称回归均方(方差),即y变异中因为x对y线性回归关系而带来变异;残差变异:又称残差均方(方差),是除了自变量x之外其它随机原因对y带来变异;卫生统计学线性相关与回归第14页中医科研设计与统计湖北中医学院卫生教研室15F检验就是将两个别变异进行比较:假如F值靠近1,说明回归变异和残差变异没有多大差异,二者都是随机误差,处理原因(自变量x)对应变量y没有线性回归关系,回归模型不成立;假如F值远大于1,说明回归变异远大于残差变异,处理原因(自变量x)带来变异不能简单解释为随机误差,即处理原因(自变量x)对应变量y存在回归关系,回归模型成立。卫生统计学线性相关与回归第15页中医科研设计与统计湖北中医学院卫生教研室16卫生统计学线性相关与回归第16页中医科研设计与统计湖北中医学院卫生教研室17从上图能够看出:上式两端平方,数学上能够证实:y总离均差平方和等于回归离均差平方和加上残差离均差平方和,y自由度等于回归自由度加上残差自由度。即:SS总=SS回+SS残,v总=v回+v残卫生统计学线性相关与回归第17页中医科研设计与统计湖北中医学院卫生教研室18例1资料方差分析表变异起源离均差平方和(SS)自由度(v)均方(MS)F值回归2.5057412.5057417.16残差4.23426290.14601总变异6.7400030查F界值表F0.05(1,29)=4.18<F,在α=0.05水准拒绝H0,认为处理原因(自变量x)对应变量y存在回归关系,回归模型成立。卫生统计学线性相关与回归第18页中医科研设计与统计湖北中医学院卫生教研室19相关系数与回归系数假设检验关系从上述计算结果能够看到:相关系数和回归系数t检验结果完全等价,而且与各自方差分析结果完全等价(分子自由度为1,即两变量分析)卫生统计学线性相关与回归第19页中医科研设计与统计湖北中医学院卫生教研室20直线回归分析应用

1.建立统计模型解释应变量对自变量数量依存关系2.自变量预测应变量:利用已知、轻易测量或能够测量变量去预测未知、不易测量或不可测量变量由父亲身高预测儿子成人后身高;3.应变量控制自变量:利用应变量反向控制自变量已知铅作业时间(x)与血铅浓度(y)回归关系,当制订人体血铅正常值上限标准后,控制工人铅作业时间;已知汽车流量(x)与空气氮氧化物污染浓度(y)回归关系,当制订空气氮氧化物限制标准后,控制汽车流量。卫生统计学线性相关与回归第20页中医科研设计与统计湖北中医学院卫生教研室211.β置信区间:

意义:预计总体回归系数取值范围大小例1资料:回归系数为0.0608,计算置信区间是(0.0308,0.0908)区间范围不包含0,即总体回归系数不为0,说明尿雌三醇含量对新生儿体重存在回归关系。利用回归方程进行预计和预测

卫生统计学线性相关与回归第21页中医科研设计与统计湖北中医学院卫生教研室222.总体置信区间:意义:当自变量x取值为某一定值xi时,回归方程对应预计值yi总体条件均数取值范围。例1资料:假如某位待产妇尿中雌三醇含量为16mg/24h,预计其新生儿体重均数是3.1251kg,总体均数95%置信区间是2.98~3.27kg。卫生统计学线性相关与回归第22页中医科研设计与统计湖北中医学院卫生教研室23总体95%置信区间卫生统计学线性相关与回归第23页中医科研设计与统计湖北中医学院卫生教研室243.个体y值预测区间:意义:当自变量x取值为某一定值xi时,预测应变量预计值yi取值参考值范围。例1资料:假如某位待产妇尿中雌三醇含量为16mg/24h,预计其新生儿体重均数是3.1251kg,95%参考值范围是2.33~3.92kg。卫生统计学线性相关与回归第24页中医科研设计与统计湖北中医学院卫生教研室25个体y值95%预测区间卫生统计学线性相关与回归第25页中医科研设计与统计湖北中医学院卫生教研室2695%置信区间和参考值范围卫生统计学线性相关与回归第26页中医科研设计与统计湖北中医学院卫生教研室27线性回归类型与条件

(一)线性回归类型:Ⅰ型回归:y是来自正态分布总体随机变量,x是准确测量或可控制变量。(溶液浓度与光密度)Ⅱ型回归:y是来自正态分布总体随机变量,x也是来自正态分布总体随机变量。(父高与子高)(二)线性回归条件:1.线性(linearity):y与x之间存在直线关系;2.独立性(independence):各观察值间彼此独立;3.正态性(normality):对于任何给定自变量x,应变量y都有一个服从正态分布取值范围对应;4.等方差(equalvariance):对于任何给定自变量x,应变量y每一个取值范围方差相等。卫生统计学线性相关与回归第27页中医科研设计与统计湖北中医学院卫生教研室28给定x,y是正态分布、方差相等示意图卫生统计学线性相关与回归第28页中医科研设计与统计湖北中医学院卫生教研室29给定x,y是正态分布、方差不等示意图卫生统计学线性相关与回归第29页中医科研设计与统计湖北中医学院卫生教研室30相关与回归区分(一)资料要求不一样:1.相关分析:对称地对待两个变量,对自变量和应变量不加以区分。要求:x与y均为随机变量(有概率分布),且x和y都来自正态分布总体(双变量正态分布)。2.回归分析:应变量和自变量处理不对称。自变量x:被看做是(在重复抽样中)可准确测量或严格控制变量。应变量y:是随机变量,而且对于任何一个选定x,应变量y都有一个正态分布总体与之对应,且这些总体方差都相等。卫生统计学线性相关与回归第30页中医科研设计与统计湖北中医学院卫生教研室31(二)应用方向不一样:1.相关分析:研究两个变量之间相互关系,即在两个变量中,任何一个改变都会引发另一个改变,是一个双向改变关系。经过相关分析能够知道两个变量是否相关系,关系是否亲密,性质是属于正相关还是负相关。2.回归分析:研究两个变量在数量百分比上依存关系,一个变量改变会引发另一个变量改变,是一个单向关系。回归是对两个变量做定量描述,研究变量间数量依存关系,已知一个变量值能够预测或控制另一个变量值,而且得到定量结果。卫生统计学线性相关与回归第31页中医科研设计与统计湖北中医学院卫生教研室32(三)参数性质不一样:1.相关系数r:说明含有直线关系两个变量间相关方向和亲密程度统计指标。没有单位,取值范围【-1,1】;绝对值意义:绝对值越大,散点越趋向于一条直线,表明两变量关系越亲密,相关程度越高。2.回归系数b:表示x每增大(或减小)一个单位,y平均增大(或减小)b个单位。有单位(y单位/x单位),取值范围无限;绝对值意义:绝对值越大,回归直线越陡,说明当x改变一个单位时,y平均改变就越大。卫生统计学线性相关与回归第32页中医科研设计与统计湖北中医学院卫生教研室33相关与回归联络(一)相关系数和回归系数联络:对于同一组样本资料,假如知道变量x和y标准差sx、sy,相关系数和回归系数能够相互推算。卫生统计学线性相关与回归第33页中医科研设计与统计湖北中医学院卫生教研室34(二)方向一致且假设检验等价1.对于同一组样本资料,r与b符号一致。r为正时,b也为正,表示两变量是正相关,是同向改变(x变大y也变大)。r为负时,b也为负,表示两变量是负相关,是反向改变(x变大y会变小)。2.对于同一组样本资料,r与b假设检验结果等价,可用r显著检验代替b显著性检验。卫生统计学线性相关与回归第34页中医科研设计与统计湖北中医学院卫生教研室35(三)相关回归能够相互解释确定系数(coefficientofdetermination):相关系数平方,反应x对y回归贡献程度大小。计算公式:在应变量y总离均差平方和中自变量x回归离均差平方和所占百分比,即自变量x回归贡献对应变量y总变异能解释百分比。取值范围:【0,1】,越靠近1,说明实际观察点离回归直线越近,回归模型拟合度越高。

例1:r=0.6097,R2=0.3717,即待产妇尿中雌三醇含量大约可解释新生儿体重变异性37.17%。卫生统计学线性相关与回归第35页中医科研设计与统计湖北中医学院卫生教研室36相关回归分析注意事项1.实际意义:进行相关回归分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论