第十一讲卫生统计学两变量关联性分析课件_第1页
第十一讲卫生统计学两变量关联性分析课件_第2页
第十一讲卫生统计学两变量关联性分析课件_第3页
第十一讲卫生统计学两变量关联性分析课件_第4页
第十一讲卫生统计学两变量关联性分析课件_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十一章

两变量关联性分析-第十一章

两变量关联性分析-1本章内容第一节线性相关

第二节秩相关第三节分类变量的关联性分析

-本章内容第一节线性相关-2医学上,许多现象之间也都有相互联系,例如:身高与体重、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。这里,体温和脉搏的关系就比产前检查与婴儿体重之间的关系密切得多,而体重和身高的关系则介与二者之间。另外,可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系;但是,有的现象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。相关与回归就是用于研究和解释两个变量之间相互关系的。-医学上,许多现象之间也都有相互联系,例如:身高与3第一节线性相关一、线性相关的概念

线性相关(linearcorrelation)又称简单相关(simplecorrelation),用于双变量正态分布(bivariatenormaldistribution)资料。其性质可由图11-2散点图直观的说明。

-第一节线性相关一、线性相关的概念-4散点图为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的。例如,每人的身高和体重。然后在直角坐标系上描述这些点,这一组点集称为散点图。-散点图为了确定相关变量之间的关系,首先应该收集一些数5为了研究父亲与成年儿子身高之间的关系,卡尔·皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。-为了研究父亲与成年儿子身高之间的关系,卡尔·6相关的类型★正相关★负相关★完全正相关★完全负相关★称零相关

-相关的类型★正相关★负相关★完全正相关★完全负7目的:研究两个变量X,Y数量上的相关关系。特点:统计关系--8二、相关系数的意义与计算1、意义:相关系数(correlationcoefficient)又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。-二、相关系数的意义与计算1、意义:相关系数(correlat9样本的相关系数用r(correlationcoefficient)相关系数r的值在-1和1之间,但可以是此范围内的任何值。正相关时,r值在0和1之间,散点云图是斜向上的,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,散点云图是斜向下的,此时一个变量增加,另一个变量将减少。r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。-样本的相关系数用r(correlationcoeffic10相关系数的计算公式:r的计算结果说明了两个变量X与Y之间关联的密切程度(绝对值大小)与关联的性质(正负号)。-相关系数的计算公式:r的计算结果说明了两个变11例11-1在某一项膳食调查中,随机抽取14名40-60岁的健康妇女,测得每人的基础代谢(kJ/d)与体重(kg)数据,见表11-1所示,据此数据如何判断这两项指标间有否相关?表11-114名中年健康妇女基础代谢与体重测量结果-例11-1在某一项膳食调查中,随机抽取14名40-60岁12例11-2计算例11-1中体重X与基础代谢Y之间样本相关系数。由例11-1得:从计算结果可以知道,14名成年健康妇女基础代谢和体重之间呈正相关,相关系数是0.964。-例11-2计算例11-1中体重X与基础代谢Y之间样本相关13相关系数的特点1、相关系数r是一个无量纲的数值,且-1<r<1;2、r>0为正相关,r<0为负相关;3、|r

|越接近于1,说明相关性越好;|r

|越接近于0,说明相关性越差。-相关系数的特点1、相关系数r是一个无量纲的数值,且-1<r<14问题:我们能否得出结论说明成年健康妇女基础代谢和体重之间呈正相关,相关系数是0.964。为什么?-问题:我们能否得出结论说明成年健康妇女基础代15相关系数的假设检验

上例中的相关系数r等于0.964,说明了14名成年健康妇女基础代谢和体重之间存在相关关系,这14名成年健康妇女只是总体中的一个样本,由此得到的相关系数会存在抽样误差。因为,总体相关系数(

)为零时,由于抽样误差,从总体抽出的14名成年健康妇女,其r可能不等于零。所以,要判断该样本的r是否有意义,需与总体相关系数

=0进行比较,看两者的差别有无统计学意义。这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。-相关系数的假设检验上例中的相关系数r等于016相关系数的统计推断(一)相关系数的假设检验(11-5)

(11-6)-相关系数的统计推断(一)相关系数的假设检验-171、建立假设,确定检验水准H0:

=0即成年健康妇女基础代谢和体重之间不存在相关关系;

H1:

≠0即成年健康妇女基础代谢和体重之间存在相关关系。

=0.052、计算t值

例11-3继例11-2中算得r=0.964后,试检验相关是否具有统计学意义。-1、建立假设,确定检验水准例11-3继例11-2中183、确定P值

=n-2=14-2=12,查t值表得t0.01(12)=3.055,t>t0.01(13),故P<0.014、判断结果因P<0.01,按

=0.05水准拒绝H0,接受H1,有理由认为成年健康妇女基础代谢和体重之间不存在相关关系。-3、确定P值4、判断结果-19直线相关的应用前面我们已经讲过,相关是研究两个变量间的相互关系,而且这种相互关系是用相关系数反映的。在确实存在相关关系的前提下,如果r的绝对值越大,说明两个变量之间的关联程度越强,那么,已知一个变量对预测另一个变量越有帮助;如果r绝对值越小,则说明两个变量之间的关系越弱,一个变量的信息对猜测另一个变量的值无多大帮助。

一般说来,当样本量较大(n>100),并对r进行假设检验,有统计学意义时,r的绝对值大于0.7,则表示两个变量高度相关;r的绝对值大于0.4,小于等于0.7时,则表示两个变量之间中度相关;r的绝对值大于0.2,小于等于0.4时,则两个变量低度相关。-直线相关的应用前面我们已经讲过,相关是研究两20进行线性相关分析的注意事项:1、线性相关表示两个变量之间的相互关系是双向的,分析两个变量之间到底有无相关关系可首先绘制散点图,散点图呈现出直线趋势时,再做分析。2、相关系数的计算只适用于两个变量都服从正态分布的情形,如果资料不服从正态分布,应先通过变量变换,使之正态化,再根据变换值计算相关系数。3、依据公式计算出的相关系数仅是样本相关系数,它是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差,要判断两个事物之间有无相关及相关的密切程度,必须做假设检验。当检验拒绝了无效假设时,才可以认为两个事物之间存在着相关关系,然后再根据计算出的相关系数大小判断相关关系的密切程度。-进行线性相关分析的注意事项:1、线性相关表示两个变量之间的相214、相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向,而两个事物之间的关系既可能是依存因果关系,也可能仅是相互伴随的数量关系。决不可因为两事物间的相关系数有统计学意义,就认为两者之间存在着因果关系,要证明两事物间确实存在因果关系,必须凭借专业知识加以阐明。

样本的相关系数接近零并不意味着两变量间一定无相关性。一个变量的数值人为选定时莫作相关;出现异常值时甚用相关;相关未必真有内在联系;分层资料盲目合并易出假象。-4、相关分析是用相关系数来描述两个变量间相互关系的密切程度和22第二节秩相关-第二节秩相关-23适用条件:①资料不服从双变量正态分布,而不宜作积差相关分析;②总体分布型未知,一端或两端是不确定数值(如<10岁,≥65岁)的资料;③原始数据用等级表示的资料。-适用条件:①资料不服从双变量正态分布,而不宜作积差相关分析;24一、Spearman秩相关1、意义:等级相关系数rs用来说明两个变量间直线相关关系的密切程度与相关方向。2、计算公式:当相同秩次较多时rs的校正:-一、Spearman秩相关1、意义:等级相关系数rs用来说明25样本的等级相关系数rs

(correlationcoefficient)样本的等级相关系数rs也是总体相关系数ρs的估计值。rs值界于-1和1之间,rs为正表示正相关,rs为负表示负相关,rs为零表示零相关。ρs是否为零可用查rs界值表或t检验确定。(当n≤50时,查附表的rs界值表;当n>50时,计算检验统计量t,查t界值表)-样本的等级相关系数rs(correlationcoeff26例11-4某研究者观察了10例6个月~7岁的贫血患儿的血红蛋白含量与贫血体征,结果见表11-2,试用秩相关进行分析。表11-2贫血患儿的血红蛋白含量(g/dl)与贫血体征-例11-4某研究者观察了10例6个月~7岁的贫血27--28利用表11-2中的数据得:lpp=82.5,lqq=70.5,lpq=-56.5秩相关系数为负,说明两变量间有负相关关系,同样由样本算得的秩相关系数是否有统计学意义,也应做假设检验。-利用表11-2中的数据得:秩相关系数为负,说291、建立假设,确定检验水准H0:

s=0即血红蛋白含量与贫血体征之间不存在相关关系;

H1:

s

≠0即血红蛋白含量与贫血体征之间存在相关关系。

=0.052、计算统计量二、秩相关系数的统计推断

当n≤50时,查附表的rs界值表;当n>50时,计算检验统计量t,查t界值表。-1、建立假设,确定检验水准二、秩相关系数的统计推断303、确定P值

本例n=10,查rs值表得r0.05(10)=0.648

|rs|=0.714>0.648,故P<0.054、判断结果因P<0.05,按

=0.05水准拒绝H0,接受H1

,有理由认为贫血患儿的血红蛋白含量与贫血体征之间存在相关关系。-3、确定P值4、判断结果-31第三节分类变量的关联性分析-第三节分类变量的关联性分析-32适用条件:对定性变量之间的联系通用的方法是根据两个定性变量交叉分类基数所得的频数资料(列联表)作关联性分析,即关于两种属性独立性的卡方检验。计算公式:-适用条件:-33一、交叉分类2×2表的关联分析

例11-6研究吸烟方式与患慢性支气管炎是否有关,某研究者随机调查了200例年龄相仿的吸烟者,对每个个体分别观察慢性支气管炎与否和吸烟方式两种属性,2×2种结果分类记述如表11-3所示,试分析两种属性的关联性。表11-3吸烟习惯和慢性支气管炎的关系吸烟方式慢性支气管炎合计有无自卷纸烟22(a)53(b)75过滤嘴烟15(c)110(d)125合计37163200-一、交叉分类2×2表的关联分析例11-6研究吸烟341、建立假设,确定检验水准H0:吸烟方式与慢性支气管炎有无之间相互独立H1:吸烟方式与慢性支气管炎有无之间相互关联

a=0.052、计算

2值-1、建立假设,确定检验水准-353、确定P值υ=1,查

2界值表得

20.01(1)=6.63,因

2

>

20.01(1),故P<0.01。4、判断结果因P<0.01,在a=0.05的水准上拒绝H0,接受H1,有理由认为慢性支气管炎有无吸烟方式之间存在关联性。相关系数:-3、确定P值-36例11-5:设有132份食品标本,把每份标本一分为二,分别用两种检验方法做沙门氏菌检验,结果如表9-5,试问两种检验方法的结果是否存在关联?甲法乙法阳性阴性合计阳性80(a)10(b)90阴性31(c)11(d)42合计11121132表11-5两种检验方法检验结果比较二、2×2配对资料的关联性分析-例11-5:设有132份食品标本,把每份标本一分为二,分别371、建立假设,确定检验水准H0:两种检验方法的结果之间相互独立H1:两种检验方法的结果之间相互关联a=0.052、计算

2

值-1、建立假设,确定检验水准-383、确定P值

υ=1,查

2界值表得

2

0.05(1)=3.84,因

2

>

2

0.05(1),故P<0.05。4、判断结果因P<0.05,在a=0.05的水准上拒绝H0,接受H1,有理由认为两种检验方法的结果之间存在关联性。相关系数:-3、确定P值-39职业胃病类型合计浅表性胃炎慢性胃炎胃溃疡机关干部80484132工厂工人526212126公交司机20221052合11-6310名胃病患者按胃病类型和职业两种属性的交叉分类表三、R×C表分类资料的关联性分析例11-8为探讨职业类型与胃病类型是否有关联,某医师将收治的310名胃病患者按主要的职业类型和胃病类型两种属性交叉分类,结果见表11-6。问职业类型与胃病类型有无关联?-职业胃病类型合计浅表性胃炎慢性胃炎胃溃疡机关401、建立假设,确定检验水准H0:胃病类型与职业无关H1:胃病类型与职业

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论