统计关联性分析_第1页
统计关联性分析_第2页
统计关联性分析_第3页
统计关联性分析_第4页
统计关联性分析_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

9关联性分析公共卫生学院流行病与卫生统计教研室沈晓丽

1授课内容9.1两个连续型随机变量之间的相关分析9.2两个分类变量之间的关联分析2前面章节中讲述了单一数值变量的统计分析方法,但在医学科学研究中,常要分析变量间的关系,如年龄与血压、身高与体重,回归与相关就是研究这种关系的统计方法,属于双变量分析范畴。3两个变量之间的线性关系基本上可以分为两种:变量间的关联性如何,有无线性联系,若有,联系程度如何——相关两变量之间有无依存性,即一个变量的变化将引起另一个变量多大的变化——回归49.1.2概述两个连续随机变量间的线性联系称为相关(linearcorrelation);两个分类变量间的联系称为关联(association)。59.1.2.1散点图判断两个变量间是否具有相关关系最直接的办法是绘制散点图;拿到相关资料的第一步就是绘制散点图。6例9-1随机抽取15名健康成人,测定血液的凝血酶浓度(单位/毫升)及凝固时间(秒),数据如表11-1所示。据此资料如何判断这两项指标间有否相关?171514161516141716141315151314凝血时间0.71.01.10.91.10.91.00.60.91.11.20.91.01.21.1凝血酶浓度151413121110987654321受试者号表9-1

15名健康成人凝血时间与凝血酶浓度测量值记录散点图9.1.2.2相关的种类(1)正相关散点呈椭圆形分布,Y随X的增加而增加,X随Y的增加而增加,即两变量X、Y同时增大或减小,变化趋势是同向,称为正相关;各点的排列越接近椭圆的长轴,相关也就越密切。当各点的分布在一条直线上时,则X与Y就是完全正相关了。9(2)负相关

散点呈椭圆形分布,Y随X的增加而减少,X随Y的增加而减少,变化趋势是反向的,称为负相关;各点的排列越接近椭圆的长轴,相关也就越密切。当各点的分布在一条直线上时,则X与Y就是完全负相关了。10(3)零相关无论X增加还是减少,Y不受其影响,反之,X也不受Y的影响。(4)非线性相关若散点图呈曲线形状,则变量间可能呈曲线关系。12139.1.2.2关联强度两个连续型随机变量间联系的强度用相关系数来描述。总体相关系数为ρ,样本相关系数为r。直线相关系数的意义直线相关系数r的值,在任何情况下总在﹣1与﹢1之间,而在医学研究中由于影响因素众多,很少有完全相关的情况;相关系数r的正负号表示相关的性质,即正相关、负相关以及零相关;相关系数r的绝对值大小表示相关程度的大小(强弱),愈接近于1,相关程度愈高;愈接近于0,相关程度愈低。9.2两个连续型随机变量间的相关分析15Pearson相关:X,Y均是随机变量,呈双变量正态分布,各观察值间相互独立。Spearman秩相关(rankcorrelation):X,Y不服从双变量正态分布,总体分布类型未知,数据本身有不确定值或为等级资料。9.2.3Pearson相关16两个变量的测量值应来自于同一总体或同一样本中n个个体的测量,或者是来自于对两个有意义配对的总体或样本的测量;两个变量的分布应近似于正态分布;样本量不能太小,样本量太小时所计算出的相关系数不够稳定。179.2.2.1Pearson积秩相关系数的计算171514161516141716141315151314凝血时间0.71.01.10.91.10.91.00.60.91.11.20.91.01.21.1凝血酶浓度151413121110987654321受试者号0.9814.93计算例9-1中凝血酶浓度与凝血时间之间的样本相关系数

18相关系数的特点有:19(1)相关系数ρ是一个无量纲的数值,且-1≤ρ≤1(2)ρ>0为正相关,ρ<0为负相关(3)︱ρ︳越接近1,说明相关性越好;︱ρ︳

越接近0,说明相关性越差。9.2.2.2Pearson积矩相关系数的假设检验20r是样本相关系数,它是总体相关系数ρ的估计值。要判断X、Y间是否有相关关系,就要检验r是否来自总体相关系数ρ为零的总体。ρ=0r?例9-1前面所得r值,检验健康成人凝血浓度与凝血时间是否有直线相关。

9.2两个连续型随机变量间的相关分析23Pearson相关:X,Y均是随机变量,呈双变量正态分布,各观察值间相互独立。Spearman秩相关(rankcorrelation):X,Y不服从双变量正态分布,总体分布类型未知,数据本身有不确定值或为等级资料。9.2.3Spearman秩相关24秩相关,又称为等级相关,适用于下列资料:(1)不服从双变量正态分布(2)总体分布型未知(3)等级资料秩相关中最常用的是Spearman等级相关9.2.3.1Spearman秩相关系数的计算25秩相关的基本思想是将原始数据转化为秩次。将两变量X,Y成对的观察值分别从小到大排序编秩,以P表示X的秩次,以q表示Y的秩次,观察值相同的取平均秩。计算公式仍采用Pearson相关系数的公式,X,Y以p,q代替。表9-2急性白血病患儿的血小板和出血症状例11-4某地研究2~7岁急性白血病患儿的血小板数与出血症状程度之间的相关性,试用秩相关分析。45163078_65078_合计4212.253.5-14412200412126.5132.2511.5++++121111438113512.253.5-1001012901031.512.253.5-819126092812.253.5-6481060824.512.253.5-497740754819.0++366540645819.0++25542651412.253.5-164310421497.0+93165318819.0++42138211.5132.511.5+++111211pqq2秩次出血症状p2秩次血小板病人编号Spearman等级相关:

它是用秩相关系数rs说明两变量间相关关系的密切程度和方向。本例计算:299.2.3.1Spearman秩相关系数的假设检验rs也应进行假设检验1.查表法n小于等于50时2.t检验n大于50时计算统计量t值查rs临界值表,

9.2.4相关的解释中应注意的问题311、两变量相关不能因此推断两变量在生物学上有任何联系,甚至认为有因果联系。2、样本的相关系数接近零时并不意味着两变量间一定无相关性。(样本量小?曲线相关?分层分析?)3、出现异常点时,首先对原始数据进行核对,分析时可分别对保留该点和删除该点进行分析,慎作结论。9.3两个分类变量间的关联分析329.3.1交叉分类2*2表的关联性分析9.3.22×2配对资料的关联性分析9.3.3R×C分类资料的关联性例9-3为观察婴儿腹泻是否与喂养方式有关,某医院儿科随机收集了消化不良的婴儿82例,把该院儿科所有消化不良的患儿视为一个总体的话,则该院82例患儿可看成是一份随机样本。对每个个体分别观察腹泻与否和喂养方式两种属性,2*2种结果分类记数如表11-3所示。试分析两种属性的关联性。

表9-3婴儿腹泻与喂养方式的关系无有823547合计422517母乳401030人工合计腹泻喂养方式2*2交叉分类频数表的一般形式如下表

表9-4

2*2交叉分类频数表的一般形式Y2Y1nm2(

c2)m1(

c1)合计n2(

r2)A22(

22)A21(

21)X2n1(

r1)A12(

12)A11(

11)X1合计属性Y属性X联合概率

边际概率

边际概率

所谓两属性X和Y互相独立(independence),是指属性X的分布的概率与属性Y的概率分布无关,否则称这两种属性之间存在关联性。从概率的角度考虑,独立是指在交叉分类表每一格子中同时具有两种属性的联合概率等于相应属性的边际概率的乘积。

ij=(

ri)(

cj)i,j=1,2

欲检验的假设为:

H0:两属性之间相互独立。H1:两属性之间相互关联。检验统计量仍采用拟合优度卡方检验:

在H0成立的条件下必有:

ij=(ri)(cj)。由于(ri)和(cj)未知,只能用样本中的频数近似地代替H0:喂养方式与腹泻之间互相独立。

H1:喂养方式与腹泻之间有关联。

=0.05

则拒绝原假设,说明婴儿腹泻与喂养方式之间存在着关联性。关于两个分类变量关联程度,我们可用Pearson列联系数(contingencycoefficient)来描述:列联系数介于0与1之间,表示两种属性相关的密切程度。本例列联系数为:理论上也应就总体列联系数是否为0作假设检验,但这个假设检验等价于上述两变量关联性分析的卡方检验。两变量独立存在关联性ρ=0ρ≠09.3两个分类变量间的关联分析409.3.1交叉分类2*2表的关联性分析9.3.22*2配对资料的关联性分析9.3.3R*C分类资料的关联性例9-4有56份咽喉涂抹标本,把每份标本一分为二,依同样的条件分别接种于甲、乙两种白喉杆菌培养基上,观察白喉杆菌生长情况,结果见表11-5,问两种培养基的结果有无关联?

表9-4两种白喉杆菌培养结果

563224合计16142_401822+_+合计乙培养基甲培养基H0:两种培养基之间互相独立。

H1:两种培养基之间有关联。

=0.05

则拒绝原假设,两种培养基之间存在着关联性。进一步计算列联系数。

9.3两个分类变量间的关联分析439.3.1交叉分类2*2表的关联性分析9.3.22*2配对资料的关联性分析9.3.3R*C分类资料的关联性例9-5某地居民主要有三种祖籍,均流行甲状腺肿。为探讨较甲状腺肿与祖籍是否有关联,现根据居民甲状腺肿复查结果,按甲状腺肿类型与祖籍两种属性交叉分类,得表9-5的资料。问甲状腺肿与祖籍有无关系?

表9-5某地居民按甲状腺肿类型与祖籍两属性的交叉分类表合计7195771401436甲4862

4

492乙丙10031585500祖籍甲状腺肿类型合计弥漫型结节型混合型

:甲状腺肿类型与祖籍无关联

:甲状腺肿类型与祖籍有关联若须进一步分析关系的密切程度时,可计算Pearson列联系数r。例9-6测得某地1043人的ABO血型和MN血型结果如下表,问两种血型系统之间是否有关联?

表9-6某地1043人的血型合计2623354461043

O85100150335A5678120254B98132170400AB2325654ABO血型MN血型合计

MNMNR*C表的分类及其检验方法的选择

R*C表可以分为双向无序、单向有序、双向有序属性相同与双向有序属性不同4类。

①双向无序R*C表R*C表中两分类变量皆为无序分类变量对于该类资料:A若研究目的为多个样本率(或构成比)比较,可用行*列表资料的卡方检验;B若研究目的为分析两个分类变量间有无关联性及关系的密切程度时,可用行*列表资料的卡方检验及Pearson列联系数进行分析。②关于单向有序列表的统计处理。有两种形式:

一种是R*C表中的分组变量(如年龄)是有序的,而指标变量(如传染病的类型)是无序,其研究的目的是分析不同年龄组的构成情况,此资料可用卡方检验。另一种是R*C表中的分组变量(如不同疗法)是无序的,而指标变量(如疗效按等级分)是有序。在比较各效应有无差别时宜采用秩和检验法,如作卡方检验只能说明各处理组的效应在构成比有无差别。③双向有序属性相同的R*C表R*C表中两分类变量皆为有序且为属性相同。实际是2*2配对设计的扩展,即水平数大于等于2的诊断配伍设计,如两种方法同时对同一批样品的测定结果。其目的是分析两种检测方法的一致性,此时宜用一致性检验(也称Kappa检验)。如想分析两法测定结果的概率分布有无差别,宜采用χ2检验

52④双向有序属性不同的R*C表R*C表中两分类变量皆为有序,但属性不同。A若目的为分析分组变量取不同水平时,有序结果变量间有无差别,可把它视为单向有序R*C表资料,选用秩和检验;B若研究目的为分析有序分类变量间是否存在相关关系,用等级相关、线性趋势χ2分析。合计2623354461043

O85100150335A5678120254B98132170400AB2325654ABO血型MN血型合计

MN

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论