已阅读5页,还剩9页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十三章 双变量关联性分析第十三章 双变量关联性分析 在医学研究中,常会观察到两个变量之间在数量上存在某种协同变化的关系,例如随着体内凝血酶浓度的升高,其凝血时间随之降低等。这类关系在统计学上称为两个随机变量之间的关联性。如何判断两变量间的关联性是否确实存在,以及如何描述关联的方向与密切程度是本章所要介绍的内容。需要指出的是,关联性只反映变量间数量上的关系,但数量上的关联并不表示专业上的因果关系,其是否反映了变量间的因果关系还需其他手段加以确认。本章介绍两个定量变量间的直线相关和两个分类变量间关联性的统计分析方法。第一节 直线相关一、直线相关的概念及其统计描述例13.1 某医师测量了15名正常成年人的体重(kg)与CT双肾体积(ml)大小,数据如表13.1所示。据此回答两变量是否有关联?其方向与密切程度如何? 表13.1 15名正常成年人体重和双肾体积的测量值编号体重(kg)双肾体积(ml)143217.22274316.18351231.11458220.96550254.70665293.84754263.28857271.73967263.461069276.531180341.151248261.001338213.201485315.121554252.08初步判断两变量间关系最直观有效的方法就是在平面直角坐标系中绘图,其中一个变量用表示,另一变量用表示,在平面直角坐标系中可绘制这些实测点的分布情况,称为散点图(scatter plot),如图13.1所示。双肾体积 (ml) y 体重 (kg) x图13.1 15名正常成年人体重和双肾体积的散点图由上图可见,两变量的散点分布大致呈直线趋势,其数量变化的方向相同。在统计学上两个随机变量之间呈直线趋势的关系被称为直线相关(linear correlation),又称简单相关(simple correlation),其性质可由图13.2所示散点图作直观说明。(a) (b) (c) (d)图13.2 常见的散点图图13.2(a)、(b)中散点近似呈椭圆形分布,其变化趋势接近一直线,其中图13.2(a)中两变量同时增大或减小,变化趋势同向,称为正相关(positive correlation)。图13.2(b)中一个变量随着另一个变量的增大而减小,变化趋势相反,称为负相关(negative correlation)。如全部数据点恰好散布在一条直线上,称为完全相关,这种特殊情况在实际医学研究中并不存在。图13.2(c)中各点总的趋势杂乱无章或大致呈圆形散布,则该两变量间无相关,也称零相关(zero correlation)。图13.2(d)中各点散布也非直线趋势,亦属无相关,由于统计学中提到的相关通常是指直线相关,故无相关是指无直线关系,但可能存在非直线相关。二、相关系数的意义及计算定量描述两个变量间直线关系的方向和密切程度的指标,称为直线相关系数(linear correlation coefficient),又称Pearson积矩相关系数(Pearson product moment coefficient),其公式为: (13.1) 相关系数没有单位,取值范围在之间,其正负表示两变量间直线相关的方向,大于0为正相关,小于0为负相关,等于0为零相关。相关系数的绝对值大小表示两变量间直线相关的密切程度,绝对值越接近于1,说明相关密切程度越高;绝对值越接近于0,说明相关密切程度越低。现结合图13.1解释相关系数的含义。经横纵坐标上与处两条相互垂直的直线可将此图分为4个象限,若两变量呈正相关,多数数据处于第一、三象限,此时式(13.1)的分子为正数,;若两变量呈负相关,多数数据处于第二、四象限,此时式(13.1)的分子为负数,。其中一个极端是所有数据均位于经过点(,)的直线上,即全部数据点要么都在第一、三象限,要么都在第二、四象限,此时式(13.1)的分子各项的正负号完全相同,相加后得到其最大或最小值,或,分别对应于完全正相关或完全负相关;另一个极端是所有数据围绕点(,)成圆形均匀分布在4个象限内,此时式(13.1)的分子各项相加后正负号相互抵消,分子为0,即零相关。通过以上解释可知,式(13.1)中位于分子的离均差乘积和()可反映两变量直线相关的方向和密切程度。如同在单变量描述中,用离均差平方和的平均值即方差来反映数据的离散程度,以消除样本含量不同的影响一样,可将两变量的离均差乘积之和取平均,得到样本协方差,以便不同样本含量的问题比较其相关性。协方差用符号表示,计算公式为: (13.2)协方差的取值大小与x、y的量纲有关,不同实际问题中的协方差不可直接比较。为了消除量纲的影响,将两变量分别进行标准化(每个观察值减去均数再除以其标准差)后再计算协方差,使之成为无单位的系数,便于不同问题进行比较。如此得到标准化的协方差,即相关系数的另一种形式: (13.3)当上式右端分别为总体协方差和总体标准差时(其各自分子除以而非),左端便是总体相关系数,习惯上记为。若0,称两总体有直线相关关系;若0,则称两总体无直线相关关系。例13.2 计算例13.1中体重与双肾体积之间的样本相关系数。由式(13.1)分别算出说明两变量间呈正相关,双肾体积随体重增加而增大,但需进行假设检验以推断总体上这种相关关系是否存在。三、相关系数的统计推断用样本计算出来的相关系数是一个样本统计量,存在抽样误差,需要对总体相关系数是否为0作假设检验。假定随机变量和均服从正态分布,可用以下方法进行推断:1. t检验 (13.4)式中, 为样本相关系数r的标准误,计算公式为: (13.5)当成立时, 服从自由度为的t分布。2. 查表法根据自由度,查相关系数界值表(附表14),越大,P值越小;越小,P值越大。以上两方法若得到,则拒绝,可认为两变量间存在直线相关关系;若,则不拒绝,尚不能认为两变量间存在直线相关关系。例13.3 例13.2中算得r0.875,试检验该相关系数是否具有统计学意义。(1) 建立检验假设,确定检验水准:,即体重和双肾体积之间无直线相关关系 :,即体重和双肾体积之间有直线相关关系(2) 计算检验统计量由式(13.4)和式(13.5)得(3) 确定P值,作出统计推断查t界值表(附表3),得,按=0.05水准,拒绝,接受,相关系数有统计学意义,可以认为体重和双肾体积之间有直线相关关系。如果直接查相关系数界值表(附表14),=0.514, =0.760,此结果与t检验法一致。假设检验是回答两变量间的相关关系是否具有统计学意义,P值越小并不表示相关性越强,回答相关的强弱需要计算总体相关系数的置信区间。由于一般情况下(时)的抽样分布并不对称,故先对r按式(13.6)作变换: 或 (13.6)式中,tanh为双曲正切函数,为反双曲正切函数。由于变换后的近似地服从均数为,标准差为的正态分布,故的()置信区间可按下式计算: (13.7)将式(13.7)的上、下限代入式(13.8),即得到总体相关系数的()置信区间。 或 (13.8)例13.3(续) 继例13.2中算得r0.875后,试估计总体相关系数的95%置信区间。将r0.875代入式(13.6),得将,和代入式(13.7),得的95置信区间;将的上、下限分别代入式(13.8),得的下限: 的上限:故体重和双肾体积总体相关系数的95%置信区间为。四、相关分析应用中应注意的问题1. 进行相关分析前应先绘制散点图散点图能使我们直观地看出两变量间有无线性关系并发现可能的离群点(outlier),当散点有线性趋势时,才能进行相关分析。2. 直线相关分析的统计推断要求两个随机变量均服从正态分布若某一变量是人为选定而非随机变量,如研究大鼠某项生理指标与不同给药剂量的关系,给药剂量通常是研究者人为控制的非随机变量,不服从正态分布,则不宜做直线相关分析。3. 出现离群点时慎用相关图13.3 (a)中可见一个明显远离主体数据的离群点,计算时是否包含此点可分别得到负相关或零相关两种不同结论。对离群点的处理需认真核实数据的收集和录入过程,或进行重复观察。4. 相关关系不一定是因果关系如测量某小学各年级学生的右手长度及其算术计算能力,可能会得到这两个变量有统计学意义的相关关系,但显然两者并非因果关系,可能是学生年龄与二者的潜在联系造成了这种假象。因此需结合专业知识及其他研究方法,才能对两变量间的相关是否确为因果关系作出判断。5. 分层资料不可盲目合并图13.3(b)显示,将无相关性的两样本合并后造成正相关的假象;图13.3(c)显示,将原本具有相关性的分层资料合并后无相关性。(a) (b) (c) 图13.3 误用相关的几种情况第二节 秩相关一、秩相关的概念及统计描述前述直线相关适用于二元正态分布资料,对于不服从正态分布、总体分布未知、存在极端值或原始数据用等级表示的资料,都不宜用积矩相关系数来分析相关性。此时,可采用秩相关(rank correlation),也称等级相关来分析两个变量间相关的方向与密切程度。该法不以特定的总体分布为前提,属于非参数统计方法。其中最常用的统计量是Spearman秩相关系数,又称等级相关系数,其值同样在之间,无单位, 0为正相关。类似于直线相关,秩相关系数是总体秩相关系数的估计值。计算Spearman秩相关系数可将n对实测值与(=1,2,3,)分别从小到大编秩(相同秩次取平均值),然后将秩次代入式(13.1)得到。例13.4 某研究者对15例3050岁成年男子的舒张压(mmHg)与夜间最低血氧含量分级进行研究,结果见表13.2,试分析两者的关联性。表13.2 15例成年男子的舒张压与夜间最低血氧含量分级测量值 编号舒张压秩次pi夜间最低血氧含量分级y秩次qi(1)(2)(3)(4)(5)1 751122 802.5123 802.525.54 905.512.05 905.525.56 905.525.57 905.539.58 958.525.59 958.539.51010010.539.51110010.539.51211012413.51311513413.51412014413.51512515413.5合计120120将两变量x、y成对的观察值分别从小到大编秩,以pi表示xi的秩次,qi表示yi的秩次,分别见表13.2中第(3)、(5)栏,观察值相同的取平均秩;将、直接替换式(13.1)中的x和y,即用秩次作为分析变量值,直接计算Pearson积矩相关系数。判断由样本算得的秩相关系数是否有统计学意义,也应作假设检验。二、秩相关系数的假设检验总体秩相关系数的假设检验,可用以下方法进行推断:当50时,可查等级相关系数界值表(附表15),若超过临界值,则拒绝;当50时,则采用式(13.4)和式(13.5)作t检验。例13.5 对例13.4的秩相关系数作假设检验。(1) 建立检验假设,确定检验水准:,即舒张压与夜间最低血氧含量分级无相关关系 :,即舒张压与夜间最低血氧含量分级有相关关系(2) 计算检验统计量(3) 确定P值,作出统计推断本例中,查等级相关系数界值表(附表15),得=0.779,P0.001,按水准,拒绝,接受,可以认为舒张压与夜间最低血氧含量分级之间有正相关关系。第三节 分类变量的关联性分析两个定量变量的关联性可用Pearson积矩相关系数或秩相关系数来描述;而两个分类变量间的关联性可用Pearson列联系数(contingency coefficient)等统计量来描述,其假设检验可采用列联表(contingency table)的独立性检验。一、22列联表的关联性分析例13.6 为研究青少年在校情况与对艾滋病知晓情况之间的关系,某研究者在某地共调查了384名青少年,并对每名青少年按是否在校和对艾滋病是否知晓两种属性交叉分类,如表13.3所示。试问两变量是否存在关联性?表13.3 某地青少年是否在校与对艾滋病是否知晓的交叉分类表是否在校是否知晓合 计是否是15662218否27139166合 计183201384本例中,关联性问题对应的检验假设::青少年是否在校与对艾滋病是否知晓之间互相独立;:青少年是否在校与对艾滋病是否知晓之间互相关联。两变量和互相独立,即指变量x的概率分布与变量y的概率分布无关,否则称这两变量之间存在关联性。根据随机事件独立性的定义,若两个随机事件同时发生的联合概率等于每个事件发生的边际概率相乘,则两随机事件是相互独立的。如表13.3中,无论在校与否,是否知晓艾滋病的概率称为各自的边际概率(可用和来估计)。同样,无论是否知晓艾滋病,在校与否的概率也称为各自的边际概率(可用和来估计)。于是在独立性假定满足的条件下,“是否在校”和“对艾滋病是否知晓”组成的四种情况下的联合概率就等于相应边际概率的乘积。如在校且同时知晓艾滋病的联合概率为在校的边际概率与知晓艾滋病的边际概率相乘,余类推。为了便于公式表示,将22列联表的一般形式整理如表13.4。表中为两变量不同水平组合下()的实际观察频数,为相应的联合概率;为变量取水平时的合计频数,为相应边际概率;为变量取水平时的合计频数,为相应边际概率,=1,2,=1,2,=,。表13.4 22列联表的一般形式及概率表达 合 计 () ()() () ()()合 计 () ()(1)这里进行关联性检验的统计量仍为第十一章中的拟合优度统计量:其中,为实际频数,为理论频数。成立时,该统计量服从分布。此公式中理论频数的计算如下:若独立性假设成立,则两变量不同水平组合所对应的在表13.4每一格子中的联合概率等于相应变量的边际概率的乘积: (13.9)若分别用和来估计边际概率和,代入(13.9) 式,得到各联合概率估计值: 例如前述在校且同时知晓艾滋病的联合概率为在校的边际概率与知晓艾滋病的边际概率相乘为于是,在成立的条件下,理论频数的估计公式为 (13.10) 不难看出,此值的计算与两样本率比较的检验公式(11.2)完全一样。四格表的专用公式(11.5)也仍然适用。在计算理论频数的过程中,由于用样本估计值代替了两个独立参数和,故此处分布的自由度为其计算公式中累计求和次数减1再减去所估计参数个数,即或。现就例13.6的数据作两变量关联性分析。(1) 建立检验假设,确定检验水准:青少年是否在校与对艾滋病是否知晓之间互相独立:青少年是否在校与对艾滋病是否知晓之间互相关联(2) 计算检验统计量将表13.3中数据代入式(11.5)得到:(3) 确定P值,作出统计推断查界值表(附表9),得,按水准,拒绝,接受,可以认为青少年是否在校与对艾滋病是否知晓之间有关联。关于两个分类变量关联的程度,我们可用Pearson列联系数来描述,其计算公式为 (13.11) 本例中,Pearson列联系数为: 列联系数介于0和1之间, 理论上也应对总体列联系数是否不等于0作假设检验,但这个检验等价于上述两分类变量独立性的检验。需要特别强调的是,虽然表13.3的数据和第十一章中两样本率比较的四格表数据看上去非常相似,甚至检验公式及应用条件也完全相同,但在抽样机制和所回答问题上二者却有着根本区别。两样本率比较是从两个总体中分别抽取样本(区分两总体的分组变量不必是随机变量),两样本有各自的频数分布,所检验的是两个总体的概率分布是否不同。而这里的分类变量关联性与前述直线相关一样,是从同一个总体中进行随机抽样,对样本中的每个个体,考察其两种属性的关系,要检验的是两个分类变量之间是否存在关联性或者说是否独立。二、RC列联表的关联性分析例13.7 为研究自我效能感与领导行为类型是否有关,某研究者抽样调查了来自某省各三甲医院的238名护士长,并对每个个体按自我效能感
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 附件:1.1521项拟继续有效行业标准复审结论-表(征求意见稿)
- 2024-2025高中地理第四章区域经济发展第一节区域农业发展-以我国东北地区为例学案新人教版必修3
- 养殖场兽医服务合同
- 市政道路改造预应力施工合同
- 物业管理评标办法合同管理
- 住宅区道路照明施工合同
- 临时维修工聘用合同
- 水井建设与供水设施改造合同
- 智能能源清运施工合同
- 地铁工程外网施工合同
- 业务招待费审批单
- 建筑工程项目管理咨询招标(范本)
- 三位数除两位数的除法练习题
- 慢性胃炎的中医治疗培训课件
- Python程序设计课件第7章面向对象程序设计
- 主题班会课防盗
- 幼儿园课件《挠挠小怪物》
- 教师教案检查八大评分标准教案的评分标准
- 政府会计基础知识讲义
- 幼儿园整合式主题活动设计案例《温馨家园》
- 荒漠区生态治理(麦草沙障、植物固沙)施工方案
评论
0/150
提交评论