关联性分析课件_第1页
关联性分析课件_第2页
关联性分析课件_第3页
关联性分析课件_第4页
关联性分析课件_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

*1例8-1某医生欲比较万拉发新与氟西汀治疗老年期抑郁症的疗效,将病情相近的60名患者随机分成两组,分别用两种药物进行治疗,结果见表8-1。分组疗效合计有效例数(百分率/%)无效例数(百分率/%)万拉发新组19(63.33)11(36.67)30氟西汀组15(50.00)15(50.00)30合计34(56.67)27(43.33)60表8-1万拉发新与氟西汀治疗老年期抑郁症的疗效比较*2资料的特点两个随机样本:万拉发新组和氟西汀组一个变量:疗效;研究目的:两总体参数是否相同*3例9-3为观察行为类型与冠心病的关系,某研究组在某冠心病高发区收集了3154例观察对象的资料,对每个个体分别观察是否为冠心病患者和行为类型两种属性,结果分类计数如表9-3所示。试分析两种属性的关联性。*4资料的特点一个随机样本两个变量:行为类型和是否患冠心病;研究目的:探讨两个属性变量的关联性。*5例8-2分别采末梢血与静脉血检查乙型肝炎抗原,结果见表8-3。静脉血末梢血合计阳性阴性阳性47350阴性7243250合计54246300表8-3末梢血与静脉血检查乙型肝炎抗原结果(例数)*6两种思路一:资料的特点两个配对样本:静脉血和末梢血一个变量:乙肝抗原结果;研究目的:两组的总体参数是否相同。二:资料的特点一个随机样本:300人两个变量:静脉血的结果、末梢血的结果;研究目的:两个属性变量间有无关联例为研究某种新药治疗贫血患者的疗效,将20名贫血患者随机分为两组,一组用新药治疗,另一组用常规药物治疗,测得的血红蛋白增加量(g/L)见下表。问新药与常规药治疗贫血患者后的血红蛋白平均增加量有无差别?新药组30.521.425.034.533.032.529.525.524.423.6常规药组19.519.013.024.721.522.019.015.524.523.4*8资料的特点两个随机样本:新药组和常规药组一个变量:血红蛋白增加量;研究目的:两总体参数是否相同*9例9-1表9-1为一项关于儿童健康和发展的研究中10名学龄儿童的身高和体重资料,试对学龄儿童的身高(cm)和体重(kg)进行相关分析。表9-110名学龄儿童的身高和体重*10资料的特点一个随机样本两个变量:身高和体重患冠心病;研究目的:探讨两个变量的关联性。*11关联性分析*12关联性分析基本概念;两个分类变量间的关联分析;两个连续型随机变量间的相关分析;结果报告;案例辨析;常见疑问与小结。*13目的要求1.掌握线性相关分析的基本步骤;2.掌握Pearson积差相关、Spearman等级相关的应用条件及计算方法,同时进行假设检验;

3.熟悉相关分析中应注意的问题;4.熟悉分类计数频数表资料两变量间关联性的定量分析;5.了解利用散点图分析样本相关系数可能出现的各种假象,并作出合理解释;6.了解统计内容的报告与中英文表达。*14一、基本概念相关关系关联强度指标*151相关关系当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,或相关(correlation)。两个变量有共变现象,称为有相关关系。相关关系与函数关系相关关系与因果关系。两个连续随机变量间的线性联系称为线性相关(Linearcorrelation);两个分类变量间的联系则称为关联(association)。*16两个连续型随机变量:相关系数;两个分类变量:关联系数。2关联强度指标*17二、两个连续型随机变量间的相关分析散点图分析内容;Pearson相关;Spearman秩相关;相关分析中应注意的问题。*18例9-1表9-1为一项关于儿童健康和发展的研究中10名学龄儿童的身高和体重资料,试对学龄儿童的身高(cm)和体重(kg)进行相关分析。表9-110名学龄儿童的身高和体重*1910名学龄儿童的身高和体重的散点图*232.1散点图判断两个变量是否具有相关关系最直观的办法是绘制散点图(scatterplot)。将两变量置于直角坐标轴上,把其中一变量取作X,另一个取作Y,据此在直角坐标系(X,Y)中标出对应的点来,这样的图形称作散点图。*24常见的典型散点图及相关的种类正相关负相关零相关零相关零相关零相关(曲线相关)*252.2相关分析的分析内容统计描述;统计推断;统计应用*262.2相关分析的分析内容统计描述;X和Y有联系吗?是线性、非线性联系?联系的程度以及方向?统计推断;统计应用*272.2相关分析的分析内容统计描述;统计推断;两者的线性联系有统计学意义吗?就总体而言,两者相关的程度如何?统计应用*282.2相关分析的分析内容统计描述;统计推断;统计应用根据相关系数的大小与方向,结合专业知识对两变量的联系进行解释。*292.3Pearson相关如果X和Y均是随机变量,呈双变量正态分布,散点图呈线性趋势,各观察值间相互独立,则可用Pearson积矩相关系数来描述两者之间的关系(相关的程度和方向),简称相关系数。表示方法总体:ρ样本:r*30Pearson积矩相关系数的计算*31相关系数的特点有:1.相关系数ρ、r是一个无单位的数值,且-1<ρ、r<1;2.ρ,r

>0为正相关,ρ,r

<0为负相关;3.ρ

=0为不相关(无线性相关关系)4.|ρ|越接近于1,说明相关性越好(密切),|ρ|越接近于0,说明相关性越差。*34相关系数的正负*35相关系数的正负*36相关系数的正负*37相关系数的正负例9-1的线性相关系数ρ

=?*38*39Pearson积矩相关系数的假设检验H0:ρ=0H1:ρ≠0α=0.05*40方法一:直接查r临界值表,根据自由度ν=n-2,查P581,C11,相关系数r临界值表,比较|r|与临界值.例:v=10-2=8,查r临界值表可得r0.001/2,8=0.872,P<0.001,即:相关系数与0的差异有统计学意义,学龄儿童身高与体重之间存在线性相关关系。*41方法二:采用t检验。*42相关系数的置信区间估计

Fisher’s变换

r

z

正态近似

的95%Iz的95%CIFisher’s反变换

*43Pearson积矩相关系数的区间估计z的置信区间

的置信区间*44相关系数的区间估计(1)将r变换为z;(2)根据z服从正态分布,估计z的可信区间;(3)再将z变换回r。*45例9-1则z的95%置信区间为:则ρ的95%置信区间为:*462.4Spearman秩相关1.秩相关的概念及其统计描述;2.秩相关系数的统计推断。*47秩相关的概念及其统计描述如果X,Y不服从双变量正态分布,或是总体分布未知,数据本身有不确定值或为等级资料,不宜用积差相关系数来刻画相关性。此时,可采用秩相关(rankcorrelation),或称等级相关来刻画两个变量间相关的程度与方向。表示方法总体:ρs样本:rs*48例9-210名患者参加家庭计划的时间长度(天)和每名患者每天的费用(元)见表9-2。请问参加的时间长度和费用是否相关?表9-210名患者参加家庭计划的时间和每名患者每天的费用*49资料特点:时间与费用均不服从正态分布。*50秩相关的基本思想:将原始数据转换为秩次。将两变量X,Y成对的观察值分别从小到大排序编秩,以pi表示Xi的秩次,qi表示Yi的秩次,观察值相同的取平均秩。对秩次计算的Pearson相关系数称为Spearman秩相关系数。Spearman秩相关系数的计算*51例9-2ρs

=?

*52*53Spearman秩相关系数的假设检验H0:ρs=0,H1:ρs≠0,

α=0.05

当n≤50时,可查P582,附表C12等级相关系数检验界值表;当n≥50时,采用前述的t

检验方法。

*54本例:n=10,查rs临界值表可得r0.02/2,10=0.745,|rs|>r

0.02/2,10,P<0.02,按0.05的水准可以认为:参加家庭计划的时间长度和每天的费用之间有负相关关系。

*552.5相关分析应注意的问题:样本的相关系数接近零并不意味着两变量间一定无关。一个变量的数值人为选定时莫作相关(应用条件?)例如,为研究药物的剂量-反应关系;出现异常值时慎用相关;相关未必真有内在联系;分层资料盲目合并易出假象。*56误用相关的几种情况:

*57三、两个分类变量间的关联分析交叉分类2×2列联表的关联分析多分类资料的关联分析*583.1交叉分类2×2表的关联分析

例9-3为观察行为类型与冠心病的关系,某研究组在某冠心病高发区收集了3154例观察对象的资料,研究者将观察对象按行为类型分为A型(较具野心、进取心和竞争性),B型(较沉着、轻松和做事不慌忙)。对每个个体分别观察是否为冠心病患者和行为类型两种属性,结果分类计数如表9-3所示。试分析两种属性的关联性。*59*60独立性(independence)检验:*61

:两种属性之间无关联,

:两种属性之间有关联。α=0.05在H0为真时,必有,πi.和π.j未知,只能估计,即*62对于2×2列联表*63*64关联系数(associationcoefficient)

对于2×2列联表而言,关联系数r介于0和之间,其数值越大,关联程度越高。*653.22×2配对资料的关联性分析例9-4

设有研究者对103例患者进行了影像学检查(A)和生化检验(B),结果分为(+)和(-)两类,数据如表9-5,现欲分析A、B两法的检验结果的关联性。*66*67*68注意事项:仍需满足χ2检验的使用条件;*693.3多分类资料的关联性分析

例9-8有研究表明,不同国籍人的血型是不同的。现有2500例不同国籍人的血型分布资料(表9-6),请问国籍与血型是否关联?*70*71*72两个分类变量的关联分析注意事项两个分类变量的关联性分析仍用χ2检验,但要满足χ2检验的应用条件。两个分类变量的关联分析与两组或多组频率

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论