第十章两变量关联性分析_第1页
第十章两变量关联性分析_第2页
第十章两变量关联性分析_第3页
第十章两变量关联性分析_第4页
第十章两变量关联性分析_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十章 两变量关联性分析 本章内容本章内容 第一节第一节 线性相关线性相关 第二节第二节 秩相关秩相关 第三节第三节 分类变量的关联性分析分类变量的关联性分析 第一节第一节 线性相关线性相关 一一 线性相关的概念线性相关的概念 线性相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布(bivariate normal distribution)资料。其性质可由图11-2散点图直观的说明。 目的:研究 两个变量X,Y数量上的依存(或相关) 关系。 特点:统计关系图10-1 两变量散点图二、相关系数的意义与计算意义:相关意义:相关(c

2、orrelation coefficient)又称)又称Pearson积差相关系数,用来说明具有直线关系的两变积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。量间相关的密切程度与相关方向。2. 计算:计算:样本相关系数的计算公式为样本相关系数的计算公式为22()()()()XYXXYYXXYYlrllXXYY 例例1 1例例10101 1在某地一项膳食调查中,随在某地一项膳食调查中,随机抽取了机抽取了1414名名40406060岁的健康妇女,测得岁的健康妇女,测得每人每人40406060岁的健康妇女,测得每人的基岁的健康妇女,测得每人的基础代谢础代谢(kj/d)(kj/d

3、)与体重(与体重(kg)kg)数据,见表数据,见表10101 1。据此数据如何判断这两项指标间有无关。据此数据如何判断这两项指标间有无关联?联? 表表10101 11414名健康妇女的基础代谢率与体重名健康妇女的基础代谢率与体重编号基础代谢(kJ/d)(kJ/d)体重(kg)编号基础代谢(kJ/d)(kJ/d)体重(kg)14175.650.783970.648.624435.053.793983.244.633460.237.1105050.158.644020.851.7115355.571.053987.447.8124560.659.764970.662.8134874.462.175

4、359.767.3145029.261.5体 重 ( KG)807060504030基础代谢(KJ/d)6000500040003000 图 10-2 14例中年健康妇女基础代谢与体重的散点图相关系数的特点1.相关系数r是一个无量纲的数值,且-1r0为正相关,r0为负相关;3./r/越接近于1,说明相关性越好./r/越接近于0,说明相关性越差.964. 00121.46454475771.11442329.703032329.70303,0121.4645447,577.1144110110rlllxyyyxx由原始出之间的样本相关系数中基础代谢率与体重计算例例相关系数的统计推断 (一)相关系

5、数的假设检验 0rrrts212rrsn例10-2 继例10-2中算得r=0.964后,试检验相关是否具有统计学意义检验步骤0H: 0,1H: 0,=0.05 本例 n=14,r=0.964,计算t值12214,559.12214964. 01964. 02t.,05.0,001.0,10体重间存在直线关系基础代谢与就可认为健康成年妇女接受水准拒绝按得界值表查HHPt10215(二)总体相关系数的可信区间 10216具体步骤如下10217Z=1/2ln(1+r)/(1-r)=1/2ln(1+0.964)/(1-0.964)=1.9966按公式(10-21)z 的 95%可信区间为(1.9996

6、-1.96/314,1.9996+1.96/314)=(1.4089,2.5906) 例10-3 对例10-1所得r值,估计总体相关系数的95%可信区间。 再按公式(10-22)将z作反变换,得到基础代谢与体重的总体相关系数95%可信区间为(0.8872,0.9888)。 线性相关中应注意的问题1.样本的相关系数接近零并不意味着两变量间一定无相关性.2.一个变量的数值人为选定时莫作相关.3.出现异常值时甚用相关.4.相关未必真有内在联系.5.分层资料盲目合并易出假象.6.线性相关分析双变量是随机且服从正态分布第二节 秩相关适用条件:资料不服从双变量正态分布而不宜作积差相关分析;总体分布型未知,

7、一端或两端是不确定数值(如10岁,65岁)的资料;原始数据用等级表示的资料。一、Spearman秩相关1. 意义:等级相关系数rs用来说明两个变量间直线相关关系的密切程度与相关方向。2. 计算公式 ) 1(6122nndrs 例10-5 某地研究27岁贫血病患儿的血红蛋白含量与出血症状程度之间的相关性,结果见表10-2,试用秩相关进行分析表10-2 贫血患儿的血红蛋白含量(g/l)和出血症状病人编号 血小板数 秩次 p2 出血症状 秩次 q2 pq X p Y q(1) (2) (3) (4) (5) (6) (7) (8)=(3).(6) 5.0 1 1 + 10 100 10 5.8 2

8、4 + 8 64 36 6.1 3 9 + 6 36 18 7.3 4 16 - 3 9 12 8.8 5 25 + 8 64 40 9.1 6 36 + 8 64 48 11.1 7 49 - 3 9 21 12.3 8 64 - 3 9 24 13.5 9 81 - 3 9 27 13.8 10 100 - 3 9 30合计 55 385 - 55 373 266 利用表利用表10-2中的数据容易算得中的数据容易算得 秩相关系数为负,说明两变量间有负相关关系,秩相关系数为负,说明两变量间有负相关关系,同样由样本算得的秩相关系数是否有统计学意义,同样由样本算得的秩相关系数是否有统计学意义,也

9、应做检验也应做检验741. 05 .56, 5 .70, 5 .82qqpppqspqqqpplllrlll秩相关系数的统计推断秩相关系数的统计推断 检验步骤 假设检验假设检验 统计推断统计推断 当当 时,可查书后的时,可查书后的 临界值表,临界值表, 若秩相关系数超过临界值,则拒绝若秩相关系数超过临界值,则拒绝 ;当当 时,也可采用公式(时,也可采用公式(10-5)或)或(10-6)式做)式做 检验检验1:0sH0:0,sH0.050H50n sr50n t例10-5 对例1-4的秩相关系数作假设检验 例10-4中算得 查 临界值表, ,按 的水准,拒绝 ,可以认为贫血病患儿的出血症状与血红

10、蛋 白量之间呈负相关关系0.050H741. 0sr648. 005. 0,10 rrs五、简单线性相关的样本量估算 简单线性相关的样本量估算公式为:311ln422ZZn例10-4 根据以往调查,某地某年大学生女大学生的体重(kg)与肺活量(L)的线性相关系数0.7165,若想在=0.05,=0.90水平下得到相关系数有统计学意义的结论,至少应调查多少人? 据已知条件代入公式:1696.1537166. 017166. 01ln282. 196. 142n第三节第三节 分类变量的关联性分析分类变量的关联性分析交叉分类22表的关联分析 例10-7 为观察大学生专业与艾滋病知晓程度之间是否有关,

11、某研究者调查了某一年级不同专业的500名学生,对每个个体分别观察专业与艾滋病知晓程度两种属性,22种结果分类记述如表10-3所示,试分析两种属性的关联性。 适用条件对定性变量之间的联系通用的方法是根据两个定性变量交叉分类基数所得的频数资料(列联表)作关联性分析,即关于两种属性独立性的卡方检验计算公式22()A TT表10-3专业与艾滋病知晓程度之间的关系大学生专业 艾滋病知晓程度合计 高 低医学预科 31 91 121其它 19 359 合计 50 450 500 假设检验 :大学生专业与与艾滋病知晓程度之间相互独立 :大学生专业与与艾滋病知晓程度之间关联将表中各数据代入公式得 拒绝原假设,说

12、明大学生专业与与艾滋病知晓程度之间存在关联性.0H1H0.05005. 0,88. 758.42375122450505009119359312221 ,005. 0p关于两分类变量之间的关联程度,可采用(phi coefficient) 、Gramer V系数、Gramers V coefficient)和Pearson列联系数(contingency coefficient),三个系数愈近1说明关系愈密切,三个愈近0,说明两分类变量几乎没有关系。 只适用于四格表资料,对于多行多列只能采用后两种. 本列 2222),min(,1,nrpearsonCRkknVn列联系数292. 050058

13、.42二 22配对资料的关联性分析 例10-8 有132食品标本,把每份标本一分为二,分别用两种检测方法作沙门菌检验,观察结果如表10-5,问两种检测方法的结果有无关联?表10-5 两种检测方法结果甲法 乙法合计 + - + 80 10 90- 31 11 42合计 111 21 132 假设检验 :两种检测方法的结果之间互相独立 :两种检测方法的结果之间有关联将本例数据代入公式得有理由拒绝零假设,可以认为甲、乙两种方法检测方法之间存在关联性,进一步计算0H1H0.053.84,0.05p867. 42192. 0132867. 42n三 RC表分类资料的关联性分析 例10-9 欲探讨职业类型

14、与胃癌,得表10-6的资料。问职业 类型与胃癌是否关联?表10-6 310胃病患者按胃病类型与职业两种属性的交叉分类表职业 胃病合计浅表型 慢性胃炎 胃溃疡机关干部 80 48 4 132工人 52 62 12 126公交车司机 20 22 10 52合计 152 132 26 310 假设检验假设检验 :职业类型与胃病类型无关:职业类型与胃病类型无关 :职业类型与胃病类型有关联职业类型与胃病类型有关联 同样作检验得同样作检验得由由 查查 界值表界值表, ,拒绝零假设拒绝零假设,说明职业类型与胃病类型之间有关联说明职业类型与胃病类型之间有关联性性计算列联系数计算列联系数0H1H0.05288.1424,001, 02838.202251. 0838.22310838.2222nr例 10-10 测得某地1043人的ABO血型和MN血型结果如表10-7,问两种血型系统之间是否有关联?表7-10 某地1043人的血型 ABO血型M

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论