第13章行×列表_第1页
第13章行×列表_第2页
第13章行×列表_第3页
第13章行×列表_第4页
第13章行×列表_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第13章章 行行列表分析列表分析学习目标v掌握四格表普通卡方检验和配对卡方检验方法以及相应的SAS程序;v了解FREQ过程语句格式;v熟悉RC表资料的分类类型以及相应的统计检验方法;v掌握行均分检验以及SAS程序;v掌握行列均为顺序变量的相关检验以及SAS程序;v掌握分层行列表的分析以及SAS程序;v掌握趋势卡方检验方法以及SAS程序;v了解卡方分割与卡方合并;v熟悉Fishers确切概率计算方法。概述v前面已介绍了两个率比较的检验,在观察例数不够大或拟对多个率进行比较时,检验就不适宜了,因为直接对多个样本率作两两间的检验有可能增加第一类误差。2检验可解决此类问题。v卡方检验是用途很广的一种

2、假设检验方法,这里我们主要学习它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。四格表资料四格表资料v定性指标分为有序的(如:疗效分为“治愈、显效、好转、无效、死亡”)和名义的(如:血型分为“O、A、B、AB”型)类,对于每个受试者来说,有序指标的观测结果只能是该有序指标若干等级中的级(如某人的疗效为“显效”);名义指标的观测结果只能是该名义指标若干标志中的个(如某人的血型为型),显然,无法像处理定量指标那样去直接分析定性指标,故这类资料常被整理成列联表的形式后再进行分析。v当表中只有个定性指标时,称为维列联表;有个

3、或个以上定性指标时,称为多维列联表。常用R、C表示维列联表的行数和列数,并称为RC表;当R=C=时,称为表(或四格表)。表看起来很简单,但根据资料所具备的条件有许多不同的处理方法。四格表卡方检验 v为了解不同致癌剂的致癌作用,分别在两组大白鼠皮肤涂以不同致癌剂,观察不同致癌剂作用下的发癌率,结果如下表13-1,问两组发癌率有无差别?v表13-1 不同致癌剂作用下大白鼠的发癌率v 四格表卡方检验v这四个格子是表中最基本的数据,其余数据都是由这四个数据推算出来的,因此上表资料又被称之为四格表资料。v2检验的基本思想及计算步骤如下: 假设两总体率相等 H0: ,即两总体发癌率相等; H1: ,即两总

4、体发癌率不等; 。212105. 0四格表卡方检验v不妨将H0看作 两样本合并的发癌率(Pc80.33),按合计率推算,本例第一行第一列理论上的致癌数为:v此结果称为理论频数,简称理论数,记为T。由上述过程可推导出理论数的计算公式为:2118.57%33.80711139171nnnTcrrc四格表卡方检验v式中Trc即第r行第c列的理论数,nr为Trc所在行合计,nc为Trc所在列合计。相应地,表中的4个基本数据为实际频数,简称为实际数,记为A。4个基本格子的实际数都不等于理论数。v经上述推导,两样本率的差别就演绎为实际数与理论数之间的差别。即:两样本率相差越大,则实际数与理论数的差别就愈大

5、。四格表卡方检验v卡方检验的统计量是2值,它是每个格子实际频数A与理论频数T差值平方与理论频数之比的累计和。每个格子中的理论频数T是在假定两组的发癌率相等(均等于两组合计的发癌率)的情况下计算出来的,故2值越大,说明实际频数与理论频数的差别越明显,两组发癌率不同的可能性越大。v TTA22)(四格表卡方检验v实际数与理论数的差值服从2分布:在H0条件下,上述 差值属于随机误差,可获得统计量:6.477718. 8)18. 83 (82.33)82.3339(82.13)82.1319(18.57)18.5752(22222TA四格表卡方检验v差2分布表,确定P值并作出推论,以1查2界值表得:v

6、本例26.4777,故0.05P0.01,按水平拒绝H0,接受H1,因而可以认为两种致癌剂作用于大白鼠的发癌率有差别(统计学推论)。结果说明乙组致癌剂的发癌率高于甲组(结合样本率作实际推论)。63.6,84.3201.0205.0连续性校正公式 v2分布是正态变量的一种分布。设 是k个独立的标准正态变量,则 。2界值表就是根据这种连续性分布计算出来的。2统计量计算公式实质上是正态近似法。分类资料是间断性的,由此计算的2值不连续,尤其自由度为1的四格表,求出的概率可能偏小,此时需要对2值进行连续性校正,公式为v kXXX,21kXXXk,222212TTA22)5 . 0(2检验的应用条件 v连

7、续性校正主要针对四格表资料,尤其理论数较小时,连续性校正不可忽略。v四格表2检验的应用条件为:v当n40且所有T5时,用普通的2检验,若所得,改用确切概率法;v当n40但有1T5时,用校正的2检验;v当n40或有T1时,不能用2检验,改用确切概率法。四格表卡方检验的SAS程序 v在SAS/STAT模块中FREQ、TABULATE和SUMMARY等过程可用于分类资料的统计描述,其中FREQ过程兼具统计描述和统计推断的功能,对分类变量计算频数分布,产生从一维到n维的频数表和列联表;对于二维表,可进行2检验,对于三维表,可作Mentel-Hanszel分层分析。FREQ过程是SAS用于分析分类资料的

8、一个常用过程。本节将先向大家介绍FREQ过程的语句及其格式。vFREQ过程的语句基本格式如下: Proc freq data= order= ; Table 分类变量*分类变量/ ; Weight 变量; Run;四格表卡方检验的SAS程序vDATA数据集:规定PROC FREQ语句使用的数据集;vORDERFREQ,按频数递减顺序排列;ORDERDATA,按数据集中出现的顺序排列;ORDERINTERNAL,按内部值排列(缺省);ORDERFORMATTED,按外部格式值排列;vTable语句指定构成表格的变量和表格结构。表格的结构由变量个数和变量排列顺序决定,一个table语句允许列出多个

9、表格结构。PROC FREQ过程中可有多条TABLES语句,TABLES语句后可接多个表格请求式,每个请求式可包含任何数量的变量,从而得到所需的表格。四格表卡方检验的SAS程序v如果TABLES语句缺省,则FREQ过程对数据集中的所有变量都给出相应的一维频数表。不规定任何选项时,若需某变量的一维频数,FREQ给出该变量每一水平的频数、累积频数、频数的百分比和累积百分比;若需二维频数表,FREQ产生交叉分组列表,即包括各格的频数、总频数的格百分数、行频数的格百分数和列频数的格百分数。v请求式由一个或多个用“*”连接起来的变量名组成。几个变量可放在括号中,如:vTABLES A*(B C);等价于

10、TABLES A*B A*C;vTABLES (A-C)*D;等价于TABLES A*D B*D C*D;四格表卡方检验的SAS程序v下列选项可用于TABLES语句中“/”的后面:vOUT数据集:建立一个包含变量值和频数计数的输出数据集。如果TABLES语句中不止一个请求式,数据集的内容相应于TABLES语句中最后一个请求。vCHISQ对每层作c2检验,包括Pearson c2、似然比c2和Mantel-Haenszel c2。此外还给出与c2检验有关的关联指标包括Phi系数、列联系数和Cramers V。对于22表,给出Fisher精确概率。 vAGREE 进行配对c 2检验。 vEXACT

11、 对大于22的列联表计算Fisher精确概率。同时也给出CHISQ选项的全部统计量。 四格表卡方检验的SAS程序vMEASURES对每层的二维表计算一系列关联指标及相应的标准误,包括Pearson和Spearman相关系数,以及Gamma和Kendall系数等。对于22表,还给出常用的危险度指标及其标准误。 vCMH 给出Cochran-Mantel-Haenszel统计量,可检验在调整了TABLES语句中其它变量后,行变量与列变量之间的关联程度。对于22表,FREQ过程给出相对危险度估计及其可信区间,还给出各层关联度指标是否齐性的Breslow检验。 vALL 给出CHISQ、MEASURE

12、S、CMH所请求的全部统计量。 vALPHAp给出检验水准。缺省为0.05。四格表卡方检验的SAS程序vEXPECTED给出期望频数。vDEVIATION给出每格的实际频数与期望频数的差值。vCELLCHISQ给出每格对总c2的贡献,即计算每格的(实际频数-期望频数)2/期望频数。 vCUMCOL给出累积列百分数。vNOFREQ不给出列联表中的格频数。vNOPERCENT不给出列联表中的格百分数。四格表卡方检验的SAS程序vNOROW不给出列联表中各格的行百分数。vNOCOL不给出列联表中各格的列百分数。vNOCUM不给出频数表的累积频数和累积百分数。vNOPRINT不给出表格,但给出CHIS

13、Q、MEASURES或CMH等语句所指定的统计量。vTrend指令系统对2C频数表的C个百分率进行Cochran-Armitage趋势检验;vWEIGHT语句:通常每个观察值提供数值1给频数计数,当WEIGHT语句出现时,每个观察值提供的是该观察值的加权变量值。该值必须非负,但可不必为整数。只能使用一个WEIGHT语句,且该语句作用于所有的表。配对计数资料的卡方检验 v把每一份样本平均分成两份,分别用两种方法进行化验,比较此两种化验方法的结果(两类计数资料)是否有本质的不同;或者分别采用甲、乙两种方法对同一批病人进行检查,比较此两种检查方法的结果(两类计数资料)是否有本质的不同,此时要用配对卡

14、方检验。配对计数资料的卡方检验v现有198份痰标本,每份标本分别用A、B两种培养基培养结核菌,结果如下表。A培养基的培养率为36.36%,B培养基的阳性培养率为34.34%,试问A、B两种培养基的阳性培养率是否相等? v 配对计数资料的卡方检验v本例为配对设计的计数资料。计数资料的配对设计常用于两种检验方法、培养方法、诊断方法的比较。其特点是对样本中各观察单位分别用两种方法处理,然后观察两种处理方法的某两分类变量的计数结果。观察结果有四种情况,可整理成表13-4的形式:两种培养基的培养结果皆为阳性(a);两种培养基的培养结果皆为阴性数(d);A培养基的培养结果为阳性,B培养基的培养结果为阴性(

15、b);A培养基的培养结果为阴性,B培养基的培养结果为阳性(d)。配对计数资料的卡方检验v比较两法结果有无差别,要着眼于两法结果不一致的部分。表中观察变量是对子中两法的差值或差别,由b和c两格数据来反映,总体中与b和c对应的数据可用B和C表示(a格和d格表示两法差值为0,不予考虑)。v当40时,v当40时,需作连续性校正:v 1,)(22cbcb1,) 1(22cbcb行列表资料的2检验 v前面介绍了两个样本率比较的2检验方法,其基本数据有2行2列,称为22表或四格表资料。本节介绍的行列表资料的2检验,用于多个样本率的比较、两个或多个构成比的比较以及双向有序或无序分类资料的检验等。vRC表可以分

16、为双向无序、单向有序、双向有序属性相同和双向有序属性不同4类。双向无序RC表 vRC表中两个分类变量皆为无序分类变量,对于该类资料:若研究目的为多个样本率(或构成比)的比较,可用行列表资料的2检验;若研究目的为分析两个分类变量之间有无关联性以及关系的密切程度时,可以用行列表资料的2检验以及Pearson列联系数进行分析。 单向有序RC表 v有两种形式。一种是RC表中的分组变量是有序的,而指标变量是无序的。此种单向有序RC表资料可用行列表资料的2检验进行分析。另一种情况是RC表中的分组变量是无序的,而指标变量是有序的,此种单向有序RC表资料宜用秩和检验进行分析。双向有序RC表 v双向有序属性相同

17、的RC表 RC表中的两分类变量皆为有序且属性相同。实际上是22配对设计的扩展,此时宜用一致性检验(或称Kappa检验)。v双向有序属性不同的RC表 RC表中的两分类变量皆为有序且属性不相同。对于该类资料,需要分析两有序分类变量间是否存在线性变化趋势,宜用有序分组资料的线性趋势检验。行列均为顺序变量的相关检验 v变量虽然是有序的,但毕竟还不是定量的,需要给有序变量的各等级赋值方可进行相关分析。最简单的赋值法是按顺序赋给秩次(即得分),即给行变量的等级赋值1,2,R和给列变量的等级赋值1,2,C。这样(X,Y)的不同取值就有RC对,表中的RC个频数就是这RC对取值所对应的频数,然后计算Spearm

18、an秩相关系数,并作显著性检验,这是比较粗糙的分析方法。行列均为顺序变量的相关检验vSpearman秩相关分析比较粗糙,这是因为它给有序变量的等级赋值过于简单,不能最大限度地获得有序变量之间的相关信息。而典型相关分析是在使有序变量的相关达到极大的前提下给有序变量的各等级赋值,就是对于表的边缘(指“行合计”与“列合计”)设法产生一双变量正态,从而进行相关分析。因产生各等级的得分值的计算过程中涉及矩阵运算,故手工计算较麻烦,将用SAS程序实现统计计算。一旦有了各等级的得分值后,就可运用求维频数资料相关系数的公式计算了。典型相关分析可以得出几个典型相关系数R, 与每一个典型相关系数对应的检验为卡方检

19、验,其数值为nR2,其中n为RC表中的总频数,与第k个卡方值对应的自由度dfk=R+C-2k-1。行列均为顺序变量的相关检验v与定量资料的相关与回归分析类似,也可对RC表资料中有序变量之间是否存在线性趋势作显著性检验,通常这两种检验的结果是基本一致的,即相关分析结果显著,线性趋势检验结果也显著。可以通过检验实现线性趋势检验,即利用回归分析思想产生的与线性回归有关的卡分量和偏离线性回归的卡分量。行列均为顺序变量的相关检验v首先计算RC表的值,然后将总的值分解成线性回归分量与偏离线性回归分量。若两分量均具有统计学意义,说明两分类变量存在相关关系,但关系不是简单的直线关系;若线性回归分量有统计学意义

20、,偏离线性回归分量无统计学意义时,说明两分类变量不仅存在相关关系,而且是线性关系。 行列均为顺序变量的相关检验v计算 总的值v计算线性回归分量 回归v b为回归系数v计算偏线性回归分量v将总的 值分解成线性回归分量和偏离线性回归分量。若两分量均有统计学意义,说明两分类变量存在相关关系,但关系不是简单的直线关系;若线性回归分量有统计学意义,偏离线性回归分量无统计学意义时,说明两变量不仅存在相关关系,而且是线性关系。221,nn2222回归总回回归RSSSSSbbXXYYXXXYSl*nl,llb2b2本章小节 v2检验是用途很广的一种假设检验方法,这里我们主要学习它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。v本章第一节介绍了四格表的普通2检验

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论