医学统计学卡方秩和_第1页
医学统计学卡方秩和_第2页
医学统计学卡方秩和_第3页
医学统计学卡方秩和_第4页
医学统计学卡方秩和_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

χ2检验

χ2检验是英国统计学家Pearson提出的一种以χ2分布为理论基础,用途非常广泛的假设检验方法。下面介绍常用的几种χ2检验方法。1.1.四格表资料的χ2检验先看一个例子:某医生用A、B两种药物治疗急性下呼吸道感染,A药治疗74例,有效68例,B药治疗63例,有效52例,结果见下表。问两种药的有效率是否有差别?处理有效例数无效例数合计有效率(%)A药6867491.89B药52116382.54合计1201713787.592.

这是一个假设检验问题。这里要检验的是两个样本率所代表的两个总体率是否相等,即检验如下的假设:H0:π1=π2

对于这种两样本率的检验,我们总可以将资料整理为如下格式:+-合计IA11A12n1•IIA21A22n2•合计n•1n•2n

由于这个表格中只有中间四个数是起决定作用的,其余的数均可由这四个数计算出来,故这个表格又称为四格表。3.

为了检验这个假设,我们先计算出合并阳性率:pc=n•1/n(合并阴性率:1-pc=n•2/n)。

如果H0成立,我们假设两个总体率相等,且等于合并率,即H0:π1=π2=pc于是:4.A+A-合计H0成立T+T-IA11A12n1•pc=n•1/nT11=n1•pc

=n1•n•1/nT12=n1•(1-pc)=n1•n•2/nIIA21A22n2•1-pc=n•2/nT21=n2•pc

=n2•n•1/nT22=n2•(1-pc)=n2•n•2/n合计n•1n•2n5.+-合计IA11(T11)A12(T12)n1•IIA21(T21)A22(T22)n2•合计n•1n•2n并称:Tij=ni•(n•j/n)为理论数,而称Aij为实际数。为方便计,将上表整理为:

对于我们要检验:H0:π1=π2=pcPearson给出了如下的统计量:6.Pearson还证明了当N(≥40)充分大时,如上定义的卡方统计量近似地服从自由度为(r-1)(c-1)的卡方分布。于是,可利用这个卡方统计量来对上述假设进行检验。由于这个统计量涉及到理论数T,一般应先计算T的值,然后再计算卡方值。

这个统计量反映的是实际数与理论数之间的差异,如果H0成立,则这个差异不应该很大。因此,如果这个差异大到一定程度,即可认为H0不成立。7.四格表资料卡方检验的专用公式为了便于计算,可先将四格表改写为如下形式:+-合计Iaba+bIIcdc+d合计a+cb+dn于是,卡方统计量可改写为:8.注意:上述公式应满足的条件是:n≥40且所有T≥5。

当n≥40,但若有一个理论数1≤T<5时,用下面的校正公式计算卡方值:当n<40或有一个理论数T<1时,则可采用确切概率法。9.药物疗效合计有效率(%)有效无效甲2823093.33乙合计1241675.004064686.96例

两种药物治疗白色葡萄球菌败血症疗效的试验结果见下表,问两种药物的疗效有无差别?两种药物治疗白色葡萄球菌败血症的有效率H0:π1=π2=pc两种药物的有效率无差别检验水准:α=0.05计算检验统计量:

先计算最小理论数T22=16*6/46=2.09<5,且n=46>40,故用连续性校正公式计算χ2值:10.查χ2界值表,得χ20.05,1=3.84,于是,P>0.05。故按α=0.05的水准,不拒绝H0,尚不能认为两种药物的有效率有差别。11.交叉分类2*2表的关联性分析例

为观察婴儿腹泻是否与喂养方式有关,某医院儿科随机收集了消化不良的婴儿82例,若把该院儿科所有消化不良的患儿视为一个总体的话,则该82例患儿可看作是一份随机样本。对每个个体分别观察腹泻与否和喂养方式两种属性,结果见下表。试分析两种属性的关联性。喂养方式腹泻合计有无人工301040母乳合计172542473582

这里,实际上是用两个率的检验来推断两个定性变量之间的关联性。12.H0:喂养方式与腹泻之间相互独立。检验水准:α=0.05计算检验统计量:

本例最小理论数T12=40*35/82=17.05>5,且总例数n>40,故直接计算χ2值:查χ2界值表,得χ20.05,1=3.84,于是,P<0.05。故按α=0.05的水准,拒绝H0,可以认为婴儿腹泻与喂养方式有关。

13.列联系数对于两个定性变量之间的关联程度,可用以下的Pearson列联系数来度量:

对于四格表资料而言,列联系数r的取值介于0~1之间,r值越接近于1,则说明两变量之间的关系越密切。本例的Pearson列联系数为:为了确定关联程度大小,可用下面的列联系数来度量。14.2.配对四格表资料的χ2检验计数资料配对设计的特点是:将一份标本分为2份,分别用两种方法进行处理,然后将二分类的处理结果用下表形式表示出来。甲法乙法合计+-+aba+b-cdc+d合计a+cb+dn

这里要比较的是两种方法的检测结果是否一致?通过观察,发现a、d反映的是两种方法的一致性,而b、c反映的是两种方法的差异,故只需考虑b、c即可。15.其检验假设为:H0:两种方法的检测结果一致即:两种方法的总体检出率相同检验统计量为:当b+c>40时,可用下式:16.甲法乙法合计+

+25227

合计111526361753例

用两种不同的方法对53例肺癌患者进行诊断,结果见下表,问两种方法的检测结果有无差别?两种方法诊断肺癌的检测结果H0:两种检测方法的总体检出率相同。检验水准:α=0.05计算检验统计量:

本例b=2,c=11,b+c<40,故采用下式计算χ2值:17.查χ2界值表,得χ20.05,1=3.84,于是,P<0.05。故按α=0.05的水准,拒绝H0,可以认为两种方法的阳性检出率不同。18.3.行*列表资料的χ2检验四格表只有两行、两列,如果我们将四格表推广到多行、多列的情形,即可得下面的行*列表:12…k合计IA11A12…A1kn1•IIA21A22…A2kn2•………………SAs1As2…Askns•合计n•1n•2n•kn1)多个率的比较

我们先来看上表中的k=2的情形,即19.这时,需要比较多个率,即需要检验如下的假设:H0:π1=π2=…=πs12合计IA11A12n1•IIA21A22n2•…………SAs1As2ns•合计n•1n•2n其检验统计量仍为:20.穴位治愈数未愈数合计治愈率(%)后溪穴80189881.6人中穴20204050.0腰痛穴合计24386238.71247620062.0例某医院用三种穴位针刺治疗急性腰扭伤,结果见下表,试比较三种穴位针刺效果有无差别。针刺不同穴位治疗急性腰扭伤的治愈率21.H0:π1=π2=π3三组治愈率相等H1:π1、π2

、π3三组治愈率不全相等检验水准:α=0.05计算检验统计量:查χ2界值表,得χ20.05,2=5.99,于是,P<0.05。故按α=0.05的水准,拒绝H0,可以认为三组治愈率不全相等。22.2)多个构成比的比较

对于一般的行*列表的资料:12…k合计IA11A12…A1kn1•IIA21A22…A2kn2•………………SAs1As2…Askns•合计n•1n•2n•kn这里,将每一行都视为一个总体,于是,每个总体都有一个构成比:Aij/ni.。我们要比较的是各总体的构成比是否相同。即H0:各总体的构成比相同,都为合并的构成比:n•j/n23.于是可用Pearson的卡方统计量来对H0进行检验。24.例某研究者欲比较维吾尔族和回族居民的血型分布状况,得下表数据,试比较两个民族的血型构成有无差别。民族血型合计ABOAB维吾尔族4424834161721513回族合计36938448711513558118679032872868两种民族的血型构成比较检验步骤:(1)建立检验假设,确定检验水准H0:两个民族的血型总体构成比相同H1:两个民族的血型总体构成比不同或不全相同

=0.0525.(2)计算检验统计量及自由度计算每一格子的观察频数与对应的期望频数,并代入χ2计算公式,有v=(4-1)(2-1)=3(3)确定P值,作出推断结论

P

0.05,按

=0.05检验水准,拒绝H0,接受H1,可认为两个民族的血型构成比不同或不全相同。26.3)行*列表分类资料的关联性分析例某研究组为了解不同民族血型分布情况,获得的资料见下表,问不同民族的血型是否有差异?不同民族受检者的血型分布民族血型合计ABOAB汉族607045100275回族43321931125满族合计192322208412212586151484(1)建立检验假设,确定检验水准

H0:民族与血型无关(三个民族血型分布相同)H1:民族与血型有关(三个民族血型分布不同)

=0.0527.(2)计算检验统计量及自由度计算每一格子的观察频数与对应的期望频数,并代入χ2计算公式,有v=(3-1)(4-1)=6,(3)确定P值,作出推断结论查

2值表得

20.05,6=12.59,

2

20.05,6,P

0.05,

=0.05的水准,拒绝H0,接受H1,可认为民族与血型有关联性。

28.多个样本率之间的多重比较在上例中,如果我们希望进一步了解究竟是哪些比较组之间的治愈率不相等,这就需要进行多个率之间的两两比较。一般地,在进行多个样本率的比较时,如果检验结果为拒绝H0,即认为多个总体率之间存在差异。为了进一步了解哪两个总体率不同,就需要进行两两比较或称多重比较。若将行*列表拆分为多个2*k表分别进行比较,则将会增大犯I类错误的概率。例如有4个比较组(4个样本率的比较)需进行两两比较,则需拆分成6个2*k表来进行比较,即需作6次检验,每次检验的水准为α=0.05,于是:

29.第1次比较时不犯一类错误的概率为:1-0.05前2次比较均不犯一类错误的概率为:(1-0.05)2……………6次比较均不犯一类错误的概率为:(1-0.05)6

于是,6次比较中至少有一次犯一类错误的概率为:1-(1-0.05)6=0.26这个概率远大于0.05。因此,需要对检验水准α进行调整,其调整原则是:对于k个比较组时,需要比较的次数为:k(k-1)/2;对于各实验组与一个共用对照组比较时,需要比较的次数为:k-1。30.穴位治愈数未愈数合计治愈率(%)后溪穴80189881.6人中穴20204050.0腰痛穴合计24386238.71247620062.0例某医院用三种穴位针刺治疗急性腰扭伤,结果见下表,试比较三种穴位针刺效果有无差别。针刺不同穴位治疗急性腰扭伤的治愈率

经前面的检验已知,三组治愈率不全相等。现在的问题是三组中究竟哪些组之间的总体治愈率不相等?为了解决这个问题,可将上表拆分为以下三个表格:31.穴位治愈数未愈数合计后溪穴801898腰痛穴合计24386210456160穴位治愈数未愈数合计人中穴202040腰痛穴合计2438624458102表2表3穴位治愈数未愈数合计后溪穴801898人中穴202040合计10038138表132.H10:表1中两个对比组的总体治愈率相等H20:表2中两个对比组的总体治愈率相等H30:表3中两个对比组的总体治愈率相等检验水准:α=0.05本例为三个实验组间的两两比较,其调整的检验水准为:计算检验统计量:由表1,得χ21=14.24

由表2,得χ22=30.75

由表3,得χ23=1.2633.当α’=0.0167时,查表得:χ20.0167,1=5.73

由此可知,不能认为表3中的两个比较组的总体治愈率不等,而可以认为其余两个表中所表示的两个比较组的总体治愈率不等。

34.秩和检验假设检验:

参数检验:总体分布已知,需要检验参数是否相等。非参数检验:总体分布未知,需要检验总体分布是否相同。非参数检验的方法很多,秩和检验就是其中一种。1.秩和检验的基本思想例:测得铅作业与非铅作业工人的血铅值(μg/100g)如下(将其各组观测值按从小到大的顺序排列):A(非铅组):567912151921n1=8B(铅作业组)171820253443n2=6

试推断两组血铅值有无差异?35.这个问题等价于:两样本所代表的两总体分布是否相同?或等价于:两样本是否来自同一总体?我们这样来考虑问题:先将所有数据按大小顺序编号—编秩:A(非铅组):567912151921B(铅作业组):171820253443

秩号:1234567891011121314

然后求出各组秩号之和—秩和:Ti

TA=41TB=64这里,秩和反映了该组数据的位置趋势。36.两总体分布相同两组数据位置分布应较均匀TA、TB之间的差异不大两总体分布不同两组数据的位置分布有倾向性差异TA、TB之间的差异较大在进行推断时,按给定的检验水准α,确定相应的界值来判断各组秩和Ti之间的差异大小,从而对各样本所代表的总体是否相同作出推断。37.

2.两组独立样本资料的比较(Wilcoxonranktest)某医院采用随机双盲对照试验,比较新疗法与传统疗法对肾综合征出血热患者的降温效果。试验将病人随机分为两组,分别用新疗法与传统疗法治疗,以用药开始的体温降至正常值时所用的时间(小时)为疗效指标(每天固定时间测量体温四次),结果见下表,试比较两种疗法的退热时间有无差别?38.39.1)建立假设H0:两种疗法退热时间的总体分布相同。2)编秩先将两组数据统一排序,然后编秩,注意遇到数值相等的数据时,需取平均秩。3)求出秩和Ti,并确定T值规定:n1≤n2,令T=T1;若n1=n2,令T=min(T1,T2)4)查表,定P值,作出推断查T界值表,若T落入相应范围,则不拒绝H0,否则拒绝H0。

若n1或n2-n1超出T界值表的范围,则需用下式作近似正态检验。40.当相同秩次的情况较多时,采用下式进行校正:其中tj为相同秩次的个数41.3.两组有序变量(等级资料)的秩和检验例

在一项随机双盲对照临床试验中,研究者欲比较消炎痛与消炎痛+皮质激素制剂(简称合剂)治疗肾小球肾病的疗效;将64例肾小球肾病患者随机分为两组,分别用消炎痛与合剂治疗,全程用药后病情分为完全缓解、基本缓解、部分缓解与无效四个等级,结果见下表,试比较两种药物治疗肾小球肾病的疗效有无不同?42.疗效患者数秩次范围平均秩次秩和消炎痛合剂合计消炎痛合剂(1)(2)(3)(4)(5)(6)(7)=(2)×(6)(8)=(3)×(6)完全缓解219211~211122209基本缓解45922~3026104130部分缓解691531~4538228342无效1541946~6455825220合计273764

T1=1179T2=901两种疗效对肾小球肾病的疗效比较43.1.作假设:H0:两总体分布相同2.编秩3.求秩和4.统计量本例n1=27,超出了T界值表的范围,进行近似正态检验。44.tj为第j次相同秩次的个数,本例中,即为各等级的人数。5.查正态分布表,可知P<0.01,故可认为两总体分布不同。45.多组计量资料的秩和检验(KruskalWallistest)例

某医院用3种不同方法治疗15例胰腺癌患者,每种方法各治疗5例。治疗后生存月数见表10-5第(1)、(3)、(5)栏,问这3种方法对胰腺癌患者的疗效有无差别?

46.表10-53种方法治疗胰腺癌患者的生存月数比较甲法

乙法

丙法生存月数秩次

生存月数秩次

生存月数秩次(1)(2)

(3)(4)

(5)(6)32.5

66

2144

912

32.577.5

1013

55810

1214

77.5810

1315

810Ti34

–60

–26ni5

–5

–547.1.建立检验假设,确定检验水准

H0:3种方法治疗后患者生存月数的总体分布相同H1:3种方法治疗后患者生存月数的总体分布不同

α=0.052.计算检验统计量值。(1)编秩将三组数据由小到大统一编秩,遇相同数值编平均秩次。(2)求各组秩和Ti将表10-5各组秩次相加即得,本例T1=34,T2=

60,T3=

26。(3)计算检验统计量值按下式计算H值。48.当相同秩次出现较多时,由上式求得的H值偏小,可下式进行校正。tj为第j次相同秩次的个数。49.4.确定p值,做出推断(1)查H界值表(三样本比较的秩和检验用)当组数k=3,且各组例数均不大于5时,可查H界值表得到p值。本例k=3,且各组例数均为5,由H界值表查得p<0.05。按照α=0.05水准,拒绝H0,接受H1,故可认为3种方法治疗后胰腺癌患者的生存月数有差别。(2)查卡方界值表当组数或各组例数超出H界值表时,由于H0成立时H值近似地服从自由度为k-1的卡方分布,此时可由卡方界值表得到p值。50.4.配对资料的比较—

符号秩和检验(Wilcoxonsignedranktest)由于配对资料具有配对信息,因此需要考虑差值。

若配对设计考虑的是两种处理间的差别,假定两种处理的效应相同,则差值的总体分布应是对称的,即差值总体的中位数为0;否则,差值总体的中位数就会偏离0.编号xyd=x-y1x1y1d1=x1-y12x2y2d2=x2-y2…………nxnyndn=xn-yn51.

同样,如果配对设计考虑的是自身前后对照间某种处理的效应,假定该处理没有作用,则差值的总体中位数亦应为0,否则,差值总体的中位数就会偏离0.

基于这种思想,对于配对设计的资料,采用如下步骤来进行秩和检验:1)作假设H0:差值总体中位数为0;2)求差值dj=xj-yj;3)编秩:按差值的绝对值从小到大编秩,并标上原来的符号;注意两种情况:(1)|di|=|dj|时,取平均秩,然后分别标上符号;(2)当d=0时,舍去不计。4)分别求出T+、T-,并取T=min(T+,T-);5)查表确定P值,作出推断结论(查表时,n为不为0的差值个数)。52.例

某单位欲研究某保健食品对小鼠是否具有抗疲劳作用,将同种属的小鼠按性别与年龄相同、体重相近配成对子,共14对,并将每对中的两只小鼠随机分配

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论