版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分类变量资料的统计推断熊伟计数资料的统计推断第二节分类变量资料的统计推断一.率的抽样误差和标准误率的抽样误差:由于随机抽样造成的样本率和总体率之间以及各样本率之间存在的差异。率的抽样误差用率的标准误来表示:计数资料的统计推断二.总体率的估计:一、点值估计:π=p二、区间估计:按照一定的概率(可信度)估计总体率(π)所在的范围(区间)。1、近似正态分布法:条件:np且n(1-p)均大于5,此时样本率p近似正态分布,可用正态分布曲线下的区间面积规律来估计π。公式:计数资料的统计推断例1:某医院用复方当归注射液静脉滴注治疗脑动脉硬化症188例,其中显效83例,试估计复方当归注射液显效率的95%和99%的可信区间。
n=188,p=83/188=0.441595%CI为:99%CI为:计数资料的统计推断2、查表法:n≤50,p或1-p接近于0或1,np或n(1-p)≮5时,可用查表法。
例:从某校随机抽取26名学生,发现有4名感染沙眼,试求该校沙眼感染率的95%可信区间。本例n=26x=4,查附表得其95%CI为(0.04,0.35)。计数资料的统计推断三.样本率与总体率比较的u检验:应用条件:样本含量足够大;样本率p或者1-p均不太小时,此时样本率的分布近似正态分布样本率与总体率的比较两样本率的比较:计数资料的统计推断(一)样本率和总体率的比较计数资料的统计推断例2:根据以往经验,一般胃溃疡患者有20%发生胃出血症状。现某医院观察65岁以上溃疡病人304例,有31.6%发生胃出血症状,问老年胃溃疡患者是否较容易胃出血?计数资料的统计推断:π=0.2
:π>0.2单侧
,拒绝,接受,差别有统计学意义。可认为老年人胃溃疡出血率较一般胃溃疡患者更易出血。计数资料的统计推断(二)两个率的比较的u检验计数资料的统计推断例3:某医院观察65岁以上溃疡病人100例,有20例发生胃出血症状,观察20-65岁的胃溃疡患者100例有12例发生胃出血症状。问老胃溃疡患者是否较中年患者容易胃出血?
H0:π1=π2
H1:π1≠π2
α单=0.05计数资料的统计推断本例:n1=100,x1=12,p1=0.12;n2=100,x2=20,p2=0.2合并率查u界值表,得P>0.05,按双侧α=0.05水平不拒绝H0,差别无统计学意义,尚不能认为老年患者和中年患者的胃溃疡出血率有差别。计数资料的统计推断第三节卡方检验
χ2检验(Chi-squaretest),英国人K.Pearson(1857-1936)是现代统计学的创始人之一,于1900年提出的一种具有广泛用途的统计方法,可用于两个或多个率间的比较构成比的比较计数资料的关联度分析拟合优度检验等等。
本章仅限于介绍两个和多个率或构成比比较的χ2检验。计数资料的统计推断一、卡方检验的基本思想(1)疗法死亡生存合计病死率(%)盐酸苯乙双胍26(a)178(b)
204(a+b)
12.75(p1)安慰剂
2(c)
62(d)
64(c+d)
3.13(p2)合计
28(a+c.)240(b+d.)
268(a+b+c+d=n)
10.45(pc)例1两种疗法的心血管病病死率的比较2×2表或四格表(fourfoldtable)实际频数A(actualfrequency)(a、b、c、d)
理论频数T(theoreticalfrequency)(H0:π1=π2=pc):a的理论频数=(a+b)×pc=(a+b)×[(a+c.)/n]=nRnC/n=21.3b的理论频数=(a+b)×(1-pc)=(a+b)×[(b+d.)/n]=nRnC/n=182.7c的理论频数=(c+d)×pc=(c+d)×[(a+c)/n]=nRnC/n=6.7d的理论频数=(c+d)×(1-pc)=(c+d)×[(b+d.)/n]=nRnC/n=57.3计数资料的统计推断疗法死亡生存合计盐酸苯乙双胍26(21.3)178(182.7)204安慰剂2(6.7)62(57.3)
64合计28240268四格表资料的卡方检验的自由度为1卡方检验的自由度的计算公式:计数资料的统计推断一、卡方检验的基本思想(2)
各种情形下,理论与实际偏离的总和即为卡方值(chi-squarevalue),它服从自由度为ν的卡方分布。
卡方检验的基本思想:检验A与T之间的差异,如果A与T之间差异越大,则计算出来的χ2值就越大,查χ2界值表得出的P值就越小,如果小于了α=0.05,则拒绝H0假设。计数资料的统计推断3.847.8112.59P=0.05的临界值χ2分布(chi-squaredistribution)计数资料的统计推断χ2检验的基本公式上述基本公式由Pearson提出,因此软件上常称这种检验为Peareson卡方检验,下面将要介绍的其他卡方检验公式都是在此基础上发展起来的。它不仅适用于四格表资料,也适用于其它的“行×列表”。计数资料的统计推断二、四格表专用公式(1)
为了不计算理论频数T,
可由基本公式推导出,直接由各格子的实际频数(a、b、c、d)计算卡方值的公式:计数资料的统计推断二、四格表专用公式(2)
2(1)~u2
=2.19492=4.82(n>40,所有T
5时)疗法死亡生存合计病死率(%)盐酸苯乙双胍26(a)178(b)
204(a+b)
12.75(p1)安慰剂
2(c)
62(d)
64(c+d)
3.13(p2)合计
28(a+c.)240(b+d.)
268(a+b+c+d=n)
10.45(pc)计数资料的统计推断三、连续性校正公式(1)
χ2分布是一连续型分布,而行×列表资料属离散型分布,对其进行校正称为连续性校正(correctionforcontinuity),又称Yates校正(Yates'correction)。⑴当n≥40,而1≤T<5时,用连续性校正公式⑵当n<40或T<1时,用Fisher精确检验(Fisherexacttest)校正公式:计数资料的统计推断三、连续性校正公式(2)因为1<T<5,且n>40时,所以应用连续性校正χ2检验计数资料的统计推断四、配对四格表资料的χ2检验例5.某研究室用甲、乙两种血清学方法检查410例确诊的鼻咽癌患者,得结果如下表,问两种方法的检出率有无差别?两种血清学检验结果乙法合计甲法+-+261(a)110(b)371-8(c)31(d)39合计269141410计数资料的统计推断配对四格表资料的χ2检验也称McNemar检验(McNemar'stest)H0:两种方法的总体检查率相同,即B=CH1:两种方法的总体检查率不同,即B≠Cα=0.05计数资料的统计推断配对四格表资料的χ2检验公式推导计数资料的统计推断五、行×列(R×C)表资料的χ2检验前述四格表,即2×2表,是最简单的一种R×C表形式。因为其基本数据有R行C列,故通称行×列表或R×C列联表(contingencytable),简称R×C表。计数资料的统计推断R×C表的计算举例例3.将133名尿路感染患者随机分为3组,分别接受甲乙丙三种疗法,一个疗程后观察其疗效,结果如下,问3种疗法的尿培养阴转率有无差别。疗法阴转人数阳性人数合计阴转率(%)甲30144468.2乙9364520.0丙32124472.7合计716213353.4计数资料的统计推断基本公式通用公式R×C表的χ2检验通用公式代入基本公式可推导出:自由度=(行数
1)(列数
1)计数资料的统计推断R×C表的计算举例例3.将133名尿路感染患者随机分为3组,分别接受甲乙丙三种疗法,一个疗程后观察其疗效,结果如下,问3种疗法的尿培养阴转率有无差别。疗法阴转人数阳性人数合计阴转率(%)甲30144468.2乙9364520.0丙32124472.7合计716213353.4计数资料的统计推断1、建立假设,确定检验水准H0:3种疗法的阴转率相同,即π1=π2=π3H1:3种疗法的阴转率不全相同,即π1,π2,π3不同或不全相同α=0.052、计算统计量3、确定P值,做出统计推断查χ2界值表,得P<0.005,按α=0.05水准拒绝H0,接受H1,差别有统计学意义,故认为3种疗法对尿路感染疗效不全相同。计数资料的统计推断例4.随机选择239例胃、十二指肠疾病患者和187例健康输血员,其血型分布见下表,问胃、十二指肠疾病患者与健康输血员血型分布有无差别。分组ABABO合计胃、十二指肠疾病患者
476620106239健康输血员
52541962187合计9912039168426计数资料的统计推断1、建立假设,确定检验水准H0:胃、十二指肠疾病患者与健康输血员血型分布的构成比相同H1:胃、十二指肠疾病患者与健康输血员血型分布的构成比不同α=0.052、计算统计量3、确定P值,做出统计推断查χ2界值表,得P>0.05,按α=0.05水准,不拒绝H0,差别无统计学意义,尚不能认为胃、十二指肠疾病患者与健康输血员血型分布的构成比不同。计数资料的统计推断R×C表χ2检验的应用注意事项
1.对R×C表,若较多格子(1/5)的理论频数小于5或有一个格子的理论频数小于1,则易犯第一类错误。 出现某些格子中理论频数过小时怎么办?(1)增大样本含量(最好!)(2)删去该格所在的行或列(丢失信息!)(3)根据专业知识将该格所在行或列与别的行或列合并。(丢失信息!甚至出假象)计数资料的统计推断R×C表χ2检验的应用注意事项2.多组比较时,若效应有强弱的等级,如+,++,+++,最好采用后面的非参数检验方法。χ2检验只能反映其构成比有无差异,不能比较效应的平均水平。
3.行列两种属性皆有序时,可考虑趋势检验或等级相关分析。计数资料的统计推断4、当多个样本率(或构成比)比较的卡方检验,结论为拒绝H0假设,只能认为各总体率(或总体构成比)之间总的说来有差别,但不能说明它们彼此之间都有差别,或某两者间有差别。
若想进一步了解哪两者的差别有统计学意义,可用χ2分割法。Χ2分割法是利用χ2值的可加性原理,把R×C表分割为若干个分割表,这些分割表的自由度之和等于原R×C表的自由度,其χ2值之和十分接近原表的χ2值。分割的方法是按最近的原则,把阳性率(或构成比)相差不大的样本分割出来,计算其χ2值。当差别无统计学意义时,就把它们合并为一个样本,再把它与另一较接近的样本比较,如此进行下去直至结束。计数资料的统计推断例3.将133名尿路感染患者随机分为3组,分别接受甲乙丙三种疗法,一个疗程后观察其疗效,结果如下,问3种疗法的尿培养阴转率有无差别。疗法阴转人数阳性人数合计阴转率(%)甲30144468.2乙9364520.0丙32124472.7合计716213353.4计数资料的统计推断
对于例3:3种疗法尿路感染患者的阴转率的分析结果作进一步的两两比较。由于甲
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论