分类变量资料的假设检验_第1页
分类变量资料的假设检验_第2页
分类变量资料的假设检验_第3页
分类变量资料的假设检验_第4页
分类变量资料的假设检验_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类变量资料的假设检验一、u检验(一)样本率与总体率比较(二)两样本率比较二、χ2检验(一)四格表资料的χ2检验(二)行×列(R×C)表资料的χ2检验(三)配对计数资料的χ2检验(四)行×列表的χ2分割(五)四格表的确切概率法1一、u检验

2(一)样本率与总体率比较

样本率与总体率的假设检验的目的是推断样本率所代表的未知总体率π与已知总体率π0(一般指理论值、标准值或经大量观察得到的稳定值)是否相等,其u检验公式为:

式中,p为样本率,π0为已知总体率,为根据总体率求得的率的标准误。3

例5-6由临床经验得知,一般溃疡病患者的胃出血率为20%,现某医师观察65岁以上溃疡病人250例,其中80例发生胃出血症状,问老年患者胃出血率与一般患者是否不同?

4

H0:=0

,即老年患者胃出血率与一

般患者相同;

H1:0

,即老年患者胃出血率与一

般患者不同;

α=0.055本例0=20%,n=250,x=80

将数据代入上式:6用绝对值查u界值表(t界值表中v=∞栏):

4.743>3.29=u0.001/2

P<0.001

按α=0.05,拒绝H0,接受H1,可认为老年患者胃出血率与一般患者不同,老年溃疡病患者更容易出现胃出血。7(二)两样本率比较

两样本率比较的假设检验的目的是推断两样本所来自的两总体的总体率是否相等。

8其u检验公式为:

9例5-7为比较工人和农民的高血压患病率,分别调查了50—59岁男性工人和50—59岁男性农民1281人和387人,其高血压患者分别为386人(患病率30.13%)和65人(患病率16.80%)。问工人与农民的高血压患病率有无不同?

10H0:1=2,即工人和农民高血压患病

率相同;

H1:12,即工人和农民高血压患病

率不同;

α=0.05

11本例p1=30.13%,x1=386,n1=1281;p2=16.80%,x2=65,n2=387;

12将有关数据代入u检验公式

查u界值表(双侧,t界值表中=∞栏):

5.174>3.29=u0.001/2

P<0.001

按α=0.05,拒绝H0,接受H1,可认为5059岁男性工人和5059岁男性农民高血压患病率不同,工人患病率高于农民。13

二、χ2检验

14χ2检验的基本公式为:

式中A为实际频数(actualfrequency),

T为理论频数(theoreticalfrequency).

15(一)四格表资料的χ2检验

例5-8为观察药物A、B治疗某病的疗效,某医师将100例该病病人随机分为两组,一组40人,服用A药;另一组60人,服用B药。结果发现:服用A药40人中有30人治愈;服用B药的60人中有11人治愈。问A、B两药的疗效有无差别?

16χ2检验的基本步骤如下:

H0:1=2,即A、B两药疗效相同;

H1:12,即A、B两药疗效不同;

α=0.05

17计算理论频数:理论频数指的是在无效假设成立的前提下,理论上在实际频数位置上的频数。本例如无效假设成立,两药疗效相同,则其合计的治愈率为41%。据此,A药组理论治愈人数=40×41%=16.4,B药组理论治愈人数=60×41%=24.6;同理,合计未愈率为59%,依此算得A药组和B药组未愈人数分别为23.6和35.4。各理论频数计算见上表中括号内的数字。理论频数的计算过程可用下式表示:18

上式中,R(row)表示行,C(column)表示列;表示第R行第C列的理论数;nR和nC分别代表第R行和第C列的合计数;N为总合计数。

19

例如:第一行第一列的理论数

T12、T21、T22也可仿此算出。

20将表5-2中的理论数和实际数代入χ2检验公式:

χ2检验自由度的计算公式为:

v=(行数-1)(列数-1)=(R-1)(C-1)

本例:(2-1)(2-1)=121查附表4,χ2界值表:

31.86>7.88

χ2>χ2

0.005,1

P<0.005

P<0.005,按α=0.05,拒绝H0,接受H1,可认为两药疗效不同,A药疗效优于B药。

22对于四格表资料,可用四格表专用公式简化计算,省去求理论频数的过程.

式中,a、b、c、d为四格表的四个实际频数据,N为总合计数,N=a+b+c+d。对四格表资料与χ2检验公式完全等价。仍以上表资料为例:

23将上表数据代入上式

计算结果与χ2检验公式计算结果相同24四格表χ2检验的条件:

1.最小的T≥5,N≥40,用普通χ2检验;

2.有1≤T<5,N≥40,用校正的χ2检验;

3.有T<1或N<40,用确切概率法。

25校正χ2检验的计算公式:

26例5-9某医师比较甲、乙两药疗效,甲药治疗患者31例,有效23例;乙药治疗同一种病患者48例,有效46例。试问两药疗效是否相同?

27H0:1=2,即甲、乙两药疗效相同;

H1:12,即甲、乙两药疗效不同;

α=0.05

28由于,故四格表中有一格1<T〈5,且n=79>40,所以χ2值需校正。将上表数据代入校正检验公式

v=(R-1)(C-1)=(2-1)(2-1)=129查附表4,χ2界值表:

5.02<6.14<6.63

χ20.025,1<χ2<χ20.010,1

0.025>P>0.01

按α=0.05,拒绝H0,接受H1,可认为甲、乙两药疗效不同,乙药疗效优于甲药。30(二)行×列(R×C)表资料的χ2检验

31检验统计量计算公式

32本例为三个率的比较,3×2=6,为六格表,属于行×列表,可用行×列表χ2检验。

H0:1=2=3,即三种方案有效率相同;

H1:三种方案的有效率不同或不全同;

α=0.05。33将上表数据代入行×列表卡方检验公式

v=(R-1)(C-1)=(3-1)(2-1)=2

34查附表态,χ2界值表:

22.80>10.60

χ2>χ20.005,2

P<0.005

P<0.005,按α=0.05,拒绝H0,接受H1,可认为三种方案治疗病毒性肝炎有效率不同或不全同。

35

本例并非多个率的比较,而是两组资料构成比的比较,2×4=8,为八格表,属于行×列表,可用行×列表χ2检验。

H0:两民族居民ABO血型构成相同;

H1:两民族居民ABO血型构成不同;

α=0.0536将上表数据代入行×列表卡方检验公式

v=(R-1)(C-1)=(2-1)(4-1)=3

37

查χ2界值表:

26.15>12.84

χ2>χ20.005,3

P<0.005

P<0.005,按α=0.05,拒绝H0,接受H1,可认为两民族居民ABO血型构成不同,维吾尔族A、B型血者相对多些,回族O型者相对多些。

38上表为同时按照两个属性进行交叉分类所形成的双向有序表(A属性分为有序的R类,B属性分为有序的C类),称之为R×C列联表(contingencytable)。因其仍属于R×C表,故χ2值的计算与普通R×C表χ2值计算无异。

H0:年龄与冠状动脉粥样硬化程度间

相互独立(即两者间无关联);

H1:年龄与冠状动脉粥样硬化程度间

有关联;

α=0.05

39将上表数据代入行×列表卡方检验公式

v=(R-1)(C-1)=(4-1)(4-1)=9

40查χ2界值表:

71.43>23.59

χ2>χ20.005,9

P<0.005

P<0.005,按α=0.05,拒绝H0,接受H1,可认为年龄与冠状动脉粥样硬化程度间有关联。

41若需进一步定量表达两变量间关联程度的大小,可选用列联系数rp,其计算公式如下:

42式中,χ2为统计量,n为样本含量。rp的取值在0∽1之间,0表示完全独立,1表示完全关联。本例列联系数为:

表明年龄与冠状动脉粥样硬化之间存在一定的关联性。

43行×列表χ2检验注意事项:441.χ2检验要求理论频数不宜太小,否则将导致分析的偏性。R×C表资料不宜有1/5以上格子的理论频数小于,或有一个格子的理论频数小于1。对理论频数太小的资料,有几种处理方法:45(1)增大样本含量;

(2)删去理论频数太小的行与列;

(3)将太小的理论频数所在的行或列的实际频数与性质相近的邻行邻列的实际频数进行合并。三种方法中,后两法可能会损失部分信息,也会损害样本的随机性。不同的合并方式有可能影响推断结论,故不宜作为常规方法使用。46

2.多个样本率(或构成比)比较的χ2检验,结论为拒绝检验假设,只能认为至少两个相差大的样本率(或构成比)所代表的总体率(或构成比)之间有差别,还不能说明它们彼此之间都有差别。进一步的分析可作χ2分割。

47(三)配对计数资料的χ2检验

481.两种培养基培养结果之间有无联系?

49此时可将表5-8看成双向有序列联表,做关联性分析。因此表只有四个格子,故用普通四格表χ2检验来分析。

H0:两种培养基培养结果相互独立

(无联系);

H1:两种培养基培养结果有关联

(有联系);

α=0.05

50将上表数据代入四格表卡方检验公式

V=(R-1)(C-1)=(2-1)(2-1)=1

51查χ2界值表:

3.84<4.77<5.02

χ2

0.05,1<χ2<χ2

0.025,1

0.05>P>0.025

P<0.05,按α=0.05,拒绝H0,接受H1,可认为甲、乙两种培养基培养结果有关联(联系)。

52本例还可用φ(phi)系数进一步定量表达两变量关联程度的大小,φ系数的计算公式如下:

式中,χ2为χ2统计量,n为样本含量。φ的取值在-1与+1之间,其绝对值越大,关联程度越高;而符号则表示相互关联的方向,符号的正负与ad-bc的符号一致。

53

本例:

由于12×15>16×2,故φ取正值,因此两种培养基培养结果之间存在正关联性,即甲培养基培养结果阳性(或阴性),乙培养基培养结果也趋向于阳性(或阴性)。542.两种培养基培养结果之间有无差别?

55检验统计量计算公式为:

分子中的1为连续性校正数,若b+c≥40是时,可省略。

56

H0:B=C,即两种培养基培养结果

阴性数相同;

H1:B≠C,即两种培养基培养结

果阴性数不同;

α=0.05

57将上表数据代入上式

58查χ2界值表:

9.39>7.88

χ2>χ20。005,1

P<0.005

P<0.005,按α=0.05,拒绝H0,接受H1,两培养基结果之间有差别,乙培养基阳性数高于甲培养基。59(四)行×列表的χ2分割

60例5-14对例5-10三种方案治疗急性无黄疸型病毒性肝炎的有效率作进一步的两两比较。

本例西药组与中药组两组有效率差异最小,将它们分割出来,作χ2检验得χ2=0.936,v=1,P>0.05,差别无统计意义,可将两有效率合并,资料重组为新的四格表,再作χ2检验得χ2=21.854,1,P<0.05。61χ2分割的原理是χ2值及其自由度的可加性。本例原总表χ2=22.80,2;χ2分割法合计的χ2=22.79,v=2,两者一致。若前后不一致,就说明分割方法可能有误。

62(五)四格表的确切概率法

63本法的基本思想是:在四格表周边合计不变的条件下,用下式直接计算表内四个数据的各种组合出现的概率。

式中a、b、c、d为四个实际频数,N为总样本含量,!这阶乘的符号。

64例5-15为了解两种治疗方法对原发性肝癌的疗效,某医师随机把病人分成两组,一组使用5-氟尿嘧啶+辅助治疗(简称5-氟组),另一组使用安慰剂+辅助治疗(简称安慰组)。治疗结果按缓解死亡划分。第1组12人,5人缓解,7人死亡;第2组11人,1人缓解,10人死亡。试问两组疗效是否不同?

65本例n<40,且四格表中有两格1<T<5,宜用四格表的确切概率法。

H0:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论