分类推断1-第四版预防衡明莉_第1页
分类推断1-第四版预防衡明莉_第2页
分类推断1-第四版预防衡明莉_第3页
分类推断1-第四版预防衡明莉_第4页
分类推断1-第四版预防衡明莉_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

预防医学-----------------医学统计学分类变量资料的统计推断公卫教研室衡明莉hmlyes@[学习内容]第一节率的抽样误差与可信区间第二节率的统计学推断一、样本率与总体率比较的u检验二、两个样本率比较的u检验第三节卡方检验一、卡方检验的基本思想二、四格表专用公式三、连续性校正公式四、配对四格表资料的χ2检验五、行×列(R×C)表资料的χ2检验计数资料的统计学推断[学习目标]熟悉率的抽样误差及总体率的估计熟悉率的u检验掌握χ2检验的基本思想掌握四格表资料的适用条件,掌握四格表资料的χ2检验及校正方法的计算熟悉行*列表资料独立性χ2检验掌握配对资料的χ2检验的计算熟悉行列表χ2检验时的注意事项一、率的抽样误差和标准误从同一个总体中随机抽出观察数相等的多个样本,样本率与总体率、各样本率之间往往会有差异,这种差异被称作率的抽样误差。率的抽样误差用率的标准误表示。计算公式例11.1某地随即抽查了368名5岁儿童,检查得龋齿患病率为62.5%,试计算该地5岁儿童龋齿患病率的标准误该地5岁儿童龋齿患病率标准误为2.52%二、总体率的估计1.点估计:不考虑抽样误差π=p2.区间估计:按一定得置信度,用样本率估计总体率所在范围1.查表法2.正态近似法1.n>502.np>5,且n(1-p)>5总体率(

)95%的可信区间:p1.96sp

总体率(

)99%的可信区间:p

2.58sp

例11.2试估计例11.1儿童龋齿患病率95%置信区间n=368,大样本,np=368*62.5%=230>5n(1-p)=368(1-62.5%)=138>5上限:0.625+1.96*0.0252=0.6744下限:0.625-1.96*0.0252=0.57561.样本率与总体率的比较

u=公式第二节率的u检验条件:1.n>502.np>5,且n(1-p)>51.建立假设,确定检验水准H0:π=π0H1:π≠π0α=0.05π0=0.1326一般π农村p=0.0935例11.31.n=460>502.np=43>5,且n(1-p)=460-43>5?2.选择检验方法,计算检验统计量3.确定P值,作出结论2.47>1.96,P<α,按0.05检验水准拒绝H0,差异有统计学意义;根据目前样本信息,尚不能认为农村人群和一般人群高血压患病率相同例,一般健康成人α-地中海贫血基因携带率:π0=0.076,某医生随机抽取山区健康成人125人,测得12人有此基因,携带率为p=12/125=0.096问:山区人群和一般人群的携带率是否相同?1.建立假设,确定检验水准H0:π=π0H1:π≠π0α=0.05(双侧)π0=0.076一般π山区p=0.0962.确定检验方法,计算检验统计量3.确定P值,作出结论P>α,按0.05检验水准不拒绝H0,目前尚不能认为山区人群和地中海人群α-地中海贫血基因携带率不同2.两个样本率的比较公式条件:1.n1>50,n1p1>5,且n1(1-p1)>52.n2>50,n2p2>5,且n2(1-p2)>5π1男π2女p2=5.66%例11.41.n1=62>50,n1p1=12>5,且n1(1-p1)=50>52.n2=53>50,n2p2=3<5,且n2(1-p2)=50>5p1=19.35%?1.建立假设,确定检验水准H0:π1=π2H1:π1≠π2α=0.052.确定检验方法,计算检验统计量3.确定P值,作出结论2.173>1.96,P<0.05,按α=0.05检验水准拒绝H0,差异有统计学意义;根据目前样本信息,目前尚不能认为男女HBV感染率相同小结率的抽样误差(率的标准误)总体率的区间估计(注意:如果计算获得的可信区间下限小于0%,上限大于100%,则将下限直接定为0%,上限直接定为100%。)

率的u检验(大样本率的u检验)小结1.样本率也有抽样误差,率的抽样误差的大小用σp或Sp来衡量。2.当n足够大,π和1-π均不太小,有nπ≥5和n(1-π)≥5时,的分布近似服从正态分布。3.总体率的可信区间是用样本率估计总体率的可能范围。当p分布近似正态分布时,可用正态近似法估计率的可信区间。4.根据正态近似原理,可进行样本率与总体率以及两样本率比较的u检验。第三节

2检验

2检验(Chi-squaretest)是现代统计学的创始人之一,英国人K.Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法。用途:推断两个(多个)总体率或构成比之间有无差别两个分类变量之间有无关联性频数分布拟合优度的检验(正态性检验)。四格表资料的

2检验在2检验中,最简单的是四格表资料的

2检验,什么是四格表资料?凡是两个率或构成比资料都可以看做四格表资料。目的:推断两个总体率(构成比)是否有差别。四格表资料的

2检验

例11.5为了解某中草药预防流感的效果,将410名观察者随机分为两组,观察结果如表11-1,问两组流感发病率是否相同?表11-1两组人群流感发病率的比较

在表11-1中,4019050130四个格子的数据是整个表最基本的数据,其余数据都是从这四个基本数据推算出来的,故称为四格表资料,四格表资料的一般形式见下表

表8-10四格表资料的一般形式

分组发生数未发生数合计甲aba+b乙cdc+d合计a+cb+dn注:此按钮是配对链接过来的,和本次课内容无关当两个样本率不同时,有两种可能:1.π1=π2,P1,P2的不同是由抽样误差造成2.π1≠π2,P1,P2的不同是由本质差异造成的π1服药p1π2未服药p2?1.建立假设,确定检验水准H0:π1=π2H1:π1≠π2

α=0.052.选择检验方法,计算检验统计量H0成立时,两组发病率相同π1=π2=ππ1=a/a+b,π2=c/c+d,π=(a+c)/na的理论频数:c的理论频数:同理两组不发病的概率为(b+d)/n分组发生数未发生数合计甲aba+b乙cdc+d合计a+cb+dnb的理论频数:d的理论频数:式中,TRC为第R行C列的理论频数

nR为相应的行合计

nC为相应的列合计综上所述每个格子的理论频数可由下式求得:检验统计量2

=

(A-T)2/T

2=(40-50.490)2/50.49+(190-179.51)2/179.51+(50-39.51)2/39.51+(130-140.49)2/140.49=6.36检验统计量

2值表示观察值与理论值之间的偏离程度,反映了实际频数与理论频数的吻合程度。卡方值越大,说明实际频数与理论频数的差别越大,两组发病率不同的可能性越大。若检验假设H0:π1=π2成立,四个格子的实际频数A与理论频数T相差不应该很大,理论上可以证明

(A-T)2/T服从

2分布,计算出

2值后,查表判断这么大的卡方是否为小概率事件,以判断零假设是否成立。如果

2值很大,则其相对应的P值很小,若P<α,则反过来推断A与T相差太大,超出了抽样误差允许的范围,从而怀疑H0的正确性,继而拒绝H0,接受其对立假设H1,即π1≠π2。检验统计量2

=

(A-T)2/T

2=(40-50.490)2/50.49+(190-179.51)2/179.51+(50-39.51)2/39.51+(130-140.49)2/140.49=6.36=(2-1)*(2-1)=1检验的自由度取决于可以自由取值的格子数目,而不是样本含量n。四格表资料只有两行两列,

=1,即在周边合计数固定的情况下,4个基本数据当中只有一个可以自由取值。由公式还可以看出:

2值的大小还取决于(A-T)2/T个数的多少(严格地说是自由度ν的大小)。由于各(A-T)2/T皆是正值,故自由度ν愈大,

2值也会愈大;所以只有考虑了自由度ν的影响,值才能正确地反映实际频数A和理论频数T的吻合程度。3.确定P值,作出推断结论

2=6.36>

20.05,1=3.84,P<α,按0.05检验水准拒绝H0,差异有统计学意义;根据现有资料,尚不能认为服药组的感染率与对照组相同。

表11.4男女HBV检测情况表

分组感染未感染合计男125062女35053合计15100115

2检验流程图假设(两组相同)两组数据合并确定实际频数A,计算理论频数TA-T(A-T)2(A-T)2/T

2=(A-T)2/T即为

2的基本公式四格表专用公式

为了不计算理论频数T,可由基本公式推导出,直接由各格子的实际频数(a、b、c、d)计算卡方值的公式:四格表检验专用公式组别阳性阴性合计A组aba+bB组cdc+d合计a+cb+da+b+c+d组别发病人数未发病人数合计用药组40(50.49)190(179.51)230对照组50(39.51)130(140.49)180合计90320410表11-1两组人群流感发病率的比较

2分布是一连续型分布,而四格表资料属离散型分布,由此计算得的

2统计量的抽样分布亦呈离散性质。为改善

2统计量分布的连续性,则进行连续性校正。四格表资料检验的校正公式条件:任一格的1≤T<5,且n≥40时,需计算校正值。基本公式

专用公式

2分布是一连续型分布,而四格表资料属离散型分布,由此计算得的

2统计量的抽样分布亦呈离散性质。为改善

2统计量分布的连续性,则进行连续性校正。

四格表资料检验的校正公式四格表资料

2检验公式选择条件:

1.n≥40,T≥5,不校正的理论或专用公式,公式11.7或11.10;2.n≥40,1≤T<5,校正公式,公式11.11或11.12;3.n<40或T<1,直接计算概率(fisher’s确切概率法)

2连续性校正仅用于=1的四格表资料,当>1时,一般不作校正。例11.6:表11-2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论