版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2/6/20231第五讲卡方检验周虹公共卫生学院妇女与儿童青少年卫生学系2/6/20232基本内容
统计描述统计推断(1)统计推断(2)数值变量频数分布集中趋势离散趋势统计图表抽样误差标准误均数可信区间tZF检验秩和检验直线相关与回归偏相关多元线性回归因子分析分类变量相对数(率、比)率的可信区间2检验Logistic回归主要内容一、分类变量概述二、分类变量的统计描述相对数应用相对数的注意事项动态数列率的标准化三、分类变量的统计推断率的标准误和可信区间2检验2/6/20234
x2检验(Chi-squaretest)是一种假设检验方法与其他假设检验的原理相同统计量服从x2分布
(一)成组设计四格表资料的x2
检验
(二)配对设计四格表资料的x2
检验
(三)行x列表x2
检验
(四)趋势x2
检验2/6/20235什么是成组设计四格表资料?
两个独立样本的率或构成比资料例1:某医生想观察一种新药对流感的预防效果,进行了如下的研究,问此药是否有效?(一)成组设计四格表资料的χ2检验2/6/20236四格表的一般形式理论频数E计算公式为:
NR:所在的行合计,NC:所在的列合计SPSS练习加权数据库的建立:分类变量进行样本率的比较时,如果没有原始数据库,只有每种分类变量的样本数和某现象的阳性数,可在SPSS软件中建立数据库;用加权变量的方法建立数据库甲组乙组阳性aba+b阴性cdc+da+cb+dN+/-组cases+甲a+乙b-甲c-乙d+/-组Weight11a12b21c22dSPSS程序:DataWeightCasesWeightcasesby选入
FrequencyvariableOK8四格表卡方检验与配对卡方检验数据库格式组+/-Weight11a12b21c22d甲法乙法Weight11a12b21c22d9数据处理:Data---WeightCases并进行样本率的比较。练习:实习六中练习6.1和6.2数据建立数据库。102/6/202311实际频数(O,observed)和理论频数(E,expected)
实际频数是指调查或实验得来的数值,在例1中,四格表中的四个基本数据都是实际频数。
理论频数是根据假设检验来确定的。也就是H0成立时,计算出的格子中的数。本题中假设实验组和对照组发病率相同,这样可以算出总的患病率:
那么:实验组的理论发病人数为对照组的理论发病人数为…因此,四个格子的理论频数为:208024961.
x2
检验的基本思想148630902/6/202312x2检验的基本公式:▲O:表示实际频数,即实际观察到的例数。▲
E:理论频数,即如果假设检验成立,应该观察到的例数。▲
:求和符号,所有格子的值之和▲自由度:=(R-1)x(C-1)
R行数,C列数
注意:反映的格子数,而不是例数。2/6/202313χ2检验假设两组率相同,(O-E)2/E应该很小。如果实际频数和理论频数相差的很大,χ2值也越大。当χ2值比规定的界值还大时,被认为是小概率事件,就拒绝H0,认为两组率不相同。因为χ2值是对每个格子的(O-E)2/E求和,所以格子数越多,χ2值也越大。即使O和E相差很小,如果格子数多的话,总和也会很大。这就引出了自由度的概念,用以消除不同格子数的影响。
x2检验的原理:2/6/202314χ2分布规律:χ2分布的图形是不对称的,而且只有正值。其形状和自由度有关,自由度越大,则图形右移。随着自由度的增加,分布的偏斜程度趋于缓解,逐渐显露出对称性。随着自由度的继续增大,χ2分布将趋近于对称的正态分布。2/6/2023152/6/202316自由度一定时,P值越小,x2值越大,反比关系。=1时,P=0.05,x2=3.84P=0.01,x2=6.63当P值一定时,自由度越大,x2越大。
P=0.05时,=1,x2=3.84
=2,x2=5.99
2/6/2023172.成组四格表的专用公式
该公式从x2基本公式推导而来,计算较为简单,结果相同。abcd2/6/2023183.成组四格表χ2检验计算公式的适用条件(1)当实验对象总个数n>40,且所有格子的理论频数E≥5时,可用χ2检验基本公式或专用公式计算χ2值。
(2)当n>40,但有任一格子的理论频数E仅满足1<E<5时,需用校正公式:
或:
(3)当n≤40,或有任一格子E≤1时,不能计算χ2值,而需用Fisher确切概率计算法。2/6/202319成组四格表x2
检验的SPSS计算程序AnalyzeDescriptivestatisticscrosstabs2/6/2023202/6/2023212/6/2023224.检验步骤例1:①建立检验假设
H0:两组发病率相同,都等于合计率,即π1=π2H1:两组发病率不同,即π1≠π2②确定显著性水平α=0.05。③计算统计量
n=220>40,所有格子E>5,所以不用校正:χ2=4.125④确定p值
p=0.042<0.05。⑤判断结果:
因为p<0.05,所以在α=0.05的水平上拒绝检验假设H0,接受H1,可以认为两组发病率不同,该新药对预防流感有效。2/6/202323例2.某医师用甲、乙两疗法治疗小儿单纯性消化不良,结果如下。试比较两种疗法效果有无差异。
甲乙两种方法治疗小儿单纯性消化不良效果疗法痊愈数未愈数合计甲26(28.82)7(4.18)33乙36(33.18)2(4.82)38合计629712/6/202324作业1某县为了解农村儿童低出生体重的发生率。在妇幼保健院测量了263名农村户籍儿童出生体重,其中低出生体重为22名,试估计该县农村儿童低出生体重发生率的95%可信区间?25分类变量的统计推断作业2我国城市儿童巨大儿(出生体重大于等于4000克)的发生率为6.5%。某医院测量了336名儿童出生体重数据(出生体重-率.sav),请问该医院调查的儿童巨大儿发生率是否高于我国城市儿童?男孩和女孩巨大儿发生率有无差别?26分类变量的统计推断2/6/202327(二)配对设计四格表资料的2检验例3.有93份咽喉涂抹标本,每份标本分别接种在甲乙两种培养基上,观察其生长情况,结果如下表,请问两种培养基的效果是否不同?甲乙两种培养基的生长情况乙培养法甲培养法合计阳性阴性阳性371047阴性192746合计5637932/6/202328
配对资料:是同一研究对象用不同的方法进行实验或调查,也就是说,这28份标本既进行了甲种方法的培养,又进行了乙种方法的培养。
我们要研究的是两种培养基有什么不同?
所以a和d格子里的数对研究没有多大意义,只要b和c的标本份数相差不大,就可以认为两种培养基效果相同。2/6/202329配对四格表资料χ2检验的公式:当b+c>40时,或
当b+c≤40时,用校正公式:
或2/6/202330配对四格表2检验的SPSS计算程序ANALYZEnonparametrictest2relatedsamplestestpairsMcnemar2/6/202331例3:检验步骤第一步:建立假设H0:B=C=b+c/2
H1:
B‡C
第二步:确定显著性水平=0.05第三步:计算统计量:b+c40时,校正公式:
x2
=(|O-E|-0.5)2/E或x2=(lb-cl-1)2/b+c自由度:=(2-1)x(2-1)=1第四步:确定P值第五步:判断结果2/6/202332(三)行x列表x2
检验
四格表是指只有2行2列,当行数或列数超过2时,统称为行x列表。行x列表x2
检验是对多个样本率(或构成比)的检验。
基本公式:x2
=(O-E)2/E专用公式:自由度:=(R-1)x(C-1)适用条件:表中不宜有1/5以上格子的理论频数小于5,或有一个格子的理论频数小于1。2/6/202333例4.为了解花生黄曲霉素污染,随机观察了三个地区,结果见下表。试问这三个地区花生的黄曲霉素污染率是否不同?
三个地区花生的黄曲霉素污染情况调查地区受检样品合计污染率(%)未污染污染甲6232979.3乙30144431.8丙831127.3合计44408447.62/6/2023342/6/202335初次分娩时的年龄疾病状态<2020~2425~2930~34≥35总计乳腺癌320120610114632203220对照组142244322893109340610246总计174256383904155662613466乳腺癌%0.1840.2140.2590.2980.3510.239例5.初次分娩年龄与乳腺癌的关联性2/6/2023362/6/202337H0:乳腺癌患者与非患者的初次分娩年龄构成相同
(初次分娩时的年龄与乳腺癌无关)H1:乳腺癌患者与非患者的初次分娩年龄构成不同
(初次分娩时的年龄与乳腺癌有关)α=0.05自由度ν=(R-1)×(C-1)=(2-1)(5-1)=4χ2
0.01,4=13.28,χ2=130.2>13.28,p<0.01
所以拒绝检验假设H0,接受H1,认为初次分娩时的年龄与乳腺癌的发生有关联。2/6/202338行×列表χ2检验下结论时应注意:1.三组(或三组以上)样本率经χ2检验,差异有显著性,只说明三组比例数不同或不全相同,不能确定是哪两个比例数不同。2/6/2023392.行×列表χ2检验时,如果有一个格子的理论数小于1,或者有1/5以上的格子的理论数小于5,可以将理论数小于5的组别与相邻的组合并,再进行χ2检验,否则会得到错误结果
解决办法χ2分割法2/6/202340例4.为了解花生黄曲霉素污染,随机观察了三个地区,结果见下表。试问这三个地区花生的黄曲霉素污染率是否不同?
三个地区花生的黄曲霉素污染情况调查地区受检样品合计污染率(%)未污染污染甲6232979.3乙30144431.8丙831127.3合计44408447.62/6/2023412/6/202342比较地区未污染数污染数合计污染率(%)χ2值P1乙30144431.80.09>0.05丙831127.3合计3817552乙+丙38175530.917.83<0.05甲6232979.3χ2分割计算表2/6/202343初次分娩时的年龄疾病状态<2020~2425~2930~34≥35总计乳腺癌320120610114632203220对照组142244322893109340610246总计174256383904155662613466乳腺癌%0.1840.2140.2590.2980.3510.239例5.初次分娩年龄与乳腺癌的关联性(四)趋势x2检验2/6/2023442/6/202345
例5:行x列表x2检验结论是,5个年龄组中至少有2个年龄组的乳腺癌的构成不同。
进一步——关联的性质?(趋势χ2检验)当某因素是按自然顺序的等级分层或者在连续性资料等级化后再分层的情况下,可采用趋势χ2检验以分析比例是否随分层等级而变化的趋势
。
2/6/202346步骤:
假设共有k组,当组号i增加时,对应的Pi是否有增加(或减少)的倾向性。对应于第i组构建一个记分变量Si:k个组的记分常选1,2,3,……k2/6/202347H0:P1,P2,……Pk之间没有倾向性H1:P1,P2,……Pk随记分变量S1,S2,……Sk
的增加而增加(或减少),即Pi=α+βSi成立。
检验的统计量为:υ=12/6/202348χ2=128.8,p<0.001
所以拒绝检验假设H0,认为随着初次分娩的年龄增加,乳腺癌的比例上升。表11.8避孕措施与避孕措施来源之间的关系避孕措施避孕措施来源合计医务人员推荐自己选择他人推荐避孕环口服药安全套其它424108145911762032111023458117345945392529238合计7686926442104H0:采用何种避孕措施与其来源无关联H1:采用何种避孕措施与其来源有关联
查附表18(2界值表),本例2=189.8>12.59
P<0.05,按α=0.05水准,拒绝H0,接受H1,两变量的关联性有统计学意义,
认为育龄妇女采用的避孕措施与其来源有关联
除关联性检验外,用于说明两个变量之间关系的密切程度,需计算关联系数(contingencycoefficient,符号C),
计算公式为结合2检验结果可知,虽然该地育龄妇女采用的避孕措施与其来源有关联,但关联系数显示两变量关联的密切程度并不大。用SPSS统计软件的crosstabs程序可以作两个无序分类变量的关联检验,并通过点击statistics----nominal----contingencycoefficient得到关联系数。附:四格表资料的确切概率法
四格表资料当有理论数小于1或者总样本例数不足40时,不能用卡方检验,而要用Fisher确切概率法(Fisherexactprobability)。确切概率法的基本思想
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论