列联表的独立性检验ppt课件_第1页
列联表的独立性检验ppt课件_第2页
列联表的独立性检验ppt课件_第3页
列联表的独立性检验ppt课件_第4页
列联表的独立性检验ppt课件_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2.5 列联表的独立性检验列联表的独立性检验1rjijinn12r12,(,),(,).,( ,.sijijA BArA AABsB BBnA Bn设为两个定性变量, 有 个不同水平有 个不同水平观测 次 各水平组合)出现频数为1siijjnn11=rsijijnnn一、二维 列联表rs列表如下:令: 吸烟与肺癌列联表吸烟与肺癌列联表患肺癌患肺癌不患肺癌不患肺癌总计总计吸烟吸烟606032329292不吸烟不吸烟3 311111414总计总计63634343106106为了调查吸烟能否对肺癌有影响,对为了调查吸烟能否对肺癌有影响,对6363位位肺癌患者及肺癌患者及4343位非患者位非患者( (

2、对照组调查了对照组调查了其中的吸烟人数其中的吸烟人数. .2 22 2列列联表联表二、二维 列联表的独立性检验rs1,1,2,siijjir1,1,2, .rjijijs12r12,.( ,.sijijijA BAA AABB BBA BA B设为随机变量, 取值取值为取值)的概率为,为的边缘分布列表如下:111.rsijij,1,2,1,2,.ijijA Bir js 若独立0,HA B原假设 :独立1,HA B备则假设 :不相互独立( ,).ijijA Bnnn的观测值为对应的列联表(观测次数,为观测频数,理论频数0H 成立,0ijijHnnn 如果成立, 较大时,理论频数与相应的观测频数

3、相差均不应很大。,1,2, ,1,2,.ijijir js 即为成立, ),.ijiji j即为至少 (使1,2, ,1,2, .ijijnnir js 即成立,对检验基本思想:2211-Qrsij(观测频数 理论频数)理论频数2 Q. c拒绝域形式0.HQ2 如果成立,的值应较小 称为称为Pearson 2统计量统计量 ,.jiijnnnn因为2221111Qijijrsrsijijijijijijn nnnnn nnn nnn nn检验统计量检验统计量211-rsijijijijn nn ()0211.HQr - ) s-2如果成立,渐近服从自由度为(()的分布ijn0.Hijijnn成立

4、例1 随机抽取某校男生35名,女生31,进展体育达标考核,结果如下表 问体育达标程度能否与性别有关?体育达标考核情况表体育达标考核情况表达达 标标 未未 达达 标标 合合 计计 男男 1515 2020 3535 女女 1313 1818 3131合合 计计 2828 3838 66660H :体育达标程度与性别无关1H:体育达标程度与性别有关1 1建立假设建立假设2211Qijijrsijijn nnnn nn其结论为:体育达标程度与性别无关.因此在0.05显著性程度下,接受原假设.22222(15 14.85)(2020.15)(13 13.15)(18 17.85)14.8520.151

5、3.1517.850.006QR函数函数chisq.test ( ) xchisq.test(x, correct=F)R R程序如下程序如下输出结果为输出结果为 Pearsons Chi-squared testdata: x X-squared = 0.0057, df = 1, p-value = 0.9397因此在0.05显著性程度下,接受原假设.92页例页例2.14本人看本人看2.5.2 Fisher准确检验不满足时, 用Pearson近似效果很差, 普通采用Fisher准确检验.在运用Pearson 独立性检验时, 要留意格子2的期望频数小于5的格子数不超越总格子数的20%,且没有

6、一个格子的期望频数小于1Fisher准确检验对于单元频数小的表格特别适用四表格的Fisher准确检验频数四表格BBAA11n12n22n21n合计1+n2+n+1n+2n+n对应的概率四表格1BBAA11p12p22p21p合计1+p2+p+1p+2p假设边缘频数1212nnnn,固定1121nn,分别服从二项分布1+12+2()()B npB np,和,1= (|),pP B A其中,表示有属性A的个体中有属性B的条件概率2(|)pP B A表示没有属性A的个体中有属性B的条件概率12=,pp如果那么属性A和属性B相互独立即有属性A的个体中有属性B的个体的频率与没有属性A的个体中有属性B的个

7、体的频率应该没有显著的差别.112112+nnnn即有12,pp如果表示有属性A的个体中有属性B的比例高12,pp如果表示有属性A的个体中有属性B的比例低112112+nnnn即112112+nnnn即四表格的检验问题, 即属性A和B的独立性检验问题有012112(1):=,:HppHpp012112(2):=,:HppHpp012112(3):=,:HppHppFisherFisher准确检验的统计量准确检验的统计量假设边缘频数1212nnnn,都固定ijNij是第 行 列格子的频数统计量ijN 服从超几何分布1212(=)iiinnnnijijnnC CP NnC121211122122!

8、nnnnn nnnn11N若选为统计量,11121211111(=)nnnnnnC CP NnC121211122122!nnnnn nnnn现实上, 确定了, 其它三个值也就确定了11n1212=3nnnn5,3,5,那么 有下面四种取值ijn2 3 3 2 4 1 5 02 3 3 2 4 1 5 03 0 2 1 1 2 0 33 0 2 1 1 2 0 3利用公式可以计算出 取2, 3, 4, 5的概率11n11(=2)P N3!5!3!5!=0.17857148!2!3!3!0!在独立的原假设下, 取这些值的概率是不同的, 但各种取值都不会是小概率事件,11N11N过大或过小都能够回

9、绝原假设回绝域方式为111111NcNcFisher准确检验的计算比较复杂, 所以普通用于n比较小的四表格.例:为了解某种新药的疗效能否提高, 将42位病人随机分组注射两种药物, 实验结果如下表所示药物有效无效合计新8210旧141832合计222042R R程序如下程序如下新药疗效没有提高0H :新药疗效有提高1H: xfisher.test(x, alternative = greater)输出结果输出结果为为Fishers Exact Test for Count Data data: x p-value = 0.04849 alternative hypothesis: true od

10、ds ratio is greater than 1 95 percent confidence interval: 1.010589 Inf sample estimates: odds ratio 4.950963回绝原假设,以为备那么假设成立.优势比优势比优势比:优势比:属性A时,有属性B与没有属性B的优势.称条件概率(|)P B A与(|)P B A之比为当个体有1111112121(|)=.(|)pppP B ApP B App2122(|)=(|)pP B ApP B A类似地,为当个体没有属性A时, 有属性B与没有属性B的优势,称这两个优势的比为优势比11221221p pORp

11、 p以下结论成立:假设在有属性A的个体中有B的比例高, 那么优比OR1;假设在有属性A的个体中有B的比例低,那么优比OR1假设属性A和属性B相互独立, 那么优比OR=1.优势比大于1与新药较旧药疗效有提高等价.三、三维 列联表rs t 1212r1212, ,( ,1,2,1,2,1,2.sstijkijkA B CBB BB AA AABB BB CC CCA B Cir jskt设为随机变量, 取值为取值取值为取值为取值,)的概率为,( , ,).ijkijkA B Cnnn的观测值为对应的列联表(观测次数,为观测频数,理论频数关于某项政策调查所得结果关于某项政策调查所得结果 观念:赞成观

12、念:不赞成 低收入中等收入高收入低收入中等收入高收入男201055810女25157279大致可以看出女性赞成的多,低收入赞成的多大致可以看出女性赞成的多,低收入赞成的多.,.ABC设 表示性别,取值 男 , 女表示收入取值 低 中等高表示态度取值 赞成 , 不赞成三维 列联表2 3 2 观念赞成低收入中等收入高收入男202015女25157观念不赞成低收入中等收入高收入男5810女279性别男低收入中等收入高收入赞成201015不赞成5810性别女低收入中等收入高收入赞成25157不赞成279部分表即为固定其中一个变量在某一水平上,其余两个变量构成的二维列联表.部分表C固定取值 赞成C固定

13、取值 不赞成A固定 取值 男A固定 取值 女低收入中等收入高收入男252825女272216 (.将某个变量在它各个水平上上的部分表结合对应的频数相加),所得到的另外两变量的二维列联表边缘表,.A B关于的边缘表低收入中等收入高收入赞成201015不赞成5810,.B C关于的边缘表部分表是固定一个变量在其不同一水平上的二维列联表.边缘表是忽略一个变量形成另外两个变量的二维列联表.四各种独立性及关系, ,.A B C(1)相互独立, ,1,2,1,2,1,2,.ijkijkA B Cir js kt 相互独立,.A BC(2)联合独立于,1,2,1,2,1,2,.ijkijkA BCir js

14、 kt 联合独立于,.A CBB CA类似可定义联合独立于 及联合独立于(3),.CkAB在第 水平上和 条件独立|,|ijkij kijkkP AA BBCC|2,=,1,2,1,2,.i kjkij kikj kkCkABir js 在第 水平上和 条件独立(4),.CAB给定 时和 条件独立,.CAB在 的每一水平上和 均是条件独立|=,1,2,1,2,1,2,.ij kikj kir js kt ,1,2,1,2,1,2,.i kjkijkkir js kt 或(5).AB和 是边缘独立的.ABAB和 的边缘表中, 和 是相互独立的=,1,2,1,2,.ijijir js 几种独立性的

15、关系, ,.A B C(1)相互独立任意两个联合独立于 第三个变量(2) ,.CABA CBABC给定时, 和 条件独立联合独立于给定时, 和 条件独立ABACBCB和 是边缘独立的,(3) 和 联合独立于和 是边缘独立的,.五 各种独立性的检验方法. 1 检验函数.ijkijkijknmn为观测频数,为理论频数的估计22111-Qrstijkijkijkijknmm()021.HQfrst2 如果成立,渐近服从自由度为-需要独立估计的概率数目 的分布01:, ,:, ,HA B CHA B C(1)相互独立,不相互独立1111,2),(1,2,),(1,2,).1ijrstkijkijkir

16、jskt 需估计(因为1112frstr- ) (s-trstrst ()+( -1),ijkijk 用计算1111,1rstijkijk因为01:,:,.HA BCHA BC(2)联合独立与 ,不联合独立与1,2,1,2,),(1,2,).ijkir jskt需估计(11(1)(1)frstrs-ttrs ()+( -1),ijkijk用计算(-1)+( -1).rst需估计的参数数目为. 2 计算.ijkijkijkijkijknmnmn理 论 频 数的 估 计用 观 测 频 数,即,ijkijkijkijknnnnnn其它的类似可得:六. 检验顺序, ),), ).A CBAC BA B

17、CAB CB CABC A否则 检验三种联合独立形式联合独立于 记为(联合独立于 记为(联合独立于 即记为(若某两种联合独立成立三种形式的条件独立成立.,),),).CABAC BCABCAB ACBACBA BC给定 时和 条件独立记(给定 时和 条件独立记(给定 时和 条件独立记(, , ,)A B CA B C检验相互独立记为(其它的独立形式均成立., ,A B C检验是否相互独立?其它的独立形式均成立检验三种联合独立中,某两种联合独立是否成立?三种形式的条件独立成立.检验三种形式的条件独立是否成立?是是否否收入的收入的“低、低、“中、中、“高用代码高用代码1 1、2 2、3 3代表;代

18、表;性别的性别的“女、女、“男用代码男用代码0 0、1 1代表;代表;观念观念“赞成和赞成和“不赞成用不赞成用1 1、0 0代表。代表。有些计算机数据对于这些代码的方式不限可以有些计算机数据对于这些代码的方式不限可以是数字,也可以是字符串。是数字,也可以是字符串。 七七. .在在SPSSSPSS数据表中的方式数据表中的方式表是二维的,用变量和样本值表示表是二维的,用变量和样本值表示先将定性变量数量化:先将定性变量数量化:A * B * C CrosstabulationCount272216652518155852403112301ATotalC1123BTotalChi-Square Tes

19、ts.111a2.946.1112.946.0001.983123Pearson Chi-SquareLikelihood RatioLinear-by-LinearAssociationN of Valid CasesC1ValuedfAsymp. Sig.(2-sided)0 cells (.0%) have expected count less than 5. The minimumexpected count is 14.62.a. A * C * B CrosstabulationCount2252752025745527152281018152540971610515191231

20、01ATotal01ATotal01ATotalB12301CTotalChi-Square Tests1.767b1.184.8511.3561.8081.179.241.1791.7331.18852.673c1.412.2421.622.6731.412.517.311.6571.41840.354d1.552.0511.821.3551.551.716.411.3431.55831Pearson Chi-SquareContinuity CorrectionaLikelihood RatioFishers Exact TestLinear-by-LinearAssociationN of Valid CasesPearson Chi-SquareContinuity CorrectionaLikelihood RatioFishers Exact TestLinear-by-LinearAssociationN of Valid CasesPearson Chi-SquareContinuity CorrectionaLikelihood RatioFishers Exact TestLinear-by-LinearAssociationN of Valid CasesB123Valued

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论