版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
8.3.2独立性检验(1)复习引入2.2×2列联表定义一对分类变量X和Y,我们整理数据如表所示:XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d上表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是事件{Y=0}和{Y=1}的
;最后一列的前两个数分别是事件{X=0}和{X=1}的_;中间的四个数a,b,c,d是事件{X=x,Y=y}(x,y=0,1)的
;右下角格中的数n是
.频数频数频数样本容量3.等高堆积条形图等高堆积条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高堆积条形图展示列联表数据的
特征,依据_____________的原理,我们可以推断结果.频率频率稳频率稳定于概率例1:为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.回顾上节课的例1学校数学成绩合计不优秀(Y=0)优秀(Y=1)甲校(X=0)331043乙校(X=1)38745合计711788依据频率稳定于概率的原理,我们可以推断甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率.探究二:独立性检验课本126页思考:你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?这一结论有可能是错误的.事实上,“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.这里,P(Y=1|X=0)表示从{X=0}中随机选一个样本点,该样本点属于{X=0,Y=1}的概率;P(Y=1|X=1)表示从{X=1}中随机选一个样本点,该样本点属于{X=1,Y=1}的概率.考虑以Ω为样本空间的古典概型.设X和Y定义在Ω上,取值于{0,1}的成对分类变量.我们希望判断事件{X=1}和{Y=1}之间是否有关联.我们需要判断下面的假定关系是否成立,通常称H0为零假设或原假设.抽象简化列联表如下:Y=0Y=1X=0X=0,Y=0X=0,Y=1X=1X=1,Y=0X=1,Y=1{X=1}与{Y=1}是否有关联呢?注意到{X=0}与{X=1}对立,{Y=0}与{Y=1}对立,零假设或原假设:由条件概率的定义可知,零假设H0等价于由于{X=0}和{X=1}为对立事件,故有因此,零假设H0等价于{X=1}和{Y=1}独立.Y=0Y=1X=0X=0,Y=0X=0,Y=1X=1X=1,Y=0X=1,Y=1根据已经学过的概率知识,下面的四条性质彼此等价:{X=0}与{Y=0}独立{X=0}与{Y=1}独立{X=1}与{Y=0}独立{X=1}与{Y=1}独立②如果这些性质成立,我们就称分类变量X和Y独立.因此,我们可以用概率语言,将零假设改述为
H0:分类变量X和Y独立.思考:如何基于②中的四个等式及下列2×2列联表中的数据,构造适当的统计量,对成对分类变量X和Y是否相互独立作出推断?XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+da+b+c+dXY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+da+b+c+d{X=0,Y=0}发生的频数的期望值(或预期值)为思考:如何衡量频数的期望值Ea与实际值a的差别呢?如果零假设H0成立,下面四个量的取值都不应该太大:反之,当这些量的取值较大时,就可以推断H0不成立.显然,分别考虑上面四个差的绝对值很困难,我们需要找到一个既合理又能够计算分布的统计量,来推断H0是否成立.一般来说,若频数的期望值较大,则差的绝对值也会较大;而若频数的期望值较小,则相应的差的绝对值也会较小.为了合理地平衡这种影响,我们将四个差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量:该表达式可化简为上述表达式是χ2的计算公式,
χ2读作“卡方”.卡方统计量思考:卡方统计量有什么用呢?随机变量χ2取值的大小可作为判断零假设H0是否成立的依据,当它比较大时推断H0不成立,否则认为H0成立.χ2计算公式:思考:究竟χ2大到什么程度,可以推断H0不成立呢?或者说,怎样确定判断χ2大小的标准呢?根据小概率事件在一次试验中不大可能发生的规律,上面的想法可以通过确定一个与H0相矛盾的小概率事件来实现.在假定H0的条件下,对于有放回简单随机抽样,当样本容量
n充分大时,统计学家得到了χ2的近似分布.忽略χ2的实际分
布与该近似分布的误差后,对于任何小概率值α,可以找到
相应的正实数xα,使得下面关系成立:我们称xα为α的临界值,这个临界值就可以作为判断χ2大小的标准.概率值α越小,临界值xα越大.由P(χ2≥xα)=α可知,只要把概率值α取得充分小,在假设H0的情况下,事件{χ2≥xα}是不大可能发生的.根据这个规律,如果该事件发生,我们就可以推断H0不成立.不过这个推断有可能犯错误,但犯错误的概率不会超过α.xαα概率值α越小,临界值xα越大.基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值.α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828例如,对于小概率值α=0.05,我们有如下的具体检验规则:(1)当χ2≥x0.05=3.841时,我们推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过0.05;(2)当χ2<x0.05=3.841时,我们没有充分证据推断H0不成立,可以认为X和Y独立.解:零假设为H0:分类变量X与Y相互独立,即两校学生的数学成绩优秀率无差异.例:依据小概率值α=0.1的χ2独立性检验,分析例1(课本126)中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异?学校数学成绩合计不优秀(Y=0)优秀(Y=1)甲校(X=0)331043乙校(X=1)38745合计711788α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828根据小概率值α=0.1的χ2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两校的数学成绩优秀率没有差异.例题课本131页根据表中的数据,计算得到思考:例1(课本126)和本例都是基于同一组数据的分析,但却得出了不同的结论,你能说明其中的原因吗?事实上,如前所述,例1只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率有差异的结论,并没有考虑由样本随机性可能导致的错误,所以例1的推断依据不太充分.在本例中,我们用χ2独立性检验对零假设H0进行了检验.
通过计算,发现χ2≈0.837小于α=0.1所对应的临界值2.706,因此认为没有充分证据推断H0不成立,所以接受H0,推断出两校学生的数学成绩优秀率没有显著差异的结论.这个检验结果意味着,抽样数据中两个频率的差异很有可能是由样本随机性导致的.
因此,只根据频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的.由此可见,相对于简单比较两个频率的推断,用χ2独立性检验得到的结果更理性、更全面,理论依据也更充分.练习1.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:手术心脏病合计又发作过未发作过心脏搭桥39157196血管清障29167196合计68324392试根据上述数据计算χ2≈__________,能否根据小概率值α=0.1的独立性检验作出这两种手术对病人又发作心脏病的影响有差别的结论________(填“能”或“不能”).1.779不能χ2<2.076=x0.1,根据小概率值α=0.1的χ2独立性检验,我们没有充分的证据推断H0不成立,即认为这两种手术对病人又发作心脏病的影响无差别.课本134页2.为考察某种药物A对预防疾病B的效果,进行了动物试验,根据105个有放回简单随机样本的数据,得到如下列联表:依据α=0.05的独立性检验,分析药物A对预防疾病B的有效性.药物A疾病B合计未患病患病未服用291544服用471461合计7629105α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828解:零假设为H0:药物A与预防疾病B无关联,即药物A对预防疾病B没有效果,根据列联表中数据,经计算得到根据小概率值α=0.05的χ2独立性检验,没有充分证据推断H0不成立,即可以认为药物A对预防疾病B没有效果.则χ2约为(
)1.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:
优秀及格合计甲班113445乙班83745合计197190随堂检测2.下表是某届某校本科志愿报名时,对其中304名学生进入高校时是否知道想学专业的调查表:
知道想学专业不知道想学专业合计男生63117180女生4282124合计105199304根据表中数据,则下列说法正确的是______.(填序号)①性别与知道想学专业有关;②性别与知道想学专业无关;③女生比男生更易知道所学专业.②所以性别与知道想学专业无关.3.学校举行运动会,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者,调查发现,男、女志愿者中分别有10人和6人喜爱运动,其余人不喜爱运动.(1)根据以上数据完成以下2×2列联表:
运动的喜好合计喜爱运动不喜爱运动
男10
16女6
14合计
30解:
喜爱运动不喜爱运动合计男10616女6814合计161430(2)根据列联表的独立性检验,能否在犯错误的概率不超过0.10的前提下认为性别与喜爱运动有关?解:零假设为H0:喜爱运动与性别无关,由已知数据可得因为1.1575<2.706=x0.1,根据小概率值α=0.1的独立性检验,没有充分证据推断H0不成立,即认为性别与喜爱运动无关.4.为了探究学生选报文、理科与对外语的兴趣是否有关,某同学调查了361名高二在校学生,调查结果如下:理科生对外语有兴趣的有138人,无兴趣的有98人,文科生对外语有兴趣的有73人,无兴趣的有52人.试根据小概率值α=0.1的独立性检验,分析学生选报文、理科与对外语的兴趣是否有关?解:零假设为H0:选报文、理科与对外语的兴趣无关.列出2×2列联表对外语兴趣选报文、理科合计理文有13873211无9852150合计236125361代入公式得∵1.871×10-4<2.706=x0.1,根据小概率值α=0.1的χ2独立性检验,没有充分证据推断H0不成立,即选报文、理科与对外语的兴趣无关.5.为了检验两种不同的课堂教学模式对学生的成绩是否有影响,现从高二年级的甲(实行“问题—探究式”模式)、乙(实行“自学—指导式”模式)两个班中每班任意抽取20名学生进行测试,他们的成绩(总分150分)如下.甲班:88929598103108110112118118
120121126132134135140142146148乙班:9697104107108108114117119121124124125127132135135137138
147记成绩在120分以上(包括120分)为优秀,其他的成绩为一般,试根据小概率
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教版八年级物理下册《第七章力》单元检测卷带答案
- 人教版小学数学一年级上册全册教案
- 三年级下册数学表格式教案
- 学校校长事迹及现实表现材料
- 充电桩短路、故障自燃应急预案
- 高一化学达标训练:第三单元化学能与电能的转化
- 2024高中地理第三章自然地理环境的整体性与差异性1自然地理要素变化与环境变迁课时作业含解析湘教版必修1
- 2024高考化学一轮复习第三章金属及其化合物第三讲铁及其重要化合物规范演练含解析新人教版
- 2024高考地理一轮复习专练42城市化对地理环境的影响含解析新人教版
- 二零二五年度绿色生态工程项目采购树木合同范本3篇
- 焦作市中佰宜佳材料有限公司年产15万吨煅后焦项目环评报告
- 2023年健康管理师(一级)《基础知识》考试题库资料(300多题)
- 硬件研发产品规格书mbox106gs
- GB/T 6913-2023锅炉用水和冷却水分析方法磷酸盐的测定
- 项目部布置图方案
- 珠海某啤酒厂拆除工程施工方案
- 专业技术报告鉴定意见专业技术报告鉴定意见八篇
- 专业技术职务聘任表(2017年版) 人才引进 居转户 中级职称 高级职称 技师 上海户口
- 人教PEP版三年级上册英语 Unit 2 教案 课时一
- GB/T 21835-2008焊接钢管尺寸及单位长度重量
- 消防安全风险辨识清单
评论
0/150
提交评论