版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGE§3独立性检验必备学问·自主学习导思1.什么是2×2列联表?2.什么叫作独立性检验?1.2×2列联表设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=A1;变量B:B1,B2=B1.2×2列联表如表:B1B2总计A1aba+bA2cdc+d总计a+cb+da+b+c+d其中,a表示变量A取A1,且变量B取B1时的数据;b表示变量A取A1,且变量B取B2时的数据;c表示变量A取A2,且变量B取B1时的数据;d表示变量A取A2,且变量B取B2时的数据.2.独立性检验(1)定义:利用随机变量χ2来推断“两个分类变量有关系”的方法称为独立性检验.(2)χ2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),其中n=a+b+c+d.(3)在统计中,用以下结果对变量的独立性进行检验,①当χ2≤2.706时,没有充分的证据推断变量A,B有关联,可以认为变量A,B是没有关联的;②当χ2>2.706时,有90%的把握推断变量A,B有关联;③当χ2>3.841时,有95%的把握推断变量A,B有关联;④当χ2>6.635时,有99%的把握推断变量A,B有关联.有人说:“我们有99%的把握认为吸烟和患肺癌有关,是指每100个吸烟者中就会有99个患肺癌的.”你认为这种观点正确吗?为什么?提示:观点不正确.99%的把握说明的是吸烟与患肺癌有关的程度,不是患肺癌的百分数.1.辨析记忆(对的打“√”,错的打“×”)(1)在独立性检验中,若χ2越大,则两个分类变量有关系的可能性越大.()(2)2×2列联表是借助两个分类变量之间频率大小差异说明两个变量之间是否有关联关系.()(3)应用独立性检验的基本思想对两个变量间的关系作出的推断肯定是正确的.()提示:(1)√(2)√(3)×2.下面2×2列联表的χ2的值为________.Beq\x\to(B)总计A8412eq\x\to(A)21618总计102030【解析】χ2=eq\f(30\b\lc\(\rc\)(\a\vs4\al\co1(8×16-2×4))2,10×20×12×18)=10.答案:103.有甲、乙两个班级进行同一门课程的考试,依据学生考试成果优秀和不优秀统计成果后,得到如下的列联表.班级与成果列联表:优秀不优秀总计甲班103545乙班73845总计177390由上表供应的数据可知,学生的成果与班级之间________.(填“有关系”或“没有关系”)【解析】由公式得χ2=eq\f(90×(10×38-7×35)2,17×73×45×45)≈0.653.因为0.653<2.706,所以我们没有理由说成果与班级有关系.答案:没有关系关键实力·合作学习类型一用2×2列联表分析两变量间的关系(数学运算)【典例】在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请依据以上数据作出饮食习惯与年龄的列联表,并利用eq\f(a,a+b)与eq\f(c,c+d)推断二者是否有关系.【思路导引】结合题干数据写出列联表求解eq\f(a,a+b)和eq\f(c,c+d).【解析】2×2列联表如下:年龄在六十岁以上年龄在六十岁以下总计饮食以蔬菜为主432164饮食以肉类为主273360总计7054124将表中数据代入公式得eq\f(a,a+b)=eq\f(43,64)=0.671875.eq\f(c,c+d)=eq\f(27,60)=0.45.明显二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.2×2列联表的应用(1)作2×2列联表时,关键是对涉及的变量分清类别.留意应当是4行4列,计算时要精确无误.(2)利用2×2列联表分析两变量间的关系时,首先要依据题中数据获得2×2列联表,然后依据频率特征,即将eq\f(a,a+b)与eq\f(c,c+d)eq\b\lc\(\rc\)(\a\vs4\al\co1(或\f(b,a+b)与\f(d,c+d)))的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:y1y2x11018x2m26则当m取下面何值时,X与Y的关系最弱()A.8B.9C.14D.19【解析】选C.由10×26≈18m,解得m≈14.4,所以当m=14时,X与Y的关系最弱.类型二用χ2进行独立性检验(数学运算)【典例】随着生活水平的提高,人们的休闲方式也发生了改变.某机构随机调查了n个人,其中男性占调查人数的eq\f(2,5).已知男性中有一半的人的休闲方式是运动,而女性中只有eq\f(1,3)的人的休闲方式是运动.(1)完成下列2×2列联表:运动非运动总计男性女性总计n(2)若有95%的把握认为“性别与休闲方式有关”,那么本次被调查的人数至少有多少?【思路导引】(1)依据2×2列联表的定义填表;(2)计算χ2,利用临界值建立不等关系,求n的值.【解析】(1)补全2×2列联表如表:运动非运动总计男性eq\f(1,5)neq\f(1,5)neq\f(2,5)n女性eq\f(1,5)neq\f(2,5)neq\f(3,5)n总计eq\f(2,5)neq\f(3,5)nn(2)若有95%的把握认为“性别与休闲方式有关”,则χ2>3.841.由于χ2=eq\f(n\b\lc\(\rc\)(\a\vs4\al\co1(\f(n,5)·\f(2n,5)-\f(n,5)·\f(n,5)))\s\up12(2),\f(2n,5)·\f(3n,5)·\f(2n,5)·\f(3n,5))=eq\f(n,36),故eq\f(n,36)>3.841,即n>138.276.又由eq\f(1,5)n∈Z,故n≥140.故若有95%的把握认为“性别与休闲方式有关”,那么本次被调查的人数至少有140人.解决一般的独立性检验问题的步骤【变式训练】近年来,国资委、党委高度重视扶贫开发工作,坚决实行中心扶贫工作重大决策部署,在各个贫困县全力推动定点扶贫各项工作,取得了主动成效,某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的运用面积以及相应的管理时间的关系如表所示:并调查了某村300名村民参加管理的意愿,得到的部分数据如表所示:情愿参加管理不情愿参加管理男性村民15050女性村民50(1)求出相关系数r的大小,并推断管理时间y与土地运用面积x是否线性相关?(2)是否有99.9%的把握认为村民的性别与参加管理的意愿具有相关性?参考公式:土地运用面积x(单位:亩)12345管理时间y(单位:月)810132524r=eq\f(\i\su(i=1,n,)(xi-\x\to(x))(yi-\x\to(y)),\r(\i\su(i=1,n,)(xi-\x\to(x))2\i\su(i=1,n,)(yi-\x\to(y))2)),χ2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),其中n=a+b+c+d.临界值表:P(χ2≥k0)0.1000.0500.0250.0100.001k02.7063.8415.0246.63510.828参考数据:eq\r(635)≈25.2.【解析】依题意:eq\x\to(x)=eq\f(1+2+3+4+5,5)=3,eq\x\to(y)=eq\f(8+10+13+25+24,5)=16,故(xi-eq\x\to(x))(yi-eq\x\to(y))=(-2)×(-8)+(-1)×(-6)+1×9+2×8=47,(xi-eq\x\to(x))2=4+1+1+4=10,(yi-eq\x\to(y))2=64+36+9+81+64=254,则r=eq\f(\i\su(i=1,5,)(xi-\x\to(x))(yi-\x\to(y)),\r(\i\su(i=1,5,)(xi-\x\to(x))2)\r(\i\su(i=1,5,)(yi-\x\to(y))2))=eq\f(47,\r(10)×\r(254))=eq\f(47,2\r(635))≈0.933,故管理时间y与土地运用面积x线性相关.(2)依题意,完善表格:情愿参加管理不情愿参加管理总计男性村民15050200女性村民5050100总计200100300计算得χ2=eq\f(300×(150×50-50×50)2,200×100×200×100)=eq\f(300×5000×5000,200×100×200×100)=18.75>10.828,故有99.9%的把握认为村民的性别与参加管理的意愿具有相关性.课堂检测·素养达标1.在一项中学生近视状况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有劝服力()A.平均数与方差B.回来分析C.独立性检验D.概率【解析】选C.推断两个分类变量是否有关的最有效方法是进行独立性检验.2.(教材二次开发:练习改编)在探讨打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法中正确的是()A.100个心脏病患者中至少有99人打鼾B.1个人患心脏病,则这个人有99%的概率打鼾C.100个心脏病患者中肯定有打鼾的人D.100个心脏病患者中可能一个打鼾的人都没有【解析】选D.这是独立性检验,在犯错误的概率不超过0.01的前提下认为“打鼾与患心脏病有关”.这只是一个概率,即打鼾与患心脏病有关的可能性为99%.3.已知变量X,Y,由它们的样本数据计算得到χ2的观测值k≈4.328,χ2的部分临界值表如表:P(χ2≥k0)0.100.050.0250.0100.005k02.7063.8415.0246.6357.879以下推断正确的是()A.在犯错误的概率不超过0.05的前提下认为变量X,Y有关系B.在犯错误的概率不超过0.05的前提下认为变量X,Y没有关系C.有97.5%的把握说变量X,Y有关系D.有97.5%的把握说变量X,Y没有关系【解析】选A.因为观测值k≈4.328>3.841,而在观测值表中对应于3.841的是0.05,所以在犯错误的概率不超过0.05的前提下认为变量X,Y有关系.4.为大力提倡“厉行节约,反对奢侈”,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如表的列联表:做不到“光盘”能做到“光盘”男4510女3015附:P(χ2≥k0)0.100.050.025k02.7063.8415.024χ2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d))参照附表,得到的正确结论是()A.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到′光盘′与性别有关”B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到′光盘′与性别无关”C.有90%以上的把握认为“该市居民能否做到′光盘′与性别有关”D.有90%以上的把握认为“该市居民能否做到′光盘′与性别无关”【解析】选C.由表计算得χ2=eq\f(100(45×15-3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 保险经纪人业务拓展策略与执行考核试卷
- 供应链中的G技术应用考核试卷
- 企业时间管理与效率提升考核试卷
- 信托公司风险度量与评估技术考核试卷
- 专用设备的流体动力系统设计考核试卷
- 保健食品健康风险评估考核试卷
- 《山西ZX公司人力资源结构分析与改进研究》
- 《和谐财务评价指标体系构建研究》
- 《大健康数据智能分析关键方法研究》
- 《和球运动在我国的推广及发展研究》
- 替班换班登记表
- 26个英文字母手写体示范
- 阿利的红斗篷 完整版课件PPT
- 档案管理台账模版
- 通信线路和管道工程施工组织方案要点
- 四人的剧本杀
- 第31课大象和他的长鼻子
- 1378管理英语3-国家开放大学2022年1月(2021秋)期末考试真题-开放本科
- XYQ3C说明书教学文案
- 电力工程公司安全管理制度完整篇.doc
- 沥青透层、粘层与封层施工技术(116页)
评论
0/150
提交评论