高中数学人教A版3第三章统计独立性检验的基本思想及其初步应用_第1页
高中数学人教A版3第三章统计独立性检验的基本思想及其初步应用_第2页
高中数学人教A版3第三章统计独立性检验的基本思想及其初步应用_第3页
高中数学人教A版3第三章统计独立性检验的基本思想及其初步应用_第4页
高中数学人教A版3第三章统计独立性检验的基本思想及其初步应用_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3.2独立性检验的基本思想及其初步应用[学习目标]1.了解独立性检验的基本思想、方法及其简单应用;2.理解判断两个分类变量是否有关系的常用方法、独立性检验中K2的含义及其实施步骤.[知识链接]1.举例说明什么是分类变量?答变量的不同“值”表示个体所属的不同类别的变量称为分类变量,分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级等等.2.什么是列联表?怎样从列联表判断两个分类变量有无关系?答一般地,假设两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},列出两个变量的频数表,称为列联表(如下图)y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d|ad-bc|越小,说明两个分类变量x,y之间的关系越弱;|ad-bc|越大,说明两个分类变量x,y之间的关系越强.[预习导引]1.分类变量和列联表(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表①定义:列出的两个分类变量的频数表称为列联表.②2×2列联表一般地,假设两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为下表.y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d2.等高条形图(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.(2)观察等高条形图发现eq\f(a,a+b)和eq\f(c,c+d)相差很大,就判断两个分类变量之间有关系.3.独立性检验(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),其中n=a+b+c+d.(3)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.②利用公式计算随机变量K2的观测值k.③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.要点一有关“相关的检验”例1某校对学生课外活动进行调查,结果整理成下表:用你所学过的知识进行分析,能否在犯错误的概率不超过的前提下,认为“喜欢体育还是文娱与性别有关系”?体育文娱总计男生212344女生62935总计275279解判断方法如下:假设H0“喜欢体育还是喜欢文娱与性别没有关系”,若H0成立,则K2应该很小.∵a=21,b=23,c=6,d=29,n=79,∴K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d))=eq\f(79×(21×29-23×6)2,44×35×27×52)≈.且P(K2≥≈即我们得到的K2的观测值k≈超过,这就意味着:“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于,即在犯错误的概率不超过的前提下认为“喜欢体育还是喜欢文娱与性别有关”.规律方法(1)利用K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d))求出K2的观测值k的值.再利用临界值的大小来判断假设是否成立.(2)解题时应注意准确代数与计算,不可错用公式,准确进行比较与判断.跟踪演练1为研究学生的数学成绩与对学习数学的兴趣是否有关,对某年级学生作调查得到如下数据:成绩优秀成绩较差总计兴趣浓厚的643094兴趣不浓厚的227395总计86103189判断学生的数学成绩好坏与对学习数学的兴趣是否有关?解由公式得K2的观测值k=eq\f(189×(64×73-22×30)2,86×103×95×94)≈.∵>,∴有%的把握说学生学习数学的兴趣与数学成绩是有关的.要点二有关“无关的检验”例2为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关?解列出2×2列联表理文总计有兴趣13873211无兴趣9852150总计236125361代入公式得K2的观测值k=eq\f(361×(138×52-73×98)2,236×125×211×150)≈×10-4.∵×10-4<,∴可以认为学生选报文、理科与对外语的兴趣无关.规律方法运用独立性检验的方法:(1)列出2×2列联表,根据公式计算K2的观测值k.(2)比较k与k0的大小作出结论.跟踪演练2第16届亚运会于2023年11月12日至27日在中国广州进行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者,调查发现,男、女志愿者中分别有10人和6人喜爱运动,其余人不喜爱运动.(1)根据以上数据完成以下2×2列联表:喜爱运动不喜爱运动总计男1016女614总计30(2)根据列联表的独立性检验,能否在犯错误的概率不超过的前提下认为性别与喜爱运动有关?解(1)喜爱运动不喜爱运动总计男10616女6814总计161430(2)假设是否喜爱运动与性别无关,由已知数据可求得:K2=eq\f(30×(10×8-6×6)2,(10+6)(6+8)(10+6)(6+8))≈5<,因此,在犯错误的概率不超过的前提下不能判断喜爱运动与性别有关.要点三独立性检验的基本思想例3某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在,的零件为优质品.从两个分厂生产的零件中各抽出500件,量其内径尺寸,结果如下表:甲厂分组[,[,[,[,[,[,[,频数12638618292614乙厂分组[,[,[,[,[,[,[,频数297185159766218(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.甲厂乙厂总计优质品非优质品总计附:K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),P(K2≥k0)k0解(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为eq\f(360,500)=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为eq\f(320,500)=64%.(2)甲厂乙厂总计优质品360320680非优质品140180320总计5005001000K2=eq\f(1000×(360×180-320×140)2,500×500×680×320)≈>,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.规律方法(1)解答此类题目的关键在于正确利用K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d))计算k的值,再用它与临界值k0的大小作比较来判断假设检验是否成立,从而使问题得到解决.(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.跟踪演练3下表是某地区的一种传染病与饮用水的调查表:得病不得病总计干净水52466518不干净水94218312总计146684830(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.解(1)假设H0:传染病与饮用水无关.把表中数据代入公式得:K2的观测值k=eq\f(830×(52×218-466×94)2,146×684×518×312)≈,∵>,所以拒绝H0.因此我们有%的把握认为该地区这种传染病与饮用不干净水有关.(2)依题意得2×2列联表:得病不得病总计干净水55055不干净水92231总计147286此时,K2的观测值k=eq\f(86×(5×22-50×9)2,14×72×55×31)≈.由于>,所以我们有%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有%的把握肯定结论的正确性,(2)中我们只有%的把握肯定.1.观察下列各图,其中两个分类变量x,y之间关系最强的是()答案D解析观察等高条形图发现eq\f(x1,x1+y1)=eq\f(x2,x2+y2)相差很大,就判断两个分类变量之量关系最强.2.下面是一个2×2列联表:y1y2总计x1a2173x282533总计b46106则表中a,b处的值分别为()A.94,96B.52,50C.52,60D.54,52答案C解析∵a+21=73,∴a=52,b=a+8=52+8=60.3.经过对K2的统计量的研究,得到了若干个临界值,当K2的观测值k>时,我们()A.在犯错误的概率不超过的前提下可认为X与Y有关B.在犯错误的概率不超过的前提下可认为X与Y无关C.在犯错误的概率不超过的前提下可认为X与Y有关D.没有充分理由说明事件X与Y有关系答案A4.根据下表计算:不看电视看电视男3785女35143K2的观测值k≈________(保留3位小数).答案解析k=eq\f(300×(37×143-85×35)2,122×178×72×228)≈.1.列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系.2.对独立性检验思想的理解独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.一、基础达标1.下面说法正确的是()A.统计方法的特点是统计推断准确、有效B.独立性检验的基本思想类似于数学上的反证法C.任何两个分类变量有关系的可信度都可以通过查表得到D.不能从等高条形图中看出两个分类变量是否相关答案B2.用独立性检验来考察两个分类变量x与y是否有关系,当统计量K2的观测值()A.越大,“x与y有关系”成立的可能性越小B.越大,“x与y有关系”成立的可能性越大C.越小,“x与y没有关系”成立的可能性越小D.与“x与y有关系”成立的可能性无关答案B3.在一个2×2列联表中,由其数据计算得K2的观测值k=,则这两个变量间有关系的可能性为()A.99%B.%C.%D.无关系答案A解析K2的观测值<k<,所以有99%的把握认为两个变量有关系.4.对两个分类变量A,B的下列说法中正确的个数为()①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据A.0B.1C.2D.3答案B解析①正确,A与B无关即A与B相互独立;②不正确,K2的值的大小只是用来检验A与B是否相互独立;③不正确,例如借助三维柱形图、二维条形图等.故选B.5.如果K2的观测值为,可以认为“x与y无关”的可信度是________.答案1%解析查表可知可信度为1%.6.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:作文成绩优秀作文成绩一般总计课外阅读量较大221032课外阅读量一般82028总计303060由以上数据,计算得到K2的观测值k≈,根据临界值表,有________把握认为课外阅读量大与作文成绩优秀有关.答案%解析根据临界值表,>,在犯错误的概率不超过的前提下,认为课外阅读量大与作文成绩优秀有关,即有%的把握认为课外阅读量大与作文成绩优秀有关.7.在某测试中,卷面满分为100分,60分为及格,为了调查午休对本次测试前两个月复习效果的影响,特对复习中进行午休和不进行午休的考生进行了测试成绩的统计,数据如下表所示:分数段29~4041~5051~6061~7071~8081~9091~100午休考生人数23473021143114不午休考生人数1751671530173(1)根据上述表格完成列联表:及格人数不及格人数总计午休不午休总计(2)根据列联表可以得出什么样的结论?对今后的复习有什么指导意义?解(1)根据题表中数据可以得到列联表如下:及格人数不及格人数总计午休80100180不午休65135200总计145235380(2)计算可知,午休的考生及格率为P1=eq\f(80,180)=eq\f(4,9),不午休的考生的及格率为P2=eq\f(65,200)=eq\f(13,40),则P1>P2,因此,可以粗略判断午休与考生考试及格有关系,并且午休的及格率高,所以在以后的复习中考生应尽量适当午休,以保持最佳的学习状态.二、能力提升8.在等高条形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大()\f(a,a+b)与eq\f(d,c+d)\f(c,a+b)与eq\f(a,c+d)\f(a,a+b)与eq\f(c,c+d)\f(a,a+b)与eq\f(c,b+c)答案C解析由等高条形图可知eq\f(a,a+b)与eq\f(c,c+d)的值相差越大,|ad-bc|就越大,相关性就越强.9.考察棉花种子经过处理跟生病之间的关系得到下表数据:种子处理种子未处理总计得病32101133不得病61213274总计93314407根据以上数据,可得出()A.种子是否经过处理跟是否生病有关B.种子是否经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的答案B解析由K2=eq\f(407×(32×213-61×101)2,93×314×133×274)≈<,即没有把握认为种子是否经过处理跟是否生病有关.10.为研究某新药的疗效,给50名患者服用此药,跟踪调查后得下表中的数据:无效有效总计男性患者153550女性患者64450总计2179100设H0:服用此药的效果与患者的性别无关,则K2的观测值k≈________(小数点后保留三位有效数字),从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.答案5%解析由公式计算得K2的观测值k≈,∵k>,∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错.11.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得数据,试问:在出错概率不超过的前提下,能否判断“文科学生总成绩不好与数学成绩不好有关系”?总成绩不好总成绩好总计数学成绩不好47812490数学成绩好39924423总计87736913解依题意,计算随机变量K2的观测值:k=eq\f(913×(478×24-399×12)2,490×423×877×36)≈>,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论