2018_2019学年高中数学第一章统计案例1.2独立性检验的基本思想及其初步应用同步学案.docx_第1页
2018_2019学年高中数学第一章统计案例1.2独立性检验的基本思想及其初步应用同步学案.docx_第2页
2018_2019学年高中数学第一章统计案例1.2独立性检验的基本思想及其初步应用同步学案.docx_第3页
2018_2019学年高中数学第一章统计案例1.2独立性检验的基本思想及其初步应用同步学案.docx_第4页
2018_2019学年高中数学第一章统计案例1.2独立性检验的基本思想及其初步应用同步学案.docx_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1.2独立性检验的基本思想及其初步应用学习目标1.了解分类变量的意义.2.了解22列联表的意义.3.了解随机变量K2的意义.4.通过对典型案例的分析,了解独立性检验的基本思想与方法知识点一分类变量及22列联表思考某城市随机抽取一年(365天)内100天的空气质量指数API(AirPollutionIndex)的监测数据,结果统计如下:API0,50)50,100)100,150)150,200)200,250)250,300大于300空气质量优良轻微污染轻度污染中度污染中度重污染重度污染天数101520307612若本次抽取的样本数据有30天是在供暖季,其中有7天为重度污染,完成下面表格.非重度污染重度污染总计供暖季非供暖季总计100答案非重度污染重度污染总计供暖季23730非供暖季65570总计8812100梳理(1)分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量(2)列联表定义:列出的两个分类变量的频数表,称为列联表22列联表一般地,假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(也称为22列联表)为下表.y1y2总计x1ababx2cdcd总计acbdabcd知识点二等高条形图1与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征2如果通过计算或等高条形图发现和相差很大,就判断两个分类变量之间有关系知识点三独立性检验1定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验2K2.其中nabcd为样本容量3独立性检验的具体做法(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界,然后查表确定临界值k0.(2)利用公式计算随机变量K2的观测值k.(3)如果kk0,就推断“X与Y有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”1利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验()2在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算K2的观测值k27.63,根据这一数据进行分析,我们有理由认为打鼾与患心脏病是无关的()3在独立性检验中,当K26.635时,我们有99%的把握认为两分类变量有关,是指“两分类变量有关”这一结论的可信度为99%,而不是两分类变量有关系的概率为99%.()4独立性检验的基本思想类似于反证法()5利用K2进行独立性检验,可对推断犯错误的概率作出估计,其估计可靠性与样本容量n无关()6列联表仅对两个分类变量汇总统计()类型一直观分析两个分类变量的关联性例1为调查某生产线上某质量监督员甲在不在场对产品质量的好坏有无影响,现统计数据如下:质量监督员甲在场时,990件产品中合格品有982件,次品有8件;甲不在场时,510件产品中合格品有493件,次品有17件试分别用列联表和等高条形图对数据进行分析考点定性分析的两类方法题点利用图形定性分析解根据题目所给数据得如下22列联表:合格品数次品数总计甲在场9828990甲不在场49317510总计1475251500由列联表看出|adbc|982174938|12750,数较大,所以可在某种程度上认为“质量监督员甲在不在场与产品质量有关”等高条形图如图所示所以由等高条形图可知,在某种程度上,可认为“质量监督员甲在不在场与产品质量有关”反思与感悟(1)利用列联表直接计算adbc,如果差的绝对值很大,就判断两个分类变量之间有关系(2)在等高条形图中展示列联表数据的频率特征,比较图中两个深色条的高可以发现两者频率不一样而得出结论这种直观判断的不足之处在于不能给出推断“两个分类变量有关系”犯错误的概率跟踪训练1某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,试作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系考点定性分析的两类方法题点用图形定性分析解考前心情紧张与性格类型列联表如下:性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计4265941020adbc33238121394106470,|adbc|比较大,说明考前心情是否紧张与性格类型有关图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向占的比例,从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前心情是否紧张与性格类型有关类型二由K2进行独立性检验例2对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示.又发作过心脏病未发作过心脏病总计心脏搭桥手术39157196血管清障手术29167196总计68324392试根据上述数据比较这两种手术对病人又发作过心脏病的影响有没有差别考点独立性检验及其基本思想题点独立性检验的方法解假设病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术没有关系,由表中数据得a39,b157,c29,d167,ab196,cd196,ac68,bd324,n392,由公式得K2的观测值k1.779.因为k1.7792.706,所以不能得出病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术有关系的结论,即这两种手术对病人又发作过心脏病的影响没有差别反思与感悟(1)独立性检验的关注点在22列联表中,如果两个分类变量没有关系,则应满足adbc0,因此|adbc|越小,关系越弱;|adbc|越大,关系越强(2)独立性检验的具体做法根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界,然后查表确定临界值k0.利用公式K2计算随机变量K2的观测值k.如果kk0,推断“X与Y有关系”这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”跟踪训练2某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:50,60),60,70),70,80),80,90),90,100分别加以统计,得到如图所示的频率分布直方图(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成22列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?K2(其中nabcd)考点独立性检验及其基本思想题点独立性检验的方法解(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有600.053(人),记为A1,A2,A3;25周岁以下组工人有400.052(人),记为B1,B2.从中随机抽取2名工人,所有的可能结果共有10种,它们是(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2)其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2)故所求的概率P.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有600.2515(人),“25周岁以下组”中的生产能手有400.37515(人),据此可得22列联表如下:生产能手非生产能手总计25周岁以上组15456025周岁以下组152540总计3070100由公式得K2的观测值k1.786.又因为1.7866.635,有99%的把握认为“中老年人”比“青少年人”更关注“创城”活动1列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有相关关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有相关关系2对独立性检验思想的理解独立性检验的基本思想类似于数学中的反证法先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2的值很大,说明假设不合理K2越大,两个分类变量有关系的可能性越大一、选择题1如图所示的是调查某地区男、女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出()A性别与喜欢理科无关B女生中喜欢理科的比例约为80%C男生比女生喜欢理科的可能性大些D男生中不喜欢理科的比例约为60%考点定性分析的两类方法题点利用图形定性分析答案C解析由题图可知女生中喜欢理科的比例约为20%,男生中喜欢理科的比例约为60%,因此男生比女生喜欢理科的可能性大些故选C.2下列关于K2的说法正确的是()AK2在任何相互独立的问题中都可以用来检验有关系还是无关系BK2的值越大,两个事件的相关性就越大CK2是用来判断两个分类变量是否有关系的随机变量,只对两个分类变量适用DK2的观测值的计算公式为k答案C解析本题主要考查对K2的理解,K2是用来判断两个分类变量是否有关系的随机变量,所以A错;K2的值越大,说明我们能以更大的把握认为两个分类变量有关系,不能判断相关性的大小,所以B错;D中(adbc)应为(adbc)2.3下面是一个22列联表:y1y2总计x1a2173x282533总计b46则表中a,b处的值分别为()A94,96B52,50C54,52D52,60考点分类变量与列联表题点求列联表中的数据答案D解析a2173,a52.又ba852860.故选D.4利用独立性检验来考虑两个分类变量X与Y是否有关系时,通过查阅下表来确定“X与Y有关系”的可信度如果k3.841,那么就有把握认为“X与Y有关系”的百分比为()P(K2k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828A.95%B5%C2.5%D97.5%答案A解析因为k3.841,所以有把握认为“X与Y有关系”的百分比为95%.故选A.5某班主任对全班50名学生进行了作业量多少的调查,数据如下表:认为作业多认为作业不多总计喜欢玩电脑游戏18927不喜欢玩电脑游戏81523总计262450则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约为()A99%B97.5%C95%D无充分依据考点分类变量与列联表题点求观测值答案B解析由表中数据得K2的观测值k5.0595.024.所以约有97.5%的把握认为两变量之间有关系故选B.6通过随机询问250名不同性别的大学生在购买食物时是否看营养说明书,得到如下22联表:女男总计读营养说明书9060150不读营养说明书3070100总计120130250从调查的结果分析,认为性别和读营养说明书的关系为()A95%以上认为无关B90%95%认为有关C95%99.9%认为有关D99.9%以上认为有关答案D解析根据题意,得K221.6310.828,有99.9%的把握认为性别和看营养说明书有关故选D.7若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是()A100个吸烟者中至少有99人患有肺癌B1个人吸烟,那么这个人有99%的概率患有肺癌C在100个吸烟者中一定有患肺癌的人D在100个吸烟者中可能一个患肺癌的人也没有考点独立性检验及其基本思想题点独立性检验的方法答案D解析独立性检验的结论是一个统计量,统计的结果只是说明事件发生的可能性的大小,具体到一个个体,则不一定发生8在22列联表中,两个比值相差越大,两个分类变量有关系的可能性就越大,那么这两个比值为()A.与B.与C.与D.与考点定性分析的两类方法题点利用图形定性分析答案A解析由题意,因为|adbc|的值越大,两个分类变量有关系的可能性就越大,故选A.9有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:优秀非优秀总计甲班10b乙班c30总计105已知在全部105人中随机抽取1人,成绩优秀的概率为,参考下面所给附表,则下列说法正确的是()P(K2k0)0.100.050.025k02.7063.8415.024A.列联表中c的值为30,b的值为35B列联表中c的值为15,b的值为50C根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”考点独立性检验及其基本思想题点独立性检验的方法答案C解析成绩优秀的概率为,成绩优秀的学生数是10530.成绩非优秀的学生数是75,c20,b45,选项A,B错误又根据列联表中的数据,得到K2的观测值k6.1095.024,因此有97.5%的把握认为“成绩与班级有关系”故选C.二、填空题10有两个分类变量X,Y,其列联表如图所示,Y1Y2X1a20aX215a30a其中a,15a均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X,Y有关,则a的值为_考点分类变量与列联表题点求列联表中的数据答案8或9解析根据公式,得K2的观测值k3.841,根据a5且15a5,aZ,求得当a8,9时满足题意11为研究某新药的疗效,给100名患者服用此药,跟踪调查后得下表中的数据:无效有效总计男性患者153550女性患者64450总计2179100设H:服用此药的效果与患者的性别无关,则K2的观测值k_(小数点后保留3位有效数字),从而得出结论;服用此药的效果与患者的性别有关,这种判断出错的可能性为_考点分类变量与列联表题点求观测值答案4.8825%解析由公式计算得K2的观测值k4.882,k3.841,我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错三、解答题12某学校高三年级共有1000名学生,其中男生650人,女生350人,为了调查学生周末的休闲方式,用分层抽样的方法抽查了200名学生(1)完成下面的22列联表:不喜欢运动喜欢运动总计女生50男生总计100200(2)在抽取的样本中,调查喜欢运动女生的运动时间,发现她们的运动时间介于30分钟到90分钟之间,下图是测量结果的频率分布直方图,若从区间段40,50)和60,70)的所有女生中随机抽取两名女生,求她们的运动时间在同一区间段的概率考点分类变量与列联表题点求列联表中的数据解(1)根据分层抽样的定义,可知抽取男生130人,女生70人,不喜欢运动喜欢运动总计女生502070男生5080130总计100100200(2)由频率分布直方图可知在40,50)内的人数为2,设为m,n,在60,70)内的人数为4,设为a,b,c,d.设“两人的运动时间在同一区间段”的事件为A.从中抽取两名女生的可能情况有:(m,n),(m,a),(m,b),(m,c),(m,d),(n,a),(n,b),(n,c),(n,d),(a,b),(a,c),(a,d),(b,c),(b,d),(c,d),两人的运动时间恰好在同一区间段的可能情况有7种结合古典概型,得P(A).13随着“全面二孩”政策推行,我市将迎来生育高峰今年元旦伊始,我市各医院产科就已经是一片忙碌,至今热度不减卫生部门进行调查统计,期间发现各医院的新生儿中,不少都是“二孩”;在市中医院,共有40个狗宝宝降生,其中20个是“二孩”宝宝;市湘东医院共有30个狗宝宝降生,其中10个是“二孩”宝宝(1)从两个医院当前出生的所有宝宝中按分层抽样方法抽取7个宝宝做健康咨询在市中医院出生的一孩宝宝中抽取多少个?若从7个宝宝中抽取两个宝宝进行体检,求这两个宝宝恰出生不同医院且均属“二孩”的概率;(2)根据以上数据,能否有85%的把握认为一孩或二孩宝宝的出生与医院有关?P(K2k0)0.400.250.150.10k00.7081.3232.0722.706K2考点独立性检验及其基本思想题点独立性检验的思想解(1)由分层抽样知在市中医院出生的宝宝有74个,其中一孩宝宝有2个在抽取7个宝宝中,市中医院出生的一孩宝宝2人,分别记为A1,B1,二孩宝宝2人,分别记为a1,b1,湘东医院出生的一孩宝宝2人,分别记为A2,B2,二孩宝宝1人,记为a2,从7人中抽取2人的一切可能结果所组成的基本事件为:(A1,B1),(A1,a1),(A1,b1),(A1,A2),(A1,B2),(A1,a2),(B1,a1),(B1,b1),(B1,A2),(B1,B2),(B1,a2),(a1,b1),(a1,A2),(a1,B2),(a1,a2),(b1,A2),(b1,B2),(b1,a2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论