高中数学讲义(人教B版2019选择性必修二)第16讲432独立性检验_第1页
高中数学讲义(人教B版2019选择性必修二)第16讲432独立性检验_第2页
高中数学讲义(人教B版2019选择性必修二)第16讲432独立性检验_第3页
高中数学讲义(人教B版2019选择性必修二)第16讲432独立性检验_第4页
高中数学讲义(人教B版2019选择性必修二)第16讲432独立性检验_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

4.3.2独立性检验TOC\o"13"\h\u题型12×2列联表及其应用 2题型2由χ2进行独立性检验 10知识点一.2×2列联表1.定义∶如果随机事件A与B的样本数据整理成如下的表格形式.2×2列联表AA总计Baba+bBcdc+d总计a+cb+da+b+c+d因为这个表格中,核心数据是中间4个格子,所以这样的表格通常称为2×2列联表.2.x²计算公式∶χ2=eq\f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d为样本容量.3.列联表的统计意义∶记n=a+b+c+d,则由上表可知∶事件A发生的概率可估计为P(A)=a+cn事件B发生的概率可估计为P(B)=a+bn事件AB发生的概率可估计为P(AB)=an注意:(1)2×2列联表主要用于研究两个事件之间是相互独立的还是存在某种关联性,它适用于分析两个事件之间的关系;(2)因为P(A),P(B),P(AB)都是根据样本数据得到的估计值,而估计是有误差的,因此直接用P(AB)=P(A)P(B)是否成立来判断A与B是否独立是不合理的.知识点二.独立性检验1.定义∶在2×2列联表中,设χ2=eq\f(nad-bc2,a+bc+da+cb+d),任意给定α(称为显著性水平),可以找到满足条件P(χ2≥k)=α的数k(称为显著性水平α对应的分位数).如果根据样本数据算出χ2(读作卡方)的值后,发现χ2≥k成立,就称在犯错误的概率不超过α的前提下,可以认为A与B不独立(也称为A与B有关);或说有1α的把握认为A与B有关.若2.统计学中,常用的显著性水平α以及对应的分位数k如下表所示.:α=p(x²≥k)0.10.050.010.0050.001k2.7063.8416.6357.87910.828注意:(1)独立性检验的基本思想∶独立性检验的基本思想类似于反证法,要判断"两个分类变量有关系”,首先假设结论不成立,即“H0∶两个分类变量没有关系”成立.在该假设下所构造的随机变量χ2应该很小.如果由观测数据计算得到的χ2很大,则断言Ho不成立,即认为“两个分类变量有关系”;如果χ2(2)独立性检验与反证法的比较反证法原理在假设Ho下,如果推出一个矛盾,就证明了Ho不成立独立性检验原理在假设Ho下,如果出现一个与Ho相矛盾的小概率事件,就推断Ho不成立,且该推断犯错的概率不超过这个小概率题型12×2列联表及其应用【方法总结】列2×2列联表的关注点:作2×2列联表时,注意应该是4行4列,计算时要准确无误.(2)作2×2列联表时,关键是对涉及的变量分清类别.【例题1】(2021·西藏·日喀则市南木林高级中学)假设有两个变量X和Y,他们的取值分别为x1,x2和y1yy总计xa2173x82533总计b46106则表中a,b的值分别是(

)A.94,96 B.54,52 C.52,50 D.52,60【答案】D【分析】根据列联表直接计算.【详解】根据列联表知,a=73−21=52,又a+8=b故选:D【变式11】1.(2022·全国·高二单元测试)假设有两个分类变量X与Y,它们的可能取值分别为x1,x2和则当整数m取______时,X与Y的关系最弱(

)A.8 B.9 C.14 D.19【答案】C【分析】根据列联表分析运算.【详解】在两个分类变量的列联表中,当ad−令ad−bc=0,得10×26=18又m为整数,所以当m=14时,X与Y故选:C.【变式11】2.(2022·全国·高二课时练习)假设有两个分类变量x与y的2×2列联表如下表:yyxabxcd对于以下数据,对同一样本能说明x与y有关系的可能性最大的一组为(

)A.a=5,b=4,c=3,d=2 B.a=5,C.a=2,b=3,c=4,d=5 D.a=2,【答案】D【分析】计算每个选项中的ad−【详解】对于两个分类变量x与y而言,ad−bc的值越大,说明x与对于A选项,ad−对于B选项,ad−对于C选项,ad−对于D选项,ad−显然D中ad−故选:D.【变式11】3.(2023·全国·高三专题练习)(多选)为了增强学生的身体素质,某校将冬天长跑作为一项制度固定下来,每天大课间例行跑操.为了调查学生喜欢跑步是否与性别有关,研究人员随机调查了相同人数的男、女学生,发现男生中有80%喜欢跑步,女生中有40%不喜欢跑步,且有95%的把握判断喜欢跑步与性别有关,但没有99%的把握判断喜欢跑步与性别有关,则被调查的男、女学生的总人数可能为(

)A.120 B.130 C.240 D.250【答案】AB【分析】由题可得列联表,计算K2【详解】依题意,设男、女学生的人数均为5xx∈N∗喜欢跑步不喜欢跑步总计男4x5女325总计7310则K2=10所以80.661<10x故选:AB.【变式11】4.(2022·全国·高三专题练习)(多选)疫苗是为预防、控制传染病的发生、流行,用于人体预防接种的预防性生物制品,其前期研发过程中,一般都会进行动物保护测试,为了考察某种疫苗预防效果,在进行动物试验时,得到如下统计数据:未发病发病总计未注射疫苗30注射疫苗40总计7030100附表及公式:P0.050.010.0050.001k3.8416.6357.87910.828K2=n现从试验动物中任取一只,取得“注射疫苗”的概率为0.5,则下列判断正确的是(

)A.注射疫苗发病的动物数为10B.某个发病的小动物为未注射疫苗动物的概率为2C.能在犯错概率不超过0.005的前提下,认为疫苗有效D.该疫苗的有效率约为80%【答案】ABD【分析】完善列联表可直接判断A,计算比例后判断BD,计算K2【详解】完善列联表如下:未发病发病总计未注射疫苗302050注射疫苗401050总计7030100由列联表知,A正确,2030K2不能在犯错概率不超过0.005的前提下,认为疫苗有效,C错误;疫苗的有效率约为4050故选:ABD.【变式11】5.(2022·全国·高二课时练习)(多选)千百年来,我国劳动人民在生产实践中根据云的形状,走向,速度,厚度,颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,随机观察了他所在地区的100天日落情况和后半夜天气,得到如下2×2列联表,单位:天日落云里走后半夜天气合计下雨未下雨出现25530未出现254570合计5050100并计算得到χ2≈19.05B.未出现“日落云里走”时,后半夜下雨的概率约为5C.根据α=0.001D.根据α=0.001【答案】AC【分析】选项A,B:利用频率估算概率,即可判断选项;选项C,D:计算χ2【详解】由题意,把频率看作概率,可得后半夜下雨的概率约为50100未出现“日落云里走”时,后半夜下雨的概率约为2525+45由χ2≈19.05>10.828=x故选:AC.【变式11】6.(2022·全国·高三专题练习)为了判断某高中学生是否选修文科与性别的关系,现随机抽取50名学生,得到2×2列联表:理科文科男1310女720根据表中数据,得到χ2=50×(13×20−10×7)2【答案】0.05【分析】根据独立性检验的方法即可求解.【详解】因为χ2≈4.844>3.841,所以认为选修文科与性别有关系出错的概率约为0.05.故答案为:0.05.【变式11】7.(2022·全国·高二课时练习)某单位主管对50名员工进行了工作量的调查,了解男、女职工对工作量大小的看法是否存在差异,得到的数据如下:性别工作量合计认为工作量大Y认为工作量小Y男X18927女X81523合计262450请判断认为工作量的大小与性别是否有关.【答案】工作量的大小与性别有关系,男职工更加认为工作量大.【分析】分别计算PY=1X【详解】PYPY所以认为工作量的大小与性别有关系,男职工更加认为工作量大.题型2由χ2进行独立性检验【方法总结】独立性检验的步骤(1)根据实际问题的需要确定允许推断“事件A与B有关系”犯错误的概率的上界α,然后查表确定临界值k.(2)利用公式χ2=eq\f(nad-bc2,a+bc+da+cb+d)计算随机变量χ2.【例题2】2021年9月,教育部印发《关于全面加强和改进新时代学校卫生与健康教育工作的意见》中指出:中小学生各项身体素质有所改善,大学生整体下降.某高校为提高学生身体素质,号召全校学生参加体育锻炼,结合“微信运动”APP每日统计运动情况,对每日平均运动10000步或以上的学生授予“运动达人”称号,低于10000步称为“参与者”,统计了200名学生在某月的运动数据,结果如下:运动达人参与者合计男生70女生80合计80200(1)完善2×2列联表并说明:是否有99%的把握认为获得“运动达人”称号与性别有关?(2)从全校运动“运动达人”中按性别分层抽取8人,再从8人中选取4人参加特训,将男生人数记为X,求X的分布列.参考公式:K2a2.0722.7063.8416.6357.87910.828P0.150.100.050.0100.0050.001【答案】(1)没有99%的把握认为获得“运动达人”称号与性别有关;(2)X1234P530305【分析】(1)先完善列联表,通过卡方检验中计算K2(2)判断X服从超几何分布概型,得到X的分布列.【详解】(1)由题意完善2×2列联表:运动达人参与者合计男生为200−80=120人,易知列联表数据如下:运动达人参与者合计男生5070120女生305080合计80120200此时:K2=200×所以:没有99%的把握认为获得“运动达人”称号与性别有关(2)由题意知:选取的8人运动参与者中男生5人,女生3人X的所有可能情况为:1、2、3、4且PX=1PX=3X的分布列为:X1234P1331【变式21】1.某市为调研本市学生体质情况,采用按性别分层抽样的方法进行调查,得到体质测试样本的统计数据(单位:人)如表:优秀良好及格不及格男生100200780120女生120200520120(1)根据所给数据,完成下面2×2列联表,并据此判断:能否有95%的把握认为该市学生体质测试是否达标与性别有关.(注:体质测试成绩为优秀、良好或及格则体质达标,否则不达标)达标不达标合计男生女生合计其中χ2=eq\f(nad-bc2,a+bc+da+cb+d),p(χ2≥3.841)0.05(2)体质测试成绩为优秀或良好则称体质测试成绩为优良,以样本数据中男、女生体质测试成绩优良的频率视为该市男、女生体质测试成绩优良的概率,在该市学生中随机选取1名男生,1名女生,设所选2人中体质测试成绩优良人数为X,求X的分布列,数学期望与方差.【答案】(1)列联表见解析,没有95%的把握认为该市学生体质达标与性别有关(2)分布列见解析,EX=【分析】(1)直接列出2×2列联表,计算χ2(2)写出X的可能取值,并求出相应的概率,即可求解【详解】(1)由题得2×2列联表如下:达标不达标合计男生10801201200女生840120960合计19202402160χ所以没有95%的把握认为该市学生体质达标与性别有关.(2)由题意男生体质测试优良率P1=1X的所有可能取值为0,1,2.P所以X的分布列为X012P151EX=0×【变式21】2.中国在第75届联合国大会上承诺,将采取更加有力的政策和措施,力争于2030年之前使二氧化碳的排放达到峰值,努力争取2060年之前实现碳中和(简称“双碳目标”),此举展现了我国应对气候变化的坚定决心,预示着中国经济结构和经济社会运转方式将产生深刻变革,极大促进我国产业链的清洁化和绿色化.新能源汽车、电动汽车是重要的战略新兴产业,对于实现“双碳目标”具有重要的作用.为了解某一地区电动汽车销售情况,一机构根据统计数据,用最小二乘法得到电动汽车销量y(单位:万台)关于x(年份)的线性回归方程为y=4.7x−9459.2,且销量y的方差为Sy2(1)求y与x的相关系数r,并据此判断电动汽车销量y与年份x的相关性强弱;(2)该机构还调查了该地区90位购车车主的性别与购车种类情况,得到的数据如下表:性别购买非电动汽车购买电动汽车总计男性39645女性301545总计692190依据小概率值α=0.05(3)在购买电动汽车的车主中按照性别进行分层抽样抽取7人,再从这7人中随机抽取3人,记这3人中,男性的人数为X,求X的分布列和数学期望.①参考数据:5×127=②参考公式:(i)线性回归方程:y=bx(ii)相关系数:r=i=1nxi−(iii)χ2=nα0.100.050.0100.001x2.7063.8416.63510.828【答案】(1)0.94,y与x线性相关较强(2)认为购买电动汽车与车主性别有关,此推断犯错误的概率不大于0.05(3)分布列答案见解析,数学期望:6【分析】(1)利用相关系数r的求解公式,并转化为b和方差之间的关系,代入计算即可;(2)直接利用独立性检验公式求出χ2(3)采用分层抽样先得出男性车主和女性车主的选取人数,得出X可能取值0,1,2,分别求出对应概率,即可得X的分布列,再结合期望公式,即可求解.【详解】(1)(1)相关系数为r=i=1nxi−xyi−(2)零假设为H0即购买电动汽车与车主性别无关.χ所以依据小概率值α=0.05的独立性检验,我们推断H即认为购买电动汽车与车主性别有关,此推断犯错误的概率不大于0.05.(3)抽样比=615=25PX=0=C故X的分布列为:X012P241∴【变式21】3.第24届冬季奥运会将于2022年2月4日在北京开幕,本次冬季奥运会共设7个大项,15个分项,109个小项.为调查学生对冬季奥运会项目的了解情况,某大学进行了一次抽样调查,若被调查的男女生人数均为10nn∈N∗,统计得到以下2×2男生女生合计了解6不了解5合计1010(1)求n的值,并判断有多大的把握认为该校学生对冬季奥运会项目的了解情况与性别有关;(2)为弄清学生不了解冬季奥运会项目的原因,采用分层抽样的方法从抽取的不理解冬季奥运会项目的学生中随机抽取9人,再从这9人中抽取2人进行面对面交流,“至少抽到一名女生”的概率;附表:P0.100.050.0250.0100.001k2.7063.8415.0246.63510.828附:χ2【答案】(1)n=20(2)5【分析】(1)将列联表补充完整,根据卡方的值求出n=20(2)先利用分层抽样得到抽取的男生与女生人数,再利用列举法求出古典概型的概率.【详解】(1)2×2列联表如下表所示:男生女生合计了解6511不了解459合计101020K2=20n6∵4.040>3.841,且4.040<5.024,因此,有95%的把握认为该校学生对冬季奥运会项目的了解情况与性别有关;(2)采用分层抽样的方法从抽取的不了解冬季奥运会项目的学生中随机抽取9人,这9人中男生的人数为4,设为a,b,则从这9人中抽取2人进行面对面交流,一共的情况有:a,b,c,1,2共36种情况,其中“至少抽到一名女生”的情况有a,1,ac,1,共30种,所以从这9人中抽取2人进行面对面交流,“至少抽到一名女生”的概率为3036【变式21】4.每年9月第三周是国家网络安全宣传周.某中学为调查本校学生对网络安全知识的了解情况,组织了《网络信息辨析测试》活动,并随机抽取50人的测试成绩绘制了频率分布直方图如图所示:(1)某学生的测试成绩是75分,你觉得该同学的测试成绩低不低?说明理由;(2)将成绩在60,100内定义为“合格”;成绩在0,60内定义为“不合格”.请将下边的2×2列联表补充完整,并判断是否有90%的把握认为网络安全知识的掌握情况与性别有关?合格不合格合计男生26女生6合计(3)在(2)的前提下,对50人按是否合格,利用分层抽样的方法抽取5人,再从5人中随机抽取2人,求恰好2人都合格的概率.附:K2=nP0.1000.0500.0100.001k2.7063.8416.63510.828【答案】(1)该同学的测试成绩不低(或不太低),理由见解析(2)列联表见解析,没有90%的把握认为网络安全知识的掌握情况与性别有关(3)3【分析】(1)通过频数分布表求出测试成绩的中位数,或者通过计算测试成绩的平均数,进行求解即可;(2)先通过频数分布表计算出[60,100]的人数,然后根据表中的数据求出所要填的数据,完善列联表,再计算K2(3)根据分层抽样的比例求出抽取合格的人数和不合格的人数,用列举法求出5人中随机抽取2人的基本事件,再写出抽取的2人恰好都合格的基本事件,最后利用古典概型计算公式进行求解即可.【详解】(1)解:我觉得该同学的测试成绩不低(或不太低).理由如下:中位数为70+0.5−0.4显然74.17<75,故该同学的测试成绩不低(或不太低);考生的理由如下亦可:平均成绩x显然73.8<75,故该同学的测试成绩不低(或不太低).(2)解:由题知,不合格学生有50×0.004+0.016所以,合格学生有50−10=40人,所以,填表如下:合格不合格合计男生26430女生14620合计401050K2故没有90%的把握认为网络安全知识的掌握情况与性别有关.(3)解:从50人随机抽取5人的比例为550从合格的40名学生中抽取40×1从不合格的10名学生中抽取10×1则从5人中随机抽取2人的所有的基本事件如下:ab、ac、ad、ax、bc、bd、bx、cd、cx、dx,共有10种情况,其中抽取的2人恰好都合格的基本事件为ab、ac、ad、bc、bd、cd,共有6种情况,故恰好2人都合格的概率P=【变式21】5.为调查某社区居民进行核酸检测的地点,随机调查了该社区80人,得到下面的数据表:单位:人性别核酸检测地点合计工作单位社区男105060女101020合计206080(1)根据小概率值α=0.01的独立性检验,能否认为“居民的核酸检测地点与性别有关系”?(2)将此样本的频率估计为总体的概率,在该社区的所有男性中随机调查3人,设调查的3人以社区为核酸检测地点的人数为随机变量X,求X的数学期望和方差.【答案】(1)能(2)E(X)=52,D(X)=【分析】(1)根据联表计算χ2(2)由题得X~B3,5【详解】(1)令假设为H0:居民的核酸检测地点与性别无关系,根据2×2列联表得,χ2根据小概率值α=0.01的χ(2)由题意得,X~B3,5且PX故E(X)=np=3×56=52,D(X)=np(1-p)=3×56×1【变式21】6.随着人脸识别技术的发展,“刷脸支付”成为了一种便捷的支付方式,但是这种支付方式也带来了一些安全性问题.为了调查不同年龄层的人对“刷脸支付”所持的态度,研究人员随机抽取了300人,并将所得结果统计如下表所示:年龄20,3030,4040,5050,6060,70频数30751056030持支持态度2466904218(1)完成下列2×2列联表,并判断是否有99.9%的把握认为年龄与所持态度具有相关性;年龄在50周岁以上(含50周岁)年龄在50周岁以下总计持支持态度不持支持态度总计(2)已知某地区“万嘉”连锁超市在安装了“刷脸支付”仪器后,使用“刷脸支付”的人数y与第x天之间的关系统计如下表所示,且数据的散点图呈现出很强的线性相关的特征,请根据表中的数据用最小二乘法求y与x的回归直线方程y=i1234567第xi24812222638使用人数y19324044525354参考数据:i=1P0.0500.0100.001k3.8416.63510.828参考公式:K2=nad−【答案】(1)有99.9%的把握认为年龄与所持态度具有相关性,理由见解析(2)y【分析】(1)将列联表补充完整,求出卡方,与10.828比较后得到结论;(2)先计算出x=16,y=42,代入公式计算出b=0.85【详解】(1)列联表如下:年龄在50周岁以上(含50周岁)年龄在50周岁以下总计持支持态度60180240不持支持态度303060总计90210300则K2故有99.9%的把握认为年龄与所持态度具有相关性;(2)由题意,x=y=又i=1i=1所以b=所以a=故y与x的回归直线方程为y=0.85【变式21】7.伴随经济的飞速发展,中国全民健身赛事活动日益丰富,公共服务体系日趋完善.据相关统计数据显示,中国经常参与体育锻炼的人数比例为37.2%,城乡居民达到《国民体质测定标准》合格以上的人数比例达到90%以上.健身之于个人是一种自然而然的习惯,之于国家与民族,则是全民健康的基础柱石之一,某市一健身连锁机构对去年的参与了该连锁机构健身的会员进行了统计,制作成如下两个统计图,图1为该健身连锁机构会员年龄等级分布图,图2为一个月内会员到健身连锁机构频数分布扇形图若将会员按年龄分为“年轻人”(20岁39岁)和“非年轻人”(19岁及以下或40岁及以上)两类,将一月内来健身房锻炼16次及以上的会员称为“健身达人”,15次及以下的会员称为“健身爱好者”,且已知在“健身达人”中有56(1)现从该健身连锁机构会员中随机抽取一个容量为100人的样本,根据上图的数据,补全下方2×2列联表,并判断依据小概率值α=0.05类别年轻人非年轻人合计健身达人健身爱好者合计100(2)将(1)中的频率作为概率,连锁机构随机选取会员进行回访,抽取3人回访.设3人中既是“年轻人”又是“健身达人”的人数为随机变量X,求X的期望和方差.参考公式:临界值表:ρ0.400.250.050.005k0.7081.3233.8417.879【答案】(1)表格见解析,不能认为“健身达人”与年龄有关;(2)数学期望32,方差【分析】(1)首先根据题意填写好表格,根据公式计算K2(2)由(1)知既是年轻人又是健身达人的概率为12,且X【详解】(1)根据年轻人标准结合图1可得年轻人占比为80%,则年轻人人数为100⋅80%=80,则非年轻人为20人,根据图2表格得健身达人所占比60%,所以其人数为100⋅60%=60,根据年轻人占比56,所以健身达人中年轻人人数为60⋅健身爱好者人数为100−60=40,再通过总共年轻人合计为80人,则健身爱好者中年轻人人数为80−50=30,根据非年轻人总共为20人,则健身爱好者中非年轻人人数为20−10=10,具体表格填写如下,列联表为类别年轻人非年轻人合计健身达人501060健身爱好者301040合计8020100K所以,依据α=0.05(2)由(1)知,既是年轻人又是健身达人的概率为12,所以X的数学期望EX=3×1【变式21】8.直播电商带货的模式近年来发展势头迅猛,我国直播电商模式不仅规模上实现增长,在影响力上也发展成为重要的电商消费模式,包括直播活跃程度、覆盖商品类型、主播类型等都实现延展.每年的“双十一”购物节成为各直播电商里关注的节点.某直播公司为增加销售额,准备采取新举措,将原本单一的直播团队拆分为甲、乙两个直播团队,相互竞争.该公司记录了新举措实施前40天的全公司的日均总销售额和新举措实施后40天的日均总销售额的天数频数分布表,如表所示:新举措实施前40天全公司的日均总销售额日均总销售额(万元)1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论