版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGE3.2独立性检验的基本思想及其初步应用内容标准学科素养1.能用等高条形图反映两个分类变量之间是否有关系.2.能够依据条件列出列联表并会由公式求k.3.能知道独立性检验的基本思想和方法.利用数据分析提升数学建模及数学运算授课提示:对应学生用书第54页[基础相识]学问点一分类变量及2×2列联表eq\a\vs4\al(预习教材P91-92,思索并完成以下问题)在日常生活中,我们经常关切两个分类变量之间是否有关系.例如,吸烟与患肺癌是否有关系?性别是否对宠爱数学课程有影响?等等.为探讨吸烟是否对患肺癌有影响,某肿瘤探讨所随机地调查了9965人,得到如下结果:不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965那么吸烟是否对患肺癌有影响?提示:在不吸烟样本中,有0.54%患肺癌;在吸烟样本中,有2.28%患肺癌.因此,直观上可以得到结论:吸烟群体和不吸烟群体患肺癌的可能性存在差异,吸烟者患肺癌的可能性大.学问梳理1.分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2.列联表(1)定义:列出的两个分类变量的频数表,称为列联表.(2)2×2列联表一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为下表.y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d学问点二等高条形图学问梳理与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.比较图中两个深色条的高可以发觉,在吸烟样本中患肺癌的频率要高一些,因此直观上可以认为吸烟更简单引发肺癌.假如通过干脆计算或等高条形图发觉eq\f(a,a+b)和eq\f(c,c+d)相差很大,就推断两个分类变量之间有关系.学问点三独立性检验学问梳理1.定义:利用随机变量K2来推断“两个分类变量有关系”的方法称为独立性检验.2.K2=eq\f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d.3.独立性检验的详细做法(1)依据实际问题的须要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.(2)利用公式计算随机变量K2的观测值k.(3)假如k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发觉足够证据支持结论“X与Y有关系”.[自我检测]1.在一个2×2列联表中,由其数据计算得K2=13.097,认为两个变量有关系犯错误的概率不超过()A.0.001 B.0.05C.0.1 D.0.2答案:A2.由如图所示的等高条形图,可知吸烟与患肺病________关系.(填“有”或“没有”)答案:有授课提示:对应学生用书第55页探究一等高条形图的应用[阅读教材P95例1]在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.(1)利用图形推断秃顶与患心脏病是否有关系;(2)能否在犯错误的概率不超过0.01的前提下认为秃顶与患心脏病有关系?题型:利用等高条形图推断两分类变量是否有关方法步骤:(1)列出2×2列联表.(2)计算出秃顶样本中患心脏病的频率,和不秃顶样本中患心脏病的频率.(3)作出两样本中的等高条形图作出推断:秃顶与患心脏病有关.[例1]为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和比照组的尿液作尿棕色素定性检查,结果如下:组别阳性数阴性数总计铅中毒病人29736比照组92837总计383573试画出列联表的等高条形图,分析铅中毒病人和比照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?[解析]等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和比照组样本中尿棕色素为阳性的频率.由图可以直观地看出铅中毒病人与比照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.方法技巧1.推断两个分类变量是否有关系的方法(1)利用数形结合思想,借助等高条形图来推断两个分类变量是否相关是推断变量相关的常见方法.(2)在等高条形图中,eq\f(a,a+b)与eq\f(c,c+d)相差越大,两个分类变量有关系的可能性就越大.2.利用等高条形图推断两个分类变量是否相关的步骤跟踪探究1.为考察某种药物预防疾病的效果进行动物试验,得到如下列联表:患病未患病总计服用药104555未服用药203050总计3075105试用等高条形图分析服用药和患病之间是否有关系.解析:依据列联表所给的数据可得出服用药患病的频率为eq\f(10,55)≈0.18,未服用药患病的频率为eq\f(20,50)=0.4,两者的差距是|0.18-0.4|=0.22,两者相差很大,作出等高条形图如图所示,因此服用药与患病有关系.探究二独立性检验[阅读教材P97习题3.2第2题]通过随机询问72名不同性别的高校生在购买食物时是否看养分说明,得到如下列联表:性别与读养分说明列联表女男总计读养分说明162844不读养分说明20828总计363672能否在犯错误的概率不超过0.005的前提下认为性别和是否看养分说明有关系呢?解析:由题意得K2=eq\f(72×16×8-20×282,36×36×28×44)=8.416>7.879因此能在犯错误的概率不超过0.005的前提下认为性别与读养分说明之间有关系.[例2]某高校餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:宠爱甜品不宠爱甜品合计南方学生602080北方学生101020合计7030100依据表中数据,问是否在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.[解析]将2×2列联表中的数据代入公式计算,得K2的观测值k=eq\f(nad-bc2,a+bc+da+cb+d)=eq\f(100×60×10-20×102,70×30×80×20)=eq\f(100,21)≈4.762.因为4.762>3.841,所以在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.方法技巧1.独立性检验的关注点在2×2列联表中,假如两个分类变量没有关系,则应满意ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.2.独立性检验的详细做法(1)依据实际问题的须要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k0.(2)利用公式K2=eq\f(nad-bc2,a+bc+da+cb+d)计算随机变量K2的观测值k.(3)假如k≥k0,推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发觉足够的证据支持结论“X与Y有关系”.跟踪探究2.某省进行中学新课程改革已经四年了,为了解老师对新课程教学模式的运用状况,某一教化机构对某学校的老师关于新课程教学模式的运用状况进行了问卷调查,共调查了50人,其中有老老师20人,青年老师30人.老老师对新课程教学模式赞同的有10人,不赞同的有10人;青年老师对新课程教学模式赞同的有24人,不赞同的有6人.(1)依据以上数据建立一个2×2列联表;(2)推断是否有99%的把握说明对新课程教学模式的赞同状况与老师年龄有关系.解析:(1)2×2列联表如下所示:赞同不赞同总计老老师101020青年老师24630总计341650(2)假设“对新课程教学模式的赞同状况与老师年龄无关”.由公式得K2=eq\f(50×10×6-24×102,34×16×20×30)≈4.963<6.635,所以没有99%的把握认为对新课程教学模式的赞同状况与老师年龄有关.探究三独立性检验的综合应用[例3]某高校共有学生15000人,其中男生10500人,女生4500人.为调查该校学生每周平均体育运动时间的状况,采纳分层抽样的方法,收集300位学生每周平均体育运动时间(单位:时)的样本数据.(1)应收集多少位女生的样本数据?(2)依据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图),其中样本数据的分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并推断是否认为“该校学生的每周平均体育运动时间与性别有关”.[解析](1)由分层抽样可得300×eq\f(4500,15000)=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得学生每周平均体育运动超过4小时的频率为1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.样本数据中有210份是关于男生的,90份是关于女生的,可得每周平均体育运动时间与性别列联表如下:男生女生总计每周平均体育运动时间不超过4小时453075每周平均体育运动时间超过4小时16560225总计21090300结合列联表可算得K2的观测值k=eq\f(300×45×60-30×1652,75×225×210×90)≈4.762>3.841.所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.方法技巧1.解答此类题目的关键在于正确利用K2=eq\f(nad-bc2,a+bc+da+cb+d)计算k的值,再用它与临界值k0的大小作比较来推断假设检验是否成立,从而使问题得到解决.2.此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟识其计算流程,不难理解驾驭.跟踪探究3.为了解某班学生宠爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:宠爱打篮球不宠爱打篮球合计男生6女生10合计48已知在全班48人中随机抽取1人,抽到宠爱打篮球的学生的概率为eq\f(2,3).(1)请将上面的2×2列联表补充完整(不用写计算过程);(2)能否在犯错误的概率不超过0.05的前提下认为宠爱打篮球与性别有关?说明你的理由;(3)现从女生中抽取2人进一步调查,设其中宠爱打篮球的女生人数为X,求X的分布列与均值.解析:(1)列联表补充如下:宠爱打篮球不宠爱打篮球合计男生22628女生101020合计321648(2)由K2=eq\f(48×220-602,28×20×32×16)≈4.286.因为4.286>3.841,所以,能在犯错误的概率不超过0.05的前提下认为宠爱打篮球与性别有关.(3)宠爱打篮球的女生人数X的可能取值为0,1,2.其概率分别为P(X=0)=eq\f(C\o\al(2,10),C\o\al(2,20))=eq\f(9,38),P(X=1)=eq\f(C\o\al(1,10)C\o\al(1,10),C\o\al(2,20))=eq\f(10,19),P(X=2)=eq\f(C\o\al(2,10),C\o\al(2,20))=eq\f(9,38),故X的分布列为:X012Peq\f(9,38)eq\f(10,19)eq\f(9,38)X的均值为E(X)=0+eq\f(10,19)+eq\f(9,19)=1.授课提示:对应学生用书第57页[课后小结](1)列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有相关关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有相关关系.(2)对独立性检验思想的理解独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,假如K2的值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.[素养培优]因对独立性检验的基本思想不理解而致错已知两个分类变量X和Y的取值分别为{x1,x2},{y1,y2},若其列联表为y1y2x1515x24010则()A.X
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论