版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、)1 1、了解独立性检验的基本思想、方法及其初、了解独立性检验的基本思想、方法及其初步应用。步应用。2 2、会从列联表(只要求、会从列联表(只要求22列联表)、条形列联表)、条形图直观分析两个分类变量是否有关图直观分析两个分类变量是否有关3.会用公式判断两个分类变量在某种程度上的会用公式判断两个分类变量在某种程度上的相关性相关性一、目标展示一、目标展示问题问题: 数学家庞加莱每天都从一家数学家庞加莱每天都从一家面包店买一块面包店买一块1000g 的面包,并记的面包,并记录下买回的面包的实际质量。一年录下买回的面包的实际质量。一年后,这位数学家发现,所记录数据后,这位数学家发现,所记录数据的均值
2、为的均值为950g。于是庞加莱推断这。于是庞加莱推断这家面包店的面包分量不足。家面包店的面包分量不足。 假设假设“面包分量足面包分量足”,则一年购买面包的质量,则一年购买面包的质量数据的平均值应该不少于数据的平均值应该不少于1000g ; “这个平均值不大于这个平均值不大于950g”是一个与假设是一个与假设“面包面包分量足分量足”矛盾的小概率事件;矛盾的小概率事件; 这个小概率事件的发生使庞加莱得出推断结果。这个小概率事件的发生使庞加莱得出推断结果。相关概念相关概念这种变量的不同这种变量的不同“值值”表示个体所属的表示个体所属的不同类别,这类变量称为不同类别,这类变量称为分类变量分类变量分类变
3、量分类变量 性别变量,取值为:男、女性别变量,取值为:男、女请举出几个分类变量的例子请举出几个分类变量的例子试一试01问题问题: : 为了调查吸烟是否对肺癌有影为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了响,某肿瘤研究所随机地调查了99659965人,人,得到如下结果(单位:人)得到如下结果(单位:人)那么吸烟是否会对患肺癌有影响?那么吸烟是否会对患肺癌有影响?不患肺癌不患肺癌 患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计98749874919199659965吸烟与患肺癌吸烟与患肺癌列联表列联表(列
4、出两个分类变量的频数(列出两个分类变量的频数表):表):在不吸烟者中患肺癌的比重是在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是 0.54%0.54%2.28%2.28%直观上的结论:吸烟者和不吸烟者患肺癌直观上的结论:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能的可能性存在差异,吸烟者患肺癌的可能性大性大不患肺癌不患肺癌 患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计987498749191996599651.列联表列联表二、自主合作二、自主合作等高条形图更清晰地表达
5、了两种情况下患肺癌的等高条形图更清晰地表达了两种情况下患肺癌的比例比例,可以直观地得出吸烟与患肺癌有关可以直观地得出吸烟与患肺癌有关2.等高条形图等高条形图 有一个颠扑不破的真理,那就是当我们不能确定什么是真的时,我们就应该去探求什么是最可能的。笛卡尔我们能有多大把握认为“患病与吸烟有关”呢?将问题一般化将问题一般化三、探究解疑三、探究解疑独立性检验独立性检验不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟a ab ba+ba+b吸烟吸烟c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d假设假设H H0 0: 吸烟吸烟和和患肺癌患肺癌之间没有关系之间没有关系
6、用用 A A 表示表示“不吸烟不吸烟”, B B 表示表示“不患肺癌不患肺癌”则则 H0: 吸烟吸烟和和患肺癌患肺癌之间没有关系之间没有关系 P P( (A AB B) )= = P P( (A A) )P P( (B B) )等价于等价于a a + + b ba a + + c ca aP P( (A A) ), ,P P( (B B) ), ,P P( (A AB B) )n nn nn n其其 中中 n n = = a a + + b b + + c c + + d da aa a+ +b ba a+ +c cn nn nn n不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟a ab b
7、a+ba+b吸烟吸烟c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d adbc即0.adbca ad d- -b bc c 越越小小,说说明明吸吸烟烟与与患患肺肺癌癌之之间间的的关关系系越越弱弱,a ad d- -b bc c 越越大大,说说明明吸吸烟烟与与患患肺肺癌癌之之间间的的关关系系越越强强2 22 2n n( a ad d- -b bc c)K K = =( (a a+ +b b) )( (c c+ +d d) )( (a a+ +c c) )( (b b+ +d d) )引入一个随机变量引入一个随机变量作为检验在多大程度上可以认为作为检验在多大程度
8、上可以认为“两个变量有两个变量有关系关系”的标准的标准 。若若K210.828则有则有99.9%的把握认为的把握认为A与与B有关若有关若K26.635则有则有99%的把握认为的把握认为A与与B有关有关上面这种利用随机变量上面这种利用随机变量K2来判断来判断“两个分类变量两个分类变量有关系有关系”的方法称为的方法称为独立性检验独立性检验.P(k2k0)0.010 0.005 0.001k06.635 7.879 10.828临界值表临界值表通过公式计算通过公式计算2242 20997817 2148 9874 91 56.632 6.635K9965(7775 49)3.独立性检验独立性检验不患
9、肺癌不患肺癌 患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计987498749191996599652 22 2n n(a ad d- -b bc c)K K = =( (a a+ +b b) )( (c c+ +d d) )( (a a+ +c c) )( (b b+ +d d) )因此我们有因此我们有99%的把握认为的把握认为”吸烟与患肺癌吸烟与患肺癌有关系有关系”第一步:第一步:H H0 0: 吸烟吸烟和和患肺癌患肺癌之间没有关系之间没有关系 不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟a ab ba+
10、ba+b吸烟吸烟c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d第二步:列出第二步:列出2 22 2列联表列联表 4、独立性检验的步骤、独立性检验的步骤第三步:计算第三步:计算第四步:查临界值表,作出判断。第四步:查临界值表,作出判断。)()()()(22dcbadbcabcadnK独立性检验的独立性检验的基本思想基本思想类似于数学上的类似于数学上的反证法反证法.要确认要确认”两个分类变量有关系两个分类变量有关系”这一结论成立这一结论成立的可信程度的可信程度,首先首先假设该结论不成立假设该结论不成立,即假设结论即假设结论”两个分类变量没有关系两个分类变量没有
11、关系”成立成立.在该假设下我们在该假设下我们构造的随机变量构造的随机变量K2应该很小应该很小.如果由观测数据计如果由观测数据计算得到的算得到的K2的观测值的观测值k很大很大,则断言则断言H0不成立不成立,即即认为认为“两个分类变量有关系两个分类变量有关系”;如果观测值;如果观测值k很很小,则说明在样本数据中没有发现足够证据拒小,则说明在样本数据中没有发现足够证据拒绝绝H0 .例例1.1.在某医院在某医院, ,因为患心脏病而住院的因为患心脏病而住院的665665名男性病人中名男性病人中, ,有有214214人秃顶人秃顶, ,而另外而另外772772名名不是因为患心脏病而住院的男性病人中有不是因为
12、患心脏病而住院的男性病人中有175175人秃顶人秃顶. .(1 1)利用图形判断秃顶与患心脏病是否有)利用图形判断秃顶与患心脏病是否有关系关系(2 2)能否在犯错误概率不超过)能否在犯错误概率不超过0.010.01的前提的前提下认为秃顶与患心脏病有关系?下认为秃顶与患心脏病有关系?例题分析解:根据题目所给数据得到如下列联表:解:根据题目所给数据得到如下列联表:患心脏病患心脏病 不患心脏病不患心脏病总计总计秃顶秃顶214175389不秃顶不秃顶4515971048总计总计6657721437 根据列联表中的数据,得到根据列联表中的数据,得到221437 (214 597 175 451)16.3
13、736.635.389 1048 665 772K所以在犯错误的概率不超过所以在犯错误的概率不超过0.01的前提下认为的前提下认为“秃顶患心脏病有关秃顶患心脏病有关”。2K4.513k (试一试)为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:喜欢数学课程不喜欢数学总计男3785122女35143178总计72228300由表中数据计算得到由表中数据计算得到的观察值的观察值在多大程度上可以认为高中生的性别与是否在多大程度上可以认为高中生的性别与是否喜欢数学课程之间有关系?喜欢数学课程之间有关系?由于由于4.5133.841,故有,故有
14、95%的把握认为二者有关的把握认为二者有关四、反思提高四、反思提高体验高考体验高考 (2010新课标全国卷)新课标全国卷) 为调查某地区老人是否需为调查某地区老人是否需要志愿者提供帮助,用简单随机抽样方法从该地要志愿者提供帮助,用简单随机抽样方法从该地区调查了区调查了500位老年人,结果如下:位老年人,结果如下:估计该地区老年人中,需要志愿者提供帮助估计该地区老年人中,需要志愿者提供帮助的老年人的比例;的老年人的比例;能否有能否有99的把握认为该地区的老年人是否的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?需要志愿者提供帮助与性别有关?男男女女需要需要4030不需要不需要16027
15、07014%50022500 (40 27030 160)9.967200 300 70 430K(1)调查的)调查的500位老年人中有位老年人中有70位需要志愿者位需要志愿者提供帮助,因此该地区老年人中,需要帮助的提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估算值为老年人的比例的估算值为(2)做出列联表做出列联表。由于由于9.9676.635,所以有所以有99%的把握认为该的把握认为该地区的老年人是否需要帮助与性别有关。地区的老年人是否需要帮助与性别有关。男男女女总计总计需要需要403070不需要不需要160270430总计总计200300500课堂小结作业:教材习题3.2 1,2
16、 知识层面上: 独立性检验的基本思想,实施步骤思想方法上: 数形结合的思想, 类比的思想在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是 ( )A. 若k=6.635,则有99%的把握认为吸烟与患肺病有关,那么100名吸烟者中,有99个患肺病.B. 从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,可以说某人吸烟,那么他有99%的可能性患肺病.C. 若从统计量中求出有95%的把握认为吸烟与患肺病有关,是指有5%的可能性使推断出现错误.D. 以上三种说法都不对.c 当堂达标2 22. 下面是一个 列联表不健康 健康总计不优秀a2173优秀22527总计b46100则表中a,b的值分别是( )A. 94,96 B. 52,50 C. 52,54 D. 54,52c 3. 在独立性检验中,当统计量满足 时,我们有99%的把握认为这两个分类变量有关系.k26.6354.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:认为作业多认为作业不多总计玩游戏18927不玩游戏81523总计262450则认为喜欢玩游戏与认为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 乳酸菌饮料市场分析报告
- 教案 冷热不均引起大气运动
- 测距仪账务处理实例-记账实操
- 房地产 -中建大商务管理低成本运营
- 2024年直联式真空泵项目评估分析报告
- 消防栓使用方法介绍
- 2019湘美版 高中美术 选择性必修1 绘画《第三单元 主题性表现》大单元整体教学设计2020课标
- 2024届贵州省罗甸县第一中学高三年级第六次月考数学试题
- 参赛选手合同范本
- 槟榔租赁合同
- 公务员考试议论文范文精选5篇
- 裴礼文数学分析中的典型问题与方法第二版习题参考解答
- 高考模拟作文写作:“如何辨别取舍信息”导写(附:写作指导及范文点评)
- KF思维技术-在合作中解决问题与决策完整课件
- 四年级数学老师家长会ppt
- 压裂优化设计理论及案例
- 喜马拉雅有声书用户行为市场报告课件
- 2009-2022历年江苏省苏州工业园区管委会直属事业单位统一公开招聘人员《综合知识与能力素质》试题(管理类)含答案2022-2023上岸必备汇编4
- ACS510变频器参数表
- G344项目临建工程施工方案-12号定稿
- 《汽车服务企业管理》试题及参考答案A
评论
0/150
提交评论