数学列联表与独立性检验课件-2024-2025学年高二下学期人教A版(2019)选择性必修第三册_第1页
数学列联表与独立性检验课件-2024-2025学年高二下学期人教A版(2019)选择性必修第三册_第2页
数学列联表与独立性检验课件-2024-2025学年高二下学期人教A版(2019)选择性必修第三册_第3页
数学列联表与独立性检验课件-2024-2025学年高二下学期人教A版(2019)选择性必修第三册_第4页
数学列联表与独立性检验课件-2024-2025学年高二下学期人教A版(2019)选择性必修第三册_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

8.3

列联表与独立性检验8.3.1分类变量与列联表8.3.2独立性检验变量数值变量分类变量例:人的身高;100米短跑所用时间;产品月销量

数值变量的取值为实数.其大小和运算都有实际含义.两个数值变量之间的关系为非确定性关系(相关关系或无关系)确定性关系(函数关系)例:班级;性别;是否经常锻炼;是否每年体检,分类变量是一种特殊的随机变量,以区别不同的现象或性质。分类变量有两个或两个以上不同的取值;每一个取值代表一类现象或性质。取值不同代表的性质或现象不同分,分类变量的取值可以用实数来表示这些数值只作为编号使用,用来表示不同的类别;并没有通常的大小和运算意义.例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示一、分类变量与列联表

本节我们主要讨论取值于{0,1}的两个分类变量之间的关联性或互相影响的问题。如何利用统计数据判断一对分类变量之间是否具有关联性呢?对于这样的统计问题,有时可以利用普查数据,通过比较相关的比率给出问题的准确回答,但在大多数情况下,需要借助概率的观点和方法.我们先看下面的具体问题.问题:某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?方法1——频率分析法

结论:该校的女生和男生在体育锻炼的经常性方面存在差异,男生更经常锻炼。性别在体育锻炼的经常性方面是否存在差异呢?比较经常锻炼的学生在女生和男生中的比率方法2——条件概率法

为了清楚起见,我们用表格整理数据根据条件概率的计算公式,我们有

方法3——借助等高堆积条形图(图形分析法)性别X锻炼Y总计不经常(Y=0)经常(Y=1)女生(X=0)192331523男生(X=1)128473601总计3208041124

性别在体育锻炼的经常性方面是否存在差异呢?通过比较发现,男生与女生经常锻炼的人生存在差异,男生经常锻炼的的频率高于女生经常锻炼的人数.

以上表为例,2×2列联包含了X和Y的如下信息:最后一行的前两个数分别是事件{Y=0}和{Y=1}中样本点的个数;最后一列的前两个数分别是事件{X=0}和{X=1}中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件{X=x,Y=y}(x,y=0,1)中样本点的个数;右下角格中的数是样本空间中样本点的总数.2×2列联表在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存.我们将形如下表这种形式的数据统计表称为2×2列联表.

2×2列联表给出了成对分类变量数据的交叉分类频数.例1:

为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.解:用Ω表示两所学校的全体学生构成的集合.考虑以Ω为样本空间的古典概型.对于Ω中每一名学生,定义分类变量X和Y如下:我们将所给数据整理成2×2列联表.例1:

为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.因此,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为:乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为:可以用等高堆积条形图直观地展示上述计算结果:通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率.依据频率稳定于概率的原理,我们可以推断甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率.

因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.

思考:你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?有可能

“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.

下一节我们将讨论犯这种错误的概率大小问题.通常把H0称为零假设或原假设.二、独立性检验假设H0:两个分类变量X和Y没有关系即:即:H0:分类变量X和Y独立.1.零假设(原假设)H0

XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d2.独立性检验公式及定义:2x2列联表χ2计算公式:构造统计量χ2随机变量χ2取值的大小作为判断零假设H0是否成立的依据,小概率值α的临界值:忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立.我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准,概率值α越小,临界值xα越大.由P(χ2≥xα)=α可知,只要把概率值α取得充分小,在假设H0成立的情况下,事件{χ2≥xα}是不大可能发生的.根据这个规律,如果该事件发生,我们就可以推断H0不成立.3.临界值的定义:α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828下表为几个常用的小概率值和相应的临界值4.基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,认为X和Y不独立即X和Y有关联,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,认为X和Y独立即X和Y无关联.这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.由图知χ2≥xα是小概率事件找某个值xα来界定χ2的大小(卡方)独立性检验的步骤(1)认清分类变量,提出零假设H0:X和Y独立,即…与…无关联(无差异);(2)列表:列出2×2列联表.(3)求值:由表中数据计算χ2的值.(4)推断:将χ2值与临界值xα比较,根据小概率值α的独立性检验规则,得出结论若χ2≥xα,则推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;若χ2<xα,则我们没有充分证据推断H0不成立,可认为X和Y独立.P(χ2≥xα)=α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验例1.根据以下列联表的数据,依据小概率值α=0.1的χ2独立性检验,分析例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异?学校成绩合计不优秀(Y=0)优秀(Y=1)甲校(X=0)331043乙校(X=1)38745合计711788P(χ2≥xα)=α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828提出原(零)假设计算

χ2找临界值比较下结论零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.

例2某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值α=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.疗法疗效合计未治愈治愈甲155267乙66369合计21115136根据小概率值α=0.005的χ2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两种疗法效果没有差异.α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828解:由已知数据列出列联表.解:零假设为H0:吸烟与患肺癌之间无关联,由表中数据可得

例3

为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如下表所示.依据小概率值α=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险.吸烟肺癌合计非肺癌患者肺癌患者不吸烟者7775427817吸烟者2099492148合计9874919965α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828根据小概率值α=0.001的χ2独立性检验,推断H0不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于0.001.练习1.同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表,则可以说其亲属的饮食习惯与年龄有关,该推断犯错误的概率不超过 ()A.0.005 B.0.004

C.0.002 D.0.001P(χ2≥xα)=α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828年龄饮食习惯合计偏爱蔬菜偏爱肉类50岁以下481250岁以上16218合计201030

P(χ2≥xα)=α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828吸烟情况患病情况合计患肺癌不患肺癌吸烟4xx5x不吸烟x4x5x合计5x5x10x课堂小结:1.小概率值α的临界值:忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论