分类变量与列联表课件高二下学期数学人教A版选择性_第1页
分类变量与列联表课件高二下学期数学人教A版选择性_第2页
分类变量与列联表课件高二下学期数学人教A版选择性_第3页
分类变量与列联表课件高二下学期数学人教A版选择性_第4页
分类变量与列联表课件高二下学期数学人教A版选择性_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

8.3.1分类变量与列联表前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑100m世界纪录和创纪录的时间等,都是数值变量.数值变量的取值为实数,其大小和运算都有实际含义.在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题.例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等.本节将要学习的独立性检验方法为我们提供了解决这类问题的方案.在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义.本节我们主要讨论取值于{0,1}的分类变量的关联性问题.探究二:分类变量问题:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?解法一:比较经常锻炼的学生在女生和男生中的比率.由已知数据,可得探究二:列联表男生经常锻炼的比率比女生高出15.4个百分点,所以该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼.分析:上面的问题还可以通过建立一个古典概型,使用条件概率的语言,给出另外一种解答方法.若从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率为而该男生属于经常锻炼群体的概率为解法二:用Ω表示该校全体学生构成的集合,则Ω为样本空间,对于Ω中的每一名学生,定义分类变量X和Y如下:因此,性别对体育锻炼的经常性没有影响:性别对体育锻炼的经常性有影响:下面我们利用已知数据分别来计算这两个条件概率.为了清楚起见,我们用表格整理数据,如下表所示.性别锻炼合计不经常(Y=0)经常(Y=1)女生(X=0)192331523男生(X=1)128473601合计3208041124∴在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼.在上面问题的两种解答中,使用了学校全部学生的调查数据,利用这些数据能够完全确定解答问题所需的比率和条件概率.然而,对于大多数实际问题,我们无法获得所关心的全部对象的数据,因此无法准确计算出有关的比率或条件概率.在这种情况下,上述古典概型和条件概率的观点为我们提供了一个解决问题的思路.比较简单的做法是利用随机抽样获得一定数量的样本数据,再利用随机事件发生的频率稳定于概率的原理对问题答案作出推断.反思归纳分类变量X和Y的抽样数据的2×2列联表:2×2列联表给出成对分类变量数据的交叉分类频数.n=a+b+c+db+da+c合计c+ddcX=1a+bbaX=0Y=1Y=0合计YX

2×2列联表的概念归纳总结解:用Ω表示两所学校的全体学生构成的集合.考虑以Ω为样本空间的古典概型.对于Ω中的每一名学生,定义分类变量X和Y如下:例1:为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.将所给数据整理成如下2×2列联表.例题课本126页甲校乙校1.00.80.60.40.00.2优秀不优秀学校数学成绩合计不优秀(Y=0)优秀(Y=1)甲校(X=0)331043乙校(X=1)38745合计711788由2×2列联表可得,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为可以用等高堆积条形图直观地展示上述计算结果:甲校乙校1.00.80.60.40.00.2优秀不优秀通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率.依据频率稳定于概率的原理,我们可以推断甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率.因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.两个分类变量之间关联关系的定性分析的方法:(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.如可以通过列联表中

值的大小粗略地判断分类变量X和Y之间有无关系.一般其值相差越大,分类变量有关系的可能性越大.(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.反思归纳思考:你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?事实上,“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.这就是说,样本的随机性导致了两个频率间出现较大差异.在这种情况下,我们推断出的结论就是错误的.后面我们将讨论犯这种错误的概率大小问题.课本128页1.假设在本小节“问题”中,只是随机抽取了44名学生,按照性别和体育锻炼情况整理为如下的列联表:性别锻炼合计不经常经常女生51520男生61824合计113344(1)据此推断性别因素是否影响学生锻炼的经常性;(2)说明你的推断结论是否可能犯错,并解释原因.练习性别锻炼合计不经常(Y=0)经常(Y=1)女生(X=0)51520男生(X=1)61824合计113344解:(1)根据列联表中的数据,计算得男女生中不经常锻炼和经常锻炼的频率分别为通过对比发现,男生中不经常锻炼和经常锻炼的频率与女生中不经常锻炼和经常锻炼的频率分别相等,依据频率稳定于概率的原理,可以推断P(Y=1|X=0)=P(Y=1|X=1).因此,可以认为性别对体育锻炼的经常性没有影响.(2)推断可能犯错误.因为样本是通过随机抽样得到的,频率具有随机性,因此推断可能犯错误.2.网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?解:根据题目所给的数据得到如下2×2列联表:成绩上网合计经常上网不经常上网不及格80120200及格120680800合计2008001000由此可得得到等高堆积条形图如图所示:比较图中阴影部分,可以发现经常上网期末考试不及格的频率明显高于经常上网期末考试及格的频率,因此可以认为经常上网与学习成绩有关.随堂检测2.已知两分类变量的列联表如下:最后发现,这两个分类变量没有任何关系,则a的值可能是(

)A.200B.720 C.100D.1803.(多选)如图是调查某地区男、女中学生喜欢理科的等高堆积条形图,阴影部分表示喜欢理科的百分比,从图可以看出(

)A.性别与喜欢理科无关B.女生中喜欢理科的百分比为80%C.男生比女生喜欢理科的可能性大些D.男生不喜欢理科的百分比为40%解析:由题图知女生中喜欢理科的百分比为20%,男生不喜欢理科的百分比为40%,男生比女生喜欢理科的可能性大些,故A,B不正确,C,D正确.5.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高堆积条形图,利用图形判断考前心情紧张与性格类型是否有关系.解:作列联表如下:考前心情性格合计内向外向紧张332213545不紧张94381475合计4265941020相应的等高堆积条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前心情紧张与性格类型有关.1.分类变量用以区别不同的现象或性质的一种特殊的随机变量,称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.2.列联表将形如下表这种形式的数据统计表称为2×2列联表.2×2列联表给出了成对分类变量数据的交叉分类频数.课堂小结n=a+b+c+db+da+c合计c+ddcX=1a+bbaX=0Y=1Y=0合计YX

课外作业课本127页1.成语“名师出高徒”可以解释为“知名老师指导出高水平学生的概率较大”,即老师的名声与学生的水平之间有关联.你能举出更多的描述生活中两种属性或现象之间关联的成语吗?解:例如水涨船高、登高望远等.课本127页2.例1中的随机抽样数据是否足够确定与X和Y有关的所有概率和条件概率?为什么?解:不能.因为随机抽样得到的样本具有随机性,根据样本数据计算出来的频率也具有随机性.在统计推断中,依据频率稳定于概率的原理,可以利用频率推断与X和Y有关的概率和条件概率,但由于频率具有随机性,这种推断可能犯错误.因此,随机抽样数据不足以确定与X和Y有关的所有概率和条件概率.课本127页3.根据有关规定,香烟盒上必须印上“吸烟有害健康”的警示语.那么(1)吸烟是否对每位烟民一定会引发健康问题?(2)有人说吸烟不一定引起健康问题,因此可以吸烟.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论