高中数学选择性必修三课件:8 3 1 分类变量与列联表(人教A版)_第1页
高中数学选择性必修三课件:8 3 1 分类变量与列联表(人教A版)_第2页
高中数学选择性必修三课件:8 3 1 分类变量与列联表(人教A版)_第3页
高中数学选择性必修三课件:8 3 1 分类变量与列联表(人教A版)_第4页
高中数学选择性必修三课件:8 3 1 分类变量与列联表(人教A版)_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

8.3.1分类变量与列联表第八章§8.3

列联表与独立性检验1.通过实例,理解2×2列联表的统计意义.2.理解判断两个分类变量是否有关系的常用方法.学习目标导语有关医学研究表明,许多疾病,例如:心脏病、癌症、脑血管病、慢性阻塞性肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手.为此,联合国固定每年5月31日为全球戒烟日.那么这些疾病与吸烟有关系吗?随堂演练课时对点练内容索引一、数值变量与分类变量二、列联表三、分类变量与列联表的实际应用一、数值变量与分类变量问题1下列变量:人的身高,直尺的长度,性别,国籍,民族有什么不同?提示

人的身高,直尺的长度都是数值变量;性别,国籍,民族这些变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.数值变量:数值变量的取值为

,其大小和运算都有实际含义.分类变量:这里所说的变量和值不一定是具体的数值,例如:性别变量,其取值为男和女两种,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为

,分类变量的取值可以用_____表示.知识梳理实数分类变量实数注意点:分类变量的取值可以用实数来表示,例如男性,女性可以用1,0表示,学生的班级可以用1,2,3来表示.这些数值只作编号使用,并没有大小和运算意义.分类变量是相对于数值变量来说的.例1下列不是分类变量的是A.近视 B.成绩

C.血压 D.饮酒解析近视变量有近视与不近视两种类别,血压变量有异常、正常两种类别,饮酒变量有饮酒与不饮酒两种类别.成绩不是分类变量,它的取值不一定有两种.√例1下列不是分类变量的是A.近视 B.成绩

C.血压 D.饮酒解析近视变量有近视与不近视两种类别,血压变量有异常、正常两种类别,饮酒变量有饮酒与不饮酒两种类别.成绩不是分类变量,它的取值不一定有两种.√反思感悟

变量的不同“值”表示个体所属的不同类别,像这样的变量才是分类变量.跟踪训练1

下列变量中不属于分类变量的是A.性别 B.吸烟C.宗教信仰 D.国籍√解析吸烟不是分类变量,是否吸烟才是分类变量.所以选B.二、列联表问题2为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,其中,不吸烟的7817人中42人患肺癌,吸烟的2148人中49人患肺癌,试分析吸烟是否对患肺癌有影响.(1)我们在研究“吸烟与患肺癌的关系”时,需要关注哪一些量呢?并填表说明.行为疾病合计不患肺癌患肺癌不吸烟

427817吸烟

492148合计

9965①在不吸烟者中患肺癌的比例为________;②在吸烟者中患肺癌的比例为________.提示吸烟患肺癌的人数;不吸烟患肺癌的人数;吸烟不患肺癌的人数;不吸烟不患肺癌的人数.行为疾病

合计不患肺癌患肺癌不吸烟7775427817吸烟2099492148合计9874919965①0.54%

②2.28%说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大.提示吸烟患肺癌的人数;不吸烟患肺癌的人数;吸烟不患肺癌的人数;不吸烟不患肺癌的人数.行为疾病

合计不患肺癌患肺癌不吸烟7775427817吸烟2099492148合计9874919965①0.54%

②2.28%说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大.(2)我们还能够从图形中得到吸烟与患肺癌之间的关系吗?提示知识梳理(1)2×2列联表定义一对分类变量X和Y,我们整理数据如表所示:XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+dXY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d上表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是事件{Y=0}和{Y=1}的

;最后一列的前两个数分别是事件{X=0}和{X=1}的_;中间的四个数a,b,c,d是事件{X=x,Y=y}(x,y=0,1)的

;右下角格中的数n是

.频数频数频数样本容量(2)等高堆积条形图等高堆积条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高堆积条形图展示列联表数据的

特征,依据_____________的原理,我们可以推断结果.频率频率稳定于概率例2

在研究某种药物对“H1N1”病毒的治疗效果时,进行动物试验,得到以下数据:对150只动物服用药物,其中132只动物存活,18只动物死亡,对150只动物进行常规治疗,其中114只动物存活,36只动物死亡.请根据以上数据建立一个2×2列联表.解

2×2列联表如表所示:类别治疗效果合计存活死亡药物治疗13218150常规治疗11436150合计24654300反思感悟作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.跟踪训练2在海南省第二十四届科技创新大赛活动中,某同学为研究“网络游戏对当代青少年的影响”作了一次调查,共调查了50名同学,其中男生26人,有8人不喜欢玩电脑游戏,而调查的女生中有9人喜欢玩电脑游戏.请根据以上数据建立一个2×2的列联表.解

2×2列联表如表所示:态度性别合计男生女生喜欢玩电脑游戏18927不喜欢玩电脑游戏81523合计262450三、分类变量与列联表的实际应用例3

在某测试中,卷面满分为100分,60分为及格,为了调查午休对本次测试前两个月复习效果的影响,特对复习中进行午休和不进行午休的考生进行了测试成绩的统计,数据如表所示:分数段29~4041~5051~6061~7071~8081~9091~100午休考生人数23473021143114不午休考生人数1751671530173(1)根据上述表格完成列联表:是否午休成绩合计及格不及格午休

不午休

合计

根据题表中数据可以得到2×2列联表如下:是否午休成绩合计及格不及格午休80100180不午休65135200合计145235380(2)根据列联表可以得出什么样的结论?对今后的复习有什么指导意义?因此,可以粗略判断午休与考生考试及格有关系,并且午休的及格率高,所以在以后的复习中考生应尽量适当午休,以保持最佳的学习状态.反思感悟利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将

与的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.跟踪训练3网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用等高堆积条形图判断学生学习成绩与经常上网有关吗?解

根据题目所给的数据得到如下2×2列联表:学习成绩上网合计经常不经常不及格80120200及格120680800合计2008001000得出等高堆积条形图如图所示.比较图中阴影部分高可以发现经常上网不及格的频率明显高于经常上网及格的频率,因此可以认为学习成绩与经常上网有关.1.知识清单:(1)分类变量.(2)2×2列联表.(3)等高堆积条形图.2.方法归纳:数形结合.3.常见误区:2×2列联表计算错误.课堂小结随堂演练1.与表格相比,能更直观地反映出相关数据总体状况的是A.列联表 B.散点图C.残差图 D.等高堆积条形图1234√则表中a,b处的值分别为A.94,96 B.52,50

C.52,60 D.54,522.下面是一个2×2列联表:1234√XY合计Y=0Y=1X=0a2173X=182533合计b46

解析∵a+21=73,∴a=52,b=a+8=52+8=60.12343.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为

y1y2x11018x2m26则当m取下面何值时,X与Y的关系最弱A.8B.9C.14D.19√解析由10×26≈18m,解得m≈14.4,所以当m=14时,X与Y的关系最弱.12344.根据如图所示的等高堆积条形图可知吸烟与患肺病______关系(填“有”或“没有”).有解析从等高堆积条形图上可以明显地看出吸烟患肺病的频率远远大于不吸烟患肺病的频率.课时对点练C.此等高堆积条形图看不出两种手术有什么不同的地方D.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某

种程度上是不同的,但是没有100%的把握1.下面的等高堆积条形图可以说明的问题是基础巩固12345678910111213141516√A.“心脏搭桥”手术和“血管清障”

手术对“诱发心脏病”的影响是绝

对不同的B.“心脏搭桥”手术和“血管清障”

手术对“诱发心脏病”的影响没有

什么不同解析由等高堆积条形图可知选项D正确.12345678910111213141516在这50人中随机抽取1人,抽到喜欢户外运动的员工的概率是0.6,则下列说法正确的是A.抽取的50人中喜欢户外运动的

有30人B.a=20,c=15C.e=30,f=10D.女性中喜欢户外运动的概率为0.42.(多选)户外运动已经成为一种时尚,某单位为了了解员工喜欢户外运动是否与性别有关,从本单位所有员工共计650人中采用分层随机抽样的方法抽取50人进行问卷调查,得到了如下2×2列联表:12345678910111213141516√性别户外运动

合计喜欢不喜欢男性a5b女性10cd合计ef50√√解析从50人中随机抽取1人,抽到喜欢户外运动的员工的概率是0.6,可得50人中喜欢户外运动的人数为50×0.6=30,即e=30,f=20.因为喜欢户外运动的女性有10人,所以喜欢户外运动的男性有30-10=20人,即a=20,b=25.因为不喜欢户外运动的男性有5人,所以不喜欢户外运动的女性有20-5=15(人),12345678910111213141516则下列说法不正确的是A.ad-bc越小,说明X与Y关系越弱B.ad-bc越大,说明X与Y关系越强C.(ad-bc)2越大,说明X与Y关系越强D.(ad-bc)2越接近于0,说明X与Y关系越强12345678910111213141516√3.(多选)分类变量X和Y的列联表如下:

y1y2合计x1aba+bx2cdc+d合计a+cb+da+b+c+d√√12345678910111213141516解析|ad-bc|越小,说明X与Y关系越弱,|ad-bc|越大,说明X与Y关系越强.最后发现,这两个分类变量没有任何关系,则a的值可能是A.200B.720C.100D.1804.已知两个分类变量的列联表如下:12345678910111213141516√解析由于A和B没有任何关系,12345678910111213141516A.性别与喜欢数学无关B.女生中喜欢数学的百分比为80%C.男生比女生喜欢数学的可能性大些D.男生不喜欢数学的百分比为40%5.(多选)如图是调查某地区男、女中学生喜欢数学的等高堆积条形图,阴影部分表示喜欢数学的百分比,从图可以看出12345678910111213141516√√解析由题图知女生中喜欢数学的百分比为20%,男生不喜欢数学的百分比为40%,男生比女生喜欢数学的可能性大些,故A,B不正确,C,D正确.A.54,43 B.53,43

C.53,42 D.54,426.如图,2×2列联表中a,b的值分别为12345678910111213141516√

Y1Y2合计X1caeX223d48合计b78121解析由2×2列联表,可得b+78=121,则b=43,123456789101112131415167.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如表所示:

文艺节目新闻节目合计20至40岁401858大于40岁152742合计5545100由表中数据直观分析,收看新闻节目的观众是否与年龄有关_____(填“是”或“否”).是12345678910111213141516解析因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.8.下表是不完整的2×2列联表,其中3a=c,b=2d,则a=____.1234567891011121314151615又3a=c,b=2d,

Y1y2合计x1ab55x2cd

合计

120123456789101112131415169.为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:

父母吸烟父母不吸烟合计子女吸烟23783320子女不吸烟6785221200合计9156051520利用等高堆积条形图判断父母吸烟对子女吸烟是否有影响?12345678910111213141516解

等高堆积条形图如图.由图形观察可以看出父母吸烟者中子女吸烟的比例要比父母不吸烟者中子女吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.1234567891011121314151610.某学校对高三学生作了一项调查,发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.作出等高堆积条形图,利用图形判断考前心情紧张与性格类别是否有关系.12345678910111213141516解

作列联表如下:相应的等高堆积条形图如图所示.

性格内向性格外向合计考前心情紧张332213545考前心情不紧张94381475合计426594102012345678910111213141516图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例.从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前心情紧张与性格类别有关.综合运用1234567891011121314151611.假设有两个变量x与y的2×2列联表如表:

y1y2x1abx2cd对于以下数据,对同一样本能说明x与y有关系的可能性最大的一组为A.a=2,b=3,c=4,d=5B.a=5,b=3,c=3,d=4C.a=3,b=6,c=2,d=5D.a=5,b=3,c=4,d=3√12345678910111213141516解析根据观测值求解的公式可知,当ad与bc差距越大,两个变量有关的可能性就越大,检验四个选项中所给的ad与bc的差距.A,ad-bc=10-12=-2,B,ad-bc=20-9=11,C,ad-bc=15-12=3,D,ad-bc=15-12=3,显然B中|ad-bc|最大.12.在2×2列联表中,两个比值相差越大,两个分类变量有关系的可能性就越大,那么这两个比值为12345678910111213141516√因为|ad-bc|的值越大,两个分类变量有关系的可能性就越大,故选A.A.甲专业比乙专业的录取率高

B.乙专业比甲专业的录取率高C.男生比女生的录取率高

D.女生比男生的录取率高12345678910111213141516√13.(多选)随着我国经济结构调整和方式转变,社会对高质量人才的需求越来越大,因此考研现象在我国不断升温.某大学一学院甲、乙两个本科专业,研究生的报考和录取情况如表,则√性别甲专业报考人数乙专业报考人数性别甲专业录取率乙专业录取率男100400男25%45%女300100女30%50%12345678910111213141516解析由题意可得甲专业录取了男生25人,女生90人,乙专业录取了男生180人,女生50人.所以乙专业比甲专业的录取率高.所以男生比女生的录取率高.1234567891011121314151614.下表是关于男婴与女婴出生时间调查的列联表:那么,A=______,B=______,C=______,D=______,E=______.4792

晚上白天合计男婴45AB女婴E35C合计98D18088825312345678910111213141516拓广探究1234567891011121314151615.(多选)已知两个分类变量X,Y,它们的取值分别为{x1,x2}和{y1,y2},其列联表为:√

y1y2合计x1aba+bx2cdc+d合计a+cb+da+b+c+d若两个分类变量X,Y没有关系,则下列结论正确的√12345678910111213141516解析因为分类变量X,Y没有关系,化简得ad≈bc,所以A,B正确,C,D显然不正确.1234567891011121314151616.针对某新型病毒,某科研机构已研发出甲、乙两种疫苗,为比较两种疫苗的效果,选取100名志愿者,将他们随机分成两组,每组50人.第一组志愿者注射甲种疫苗,第二组志愿者注射乙种疫苗,经过一段时间后,对这100名志愿者进行该新型病毒抗体检测,发现有

的志愿者未产生该新型病毒抗体,在未产生该新型病毒抗体的志愿者中,注射甲种疫苗的志愿者占

.

产生抗体未产生抗体合计甲

合计

根据题中数据,完成列联表.12345678910111213141516产生抗体的人数为50-2=48,注射乙种疫苗的志愿者中未产生抗体的人数为10-2=8,产生抗体的人数为50-8=42.所得列联表为:

产生抗体未产生抗体合计甲48250乙42850合计9010100备用工具&资料123456789101112131415

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论