版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、8.3列联表与独立性检验8.3.1 分类变量与列联表回顾旧知2.残差平方和: 3.最小二乘法将 称为Y 关于x 的经验回归方程,4.判断模型拟合的效果:残差分析R2越大,表示残差平方和越小,即模型的拟合效果越好R2越小,表示残差平方和越大,即模型拟合效果越差.1.线性回归模型ybxae含有随机误差e,其中x为解释变量,y响应变量 前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑100m世界纪录和创纪录的时间等,都是数值变量,数值变量的取值为实数.其大小和运算都有实际含义. 在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题.例如,就读不同学校是
2、否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等,本节将要学习的独立性检验方法为我们提供了解决这类问题的方案。 在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义,本节我们主要讨论取值于0,1的分类变量的关联性问题.新课引入如何利用统计数据判断一对分类变量之间是否具有关联性呢?对于这样的统计问题,有时可以利用普查数
3、据,通过比较相关的比率给出问题的准确回答,但在大多数情况下,需要借助概率的观点和方法,我们先看下面的具体问题。问题1. 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查,全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?新课引入新课引入我们希望通过比较条件概率P(Y=1|X=0)和P(Y=1|X=1)回答上面的问题.按照条件本概率的直观解释,如果从该校女生和男生中各随机选取一名学生,那么该女
4、生属于经常锻炼群体的概率是P(Y=1|X=0),而该男生属于经常锻炼群体的概率是P(Y=1|X=1).“性别对体育锻炼的经常性没有影响”可以描述为P(Y=1|X=0)=P(Y=1|X=1);“性别对体育锻炼的经常性有影响”可以描述为P(Y=1|X=0)P(Y=1|X=1).为了清楚起见,我们用表格整理数据学习新知我们用X=0,Y=1表示事件X=0和Y=1的积事件,用X=1,Y=1表示事件X=1和Y=1的积事件,根据古典概型和条件概率的计算公式,我们有由P(Y=1|X=1)P(Y=1|X=0)可以作出判断,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在
5、差异,而且男生更经常锻炼。在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将下表这种形式的数据统计表称为22列联表(contingency table).22列联表给出了成对分类变量数据的交叉分类频数,以右表为例,它包含了X和Y的如下信息:最后一行的前两个数分别是事件Y=0和Y=1中样本点的个数;最后一列的前两个数分别是事件X=0和X=1中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件X=x,Y=y(x,y=0,1)中样本点的个数;右下角格中的数是样本空间中样本点的总数。在上面问题的两种解答中,使用了学校全部学生的调查数据,
6、利用这些数据能够完全确定解答问题所需的比率和条件概率.然而,对于大多数实际问题,我们无法获得所关心的全部对象的数据,因此无法准确计算出有关的比率或条件概率.在这种情况下,上述古典概型和条件概率的观点为我们提供了一个解决问题的思路.比较简单的做法是利用随机抽样获得一定数量的样本数据,再利用随机事件发生的频率稳定于概率的原理对问题答案作出推断。例1为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀,试分析两校学生中数学成绩优秀率之间是否存在差异.典型例题学校数学成绩合计不优秀(Y
7、=0)优秀(Y=1)甲校(X=0)乙校(X=1)合计左表是关于分类变量X和Y的抽样数据的22列联表:最后一行的前两个数分别是事件(Y=0)和(Y=1)的频数;最后一列的前两个数分别是事件(X=0)和(X=1)的频数;中间的四个格中的数是事件(X=x,Y=y)(x,y=0,1)的频数;33104338745711788我们可以用等高堆积条形图直观地展示上述计算结果,如下图所示左边的蓝色和红色条的高度分别是甲校学生中数学成绩不优秀和数学成绩优秀的频率;右边的蓝色和红色条的高度分别是乙校学生中数学成绩不优秀和数学成绩优秀的频率,通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频
8、率明显高于乙校的频率,依据频率稳定于概率的原理,我们可以推断P(Y=1|X=0)P(Y=1|X=1).也就是说,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率,因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高。881771合计45738乙校(X=1)431033甲校(X=0)优秀(Y=1)不优秀(Y=0)合计数学成绩学校2.两个分类变量之间关联关系的定性分析的方法:(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变 量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高
9、度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.等高堆积条形图可以展示列联表数据的频率特征,能够直观地反映出两个分类变量间是否相互影响.分数段29404150516061707180819091100午休考生人数23473021143114不午休考生人数1751671530173及格人数不及格人数总计午休不午休总计【例2】在某测试中,卷面满分为100分,60分为及格,为了调查午休对本次测试前两个月复习效果的影响,特对复习中进行午休和不进行午休的考生进行了测试成绩的统计,数据如下表所示:(1)根据上述表格完成列联表:(2)根据列联表可以得出什么样的结论?对今后
10、的复习有什么指导意义?典型例题问题2.你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?有可能 “两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.独立性检验方法1.成语“名师出高徒”可以解释为“知名老师指导出高水平
11、学生的概率较大”,即老师的名声与学生的水平之间有关联,你能举出更多的描述生活中两种属性或现象之间关联的成语吗?2.例1中的随机抽样数据是否足够确定与X和Y有关的所有概率和条件概率?为什么?巩固练习水涨船高、登高望远不能.因为随机抽样得到的样本具有随机性,根据样本数据计算出来的频率也具有随机性.在统计推断中,依据频率稳定于概率的原理,可以利用频率推断与X和Y有关的概率和条件概率,但由于频率具有随机性,这种推断可能犯错误,因此,随机抽样数据不足以确定与X和Y有关的所有概率和条件概率。3.根据有关规定,香烟盒上必须印上“吸烟有害健康”的警示语,那么(1)吸烟是否对每位烟民一定会引发健康问题?(2)有
12、人说吸烟不一定引起健康问题,因此可以吸烟,这种说法对吗?巩固练习3.(1)从已掌握的知识来看,吸烟会损害身体的健康。但除了吸烟之外,身体的健康还受许多其他随机因素的影响,它是很多因素共同作用的结果,吸烟导致患病的案例非常普遍,但也可以找到长寿的吸烟者,因此健康与吸烟有关联,即从统计意义上讲,吸烟会损害健康,但不一定会对每位烟民都引起健康问题.(2)这种说法不正确,虽然吸烟不一定会对每个人都引起健康问题,但根据统计数据,吸烟比不吸烟引起健康问题的可能性大,因此“吸烟不一定引起健康问题,因此可以吸烟”的说法是不对的.4.假设在本小节“问题”中,只是随机抽取了44名学生,按照性别和体育锻炼情况整理为
13、如右的列联表:单位:人 性别数学成绩合计不经常(Y=0)经常 (Y=1)女生(X=0)51520男生(X=1)61824合计113344(1)据此推断性别因素是否影响学生锻炼的经常性;(2)说明你的推断结论是否可能犯错,并解释原因巩固练习5.下列关于等高堆积条形图的叙述正确的是()A从等高堆积条形图中可以精确地判断两个分类变量是否有关系B从等高堆积条形图中可以看出两个变量频数的相对大小C从等高堆积条形图中可以粗略地看出两个分类变量是否有关系D以上说法都不对C6.观察下列各图,其中两个分类变量x,y之间关系最强的是()D巩固练习y1y2总计x1a2173x222527总计b467.下面是一个22列联表:则表中a、b处的分别为()A94,96B52,50C52,54D54,52巩固练习C8.假设有两个变量x与y的22列联表如下表:B我们将下表这种形式的数据统计表称为22列联表(contingency table).巩固练习两个分类变量之间关联关系的定性分析的方法:(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO/PAS 8235:2024 EN Road vehicles - Ergonomic aspects of human vehicle interactions - Taxonomy for the classification of adaptive interactive vehicle systems
- 年度智能安防系统设计与施工合同04
- 2024年度工程建设项目钢筋采购合同2篇
- 员工住宿免责的协议书
- 锅炉合同范本范本完整版 2篇
- 装修包工包料简易合同
- 二零二四年度保险代理居间协议3篇
- 2024版建筑工程给排水劳务分包合同3篇
- 二零二四年度文化艺术公司艺术品买卖合同2篇
- 《输血管理制度》课件
- 销售罗盘精髓-课件
- 借调通知函(模板)
- 《诗意中国》朗诵稿
- 第四章-技术美-(《美学原理》课件)
- 2021版《安全生产法》培训课件
- 小学数学二年级上册认识时间练习课3市公开课一等奖省名师优质课赛课一等奖课件
- 最新人教版三年级英语上册课件(完美版)Unit 1 Part B 第1课时
- 航站楼管理部《机场使用手册》实施细则
- 城市医疗集团管理制度
- 金坛区苏科版二年级上册劳动《08不倒翁》课件
- 三级安全教育培训课件(项目级)
评论
0/150
提交评论