




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
8.3列联表与独立性检验8.3.1分类变量与列联表
有关法律规定:香烟盒上必须印上“吸烟有害健康”的警示语.吸烟已成为全球范围内严重危害健康、危害人类生存环境、降低人们的生活质量、缩短人类寿命的紧迫问题.为此,联合国固定每年5月31日为全球戒烟日.例如:2019年世界无烟日的重点是”烟草和肺部健康”.那么吸烟和健康之间有因果关系吗?每一个吸烟者的健康问题都是由吸烟引起的吗?如果你认为“健康问题不一定是由吸烟引起的,那么可以吸烟”的说法对吗【引例】下列变量的取值有何异同点?你能将其分类吗?①人的身高②直尺的长度③性别④国籍⑤民族数值变量取值用以表示个体所属类别,分类变量分类变量是区别不同的现象和性质的一种特殊的随机变量.本节主要讨论取值于{0,1}的分类变量的关联性.数值变量的取值为实数,其大小和运算都有实际含义.①分类变量的取值可以用实数来表示,例如男性,女性可以用1,0表示,学生的班级可以用1,2,3来表示.②这些数值只作编号使用,并没有大小和运算意义.③分类变量是相对于数值变量来说的.几点说明:【例1】为调查性别因素是否对本校学生体育锻炼的经常性有影响,某校进行了普查.全校生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗解法一:比较经常锻炼的学生在女生和男中的比率.
男生经常锻炼的比率比女生高出15.4个百分点,所以该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼.解法二:
设Ω表示该校全体学生组成的集合,对于Ω中的每一名学生,分别令性别对体育锻炼的经常性没有影响:性别对体育锻炼的经常性有影响:1124804320合计601473128男生(X=1)523331192女生(X=0)经常(Y=1)不经常(Y=0)合计锻炼性别
由
可以作出判断,在该校的学生中,性别对体育锻炼的经常性有影响,男生更经常性的锻炼.
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存.我们将形如下表这种形式的数据统计表称为2×2列联表.2×2列联表给出了成对分类变量数据的交叉分类频数.1124804320合计601473128男生(X=1)523331192女生(X=0)经常(Y=1)不经常(Y=0)合计锻炼性别分类变量X和Y的抽样数据的2×2列联表:2×2列联表给出成对分类变量数据的交叉分类频数.n=a+b+c+db+da+c合计c+ddcX=1a+bbaX=0Y=1Y=0合计YX
2×2列联表【例2】为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试用2×2列联表分析两校学生中数学成绩优秀率之间是否存在差异.解:用Ω表示两所学校的全体学生构成的集合.考虑以Ω为样本空间的古典概型.对于Ω中每一名学生,定义分类变量X和Y如下:881771合计45738乙校(X=1)431033甲校(X=0)优秀(Y=1)不优秀(Y=0)合计数学成绩学校
因此,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为可以用等高堆积条形图直观地展示上述计算结果:通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率.依据频率稳定于概率的原理,我们可以推断甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率.乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为甲校
乙校
因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.【思考】“甲乙两校学生的数学成绩优秀率存在差异”这一结论是否有可能出错?
这一结论有可能是错误的.因为样本具有随机性,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.
因此,需要找到一种更为合理的推断方法判断两变量之间有无关系,同时也希望能对出现错误推断的概率有一定的控制或估算.8.3.2 独立性检验【探究】一个囚犯正在接受法官审判,你是法官.法官的任务是假定囚犯无罪,但是假如有足够证据证明囚犯有罪,则需审判囚犯有罪.先做一个无罪假设找无罪假设下不可能出现的人证和物证找到了,假设不成立,嫌疑人有罪没找到,没有充分证据证明假设不成立,暂且认为无罪零假设:假设X,Y无关联,相互独立找零假设下不可能发生的事件(小概率事件)发生了,假设不成立,X,Y不独立,从而证明二者有关联没发生,没有充分证据证明假设不成立,暂且认为X,Y相互独立独立性检验是假设检验中的一种方法,所谓假设检验,即建立某个假设,通过样本数据分析,进而接受原假设或者拒绝原假设,从而得出结论.小概率事件原理:小概率事件是发生概率一般不超过5%的事件,即小概率事件在一次试验中几乎不可能发生.【思考1】在原假设H0前提之下,小概率事件几乎不可能发生,但若通过数据分析,发现小概率事件发生了,这说明什么问题?原假设不成立【思考2】这种结论会不会犯错误?有多大的概率会犯错误?不超过5%我们需要判断下面的假定关系
是否成立,通常称H0为零假设或原假设.零假设:假设X,Y无关联,相互独立找零假设下不可能发生的事件(小概率事件)发生了,假设不成立,X,Y不独立,从而证明二者有关联没发生,没有充分证据证明假设不成立,暂且认为X,Y相互独立①第一步:建立假设【思考】什么叫做分类变量X和Y独立?假定我们通过简单随机抽样得到了X和Y的抽样数据列联表如下:n=a+b+c+db+da+c合计c+ddcX=1a+bbaX=0Y=1Y=0合计YX
假定我们通过简单随机抽样得到了X和Y的抽样数据列联表如下:n=a+b+c+db+da+c合计c+ddcX=1a+bbaX=0Y=1Y=0合计YX
零假设H0:分类变量X与Y独立:事件观测值期望值观测值与期望值差X=0,Y=0aX=0,Y=1bX=1,Y=0cX=1,Y=1d残差零假设H0:分类变量X与Y独立:
卡方统计量卡方统计量有什么用呢?思考:那么,究竟
χ2大到什么程度,可以推断H0不成立呢?
统计学家建议,用随机变量
χ2取值
的大小作为判断零假设H0是否成立的依据,当它比较大时推断H0不成立,否则认为H0成立.
根据小概率事件在一次试验中不大可能发生的规律,上面的想法可以通过确定一个与H0相矛盾的小概率事件来实现.下表(临界值表)给出了χ2独立性检验中几个常用的小概率值和相应的临界值:0.10.050.010.0050.001xα2.7063.8416.6357.87910.828
例如,对于一个小概率值α=0.05,有如下的具体检验规则:(1)当时,我们推断H0不成立,即认为X与Y不独立,(2)当时,我们没有充分证据推断H0不成立,可以认为X与Y独立.小概率事件基于小概率值α的检验规则:
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.思考:依据小概率值α=0.1的χ2独立性检验,分析例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异?881771合计45738乙校(X=1)431033甲校(X=0)优秀(Y=1)不优秀(Y=0)合计数学成绩学校
解:零假设为H0:分类变量X与Y相互独立,即两校学生的数学成绩优秀率无差异根据表中的数据,计算得到根据小概率值α=0.1的卡方独立性检验,没有充分证据推断H0不成立.因此可以认为H0成立,即认为两校的数学成绩优秀率没有差异.思考:为何基于同一组数据的分析,却得出了不同的结论,你能说明其中的原因吗?
事实上,如前所述,法一只是根据一个样本的两个频率的差异得出两校学生的数学成绩优秀率存在差异的结论,并没有考虑由样本随机性可能导致的错误,所以那里的推断依据不太充分.在法二中,我们用χ2独立性检验对零假设H0进行了检验.通过计算,发现χ2≈0.837小于α=0.1所对应的临界值2.706,因此认为没有充分证据推断H0不成立,所以接受H0,推断出校的数学成绩优秀率没有差异的结论.这个检验结果意味着,抽样数据中两个频率的差异很有可能是由样本随机性导致的.因此,只根据频率的差异得出两校学生的数学成绩优秀率存在差异的结论是不可靠的.
工作态度对待企业改革态度合计积极支持不太支持积极544094一般326395合计86103189
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 10 描述方向教学设计-2023-2024学年科学二年级下册冀人版
- 2拉拉手 交朋友第二课时 教学设计-2023-2024学年道德与法治一年级上册(部编版)
- 2018-2019学年八年级上册(部编版)历史同步教学设计:第18课 从九一八事变到西安事变
- 《第四章 第1节 光的直线传播》教学设计-2023-2024学年初中物理人教版八年级上册
- 13猫(教案)-2024-2025学年统编版语文四年级下册
- 2024年七年级地理上册 2.2 沧海桑田 从世界地图上得到的启示教学设计 (新版)新人教版
- 2024-2025学年高中历史 第四单元 王安石变法 第1课 社会危机四伏和庆历新政(3)教学教学设计 新人教版选修1
- 真正的礼仪课件
- 《光的反射》(教案)苏教版科学五年级上册
- 2023四年级数学上册 5 平行四边形和梯形教学设计 新人教版
- 中建临建工程施工方案完整版
- 软件系统操作手册模板
- 日间手术管理信息系统建设方案
- 急诊急救的培训
- 印刷合作合同
- 2023年高考全国甲卷数学(理)试卷【含答案】
- 高三文科数学专题 对数平均不等式
- 悬臂式挡墙技术交底
- 2023年教师资格之中学音乐学科知识与教学能力模拟考试试卷B卷含答案
- 旋转机械故障诊断-不平衡
- 论文写作100问智慧树知到答案章节测试2023年中国石油大学(华东)
评论
0/150
提交评论