版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
8.3列联表与独立性检验8.3.1分类变量与列联表
第八章成对数据的统计分析1|分类变量与列联表1.分类变量为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这
类随机变量称为分类变量.分类变量的取值可以用实数表示.2.列联表假设两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为XY合计y1y2x1aba+bx2cdc+d合计a+cb+da+b+c+d第八章成对数据的统计分析2×2列联表给出了成对分类变量数据的交叉分类频数.3.两个分类变量之间关联关系的定性分析方法(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行
比较来分析分类变量之间是否有关联关系.通常通过列联表列出两个分类变量的
频数表来进行分析.(2)图形分析法:与表格相比,图形更能直观地反映两个分类变量间是否互相影响,常
用等高堆积条形图展示列联表数据的频率特征.第八章成对数据的统计分析2|独立性检验1.假定通过简单随机抽样得到了X和Y的抽样数据列联表,如表所示.XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d则χ2=①
.2.利用χ2的取值推断分类变量X和Y是否②
独立
的方法称为χ2独立性检验,读作
“卡方独立性检验”,简称独立性检验.
第八章成对数据的统计分析3.χ2独立性检验中几个常用的小概率值和相应的临界值.α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828第八章成对数据的统计分析
1.分类变量中的变量与函数中的变量是同一概念.
(
✕)变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量,有时可
以把分类变量的不同取值用数字表示,但这时的数字除了分类以外没有其他含义,
而函数中的变量分为自变量与因变量,都是数的集合,有它们各自的意义.2.2×2列联表中的数据是两个分类变量的频数.
(√)3.事件A和B的独立性检验无关,即两个事件互不影响.
(
✕)4.χ2的大小是判断事件A和B是否相关的统计量.
(√)5.若计算得χ2=7.197,则认为两个变量间有关系的出错概率不超过0.01.
(√)6.在2×2列联表中,若|ad-bc|越小,则说明两个分类变量之间关系越强.
(
✕)判断正误,正确的画“√”,错误的画“✕”.第八章成对数据的统计分析1|由χ2进行独立性检验“人机大战,柯洁哭了,机器赢了”,2017年5月27日,19岁的世界围棋第一人柯洁0∶
3不敌人工智能系统AlphaGo,落泪离席.许多人认为这场比赛是人类的胜利,也有许
多人持反对意见,有网友为此进行了调查.在参与调查的2600名男性中,有1560人
持反对意见,2400名女性中,有1118人持反对意见.第八章成对数据的统计分析1.在运用这些数据判断“性别”与“人机大战是不是人类的胜利”的关系时,应采
用哪种统计方法?提示:判断“性别”与“人机大战是不是人类的胜利”这两个变量的关系,符合独
立性检验的基本思想.2.如何根据问题中的数据对分类变量作出分析?提示:列出2×2列联表,计算χ2,将求得的χ2与临界值比较,即可得相应结论.第八章成对数据的统计分析
应用独立性检验解决实际问题大致应包括以下几个主要环节:(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释;(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;(3)根据检验规则得出推断结论;(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规
律.注意,上述几个环节的内容可以根据不同情况进行调整.例如,在有些时候,分类变量
的抽样数据列联表是问题中给定的.
第八章成对数据的统计分析手机给人们的生活带来便捷,但同时也对中学生的生活和学习造成了严重的影响,
某校高一几个学生成立研究性学习小组,就使用手机对学习成绩的影响随机抽取
了该校100名学生的期末考试成绩并制成如下的表格,则下列说法正确的是()单位:人
成绩优秀成绩不优秀合计不使用手机401050使用手机54550合计4555100第八章成对数据的统计分析A.在犯错误的概率不超过0.001的前提下认为使用手机与学习成绩有关B.在犯错误的概率不超过0.001的前提下认为使用手机与学习成绩无关C.有99.5%的把握认为使用手机对学习成绩没有影响D.没有99%的把握认为使用手机对学习成绩有影响解析
由题中表格得,χ2=
≈49.495>10.828=x0.001,所以在犯错误的概率不超过0.001的前提下认为使用手机与学习成绩有关.故选A.答案
A第八章成对数据的统计分析2|独立性检验与统计、概率的综合应用
通过频率分布直方图中的统计功能完善2×2列联表,从而对事件进行独立性检
验,准确读取频率分布直方图中的数据,进行分组统计是解题的关键.解决独立性检
验的问题要注意明确两类主体,明确研究的两类问题,再就是准确列出2×2列联表,
准确计算χ2.在写出2×2列联表中a,b,c,d的值时,注意一定要按顺序.
第八章成对数据的统计分析
随着智能手机的普及,手机计步软件迅速流行开来,这类软件能自动记载每个人每
日健步走的步数,从而为科学健身提供一定的帮助.某市工会为了解该市市民每日
健步走的情况,从本市市民中随机抽取了2000名(其中不超过40岁的市民恰好有10
00名),利用手机计步软件统计了他们某天健步走的步数(单位:千步),并将样本数据
分为[3,5),[5,7),[7,9),[9,11),[11,13),[13,15),[15,17),[17,19),[19,21]九组,将抽取的不超过40岁的市民的样本数据绘制成频率分布直方图,将40岁以上的市民的样本数据
绘制成频数分布表,并利用该样本的频率分布估计总体的概率分布.第八章成对数据的统计分析分组(单
位:千
步)[3,5)[5,7)[7,9)[9,11)[11,13)[13,15)[15,17)[17,19)[19,21]频数1020203040020020010020第八章成对数据的统计分析(1)现规定,日健步走步数不低于13000步的为“健步达人”,填写下面列联表,
依据α=0.001的独立性检验,分析是不是“健步达人”是否与年龄有关;单位:人
健步达人非健步达人合计40岁以上的市民
不超过40岁的市民
合计
第八章成对数据的统计分析(2)(i)利用样本平均数和中位数估计该市不超过40岁的市民日健步走步数(单
位:千步)的平均数和中位数;(ii)由频率分布直方图可以认为,不超过40岁的市民日健步走步数Z(单位:千步)近似
地服从正态分布N(μ,σ2),其中μ近似为样本平均数
(每组数据取区间的中点值),σ的值已求出约为3.64.现从该市不超过40岁的市民中随机抽取5人,记其中日健步走步
数Z位于[4.88,15.8]的人数为X,求X的数学期望.参考公式:χ2=
,其中n=a+b+c+d.参考数据:α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828若Z~N(μ,σ2),则P(μ-σ≤Z≤μ+σ)≈0.6827,P(μ-2σ≤Z≤μ+2σ)≈0.9545.第八章成对数据的统计分析解析
(1)列联表为单位:人
健步达人非健步达人合计40岁以上的市民5204801000不超过40岁的市民4006001000合计92010802000第八章成对数据的统计分析零假设为H0:是不是“健步达人”与年龄无关.计算可得χ2=
≈28.986>10.828=x0.001,依据α=0.001的独立性检验,推断H0不成立,即认为是不是“健步达人”与年龄有关.(2)(i)样本平均数为
=4×0.04+6×0.06+8×0.10+10×0.10+12×0.30+14×0.20+16×0.10+18×0.08+20×0.02=12.16.由前4组的频率之和为0.04+0.06+0.10+0.10=0.30,前5组的频率之和为0.30+0.30=0.
6,知样本中位数落在第5组,设样本中位数为t,则(t-11)×0.15=0.5-0.3,所以t=
.故可以估计该市不超过40岁的市民日健步走步数的平均数为12.16,中位数为
.(ii)[μ-2σ,μ+σ]=[4.88,15.8],而P(μ-2σ≤Z≤μ+σ)=
P(μ-2σ≤Z≤μ+2σ)+
P(μ-σ≤Z
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO/IEC 18046-5:2025 EN Information technology - Radio frequency identification device performance test methods - Part 5: Test methods for the environmental characteristics
- 2024食品工厂代加工冷链配送服务合同范本3篇
- 2024版无人机遥感监测服务合同
- 2025年度水库鱼塘智能化养殖技术承包合同4篇
- 出资协议书范本
- 2024版铝锭批发销售协议样本一
- 2025年度生态环保打井承包合同标准范本4篇
- 2025年度智慧家居产品销售与售后服务合同3篇
- 2025年度住宅小区墙面公共艺术创作租赁合同标的协议4篇
- 2025年度牙科专业人才培养与承包服务合同范本4篇
- 2025四川中烟招聘高频重点提升(共500题)附带答案详解
- 2025年云南大理州工业投资(集团)限公司招聘31人管理单位笔试遴选500模拟题附带答案详解
- 风电危险源辨识及控制措施
- 《教师职业道德与政策法规》课程教学大纲
- EHS工程师招聘笔试题与参考答案(某大型央企)2024年
- 营销策划 -丽亭酒店品牌年度传播规划方案
- 儿童传染病预防课件
- 2025年中国蛋糕行业市场规模及发展前景研究报告(智研咨询发布)
- 护理组长年底述职报告
- 集装箱活动房供需合同
- 山西省2022年中考道德与法治真题试卷(含答案)
评论
0/150
提交评论