版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
8.3.1分类变量与列联表8.3列联表与独立性检验一、提出问题你认为吸烟与患肺癌有关系吗?怎样用数学知识说明呢?独立性检验方法在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或互相影响的问题。分类变量:一种特殊的随机变量,以区别不同的现象或性质分类变量的取值可以用实数表示,这些数值只作为编号使用,并没有通常的大小和运算意义举例:学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示本节我们主要讨论取值于{0,1}的分类变量的关联性问题.比较经常锻炼的学生在女生和男中的比率.男生经常锻炼的比率比女生高出个百分点,所以该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼。解法一:解法二:对于Ω中的每一名学生,分别令性别对体育锻炼的经常性没有影响:性别对体育锻炼的经常性有影响:性别锻炼合计不经常(Y=0)经常(Y=1)女生(X=0)192331523男生(X=1)128473601合计3208041124可以做出判断,在该校的学生中,性别对体育锻炼有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼.二、2×2列联表的概念XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d分类变量X和Y的抽样数据的2✖2列联表:用途:可以清晰的给出成对分类变量数据的交叉分类频数。反思
学校数学成绩合计不优秀(Y=0)优秀(Y=1)甲校(X=0)331043乙校(X=1)38745合计711788
解:我们可以用等高堆积条形图直观地展示上述计算结果:甲校
乙校
三、两个分类变量之间关联关系的定性分析的方法问题2:你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?答:有可能。“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.独立性检验方法练习1.
在对人们饮食习惯的一次调查中,从某一居民小区中共调查了124位居民,其中六十岁及六十岁以上的70人,六十岁以下的54人.六十岁及六十岁以上的人中有43人的饮食以蔬菜为主,另外27人以肉类为主;六十岁以下的人中有21人的饮食以蔬菜为主,另外33人以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用P(Y=1|X=0)与P(Y=1|X=1)判断二者是否有关系.
饮食习惯年龄合计六十岁及六十岁以上(Y=0)六十岁以下(Y=1)以蔬菜为主(X=0)432164以肉类为主(X=1)273360合计7054124
XY合计Y=0Y=1X=0101828X=1m26m+26合计10+m44m+54C练习3.为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液进行尿棕色素定性检查,结果如下:试画出等高堆积条形图,分析铅中毒病人与尿棕色素为阳性是否有关系.分组尿液定性合计阳性(Y=0)阴性(Y=1)病人组(X=0)29736对照组(X=1)92837合计383573练习
8.3.2独立性检验8.3列联表与独立性检验提出零假设(原假设)H0:分类变量X和Y独立.
四、独立性检验公式及定义
解:零假设为H0:分类变量X与Y相互独立,即两校学生的数学成绩优秀率无差异.学校数学成绩合计不优秀(Y=0)优秀(Y=1)甲校(X=0)331043乙校(X=1)38745合计711788所以
思考:例1和例2都是基于同一组数据的分析,但却得出了不同的结论,你能说明其中的原因吗?
当我们接受零假设H0时,也可能犯错误。我们不知道犯这类错误的概率p的大小,但是知道,若α越大,则p越小
解:零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.将所给数据进行整理,得到两种疗法治疗数据的列联表,疗法疗效合计未治愈治愈甲155267乙66369合计21115136
不影响疗法疗效合计未治愈治愈甲155267乙66369合计21115136疗法疗效合计未治愈治愈乙66369甲155267合计21115136疗法疗效合计治愈未治愈甲521567乙63669合计11521136
解:零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.将所给数据进行整理,得到两种疗法治疗数据的列联表,疗法疗效合计未治愈治愈甲155267乙66369合计21115136
解:
因此可以推断乙种疗法的效果比甲种疗法好。例4.为了调查吸烟是否对肺癌有影响,某肿瘤研究所采取有放回简单随机抽样,调查了9965人,得到如下结果(单位:人)依据小概率值α=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险。解:零假设为H0:吸烟和患肺癌之间没有关系根据列联表中的数据,经计算得到2=χ>根据小概率值α=0.001的独立性检验,推断H0不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于0.001,即我们有99.9%的把握认为“吸烟与患肺癌有关系”.吸烟肺癌合计非肺癌患者肺癌患者非吸烟者7775427817吸烟者2099492148合计9874919965根据表中的数据计算不吸烟者中不患肺癌和患肺癌的频率分别为吸烟者中不患肺癌和患肺癌的频率分别为由
可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌频率的4倍以上。于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌概率,即吸烟更容易引发肺癌。
应用独立性检验解决实际问题大致应包括以下几个主要环节:注意:上述几个环节的内容可以根据不同情况进行调整,例如,在有些时候,分类变量的抽样数据列联表是问题中给定的.六、方法总结1.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下2×2列联表:工作态度对待改革态度合计积极支持不太支持工作积极544094工作一般326395合计86103189能否根据小概率值α=0.005的独立性检验,认为员工工作态度与对待企业改革态度之间有关系?练习
2.
某校为调查高中生在校参加体育活动的时间,随机抽取了100名高中生进行调查,其中男女各占一半,如图8-3-1是根据调查结果绘制的学生日均体育锻炼时间的频率分布直方图.将日均体育锻炼时间不低于40分钟的学生评价为“良好”,已知“良好”评价中有18名女生.(1)请将下面的2×2列联表补充完整;练习性别评价合计非良好良好男生
女生
合计
解:设学生日均体育锻炼时间为x分钟,根据频率分布直方图可知P(x≥40)=(0.025+0.020+0.005)×10=0.5.抽取总人数为100,所以评价为“良好”的学生人数为50.2×2列联表如下:性别评价合计非良好良好男生183250女生321
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大班下学期安全教案《紧急撤离》
- 一年级下册数学教案-第4单元100以内数的认识第4课时 数的顺序|人教新课标
- 大班下学期音乐教案《喜洋洋》
- 2024年全年冻品采购合同
- 大班数学教案及教学反思《火车钻山洞》
- 二年级上数学教案-乘法竖式-人教新课标
- 中班主题活动教案:旅行去
- 中班语言公开课教案及教学反思《梳子》
- 图书馆卫生管理与感染控制措施
- 大学实验室值班制度实施细则
- 2023学年完整公开课版闽剧
- 椎间孔镜的治疗及护理
- 冀教版小学数学四年级上册教案7.1《垂线的认识》
- 门禁安全检查制度范本
- 高压旋喷桩施工记录
- 幼小衔接数学6-二等分和四等分
- 班主任德育工作:班主任培训讲课件
- 苏科版六年级下册《劳动》全一册全部公开课PPT课件(共9课)
- RJ45插拔测试报告
- 武汉市住宅物业服务等级指导标准(试行)
- 健康素养66条课件
评论
0/150
提交评论