




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、8.38.3列联表与独立性检验列联表与独立性检验一、提出问题一、提出问题你认为吸烟与患肺癌有关系吗?你认为吸烟与患肺癌有关系吗? 怎样用数学知识说明呢?怎样用数学知识说明呢? 独立性检验方法独立性检验方法在现实生活中,人们经常需要回答一定范围内的两种现在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或互相影响的问题。象或性质之间是否存在关联性或互相影响的问题。例如:就读不同学校是否对学生的成绩有影响,不同班级例如:就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是都存在区别,吸烟是否会增加学生用于体育锻炼的时间是都存在区别,吸烟是否会增加患肺癌的风险
2、等。患肺癌的风险等。分类变量:一种特殊的随机变量,以区别不同的现象或性质分类变量的取值可以用实数表示,这些数值只作为编号使用,并没有通常的大小和运算意义举例:学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示本节我们主要讨论取值于0,1的分类变量的关联性问题.问题问题1:为了有针对性地提高学生体育锻炼的积极性,某中学:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了为此对学生是否经常锻炼的情况进行了普查普查.全校生的普查数据全校生的普查数据如
3、下:如下:523名女生中有名女生中有331名经常锻炼;名经常锻炼;601名男生中有名男生中有473名经名经常锻。你能利用这些数据,说明该校女生和男生在体育锻炼的常锻。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗经常性方面是否存在差异吗?比较经常锻炼的学生在女生和男中的比率比较经常锻炼的学生在女生和男中的比率.01,.ff经常锻炼的女生数经常锻炼的男生数女生总数男生总数010.633,0.787.ff331473523601100.7870.6330.154.ff男生经常锻炼的比率比女生高出男生经常锻炼的比率比女生高出15.4个百分点,所以该校的女生个百分点,所以该校
4、的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼。和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼。解法一:解法一:问题问题1:为了有针对性地提高学生体育锻炼的积极性,某中学:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了为此对学生是否经常锻炼的情况进行了普查普查.全校生的普查数据全校生的普查数据如下:如下:523名女生中有名女生中有331名经常锻炼;名经常锻炼;601名男生中有名男生中有473名经名经常锻。你能利用这些数据,说明该校女
5、生和男生在体育锻炼的常锻。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗经常性方面是否存在差异吗?解法二:解法二:0,0,1,1,XY该生为女生,该生不经常锻炼,该生为男生.该生经常锻炼.对于对于中的每一名学生,分别令中的每一名学生,分别令性别对体育锻炼的经常性没有影响:性别对体育锻炼的经常性没有影响:1|01|1P YXP YX1|01|1P YXP YX性别对体育锻炼的经常性有影响:性别对体育锻炼的经常性有影响:性别性别锻炼锻炼合计合计不经常不经常(Y=0)经常经常(Y=1)女生(女生(X=0)192331523男生(男生(X=1)128473601合计合计320
6、8041124可以做出判断,在该校的学生中,性别对体育锻炼有影响,可以做出判断,在该校的学生中,性别对体育锻炼有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异即该校的女生和男生在体育锻炼的经常性方面存在差异,而且而且男生更经常锻炼男生更经常锻炼.1,01,03311|00.633,005231,11,14731|10.787.11601P YXn YXP YXP Xn XP YXn YXP YXP Xn X二、二、22列联表的概念列联表的概念XY合计合计Y=0Y=1X=0aba+bX=1cdc+d合计合计a+cb+dn=a+b+c+d分类变量分类变量X和和Y的抽样数据的的抽样数据的22
7、列联表:列联表:用途:可以清晰的给出成对分类变量数据的交叉分类频数。用途:可以清晰的给出成对分类变量数据的交叉分类频数。 在上面问题的两种解答中,使用了学校在上面问题的两种解答中,使用了学校全部学生全部学生的调查的调查数据,利用这些数据能够完全确定解答问题所需的比率和条数据,利用这些数据能够完全确定解答问题所需的比率和条件概率件概率. 然而,对于然而,对于大多数实际问题大多数实际问题,我们,我们无法无法获得所关心的获得所关心的全全部对象的数据部对象的数据,因此无法准确计算出有关的比率或条件概率,因此无法准确计算出有关的比率或条件概率.利用随机抽样获得一定数量的样本数据,再利用随机事利用随机抽样
8、获得一定数量的样本数据,再利用随机事件发生的频率稳定于概率的原理对问题答案作出推断件发生的频率稳定于概率的原理对问题答案作出推断。反思反思例例1:为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生名学生.通过测验得到了如下数据:甲校通过测验得到了如下数据:甲校43名学生中有名学生中有10名数学成绩优秀;名数学成绩优秀;乙校乙校45名学生中有名学生中有7名数学成绩优秀名数学成绩优秀.试分析两校学生中数学成绩优秀率之间试分析两校学生中数学成绩优秀率之间是否存在差异是否存在差异.学校学校数学成绩数学成绩合计合计不优秀
9、(不优秀(Y=0)优秀(优秀(Y=1)甲校(甲校(X=0)331043乙乙校(校(X=1)38745合计合计711788我们可以用我们可以用等高堆积条形图等高堆积条形图直观地展示上述计算结果直观地展示上述计算结果:0.0 0.2 0.4 0.6 0.8 1.0 12不优秀优秀甲校甲校 乙校乙校例例1:为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生名学生.通过测验得到了如下数据:甲校通过测验得到了如下数据:甲校43名学生中有名学生中有10名数学成绩优秀;名数学成绩优秀;乙校乙校45名学生中有名学生中有7名数学
10、成绩优秀名数学成绩优秀.试分析两校学生中数学成绩优秀率之间试分析两校学生中数学成绩优秀率之间是否存在差异是否存在差异.三、两个分类变量之间关联关系的定性分析的方法三、两个分类变量之间关联关系的定性分析的方法问题问题2:你认为:你认为“两校学生的数学成绩优秀率存在差异两校学生的数学成绩优秀率存在差异”这一结这一结论是否有可能是错误的?论是否有可能是错误的?答:有可能。答:有可能。“两校学生的数学成绩优秀率存在差异两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异这个结论是根据两个频率间存在差异推断出来的推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间有可能出现这
11、种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随对于随机样本而言,因为机样本而言,因为频率具有随机性,频率与概率之间存在误差频率具有随机性,频率与概率之间存在误差,所以我们的,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算一定的控制或估算.
12、独立性检验方法独立性检验方法练习练习1. 在对人们饮食习惯的一次调查中,从某一居民小区中共调查了124位居民,其中六十岁及六十岁以上的70人,六十岁以下的54人.六十岁及六十岁以上的人中有43人的饮食以蔬菜为主,另外27人以肉类为主;六十岁以下的人中有21人的饮食以蔬菜为主,另外33人以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用P(Y=1|X=0)与P(Y=1|X=1)判断二者是否有关系.饮食习惯年龄合计六十岁及六十岁以上(Y=0)六十岁以下(Y=1)以蔬菜为主(X=0)432164以肉类为主(X=1)273360合计7054124XY合计Y=0 Y=1X=0101828X=1
13、m26 m+26合计 10+m 44 m+54 C练习练习3.为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液进行尿棕色素定性检查,结果如下:试画出等高堆积条形图,分析铅中毒病人与尿棕色素为阳性是否有关系.分组尿液定性合计阳性(Y=0)阴性(Y=1)病人组(X=0)29736对照组(X=1)92837合计383573练习练习8.38.3列联表与独立性检验列联表与独立性检验提出零假设提出零假设(原假设原假设)H0:分类变量:分类变量X和和Y独立独立.四、独立性检验公式及定义四、独立性检验公式及定义0.10.050.010.0050.0012.7063.8416.6357.8
14、7910.828五、临界值的定义五、临界值的定义例例1:为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生名学生.通过测验得到了如下数据:甲校通过测验得到了如下数据:甲校43名学生中有名学生中有10名数学成绩优秀;名数学成绩优秀;乙校乙校45名学生中有名学生中有7名数学成绩优秀名数学成绩优秀.试分析两校学生中数学成绩优秀率之间试分析两校学生中数学成绩优秀率之间是否存在差异是否存在差异.解:零假设为解:零假设为H0:分类变量:分类变量X与与Y相互独立,即两校学生的数学成绩优秀率无差异相互独立,即两校学生的数学成绩
15、优秀率无差异.学校学校数学成绩数学成绩合计合计不优秀(不优秀(Y=0)优秀(优秀(Y=1)甲校(甲校(X=0)331043乙乙校(校(X=1)38745合计合计711788所以所以思考:思考:例例1和例和例2都是基于同一组数据的分析都是基于同一组数据的分析,但却得出了不但却得出了不同的结论同的结论,你能说明其中的原因吗你能说明其中的原因吗?当我们接受零假设H0时,也可能犯错误。我们不知道犯这类错误的概率p的大小,但是知道,若越大,则p越小解:零假设为解:零假设为H0:疗法与疗效独立,即两种疗法效果没有差异:疗法与疗效独立,即两种疗法效果没有差异.将所给数据进行整理,得到两种疗法治疗数据的列联表
16、,将所给数据进行整理,得到两种疗法治疗数据的列联表,疗法疗法疗效疗效合计合计未治愈未治愈治愈治愈甲甲155267乙乙66369合计合计21115136不影响不影响疗法疗法疗效疗效合计合计未治愈未治愈治愈治愈甲甲155267乙乙66369合计合计21115136疗法疗法疗效疗效合计合计未治愈未治愈治愈治愈乙乙66369甲甲155267合计合计21115136疗法疗法疗效疗效合计合计治愈治愈未治愈未治愈甲甲521567乙乙63669合计合计11521136解:零假设为解:零假设为H0:疗法与疗效独立,即两种疗法效果没有差异:疗法与疗效独立,即两种疗法效果没有差异.将所给数据进行整理,得到两种疗法治
17、疗数据的列联表,将所给数据进行整理,得到两种疗法治疗数据的列联表,疗法疗法疗效疗效合计合计未治愈未治愈治愈治愈甲甲155267乙乙66369合计合计21115136解:解: 因此可以推断乙种疗法的效果比甲种疗法好因此可以推断乙种疗法的效果比甲种疗法好。例例4.为了调查吸烟是否对肺癌有影响,某肿瘤研究所采取有放回简单随机抽样,为了调查吸烟是否对肺癌有影响,某肿瘤研究所采取有放回简单随机抽样,调查了调查了9965人,得到如下结果(单位:人)依据小概率值人,得到如下结果(单位:人)依据小概率值=0.001的独立性检验,的独立性检验,分析吸烟是否会增加患肺癌的风险。分析吸烟是否会增加患肺癌的风险。解:
18、零假设为解:零假设为H0: 吸烟和患肺癌之间没有关系吸烟和患肺癌之间没有关系 根据列联表中的数据,经计算根据列联表中的数据,经计算得到得到2 =20.0019965 (7775 4942 2099)56.63210.828=7817 2148 9874 91x根据小概率值根据小概率值=0.001的独立性检验,推断的独立性检验,推断H0不成立,即认为吸不成立,即认为吸 烟与患肺癌有烟与患肺癌有关联,此推断犯错误的概率不大于关联,此推断犯错误的概率不大于0.001,即我们有,即我们有99.9的把握认为的把握认为“吸烟与患吸烟与患肺癌有关系肺癌有关系”.吸烟肺癌合计非肺癌患者肺癌患者非吸烟者7775
19、427817吸烟者2099492148合计9874919965根据表中的数据计算不吸烟者中不患肺癌和患肺癌的频率分别为根据表中的数据计算不吸烟者中不患肺癌和患肺癌的频率分别为吸烟者中不患肺癌和患肺癌的吸烟者中不患肺癌和患肺癌的频率频率分别为分别为由由 可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌频率的可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌频率的4倍倍以上。于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率以上。于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌概率,即吸烟更容易引发肺癌。明显大于不吸烟者患肺癌概率,即吸烟更容易引发肺癌。427817781777750.9946,0.0054492148214820990.9772,0.02284.20.00540.0228应用独立性检验解决实际问题大致应包括以下几个主要环节:应用独立性检验解决实际问题大致应包括以下几个主要环节:注意注意:上述几个环节的内容可以根据不同情况进行调整,例上述几个环节的内容可以根据不同情况进行调整,例如,在有些时候,分类变量的抽样数据列联表是问题中给定如,在有些时
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业内部冲突解决中的领导力作用研究
- 2025-2030年中国牙科修复设备行业市场现状供需分析及投资评估规划分析研究报告
- 教育培训中的团队协作能力培养
- 过敏反应的抢救护理常规
- 爱医资源健康教育
- 中国金融行业碳足迹溯源研究报告
- 养殖青蛙知识培训课件
- 全国极寒地区融雪装置行业市场调研分析
- 具体地铁介绍英语课件
- 拼团影视会员服务市场分析报告
- 2025年内蒙古事业单位招聘考试笔试试题【答案】
- 2025至2030中国油气3D打印行业调研及市场前景预测评估报告
- 2024年绥阳县选聘城市社区工作者笔试真题
- 公文写作技能题库及答案
- 2025年广东省中考语文试卷真题(含答案解析)
- 辽宁省“三支一扶”招募考试真题2024
- 2025年地区事业单位卫生类临床医学专业知识考试历年试卷
- 2025广西专业技术人员公需科目培训考试答案
- 《创伤失血性休克中国急诊专家共识(2023)》解读
- 第二章汽车车身常用材料学习教案
- 骨病病理知识
评论
0/150
提交评论