版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、独立性检验的根本思想独立性检验的根本思想及其初步运用及其初步运用定量变量的取值一定是实数,它们的取值大小有特定定量变量的取值一定是实数,它们的取值大小有特定的含义,不同取值之间的运算也有特定的含义的含义,不同取值之间的运算也有特定的含义. .如身高、体重、考试成果、温度等等如身高、体重、考试成果、温度等等.变量变量定量变量定量变量分类变量分类变量例如身高、体重、考试成果等,张明的身高是例如身高、体重、考试成果等,张明的身高是180cm180cm,李立的身高是李立的身高是175cm175cm,阐明张明比李立高,阐明张明比李立高180-175=5180-175=5cmcm. .两个定量变量的相关关
2、系分析:回归分析画散点图、两个定量变量的相关关系分析:回归分析画散点图、相关系数相关系数r、相关指数、相关指数R2、残差分析、残差分析对于性别变量,其取值为男和女两种,这种变量的不对于性别变量,其取值为男和女两种,这种变量的不同同“值表示个体所属的不同类别,像这样的变量称为值表示个体所属的不同类别,像这样的变量称为分类变量分类变量. .在日常生活中,主要思索分类变量之间能否有关系:在日常生活中,主要思索分类变量之间能否有关系:例如,吸烟能否与患肺癌有关系?例如,吸烟能否与患肺癌有关系? 性别能否对于喜欢数学课程有影响?等等性别能否对于喜欢数学课程有影响?等等. .分类变量也称为属性变量或定性变
3、量,它们的取值一分类变量也称为属性变量或定性变量,它们的取值一定是离散的,而且不同的取值仅表示个体所属的类别,定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级等等取一级、二级、三级等等. .两个分类变量的相关关系的分析:经过图形直观判两个分类变量的相关关系的分析:经过图形直观判别两个分类变量能否相关;独立性检验别两个分类变量能否相关;独立性检验.不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总
4、计98749874919199659965由列联表可以粗略估计出,在不吸烟者中,有由列联表可以粗略估计出,在不吸烟者中,有0.54%0.54%患患有肺癌;在吸烟者中,有有肺癌;在吸烟者中,有2.28%2.28%患有肺癌。因此,直观患有肺癌。因此,直观上可以得到结论:吸烟者和不吸烟者患肺癌的能够性上可以得到结论:吸烟者和不吸烟者患肺癌的能够性存在差别存在差别. .与表格相比,等高条形图能更直观地反映出相关数据与表格相比,等高条形图能更直观地反映出相关数据的总体情况的总体情况. .为调查吸烟能否对患肺癌有影响,某肿瘤研讨所随机为调查吸烟能否对患肺癌有影响,某肿瘤研讨所随机地调查了地调查了9965人
5、,得到如下结果单位:人:人,得到如下结果单位:人:吸烟与患肺癌列联表列出两个分类变量的频数表:吸烟与患肺癌列联表列出两个分类变量的频数表:不吸烟吸烟00.10.20.30.40.50.60.70.80.91不吸烟不吸烟吸烟吸烟患肺癌比例不患肺癌比例等高条形图等高条形图等高条形图更明晰地表达了两种情况下患肺癌的比例等高条形图更明晰地表达了两种情况下患肺癌的比例.上面我们经过分析数据和图形,得到的直观印象是吸上面我们经过分析数据和图形,得到的直观印象是吸烟和患肺癌有关,那么现实能否真的如此呢?这需求烟和患肺癌有关,那么现实能否真的如此呢?这需求用统计观念来调查这个问题用统计观念来调查这个问题. .
6、如今想要知道可以以多大的把握以为如今想要知道可以以多大的把握以为“吸烟与患肺癌吸烟与患肺癌有关,为此先假设:有关,为此先假设:H0H0:吸烟与患肺癌没有关系:吸烟与患肺癌没有关系不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟a ab ba+ba+b吸烟吸烟c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d把数字用字母替代,得到如下用字母表示的列联表:把数字用字母替代,得到如下用字母表示的列联表:不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟a ab ba+ba+b吸烟吸烟c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d吸
7、烟与患肺癌的列联表:吸烟与患肺癌的列联表:假设假设“吸烟与患肺癌没有关系,那么在吸烟者中不吸烟与患肺癌没有关系,那么在吸烟者中不患肺癌的比例应该与不吸烟者中相应的比例应差不多,患肺癌的比例应该与不吸烟者中相应的比例应差不多,即即()()0aca cdc abadbcabcd |ad-bc|ad-bc|越小,阐明吸烟与患肺癌之间关系越弱;越小,阐明吸烟与患肺癌之间关系越弱;|ad-bc|ad-bc|越大,阐明吸烟与患肺癌之间关系越强越大,阐明吸烟与患肺癌之间关系越强. .以以A表示不吸烟,表示不吸烟,B表示不患肺癌,那么表示不患肺癌,那么a表示事件表示事件AB发生的频数;发生的频数;a+b和和a
8、+c恰好分别为事件恰好分别为事件A和和B发发生的频数生的频数.问题2:差别大到什么程度才干作出“吸烟与患病有关的判别?问题问题3 3:能否用数量描写出:能否用数量描写出“有关的程度?有关的程度?初步结论:初步结论:为了使不同样本容量的数据有一致的评判规范,基于为了使不同样本容量的数据有一致的评判规范,基于上述分析,我们构造一个随机变量上述分析,我们构造一个随机变量 假设假设H0H0成立,即成立,即“吸烟与患肺癌没有关系,那么吸烟与患肺癌没有关系,那么K2K2应应很小很小. .由列联表中数据,利用公式由列联表中数据,利用公式1 1计算得计算得K2K2的观测值为:的观测值为:22()()()()(
9、)n adbcKab cd ac bd 1 129965(7775 49422099)56.632.78172148 9874 91k 其中其中n=a+b+c+d为样本容量为样本容量.在在H0成立的情况下,统计学家估算出如下的概率:成立的情况下,统计学家估算出如下的概率:2(6.635)0.01P K 也就是说,在也就是说,在H0H0成立的情况下,对随机变量成立的情况下,对随机变量K2K2进展多进展多次观测,观测值超越次观测,观测值超越6.6356.635的频率约为的频率约为0.010.01,是一个小,是一个小概率事件概率事件. .如今如今K2K2的观测值的观测值 ,远远大于,远远大于6.63
10、56.635,所以有理由断定,所以有理由断定H0H0不成立,即以为不成立,即以为“吸烟与患吸烟与患肺癌有关系肺癌有关系 56.632k 但这种判别会犯错误,犯错误的概率不会超越但这种判别会犯错误,犯错误的概率不会超越0.01,即,即我们有我们有99的把握以为的把握以为“吸烟与患肺癌有关系吸烟与患肺癌有关系.利用随机变量利用随机变量K2K2来确定在多大程度上可以以为来确定在多大程度上可以以为“两个分两个分类变量有关系的方法称为两个分类变量的独立性检类变量有关系的方法称为两个分类变量的独立性检验验. .独立性检验:独立性检验:假设假设 ,就判别,就判别H0不成立;否那么就判别不成立;否那么就判别H
11、0成立成立.6.635k (6.635)0.01P k 类比了解:类比了解:反证法原理:反证法原理: 在一个知假设在一个知假设下,假设推出下,假设推出一个矛盾,就一个矛盾,就证明了这个假证明了这个假设不成立。设不成立。假设检验原理:假设检验原理:在一个知假设在一个知假设下,假设一个下,假设一个与该假设矛盾与该假设矛盾的小概率事件的小概率事件发生,就推断发生,就推断这个假设不成这个假设不成立。立。独立性检验的根本思想:独立性检验的根本思想:类似于数学上的反证法,对类似于数学上的反证法,对“两个分类变量有关系两个分类变量有关系这一结论成立的可信程度的判别:这一结论成立的可信程度的判别:1 1假设该
12、结论不成立,即假设结论假设该结论不成立,即假设结论“两个分类变量两个分类变量没有关系成立没有关系成立. .2 2在假设条件下,计算构造的随机变量在假设条件下,计算构造的随机变量K2K2,假设有,假设有观测数据计算得到的观测数据计算得到的K2K2很大,那么在一定程度上阐明很大,那么在一定程度上阐明假设不合理假设不合理. .3 3根据随机变量根据随机变量K2K2的含义,可以经过的含义,可以经过2 2式评价式评价假设不合理的程度,由实践计算出的假设不合理的程度,由实践计算出的k6.635k6.635,阐明假,阐明假设不合理的程度约为设不合理的程度约为99%99%,即,即“两个分类有关系这一两个分类有
13、关系这一结论成立的可信程度约为结论成立的可信程度约为99%.99%.y y1 1y y2 2总计总计x x1 1a ab ba+ba+bx x2 2c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d普通地,假设有两个分类变量普通地,假设有两个分类变量X X和和Y Y,它们的能够取值,它们的能够取值分别为分别为x1,x2x1,x2和和y1,y2,y1,y2,其样本频数列联表称为其样本频数列联表称为2x22x2列联表为:列联表为:假设要判别结论为:假设要判别结论为:H1H1:“X X与与Y Y有关系,可按如下步有关系,可按如下步骤判别骤判别H1H1成立的能够性:成
14、立的能够性:2) 在二维条形图中,可以估计满足条件在二维条形图中,可以估计满足条件X=x1的个体中的个体中具有具有Y=y1的个体所占的比例的个体所占的比例 ,也可以估计满足条,也可以估计满足条件件X=x2的个体中具有的个体中具有Y=y1的个体所占的比例的个体所占的比例 ,两,两个比例的值相差越大,个比例的值相差越大,H1成立的能够性就越大成立的能够性就越大.aab ccd 1 1, ,可以经过频率直观判别两个条件概率可以经过频率直观判别两个条件概率P(Y=y1|X=x1P(Y=y1|X=x1和和P PY=y1|X=x2Y=y1|X=x2能否相等,断定能否相等,断定X X和和Y Y没有关系;否那
15、么它们就以为它们有关系。没有关系;否那么它们就以为它们有关系。利用独立性检验来调查两个分类变量能否有关系,能利用独立性检验来调查两个分类变量能否有关系,能较准确地给出这种判别的可靠程度较准确地给出这种判别的可靠程度. .详细作法是:详细作法是:1 1根据实践问题需求的可信程度确定临界值根据实践问题需求的可信程度确定临界值k0k0;2由观测数据计算得到随机变量由观测数据计算得到随机变量K2的观测值的观测值k;3假设假设kk0,就以,就以1-P(K2k0)100%的把握的把握以为以为“X与与Y有关系;否那么就说样本观测数据没有有关系;否那么就说样本观测数据没有提供提供“X与与Y有关系的充分证据有关
16、系的充分证据.数据整理;列数据整理;列2 2联表联表做出相反的假设;做出相反的假设;“患病与吸烟没有关系患病与吸烟没有关系计算计算 ;查临界值表;查临界值表;下结论。下结论。数据整理;列数据整理;列2 2联表联表做出相反的假设;做出相反的假设;“患病与吸烟没有关系患病与吸烟没有关系计算计算 ;查临界值表;查临界值表;下结论。下结论。)()()()(22dbcadcbabcadn)(为样本量dcban22 由于抽样的随机性,由样本得到的推断由于抽样的随机性,由样本得到的推断有能够正确,也有能够错误。利用有能够正确,也有能够错误。利用 进进展独立性检验,可以对推断的正确性的概展独立性检验,可以对推
17、断的正确性的概率作出估计,样本量率作出估计,样本量n n越大,估计越准确。越大,估计越准确。22210.8287.8796.6355.0243.8412.7062.0721.3230.7080.445 k0.0010.0050.0100.0250.050.100.150.50.400.502()P Kk1 1假设假设k10.828k10.828,就有,就有99.9%99.9%的把握以为的把握以为“X X与与Y Y有关系;有关系;2 2假设假设k7.879k7.879,就有,就有99.5%99.5%的把握以为的把握以为“X X与与Y Y有关系;有关系;3 3假设假设k6.635k6.635,就有
18、,就有99%99%的把握以为的把握以为“X X与与Y Y有关系;有关系;4 4假设假设k5.024k5.024,就有,就有97.5%97.5%的把握以为的把握以为“X X与与Y Y有关系;有关系;5 5假设假设k3.841k3.841,就有,就有95%95%的把握以为的把握以为“X X与与Y Y有关系;有关系;6 6假设假设k2.706k2.706,就有,就有90%90%的把握以为的把握以为“X X与与Y Y有关系;有关系;7 7假设假设k=2.706k=2.706,就以为没有充分的证据显示,就以为没有充分的证据显示 “X X与与Y Y有关系有关系. .在某医院,由于患心脏病而住院的在某医院,
19、由于患心脏病而住院的665665名男性病人中,有名男性病人中,有214214人人秃顶;而另外秃顶;而另外772772名不是由于患心脏病而住院的男性病人中有名不是由于患心脏病而住院的男性病人中有175175人秃顶。分别利用图形和独立性检验方法判别秃顶与患心人秃顶。分别利用图形和独立性检验方法判别秃顶与患心脏病能否有关系?他所得的结论在什么范围内有效?脏病能否有关系?他所得的结论在什么范围内有效?解:根据标题所给数据得到如以下联表:解:根据标题所给数据得到如以下联表:患心脏病患心脏病 不患心脏病不患心脏病总计总计秃顶秃顶214214175175389389不秃顶不秃顶451451597597104
20、81048总计总计66566577277214371437根据列联表中的数据,得到:根据列联表中的数据,得到:221437 (214 597175 451)16.3736.635.389 1048 665 772K 所以有所以有99%99%的把握以为的把握以为“秃顶患心脏病有关秃顶患心脏病有关. .在某医院,由于患心脏病而住院的在某医院,由于患心脏病而住院的665665名男性病人中,名男性病人中,有有214214人秃顶;而另外人秃顶;而另外772772名不是由于患心脏病而住院名不是由于患心脏病而住院的男性病人中有的男性病人中有175175人秃顶。分别利用图形和独立性人秃顶。分别利用图形和独立性检验方法判别秃顶与患心脏病能否有关系?他所得的检验方法判别秃顶与患心脏病能否有关系?他所得的结论在什么范围内有效?结论在什么范围内有效?解:根据标题所给数据得到如以下联表:解:根据标题所给数据得到如以下联表:患心脏病患心脏病 不患心脏病不患心脏病总计总
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 家居订购合同模板
- 招标文件审查与施工合同要点解读
- 简易型服装交易合同
- 碎石采购合同样本合同
- 饲料添加剂采购合同的合同终止
- 熟食制品厂购销
- 增资扩股协议书简化格式
- 家居采购安装合同的履行要点
- 仓储物流配送业务合同模板
- 物业服务合同协议书示例
- 客运企业双重预防体系培训(57页)
- 新概念 二 Lesson 75 SOS
- 铝合金压铸件的标准
- 浙美版三年级上册美术试卷(共4页)
- 吹风机成品过程质量控制检查指引
- 固定资产情况表
- 沥青路面施工监理工作细则
- 《彩色的中国》音乐教学设计
- 人教版八年级上册英语单词表默写版(直接打印)
- 4.初中物理仪器配备目录清单
- 企业中高层人员安全管理培训--责任、案例、管理重点
评论
0/150
提交评论