




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、我们经常听到这些说法:我们经常听到这些说法:l 吸烟对患肺癌有影响;吸烟对患肺癌有影响;l 数学好的人物理一般也很好;数学好的人物理一般也很好;l 是否喜欢数学课程与性别之间有关系;是否喜欢数学课程与性别之间有关系;l 人的血型会决定人的性格;人的血型会决定人的性格;l 星座与人的命运之间有某种联系星座与人的命运之间有某种联系. 这些说法都有道理吗?这些说法都有道理吗?探究探究1 1 独立性检验的基本思想独立性检验的基本思想 对于性别变量,其取值为男和女两种对于性别变量,其取值为男和女两种. .这种变量这种变量的不同的不同“值值”表示个体所属的不同类别,像这样的变表示个体所属的不同类别,像这样
2、的变量称为量称为 . .分类变量在现实生活中是大量存在的,如是否吸烟,分类变量在现实生活中是大量存在的,如是否吸烟,是否患肺癌,宗教信仰,国别,年龄,出生月份等是否患肺癌,宗教信仰,国别,年龄,出生月份等. .分类变量分类变量x是变量吗?是变量吗?y表示一年四季,则表示一年四季,则y的取值有哪些?的取值有哪些?y是变量吗?是变量吗?x表示性别,则表示性别,则x的取值有哪些?的取值有哪些?(2)(2)分类变量的取值有时可用数字来表示,但这时分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义,如用的数字除了分类以外没有其他的含义,如用“0”0”表示表示“男男”,用,用“1”1
3、”表示表示“女女”. .对分类变量的理解对分类变量的理解(1)(1)分类变量的取值一定是离散的,而且不同的取值分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级等两个值,商品的等级变量只取一级、二级、三级等. .不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟7 7757 77542427 8177 817吸烟吸烟2 0992 09949492 1482 148总计总计9 8749 87491919 9659 965问题:问题:为了研究吸烟是否对患肺癌有影响,某肿瘤研究为了
4、研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了所随机地调查了9 9659 965人,得到如下结果:人,得到如下结果:3-73-7吸烟与患肺癌列联表(单位:人)吸烟与患肺癌列联表(单位:人)两个分类变量的频两个分类变量的频数表,称为列联表数表,称为列联表思考思考1 1:你如何由列联表中的数据判断吸烟是否对肺癌有影响?你如何由列联表中的数据判断吸烟是否对肺癌有影响?能不能从患肺癌的人数来判断?应该从什么量来判断?能不能从患肺癌的人数来判断?应该从什么量来判断?不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟7 7757 77542427 8177 817吸烟吸烟2 0992 09949492
5、 1482 148总计总计9 8749 87491919 9659 965问题:问题:为了研究吸烟是否对患肺癌有影响,某肿瘤研究为了研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了所随机地调查了9 9659 965人,得到如下结果:人,得到如下结果:3-73-7吸烟与患肺癌列联表(单位:人)吸烟与患肺癌列联表(单位:人)在吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是_._. 2.28%2.28%在不吸烟者中患肺癌的比重是在不吸烟者中患肺癌的比重是_,_, 0.54%0.54%由计算结果,你会做出怎样的判断?由计算结果,你会做出怎样的判断? 你的判断一定正确吗?能知道判断犯错误的概率是多少
6、吗?你的判断一定正确吗?能知道判断犯错误的概率是多少吗?等高条形图等高条形图患肺癌患肺癌比例比例不患肺不患肺癌比例癌比例思考思考2 2:除了用比例来判断吸烟是否对患肺癌有:除了用比例来判断吸烟是否对患肺癌有影响外?还有其它方法来判断吗?影响外?还有其它方法来判断吗?(1 1)观察)观察等高条形图,等高条形图,你得到什么你得到什么结论?结论?(2 2)你的判)你的判断一定正确断一定正确吗?能知道吗?能知道判断的正确判断的正确率是多少吗?率是多少吗?思考思考3 3:通过分析数据和图形,我们得到的直观印象:通过分析数据和图形,我们得到的直观印象是是“吸烟和患肺癌有关吸烟和患肺癌有关”但是我们不知道我
7、们判断但是我们不知道我们判断的正确率有多大,那么我们是否能够以一定的把握认的正确率有多大,那么我们是否能够以一定的把握认为为“吸烟与患肺癌有关吸烟与患肺癌有关”呢?呢?为了回答上述问题,我们先假设为了回答上述问题,我们先假设:H0:吸烟与患肺癌没有关系吸烟与患肺癌没有关系用用A表示不吸烟表示不吸烟, B表表示不患肺癌示不患肺癌,则,则“吸烟与患肺癌没有关系吸烟与患肺癌没有关系”独立,即独立,即假设假设 H0等价于等价于P(AB)=P(A)P(B) . 3-83-8吸烟与患肺癌列联表吸烟与患肺癌列联表( (单位:人单位:人) ) 不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aba+b吸烟吸烟
8、cdc+d总计总计a+cb+da+b+c+d把表把表3-73-7中的数字用字母代替,得到如下用字母表示的列联表中的数字用字母代替,得到如下用字母表示的列联表思考思考4: (1)在表)在表3-8中,事件中,事件AB发生的频数是什么?发生的频数是什么? (3)事件)事件B发生的频数是什么?发生的频数是什么? (2)事件)事件A发生的频数是什么?发生的频数是什么? (4)P(AB)、)、P(A)、)、P(B)分别是什么?它们之间有什么关系?分别是什么?它们之间有什么关系? (5)|ad-bc|越小,说明什么问题?越小,说明什么问题?|ad-bc|越大,说明什么问题?越大,说明什么问题?abacaa
9、a + + b ba a + + c ca aP P( (A A) ), ,P P( (B B) ), ,P P( (A AB B) )n nn nn n其其 中中 n n = = a a + + b b + + c c + + d dadbcaa+ba+caa+ba+cnnnnnn即(a+b+c+d)a=(a+b)(a+c)即0.adbcad-bc 越小,说明吸烟与患肺癌之间的关系越弱,ad-bc 越小,说明吸烟与患肺癌之间的关系越弱,ad-bc 越大,说明吸烟与患肺癌之间的关系越强ad-bc 越大,说明吸烟与患肺癌之间的关系越强为使不同的样本容量的数据有统一的评判标准,基为使不同的样本容量
10、的数据有统一的评判标准,基于上面的分析,我们构造一个随机变量于上面的分析,我们构造一个随机变量其中其中n=a+b+c+d为样本容量为样本容量.(1) )()()()(22dbcadcbabcadnK 思考思考5:(2)K2越大,说明什么问题?越大,说明什么问题? (1)K2越小,说明什么问题?越小,说明什么问题? 结论:若结论:若 H H0 0 成立,即成立,即“吸烟与患肺癌没吸烟与患肺癌没有关系有关系”,则,则K K2 2应该很小应该很小 不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟7 7757 77542427 8177 817吸烟吸烟2 0992 09949492 1482 148总
11、计总计9 8749 87491919 9659 965请根据表请根据表3-73-7中的数据,利用公式(中的数据,利用公式(1 1)计算)计算K K2 2的观测值的观测值 22K9 965 (7 775 4942 2 099)k56.632.7 817 2 148 9 874 91上面探究中,的观测值为3-73-7吸烟与患肺癌列联表(单位:人)吸烟与患肺癌列联表(单位:人)思考思考6 6:这个值到底是大还是小,它能告诉我们什么呢?这个值到底是大还是小,它能告诉我们什么呢?成立的条件下成立的条件下现,在现,在统计学家经过研究后发统计学家经过研究后发0H(2)式说明,在)式说明,在H0成立的情况下,
12、成立的情况下,K2的观测值超过的观测值超过 6.635 的概率非常小,近似为的概率非常小,近似为0.01,所以,所以K26.6356.635是一个小概率事件,基本不发生是一个小概率事件,基本不发生 (2) 01. 0)635. 6(2 KP思考思考7 7: (1 1)我们计算的)我们计算的K K2 2的观测值的观测值k56.632 k56.632 ,远远大于,远远大于6.6356.635,它发生的概率大不大?是不是一个小概率事件?它发生的概率大不大?是不是一个小概率事件?(2 2)你觉)你觉H H0 0成立吗?成立吗? (3 3)你的判断会犯错误吗?犯错误的概率有多大?)你的判断会犯错误吗?犯
13、错误的概率有多大? (4 4)上述的方法相比于之前讲的两种方法,它有什么优势?)上述的方法相比于之前讲的两种方法,它有什么优势? (5 5)你能总结上述检验方法及它的一般步骤吗?)你能总结上述检验方法及它的一般步骤吗? (5 5)你能总结上述检验方法及它的一般步骤吗?)你能总结上述检验方法及它的一般步骤吗? 结论:结论:在上述过程中,实际上是借助于随机变量在上述过程中,实际上是借助于随机变量K2的观测值的观测值k建立了一个判断建立了一个判断H0是否成立的规则:如果是否成立的规则:如果k 6.635,就判断,就判断H0不成立,即认为吸烟与患肺癌有关系;否则,就判断不成立,即认为吸烟与患肺癌有关系
14、;否则,就判断H0成立,成立,即认为吸烟与患肺癌没有关系在该规则下,把结论即认为吸烟与患肺癌没有关系在该规则下,把结论“H0 成立成立”错判成错判成“H0不成立不成立”的概率不会超过的概率不会超过0.01, 即有即有99的把握认为的把握认为不成立不成立一般步骤:一般步骤:假设两个分类变量假设两个分类变量X X与与Y Y没有关系没有关系. .计算出计算出K K2 2的观测值的观测值k .k .判断判断k k的值的大小,即的值的大小,即k k是不是一个小概率事件,从而确定是不是一个小概率事件,从而确定X X与与Y Y有关的程度或无关系有关的程度或无关系. .结论:这种判断两个分类变量是否有关系的方
15、法称为结论:这种判断两个分类变量是否有关系的方法称为“独独立性检验立性检验”1.1.定义:利用随机变量定义:利用随机变量K K2 2来判断来判断“两个分类变量有关系两个分类变量有关系”的方法称为独立性检验的方法称为独立性检验. .思考思考8 8:独立性检验与反证法有何异同独立性检验与反证法有何异同 ?反证法反证法独立性检验独立性检验假设命题的结论不正确假设命题的结论不正确假设假设H0:两个分类变量:两个分类变量X,Y没有关没有关系系在假设的前提下,推出矛盾在假设的前提下,推出矛盾在在H0成立的条件下,得到一个小概成立的条件下,得到一个小概率事件率事件所以假设不成立,原命题成立所以假设不成立,原
16、命题成立所以所以H0不成立,即两个分类变量不成立,即两个分类变量X,Y有关系有关系2.独立性检验的一般步骤独立性检验的一般步骤假设两个分类变量假设两个分类变量X与与Y没有关系没有关系.计算出计算出K2的观测值的观测值k .判断判断k的值的大小,即的值的大小,即k是不是一个小概率是不是一个小概率事件,从而确定事件,从而确定X与与Y有关的程度或无关系有关的程度或无关系. 问题问题1:如何判断:如何判断K2的观测值的观测值k是大还是小呢?是大还是小呢? 这仅需确定一个正数这仅需确定一个正数k0,当,当kk0时就认为时就认为K2的观测的观测值值k大此时相应于的判断规则为:如果大此时相应于的判断规则为:
17、如果kk0 ,就,就认为认为“两个分类变量之间有关系两个分类变量之间有关系”;否则就认为;否则就认为“两个分类变量之间没有关系两个分类变量之间没有关系”. 我们称这样的我们称这样的k0为一个判断规则的临界值按照上为一个判断规则的临界值按照上述规则,把述规则,把“两个分类变量之间没有关系两个分类变量之间没有关系”错误地错误地判断为判断为“两个分类变量之间有关系两个分类变量之间有关系”的概率为的概率为P(K2k0). 在实际应用中,我们把在实际应用中,我们把kk0解释为有解释为有(1-P(K2k0) 100%的把握认为的把握认为“两个分类变量之间有关系两个分类变量之间有关系”;把把kk0解释为不能
18、以解释为不能以(1-P(K2k0) 100%的把握认的把握认为为“两个分类变量之间有关系两个分类变量之间有关系”,或者样本观测数,或者样本观测数据没有提供据没有提供“两个分类变量之间有关系两个分类变量之间有关系”的充分证的充分证据据 2()P Kkk(1)10.828,99.9%kXY如果就有的把握认为与 有关系(2)7.879,99.5%kXY如果就有的把握认为与 有关系(3)6.635,99%kXY如果就有的把握认为与 有关系(4)5.024,97.5%kXY如果就有的把握认为与 有关系(5)3.841,95%kXY如果就有的把握认为与 有关系(6)2.706,90%kXY如果就有的把握认
19、为与 有关系(7)2.706,kXY如果就认为没有充分的证据显示与 有关系问题问题2:如何用独立性检验的方法来检验两:如何用独立性检验的方法来检验两个分类变量个分类变量X和和Y是否有关系呢?是否有关系呢?一般地,假设有两个分类变量一般地,假设有两个分类变量X和和Y,它们的可,它们的可能取值分别为能取值分别为x1,x2和和y1,y2, 其样本频其样本频数列联表(称为数列联表(称为22列联表)为:列联表)为:表表3-9 22列联表列联表y1y2总计总计x1aba+bx2cdc+d总计总计a+cb+da+b+c+d若要推断的论述为若要推断的论述为Hl:X与与Y有关系,可以按如下步有关系,可以按如下步
20、骤判断结论骤判断结论Hl 成立的可能性:成立的可能性: 若要推断的论述为若要推断的论述为Hl:X与与Y有关系,可以按如下有关系,可以按如下步骤判断结论步骤判断结论Hl 成立的可能性:成立的可能性: 1计算满足条件计算满足条件X=x1的个体中具有的个体中具有Y=y1的个体所占的个体所占的比例的比例 和满足条件和满足条件X=x2的个体中具有的个体中具有Y=y2的个的个体所占的比例体所占的比例 .两个比例的值相差越大,两个比例的值相差越大,H1成成立的可能性就越大立的可能性就越大也可以通过画出等高条形图,也可以通过画出等高条形图,粗略地判断两个分类变量是否有关系,但是以上两粗略地判断两个分类变量是否
21、有关系,但是以上两种判断无法精确地给出所得结论的可靠程度种判断无法精确地给出所得结论的可靠程度 baa dcc 2可以利用独立性检验来考察两个分类变量是否有可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度具关系,并且能较精确地给出这种判断的可靠程度具体做法是:体做法是: .)()()()()2(222kKdbcadcbabcadnK的的观观测测值值机机变变量量由由观观测测数数据据计计算算得得到到随随,利利用用公公式式 (3)如果如果kk0 ,就以,就以(1-P(K2k0) 100%的把握的把握认为认为“X与与Y有关系有关系”;否则就说样本观测数据;否则就说样
22、本观测数据没有提供没有提供“X与与Y有关系有关系”的充分证据的充分证据 根据实际问题需要确定容许推断根据实际问题需要确定容许推断“两个分类两个分类变量有关系变量有关系”犯错误的上界犯错误的上界 ,然后查表,然后查表3-11确定临界值确定临界值 ; 0k0.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.82820()P Kk0k表表3-11 临界值表临界值表 例例1、在某医院、在某医院,因为患心脏病而住院的因为患心脏病而住院的665名男性病名男性病人中人中,有有2
23、14人秃顶人秃顶,而另外而另外772名不是因为患心脏病而住名不是因为患心脏病而住院的男性病人中有院的男性病人中有175人秃顶人秃顶.(1)利用图形判断秃顶与患利用图形判断秃顶与患心脏病是否有关系心脏病是否有关系;(2)能否在犯错误的概率不超过能否在犯错误的概率不超过0.01的前提下认为秃顶与患心脏病有关系?的前提下认为秃顶与患心脏病有关系?例题解析:思考:根据临界值表,在犯错误的概率不超过思考:根据临界值表,在犯错误的概率不超过0.01的前提下,取的临界值是什么?的前提下,取的临界值是什么?患心脏病患心脏病患其他病患其他病总计总计秃顶秃顶214175389不秃顶不秃顶4515971 048总计
24、总计6657721 437(1)(1)相应的等高条形图如下所示,相应的等高条形图如下所示,秃顶秃顶不秃顶不秃顶不患心脏病不患心脏病患心脏病患心脏病解:解:根据题目所给数据得到如下列联表:根据题目所给数据得到如下列联表:由图可由图可认为秃认为秃顶与患顶与患心脏病心脏病有关系有关系21 437 (214 597 175 451)16.3736.635.389 1 048 665 772k因此,在犯错误的概率不超过因此,在犯错误的概率不超过0.010.01的前提下,认为的前提下,认为秃顶与患心脏病有关系秃顶与患心脏病有关系. .(2)(2)根据列联表中的数据,得到根据列联表中的数据,得到注意:在熟悉
25、了独立性检验的基本原理后,我注意:在熟悉了独立性检验的基本原理后,我们在判断两个分类变量是否有关时,可以直接们在判断两个分类变量是否有关时,可以直接算出的观测值(不画等高条形图)来解决两个算出的观测值(不画等高条形图)来解决两个分类变量的独立性检验问题。但是,借助于图分类变量的独立性检验问题。但是,借助于图形可以更直观地向非专业人士解释所得到的统形可以更直观地向非专业人士解释所得到的统计分析结果。计分析结果。:,300,1得得到到如如下下列列联联表表名名学学生生抽抽出出中中随随机机在在某某城城市市的的某某校校高高中中生生之之间间的的关关系系与与是是否否喜喜欢欢数数学学课课程程、为为考考察察高高
26、中中生生的的性性别别练练习习30022872178143351228537总总计计女女男男总总计计不不喜喜欢欢数数学学课课程程喜喜欢欢数数学学课课程程联联表表性性别别与与喜喜欢欢数数学学课课程程列列表表123 ?.513. 42为为什什么么否否有有关关系系否否喜喜欢欢数数学学课课程程之之间间是是高高中中生生的的性性别别与与是是由由表表中中数数据据计计算算得得 K:,.%95:具体过程如下具体过程如下验的基本思想验的基本思想据是独立性检据是独立性检作出这种判断的依作出这种判断的依课之间有关系”课之间有关系”喜欢数学喜欢数学以上把握认为“性别与以上把握认为“性别与可以有约可以有约解解 .%95%.5.513. 4.05. 0841. 3:841. 3222有关系有关系性别与喜欢数学课之间性别与喜欢数学课之间认为认为的把握的把握所以,约有所以,约
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 正规吊装公司合同协议
- 设备一致性评估造价咨询协议
- 总经理股权协议合同
- 商店补偿协议书范本
- 快消品合同协议
- 员工回家吃饭协议书范本
- 快递驿站合作协议合同
- 楼顶维修三方合同协议
- 模特和公司签约合同协议
- 毕业班借读协议书范本
- 情绪心理学与情绪管理 课件
- 《民俗旅游学》教案-第九章 岁时节日民俗与旅游
- 软件质量证明书
- 高考标准化考场建设方案详细
- 人民医院肿瘤科临床技术操作规范2023版
- 高压-引风机电机检修文件包
- 2023届物理高考二模考前指导
- GB/T 39486-2020化学试剂电感耦合等离子体质谱分析方法通则
- GB/T 11085-1989散装液态石油产品损耗
- GXH-3011A1便携式红外线CO分析仪
- 2022年四川省阿坝州中考数学试卷及解析
评论
0/150
提交评论