![3[1].2独立性检验的基本思想及其初步应用_第1页](http://file2.renrendoc.com/fileroot_temp3/2021-7/27/3ea17888-1c9d-4d11-9505-d785df657965/3ea17888-1c9d-4d11-9505-d785df6579651.gif)
![3[1].2独立性检验的基本思想及其初步应用_第2页](http://file2.renrendoc.com/fileroot_temp3/2021-7/27/3ea17888-1c9d-4d11-9505-d785df657965/3ea17888-1c9d-4d11-9505-d785df6579652.gif)
![3[1].2独立性检验的基本思想及其初步应用_第3页](http://file2.renrendoc.com/fileroot_temp3/2021-7/27/3ea17888-1c9d-4d11-9505-d785df657965/3ea17888-1c9d-4d11-9505-d785df6579653.gif)
![3[1].2独立性检验的基本思想及其初步应用_第4页](http://file2.renrendoc.com/fileroot_temp3/2021-7/27/3ea17888-1c9d-4d11-9505-d785df657965/3ea17888-1c9d-4d11-9505-d785df6579654.gif)
![3[1].2独立性检验的基本思想及其初步应用_第5页](http://file2.renrendoc.com/fileroot_temp3/2021-7/27/3ea17888-1c9d-4d11-9505-d785df657965/3ea17888-1c9d-4d11-9505-d785df6579655.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、3.2 独立性检验的基本思想独立性检验的基本思想 及其初步应用及其初步应用 第三章第三章 统计案例统计案例 2 2 定量变量回归分析(画散点图、相关系数r、定量变量回归分析(画散点图、相关系数r、 变量 相关指数R 、残差分析)变量 相关指数R 、残差分析) 分类变量分类变量 研究两个变量的相关关系: 定量变量:体重、身高、温度、考试成绩等等。定量变量:体重、身高、温度、考试成绩等等。 变量 分类变量:性别、是否吸烟、是否患肺癌、变量 分类变量:性别、是否吸烟、是否患肺癌、 宗教信仰、国籍等等。宗教信仰、国籍等等。 两种变量: 独立性检验独立性检验 本节研究的是两个分类变量的独立性检验问题。
2、在日常生活中,我们常常关心在日常生活中,我们常常关心分类变量之间是否有关系分类变量之间是否有关系: 例如,吸烟是否与患肺癌有关系?例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。性别是否对于喜欢数学课程有影响?等等。 吸烟与肺癌列联表吸烟与肺癌列联表 不患肺癌不患肺癌患肺癌患肺癌总计总计 不吸烟不吸烟77757775424278177817 吸烟吸烟20992099494921482148 总计总计98749874919199659965 为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了地调查了99659965人,得到
3、如下结果(单位:人)人,得到如下结果(单位:人) 列联表列联表 探究探究 在不吸烟者中患肺癌的比重是在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是 说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患 肺癌的可能性大。肺癌的可能性大。 0.54%0.54% 2.28%2.28% 上面我们通过分析数据和图形,得到的直观印象是吸烟和上面我们通过分析数据和图形,得到的直观印象是吸烟和 患肺癌有关,那么事实是否真的如此呢?患肺癌有关,那么事实是否真的如此呢?这需要用统计观点这需要用统计观点 来考察这个问题。来考察这个
4、问题。 现在想要知道能够以多大的把握认为现在想要知道能够以多大的把握认为“吸烟与患肺癌有关吸烟与患肺癌有关”, 为此先假设为此先假设 H0:吸烟与患肺癌没有关系:吸烟与患肺癌没有关系. 不患肺癌不患肺癌患肺癌患肺癌总计总计 不吸烟不吸烟aba+b 吸烟吸烟cdc+d 总计总计a+cb+da+b+c+d 把表中的数字用字母代替,得到如下用字母表示的列联表把表中的数字用字母代替,得到如下用字母表示的列联表 用用A表示不吸烟,表示不吸烟,B表示不患肺癌,则表示不患肺癌,则“吸烟与患肺癌没有关系吸烟与患肺癌没有关系” 等价于等价于“吸烟与患肺癌独立吸烟与患肺癌独立”,即假设,即假设H0等价于等价于 P
5、(AB)=P(A)P(B). 因此因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强。越大,说明吸烟与患肺癌之间关系越强。 不患肺癌不患肺癌患肺癌患肺癌总计总计 不吸烟不吸烟aba+b 吸烟吸烟cdc+d 总计总计a+cb+da+b+c+d adbc即 aa+ba+caa+ba+c nnnnnn a+ba+b P(A),P(A), n n a+ca+c P(B),P(B), n n . a a P(AB)P(AB) n n 其中为样本容量,即n = a+b+c+dn = a+b+c+d 在表中,在表中,a
6、恰好为事件恰好为事件AB发生的频数;发生的频数;a+b和和a+c恰好分别为事恰好分别为事 件件A和和B发生的频数。由于频率接近于概率,所以在发生的频数。由于频率接近于概率,所以在H0成立的条成立的条 件下应该有件下应该有 (a+b+c+d)a(a+b)(a+c), 为了使不同样本容量的数据有统一的评判标准,基于上述分为了使不同样本容量的数据有统一的评判标准,基于上述分 析,我们构造一个随机变量析,我们构造一个随机变量-卡方统计量卡方统计量 2 2 () , ()()()() 其中为样本容量。 n adbc K ab cdac bd nabcd (1) 若若 H0成立,即成立,即“吸烟与患肺癌没
7、有关系吸烟与患肺癌没有关系”,则,则K2应很小。应很小。 根据表根据表3-7中的数据,利用公式(中的数据,利用公式(1)计算得到)计算得到K2的观测值为:的观测值为: 那么这个值到底能告诉我们什么呢?那么这个值到底能告诉我们什么呢? 2 42 2099 56.632 7817 2148 9874 91 k 9965(7775 49) (2) 独立性检验独立性检验 随机变量随机变量-卡方统计量卡方统计量 2 2 () , ()()()() 其中为样本容量。 n adbc K ab cdac bd nabcd 5、独立性检验独立性检验 0.500.400.250.150.100.050.0250.
8、0100.0050.001 0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828 0 k 0) k 2 P(K 临界值表临界值表 828.10 2 K 635. 6 2 K 706. 2 2 K 2 2.706K 0.1%0.1%把握认为把握认为A A与与B B无关无关 1%1%把握认为把握认为A A与与B B无关无关 99.9%99.9%把握认把握认A A与与B B有关有关 99%99%把握认为把握认为A A与与B B有关有关 90%90%把握认为把握认为A A与与B B有关有关10%10%把握认为把握认为A A与与B B无关无关 没有充分的
9、依据显示没有充分的依据显示A A与与B B有关,但也不能显示有关,但也不能显示A A与与B B无关无关 在在H0成立的情况下,统计学家估算出如下的概率成立的情况下,统计学家估算出如下的概率 即在即在H0成立的情况下,成立的情况下,K2的值大于的值大于6.635的概率非常小,近似的概率非常小,近似 于于0.01。 2 (6.635)0.01.P K (2) 也就是说,在也就是说,在H0成立的情况下,对随机变量成立的情况下,对随机变量K2进行多次观进行多次观 测,观测值超过测,观测值超过6.635的频率约为的频率约为0.01。 思考 2 0 6.635?KH如果,就断定不成立,这种判断出错的可能性
10、有多大 答:判断出错的概率为0.01。 2 0 0 9965 7775 49 42 2099 56632 7817 2148 9874 91 () .k H H 现现在在观观测测值值太太大大了了, 在在成成立立的的情情况况下下能能够够出出现现这这样样的的观观测测值值的的概概率率不不超超过过0 0. .0 01 1, 因因此此我我们们有有9 99 9% %的的把把握握认认为为不不成成立立,即即有有9 99 9% %的的把把握握认认为为“吸吸烟烟 与与患患肺肺癌癌有有关关系系”。 判断判断 是否成立的规则是否成立的规则 0 H 如果如果 ,就判断,就判断 不成立,即认为吸烟与不成立,即认为吸烟与
11、患肺癌有关系;否则,就判断患肺癌有关系;否则,就判断 成立,即认为吸烟成立,即认为吸烟 与患肺癌有关系。与患肺癌有关系。 6.635k 0 H 0 H 独立性检验的定义独立性检验的定义 上面这种利用随机变量上面这种利用随机变量K2来确定在多大程度上来确定在多大程度上 可以认为可以认为“两个分类变量有关系两个分类变量有关系”的方法,称为两的方法,称为两 个分类变量的个分类变量的独立性检验独立性检验。 在该规则下,把结论在该规则下,把结论“ 成立成立”错判成错判成“ 不不 成立成立”的概率不会差过的概率不会差过 0 H 0 H 2 (6.635)0.01,P K 即有即有99%的把握认为的把握认为
12、 不成立。不成立。 0 H 表表1-11 22联表联表 一般地,假设有两个分类变量一般地,假设有两个分类变量X和和Y,它们的值域,它们的值域 分别为分别为x1,x2和和y1,y2,其样本频数列联表(称为其样本频数列联表(称为2x2列列 联表)为:联表)为: y1y2总计总计 x1aba+b x2cdc+d 总计总计a+cb+da+b+c+d 在实际应用中,要在获取样本数据之前通过下表确定临界值:在实际应用中,要在获取样本数据之前通过下表确定临界值: 0.500.400.250.150.10 0.4550.7081.3232.0722.706 0.050.0250.0100.0050.001 3
13、.8415.0246.6367.87910.828 0) k 2 P(K 0 k 0 k 0) k 2 P(K 具体作法是:具体作法是: (1)根据实际问题需要的可信程度确定临界值根据实际问题需要的可信程度确定临界值 ; (2)利用公式利用公式(1),由观测数据计算得到随机变量,由观测数据计算得到随机变量 的观测值;的观测值; (3)如果如果 ,就以,就以 的把握认为的把握认为“X 与与Y有关系有关系”;否则就说样本观测数据没有提供;否则就说样本观测数据没有提供“X与与Y有关系有关系” 的充分证据。的充分证据。 0 k 2 K 0 kk 2 0 (1() 100%P Kk 2 2 () ()(
14、)()() n adbc K ab cd ac bd 2 2 110 (40 3020 20) 7.8 60 50 60 50 K 例例1 1(湖南)通过随机询问(湖南)通过随机询问110110名性别不同的大学生是否名性别不同的大学生是否 爱好某项运动,得到如下的列联表:爱好某项运动,得到如下的列联表: 男男女女总计总计 爱好爱好404020206060 不爱好不爱好202030305050 总计总计60605050110110 由由 算得算得 2 ()P Kk k 附表:附表: 0.0500.0100.001 3.8416.63510.828 参照附表,得到的正确结论是(参照附表,得到的正确
15、结论是( ) A在犯错误的概率不超过在犯错误的概率不超过0.1%的前提下,认为的前提下,认为“爱好该项运动与性别有关爱好该项运动与性别有关” B在犯错误的概率不超过在犯错误的概率不超过0.1%的前提下,认为的前提下,认为“爱好该项运动与性别无关爱好该项运动与性别无关” C有有99%以上的把握认为以上的把握认为“爱好该项运动与性别有关爱好该项运动与性别有关” D有有99%以上的把握认为以上的把握认为“爱好该项运动与性别无关爱好该项运动与性别无关” 答案:答案:C 例例2.2.在在500500人身上试验某种血清预防感冒作用,把他们一年中人身上试验某种血清预防感冒作用,把他们一年中 的感冒记录与另外
16、的感冒记录与另外500500名未用血清的人的感冒记录作比较,结名未用血清的人的感冒记录作比较,结 果如表所示。果如表所示。 未感冒未感冒感冒感冒合计合计 使用血清使用血清252248500 未使用血清未使用血清224276500 合计合计4765241000 试画出列联表的条形图,并通过图形判断这种血清能否起到预试画出列联表的条形图,并通过图形判断这种血清能否起到预 防感冒的作用?并进行独立性检验。防感冒的作用?并进行独立性检验。 )()()( )( 2 2 dbcadcba bcadn K (a)(b) (c)(d) 635. 635.431 524476500500 )2242482762
17、52(1000 2 2 K 因此,在犯错误的概率不超过因此,在犯错误的概率不超过0.01的前提下认为使用的前提下认为使用血清与血清与 预防感冒有关系预防感冒有关系. . 从等高条形图可从等高条形图可 以看出,使用血以看出,使用血 清能否起到一定清能否起到一定 预防感冒的作用预防感冒的作用. 即:使用血清能否起到预防感冒有一定的作用即:使用血清能否起到预防感冒有一定的作用. 例例3.3.为调查某地区老年人是否需要志愿者提供帮助,用简单为调查某地区老年人是否需要志愿者提供帮助,用简单 随机抽样方法从该地区调查了随机抽样方法从该地区调查了500500位老年人,结果如下:位老年人,结果如下: 2701
18、60不需要不需要 3040需要需要 女女男男 性别性别 是否需要帮助是否需要帮助 ()()估计该地区老年人中,需要志愿者提供帮助的老年人的比估计该地区老年人中,需要志愿者提供帮助的老年人的比 例;例; ()()能否有能否有99%的把握认为该地区的老年人是否需要志愿者提的把握认为该地区的老年人是否需要志愿者提 供与性别有关供与性别有关? ? ()()根据根据()()的结论的结论, ,能否提出更好的调查方法来估计该地区的能否提出更好的调查方法来估计该地区的 老年人中老年人中, ,需要需要志愿者提供帮助的老年人的比例志愿者提供帮助的老年人的比例?说明理由说明理由. )()()( )( 2 2 dbc
19、adcba bcadn K 0.050P(K2k) k 0.0100.001 3.8416.63510.828 )()()( )( 2 2 dbcadcba bcadn K 解解 ()()调查的调查的500500位老年人中有位老年人中有7070位老年人需要志愿者提供帮位老年人需要志愿者提供帮 助,因此该地区老年人中,需要志愿者提供帮助的老年人的比助,因此该地区老年人中,需要志愿者提供帮助的老年人的比 例为例为14%. 67.99 30020043070 16030-27040500 2 2 )( ()K 由于由于9.9676.635,所以有所以有99%的把握认为该地区的老年的把握认为该地区的老
20、年 人是否需要志愿者提供与性别有关人是否需要志愿者提供与性别有关. . ()由由()的结论知,的结论知,该地区的老年人是否需要志愿者提供与性该地区的老年人是否需要志愿者提供与性 别有关,并且从样本数据可以看出该地区男性老年人与女性老别有关,并且从样本数据可以看出该地区男性老年人与女性老 年人中需要帮助的比例有明显的差异,因此在调查时,应先确年人中需要帮助的比例有明显的差异,因此在调查时,应先确 定该地区男女老年人的比例,再把老年人分成男、女两层,采定该地区男女老年人的比例,再把老年人分成男、女两层,采 取分层抽样的方法,比简单随机抽样方法更好。取分层抽样的方法,比简单随机抽样方法更好。 例例4. 4. 某学校课题组为了研究学生的数学成绩与物理成绩之间某学校课题组为了研究学生的数学成绩与物理成绩之间 的关系,随机抽取高二年级的关系,随机抽取高二年级2020名学生某次考试成绩(满分名学生某次考试成绩(满分100100 分,单科成绩在分,单科成绩在8585及其以上的为优秀)结果如下:及其以上的为优秀)结果如下: 序号12345678910 数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 外汇市场的宏观经济分析视角考核试卷
- 产品销售承包合同标准文本
- 养虾项目合作协议合同范例
- 劳务雇佣合同范本6
- skf轴承采购合同范例
- 加工铸造用工合同标准文本
- 兼职英文编辑合同标准文本
- 加工定做鞋子合同范例
- 2025年国网山东省电力公司招聘高校毕业生1300人(第一批)笔试参考题库附带答案详解
- 2025年中州水务控股有限公司公开招聘80人笔试参考题库附带答案详解
- 离心式压缩机设计-离心压缩机气动及结构设计含6张CAD图
- 《纺织材料生产》课件-项目7:短纤工段
- 《医院建筑绿色改造技术规程》
- 小学语文六年级下册第三单元作业设计
- 物质安全资料表(MSDS)
- 《HSK标准教程1》第1课课件
- 健身房私教课程预约规则设置
- 信息管理课件
- 医院科室及科室工作人员风险点及防范措施
- 排列组合中的涂色问题课件
- 第11课《上课能专心》课件
评论
0/150
提交评论