版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、独立性检殓的基本思想及其基本应用聚甲乙两个班级进行数学考试,按 学生考试及格和不及格统计成绩后, 得到如下列联表:不及格及格总计甲103545乙73845总计177390A试判断成绩不及格和班级是否有关系?根据列联表可知甲班学生中不及格的比例为10/45 ;乙班学生中不及格的比例为7/45。二者相差3/45。画出等高条形图。100%80%60%40%20%0%等高条形图11及格 不及格Ipm 11甲乙问题:从上面的问题可以看岀,虽然利用 图表来判断两个分类变量是否有关系比较 直观,但缺乏精确性和可靠性。那么我们 如何精确性的刻画两个分类变量是否有没 有关系?聚提出问题:为了解决上面的问题,我们
2、可 以先假设不及格与班级无关。用A表示 事件“在甲班”,表示事件“不及格”, 表示事件“在甲班且不及格”,则“不 及格与班级无关”等价于事件A和B相互独 立。则有P(AB)=P(A)P(B)O否则,应该有A与B 不独立,即“不及格与班级有关”。那么如何验 &(AB)=P(A )P(B)呢?P(A)=45/90=l/2, P(B)=17/90,P(A) P(B)= 45/90-17/90=1刀 180, P(AB)=10/90=20/180,因为P(A) P(B)P(AB),故4与不独立,即“不及格与班级有关”。问题:在这里由尸(刘P(B)土P(AB)定有“不及格与班级有关”吗1 如果不是,那么
3、如何根据HA), P(B), F(A的值来判断其相关性?DP(A) P(B)P(AB)不一定有“不及格与班级有关”。因为在数据上 我们是釆用频率来估计概率。另外,在实际问题中我们也仅是用样 本来估计总体,这些因素都会造成数值上的偏差。但是,应该肯定的是珑4与严丹越接近,A与两个事件 独立的可能性就越大,即”不及格与班级有关”的可能性就越小。浪我们将表中的观测值用字母表示,则得下表:不及格及格总计甲aba+b乙Cdc+d总计a+cb+da+b+c+dn=a+b+c+d,如何判断不及格和班级是否有关系?假设H:不及格与班级无关。用A表示事件“在甲班”,表示事件“不及格”,AB 表示事件“在甲班且不
4、及格”,P(A)=(a+b )/n9P(B)=(a+c)/n,P(A)P(B)= (a+b)/n-(a+c)/n9 P(AB)=a/n,若“不及格与班级无关”.则(a+b)/n-(a+c)/na/n应该非常接近。若(a+b )/n-(a+c )/n与非常接近,A(a+b)/n-(a+c)/na/n,从而adbco(a+c/nF/n,即表示事件A和B近似相互独立。事件a与事件3事件N与事件瓦事件A与事件瓦 都近似相互独立。则同理有(c+d)/n-(a+c)/na/n; (c+d)/n(b+d)/n=a/n; (a+b)/n9(b+d)/na/n;于是我们构造统计量:(,a a+b d+c卩 a
5、+ b b + d 2c c + d a + c 2K2na + b a+ca+bb+d n nd c+d b+d .)-n n nc+db+dy (一y) n n + n n n 十 n n n 十 c + d a +c1n(ad -be)2x =n (d + b)(d + c)(b + d)(c + d)为什么要如此构造统计量疋 呢?因为这样构造的K2是符合卡方分布的。下 图便是卡方分布的密度曲线。构造随机变 量K2,若成立,即“不及格与班级无 关”,则衣应该非常小。 OOOOO5432亠在乩成立的情况下对随机变量疋经行多次观测。 观测值超过6635的频率约为0.01.从而也说明我 们把“
6、風成立”错误判断为“風不成立”的概 率不会超过001。这样我们就可以通过计算衣的 观测值来判断H。是否成立。PK 6.635)0.01/PK 3.841) q 0.05PU0.2PM9O270s 84PH904 3.PU905聚独立性检验的基本思想口要判断“两个分类变量有关系”这一结论的正确 性。心首先假设结论不成立。即假设“两个分类变量 没 有关系”成立。心在该假设下构造的随机变量K2,它的值应该很小。 心如果由观测数据计算得到的K2的观测值很大, 则在一定程度上说明假设不合理。推翻原假设即认 为“两个分类变量有关系”。傘独立性检验的基本思想类似于反证法。旦判断“两个分类变量是否有关系”。O
7、先假设事件:Ho: “两个分类变量没有关系”成立。O在此假设成立之下,构造某事件A, 事件A在成立的条件下发生的概率很小, 例如P(A風)=005。O现进行一次试验,如果事件A发生了,就说明一 个小概率事件发生了,我们便怀疑乩的正确性,因 而要否定乩。旦如何构造事件4?在“两个分类变量没有关系”(即独立)的情 况下,我们构造的随机变量疋的观测值为 氐,我们构造kko这一事件的概率为 005(或者更小)。事件kko即为4事件。 OOOOO5432=/如果事件kko发生,我们则否定乩,说 明两个分类变量是有关系的。我们称这样的也为一个判断规则的临界值。 按照这种规则,把”两个分类变量没有关系” 错
8、误的判断为两个分类变量有关系”的概率 不超过即“两个变量有关系”这 一结论成立的可信程度为(l-P(AHo) X100%o既然独立性检验的基本思想类似于反证法,那么反证法原理和独立性检验原 理有什么区别和联系?独立性检验的问题具体步骤:1 根据实际问题的需要确定最大犯错误的 概率即事件4二伙 也在成立的条件下 的概率仏。然后查表确定临界值届。II利用公式计算M的观测值Jt瓦_n(ad_bc)2(q+Z?)(q+c)(Z7+)(c+):如果kko,gp小概率事件A发生,则否定原假设 推断x与y有关系;这种推断犯错误的概率不超过q。:如果氐恣。就认为在犯错误的概率不超过厶的前提下, 不能推断x与y
9、有关系。不及格及格总计甲103545乙73845总计177390K2的观测值为:*=90 X(10X 38-7 X 35尸/(45 X45X17X 73)0.65因为0.650.455,所以在犯错误的概率不超过05的前提 下可以认为“不及格与所在班级无关”。为了探究50岁以上的人吸烟习惯与患慢性气管炎是否有关, 调查了339名50岁以上的人,获得数据如下:患慢性支气管炎吸烟43不吸烟13总计56未患慢性气管炎总计162205121134283339利用图形判断吸烟习惯与患慢性气管炎是否有关系? 并用独立性检验的思想说明理由。解:分别求岀吸烟人群和不吸烟人群中患慢性支气 管炎和未患慢性支气管炎的
10、频率。得到等高条形图。如图所示:吸烟不吸烟未患慢性气管炎患慢性支气管炎可以发现,吸烟样本中患病的频率明显高于不吸烟样本中患病的频 率,因此我们可以认为吸烟与患慢性支气管炎有关系。根据列联表中的数据,得到K2的观测值:n(ad-bc)(d+b)(d+c)(b+d)(c+)二驚需皿5所以,在犯错误的概率不超 过0.01的前提下认为“吸烟 与患慢性支气管炎有关”。5某企业有两个分厂生产某种零件,按规定内径尺寸 (单位:mm)的值落在29.94,30.06)的零件为优质品。从两个分厂生产的零件中各抽岀了500件,量其内径尺寸,得 到结果如下表:分组29.86,29.90)29.90,29.94)29.
11、94,29.98)29.98,30.02)频数126386182分组30.02,30.06)30.0, 30.10)30.10,30.14)频数92614分组29.86,29.90)29.90,29.94)29.94,29.98)29.98,30.02)频数297185159分组30.02,30.06)30.0, 30.10)30.10,30.14)频数766218试分别估计两个分 厂生产的零件的优 质品率;由以上统 计数据作出2x2列 联表,并问是否有 99%的把握认为两 个分厂生产的零件 的康量有差异。甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计360/500=72%乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计320/500=64%优质品非优质品总计甲厂360140500乙厂320180500总计6803201000作出2x2列联表O则:K2由列联表的数据计算疋,且查表得 4/26.635)二0.010_ 1000x (360x 180- 140x 320)2_500x500x680x3207.35 6.635所以有99%的把握认为“两个分厂生产的零件的质量有差异” o小结:已知两个分类变量X和丫,有哪些途径判断他们是否有 关系?列联表、等高条形图、独立性检验。独立性检验的具体步骤是什么?
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度医疗行业广告宣传制作合同3篇
- 二零二五年度建筑业离岗创业合同2篇
- 课程设计写什么
- 二零二五年地产广告折页创意设计、印刷与售后合同2篇
- 2025年演讲稿保护环境范文(2篇)
- 二零二五年度新能源广告牌匾安装与节能服务合同3篇
- 2025年医院控烟工作计划模版(4篇)
- 企业公司目标管理制度范文(2篇)
- 消防专职干部职责模版(3篇)
- 2025年人教版选择性必修2生物下册阶段测试试卷
- DBJ33T 1312-2024 工程渣土再生填料道路路基技术规程
- 高级流行病学与医学统计学智慧树知到期末考试答案章节答案2024年浙江中医药大学
- 服务开口合同模板
- 2024年200MW-400MWh电化学储能电站设计方案
- 2024数据采集合同模板
- SH/T 3227-2024 石油化工装置固定水喷雾和水(泡沫)喷淋灭火系统技术标准(正式版)
- (正式版)JBT 7248-2024 阀门用低温钢铸件技术规范
- 胆总管结石伴胆管炎的护理查房
- 水闸闸门运行方案
- 消费型股东招募计划书
- 二年级上册竖式计算200题附答案
评论
0/150
提交评论