独立性检验 课件_第1页
独立性检验 课件_第2页
独立性检验 课件_第3页
独立性检验 课件_第4页
独立性检验 课件_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3.1独立性检验

问题:

数学家庞加莱每天都从一家面包店买一块1000g的面包,并记录下买回的面包的实际质量。一年后,这位数学家发现,所记录数据的均值为950g。于是庞加莱推断这家面包店的面包分量不足。假设“面包份量足”,则一年购买面包的质量数据的平均值应该不少于1000g;“这个平均值不大于950g”是一个与假设“面包份量足”矛盾的小概率事件;这个小概率事件的发生使庞加莱得出推断结果。一:假设检验问题的原理

假设检验问题由两个互斥的假设构成,其中一个叫做原假设,用H0表示;另一个叫做备择假设,用H1表示。例如,在前面的例子中,原假设为:H0:面包份量足,备择假设为:H1:面包份量不足。这个假设检验问题可以表达为:

H0:面包份量足←→H1:面包份量不足二:求解假设检验问题考虑假设检验问题:

H0:面包分量足←→H1:面包分量不足在H0成立的条件下,构造与H0矛盾的小概率事件;如果样本使得这个小概率事件发生,就能以一定把握断言H1成立;否则,断言没有发现样本数据与H0相矛盾的证据。求解思路分析:本节研究的是两个分类变量的独立性检验问题。独立性检验在日常生活中,我们常常关心分类变量之间是否有关系:例如,吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响?等等。例1.某医疗机构为了了解患慢性支气管炎与吸烟是否有关,进行了一次抽样调查,共调查了339名50岁以上的人,其中吸烟者205人,不吸烟者134人.调查结果是:吸烟的205人中有43人患呼吸道疾病(简称患病),162人未患呼吸道疾病(简称未患病);不吸烟的134人中有13人患病,121人未患病.问题:根据这些数据能否断定“患慢性支气管炎与吸烟有关”?(1)为了研究这个问题,将上述数据用下表来表示:患病未患病合计吸烟43162205不吸烟13121134合计56283339(2)估计吸烟者与不吸烟者患病的可能性差异:在吸烟的人中,有的人患病,在不吸烟的人中,有的人患病.问题:由上述结论能否得出患病与吸烟有关?把握有多大?

(1)假设:患病与吸烟没有关系.若将表中“观测值”用字母表示,则得下列2×2列联表:不吸烟(患病(B)未患病()合计吸烟An11n12n1+不吸烟n21n22n2+合计n+1n+2n

即n11(n21+n22)≈n21(n11+n12)n11n22-n21n12≈0,因此,|n11n22-n21n12|越小,患病与吸烟之间的关系越弱,否则,关系越强.近似的判断方法:设n=n11+n21+n12+n22,如果H0成立,则在吸烟的人中患病的比例与不吸烟的人中患病的比例应差不多,由此可得,

上面的话的意思是指事件A与B独立,这时应该有P(AB)=P(A)P(B)成立,

我们用H0表示上式,即H0:P(AB)=P(A)P(B).并称之为统计假设,当H0成立时,下面的三个式子也成立:根据概率的统计定义,上面提到的众多事件的概率都可以用相应的频率来估计。例如P(AB)的估计为P(A)的估计为,P(B)的估计为,……于是与应该很接近,……。或者说应该比较小.从而也应该比较小。(2)卡方统计量:为了消除样本对上式的影响,通常用卡方统计量(χ2

)来进行估计.卡方χ2统计量公式:用它的大小可以决定是否拒绝原来的统计假设H0,如果算出的χ2值较大,就拒绝H0,也就是拒绝“事件A与事件B无关”,从而就认为它们是有关的了(3)两个临界值:3.841与6.635.

经过对χ2统计量分布的研究,已经得到了两个临界值:3.841与6.635。当根据具体的数据算出的χ2>3.841时,有95%的把握说事件A与事件B有关;当χ2>6.635时,有99%的把握说事件A与事件B有关;当χ2<3.841时,认为事件A与事件B无关;

象以上这种用χ2统计量研究吸烟与患呼吸道疾病是否有关等问题的方法称为独立性检验.

对于例1,最理想的解决办法是向所有的50岁以上的人作调查,然后对所得的数据进行统计处理,但这花费的代价太大,实际上也是行不通的。339个人相对于全体50岁以上的人,只是一小部分回忆一下数学必修3中学过的总体与样本的关系,当用样本平均数,样本标准差去估计总体的相应的数字特征时,由于抽样的随机性,结果并不惟一。现在的情况类似,我们用部分对全体作推断,推断可能正确,也可能错误,例如我们知道,不少的中老年烟民的身体很好,没有患慢性支气管炎;而又有很多的从不吸烟的中老年人体质很差,患有慢性支气管炎。如果抽取的339个调查对象中很多人来自上述两个群体,试想会得出什么结论吧。我们说有95%(或99%)的把握说事件A与事件B有关,是指推断犯错误的可能性为5%(或1%),这也是常常说成是“有95%(或99%)的概率”,其含义是一样的。解:由公式因为7.469>6.635,所以我们有99%的把握说:50岁以上的人患慢性支气管炎与吸烟有关。Ⅱ类1类2合计Ⅰ类An11n12n1+类B

n21n22n2+合计n+1n+2n独立性检验的一般步骤:一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值:类A和类B(如吸烟与不吸烟),Ⅱ也有两类取值:类1和类2(如患呼吸道疾病与不患呼吸道疾病),得到如下表所示:类类

类类推断“Ⅰ和Ⅱ有关系”的步骤为:第一步,提出假设H0:两个分类变量Ⅰ和Ⅱ没有关系;第二步,根据2×2列联表和公式计算χ2统计量;第三步,比对两个临界值,作出判断.例2:对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:又发作过心脏病未发作过心脏病合计心脏搭桥手术39157196血管清障手术29167196合计68324392

试根据上述数据比较两种手术对病人又发作心脏病的影响有没有差别。解:这是一个2×2列联表的独立性检验问题,由公式因为1.780<3.841,我们没有理由说“心脏搭桥手术”与“又发生过心脏病”有关,可以认为病人又发作心脏病与否跟他做过何种手术无关。例3.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机抽取了189名员工进行调查,所得的数据如下表所示:积极支持企业改革不太赞成企业改革合计工作积极544094工作一般326395合计86103189

对于人力资源部的研究项目,根据上述数据能得出什么结论?解:这是一个2×2列联表的独立性检验问题,由公式因为10.759>6.635,所以有99%的把握说:员工“工作积极”与“积极支持企业改革”是有关的。可以认为企业的全体员工对待企业改革的态度与其工作积极性是有关的。例4.在一次恶劣气候的飞行航程中调查男女乘客在机上晕机的情况如下表所示,根据此

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论