选修1212独立性检验的基本思想及其初步应用ppt课件_第1页
选修1212独立性检验的基本思想及其初步应用ppt课件_第2页
选修1212独立性检验的基本思想及其初步应用ppt课件_第3页
选修1212独立性检验的基本思想及其初步应用ppt课件_第4页
选修1212独立性检验的基本思想及其初步应用ppt课件_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1上节学习了回归分析的基本方法线性回归模型ybx ae不同于一次函数ybxa,含有_,其中x 为_,y为_. 温故夯基温故夯基 随机误差e 解释变量 预报变量 样本点的中心 残差平方和 1、两个相关的概念 对于性别变量,其取值为男和女两种,这种变量的 不同“值”表示个体所属的不同类别,像这样的变量称为 分类变量,也称为属性变量或定性变量,它们的取值一定 是离散的,而且不同的取值仅表示个体所属的类别。 (1)分类变量: 定量变量的取值一定是实数,它们的取值大小有 特定的含义,不同取值之间的运算也有特定的含义。 (2)定量变量: 例如身高、体重、考试成绩等,张明的身高是180cm,李立的 身高是175cm,说明张明比李立高180-175=5(cm)。 独立性检验 本节研究的是两个分类变量的独立性检验问题。 在日常生活中,我们常常关心分类变量的之间是否有关系 独立性检验独立性检验 吸烟与肺癌列联表 不患肺癌患肺癌总计 不吸烟7775427817 吸烟2099492148 总计9874919965 为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人) 列联表 在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是 说明:吸烟者和不吸烟者患肺癌的可能性存在差异, 吸烟者患肺癌的可能性大 0.54% 2.28% 与表格相比,三维柱形图和二维条 形图能更直观地反映出相关数据的总体 状况。 1)通过图形直观判断两个分类变量是否相关: 三维柱 状图 2) 通过图形直观判断两个分类变量是否相关: 二维条 形图 3)通过图形直观判断两个分类变量是否相关: 患肺癌 比例 不患肺癌 比例 等高条 形图 独立性检验 H0: 吸烟和患肺癌之间没有关系 H1:吸烟和患肺癌之间有关系 通过数据和图表分析,得到 结论是:吸烟与患肺癌有关 结论的可靠 程度如何? 吸烟与肺癌列联表 不患肺癌患肺癌总计 不吸烟aba+b 吸烟cdc+d 总计a+cb+da+b+c+d 吸烟与肺癌列联表 不患肺癌患肺癌总计 不吸烟aba+b 吸烟cdc+d 总计a+cb+da+b+c+d 不患肺癌患肺癌总计 不吸烟aba+b 吸烟cdc+d 总计a+cb+da+b+c+d 吸烟与患肺癌的列联表: 如果“吸烟与患肺癌没有关系”,则在吸烟者中不患肺癌 的比例应该与6中相应的比例应差不多,即 |ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强. 引入一个随机变量 作为检验在多大程度上可以认为“两个 变量有关系”的标准 。 0.500.400.250.150.10 0.4550.7081.3232.0722.706 0.050.0250.0100.0050.001 3.8415.0246.6357.87910.828 0.050.0250.0100.0050.001 3.8415.0246.6357.87910.828 0.500.400.250.150.10 0.4550.7081.3232.0722.706 独立性检验 吸烟与肺癌列联表 不患肺癌患肺癌总计 不吸烟7775427817 吸烟2099492148 总计9874919965 通过公式计算 在H0成立的情况下,统计学家估算出如下的概率: 也就是说,在H0成立的情况下,对随机变量K2进行多次 观测,观测值超过6.635的频率约为0.01,是一个小概 率事件.现在K2的观测值为56.632,远远大于6.635,所 以有理由断定H0不成立,即认为“吸烟与患肺癌有关系” 但这种判断会犯错误,犯错误的概率不会超过0.01, 即我们有99的把握认为“吸烟与患肺癌有关系”. 利用随机变量K2来确定在多大程度上可以认为“两 个分类变量有关系”的方法称为两个分类变量的独立性 检验. 独立性检验: 如果 ,就判断H0不成立; 否则,就判断H0成立. 即在 成立的情况下,K2 大于6.635概率非常 小,近似为0.01 独立性检验的基本思想: (类似于数学上的反证法,对“ 两个分类变量有关系”这一结论成立可信程度的判断): (1)假设该结论不成立,即假设结论“两个分类变量 没有关系”成立. (2)在假设条件下,计算构造的随机变量K2,如果由 观测数据计算得到的K2很大,则在一定程度上说明假设 不合理. (3)根据随机变量K2的含义,可以通过(2)式评价假 设不合理的程度,由实际计算出的k6.635,说明假设 不合理的程度约为99%,即“两个分类有关系”这一结 论成立的可信程度约为99%. 利用独立性检验来考察两个分类变量是否有关系 ,能较精确地给出这种判断的可靠程度. 具体作法是: (1)根据实际问题需要的可信程度确定临界值k0; (2)由观测数据计算得到随机变量K2的观测值k; (3)如果k6.635,就以 1-P(K26.635)100%的把 握认为“X与Y有关系”;否则就说样本观测数据没有提 供“X与Y有关系”的充分证据. 设要判断的结论为:H1:“X与Y有关系” 1、通过三维柱形图和二维条形图,可以粗略地判断两个变量是 否有关系。 (1)在三维柱形图中, 主对角线上两个柱形高度的 乘积ad与副 对角线上的乘积bc相差越大,H1成 立的可能性就越大。 (2)在二维条形图中,(x1,y1)个体所占的比例与(x2,y1) 个体所占 的比例 ,两个比例相差越大,H1成立的可能性就越大。 2、可以利用独立性检验来考察两个分类变量是否有关系,并 且能较精确地给出这种判断的可靠程度。 独立性检验的一般步骤: 2x2列联表y1y2总计 x1aba+b x2cdc+d 总计a+cb+da+b+c+d 10.8287.8796.6355.0243.8412.7062.0721.3230.7080.445 k 0.0010.0050.0100.0250.050.100.150.50.400.50 (1)如果k10.828,就有99.9%的把握认为“X与Y有关系”; (2)如果k7.879,就有99.5%的把握认为“X与Y有关系”; (3)如果k6.635,就有99%的把握认为“X与Y有关系”; (4)如果k5.024,就有97.5%的把握认为“X与Y有关系”; (5)如果k3.841,就有95%的把握认为“X与Y有关系”; (6)如果k2.706,就有90%的把握认为“X与Y有关系”; (7)如果k=2.706,就认为没有充分的证据显示 “X与Y有关系”. 临界值 分类变量之间关系 条形图柱形图列联表 独立性检验 背景分析 例1.秃头与患心脏病 在某医院,因为患心脏病而住院的665名男性病人中,有214 人秃顶;而 另外772名不是因为患心脏病而住院的男性病人中有 175人秃顶。分别利用 图形和独立性检验方法判断秃顶与患心脏 病是否有关系?你所得的结论在 什么范围内有效? 解:根据题目所给数据得到如下列联表1-13: 患心脏病不患心脏病总计 秃顶214175389 不秃顶4515971048 总计6657721437 根据联表1-13中的数据,得到 所以有99%的把握认为“秃顶患心脏病有关”。 为考察高中生的性别与是否喜欢数学课程之间的 关系,在某城市的某校高中生中随机抽取300名学生, 得到如下联表: 喜欢数学课程不喜欢数学课程总计 男3785122 女35143178 总计72228300 解:在假设“性别与是否喜欢数学课程之间没有关系”的前提 下K2应该很小,并且 例2.性别与喜欢数学课 由表中数据计算K2的观测值k 4.513。在多大程度上可以认 为高中生的性别与是否喜欢数学课程之间有关系?为什么? 而我们所得到的K2的观测值k 4.513超过3.841,这就意味着 “性别与是否喜欢数学课程之间有关系”这一结论错误的可能 性约为0.05,即有95%的把握认为“性别与是否喜欢数学课程 之间有关系”。 思考:例1、2的结论是否适用于普通的对象? 在掌握了两个分类变量的独立性检验方法 之后,就可以模仿例1中的计算解决实际问 题,而没有必要画相应的图形。 图形可帮助向非专业人士解释所得结果; 也可以帮助我们判断所得结果是否合理 例1这组数据来自住院的病人,因此所得到的结论适合住院 的病人群体例2的结论只适合被调查的学校。 大家要注意统计结果的适用范围(这由样本的代表性所决定) 独立性检验基本的思想类似反证法 (1)假设结论不成立,即“两个分类变量没有关系”. (2)在此假设下随机变量 K2 应该很能小,如果由观测数据 计算得到K2的观测值k很大,则在一定程度上说明假设 不合理. (3)根据随机变量K2的含义,可以通过 评价该假设不合理的程度,由实际计算出的, 说明假设合理的程度为99.9%,即“两个分类变量有关系 ”这一结论成立的可信度为约为99.9%. 知新益能知新益能 122列联表与等高条形图 (1)分类变量的定义 变量的不同“值”表示个体所属的_,像这 样的变量称为分类变量 (2)22列联表的定义 一般地,假设有两个分类变量X和Y,它们的取值 分别为_和_,其样本频数列联表 (称为22列联表)为: 不同类别 x1,x2y1,y2 y1y2总计 x1abab x2cdcd 总计acbdabcd (3)与表格相比,图形更能直观地反映出两个分 类变量间是否相互影响,常用_展示 列联表数据的频率特征. 等高条形图 abcd 打鼾不仅影响别人休息,而且还可能与患某种疾病有关,在某一 次调查中,其中每一晚都打鼾的254人中,患心脏病的有30人,未患心脏 病的有224人;在不打鼾的1379人中,患心脏病的有24人,未患心脏病 的有1355人,利用图形判断打鼾与患心脏病有关吗? 例例1 1 【解】根据题目所给的数据得到如下22列联表: 患心脏病 未患心脏病总计 每一晚都打鼾30224254 不打鼾2413551379 总计5415791633 相应的等高条形图如图: 图中两个深色的高分别表示每一晚都打鼾和不 打鼾的人中患心脏病的频率,从图中可以看出,每一 晚都打鼾样本中患心脏病的频率明显高于不打鼾 样本中患心脏病的频率,因此可以认为打鼾与患心 脏病有关系. 【题后点评】在等高条形图中展示列联表数据的 频率特征,比较图中两个深色条的高可以发现两者 频率不一样而得出结论.这种直观判断的不足之处 在于不能给出推断“两个分类变量有关系”犯错误 的概率. 题型二题型二 随机变量K2的求法及应用 例例2 2 在一次天气恶劣的飞行航程中,调查了男女乘客在飞机上晕 机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8 人,不晕机的有26人.请你根据所给数据判定:在天气恶劣的飞行航程 中,男乘客是否比女乘客更容

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论