卡方检验的这点你千万不能忽视哦_第1页
卡方检验的这点你千万不能忽视哦_第2页
卡方检验的这点你千万不能忽视哦_第3页
卡方检验的这点你千万不能忽视哦_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、卡方检验的这点,你千万不能忽视哦!卡方检验 卡方检验有两种用途: 1、拟合优度检验 ( goodness of fit test ): 用卡方统计量进行统计学检验,依据总体分布状况,计算出 分类变量中各类别的期望频数,与分布的观察频数进行对比, 判断期望频数与观察频数是否有显著差异,从而达到对分类 变量的分布进行分析的目的。 2、拟合优度检验是对一个分 类变量的检验,有时我们会遇到两个分类变量的问题(也就 是列联表数据,横标目和纵标目各代表一个分类变量) ,看 这两个分类变量是否存在联系。 现在,来个题考考大家! 双向无序列联表资料什么时候能用卡方检验,什么时候要用 精确概率法? 传统的统计教

2、材中一般认为: 对双向无序的 RxC 列联表资料 进行卡方检验中,当样本量小,存在单元格的理论频数(又 叫期望计数)小于 5 ,或这样的单元格数超过总单元格数的 20% ,才需要选用精确概率法。 其实,这种说法已经过时了。 John H. McDonald 在 Handbook of Biological Statistics (3rd ed.) 一书中对卡方检验的适用条件进行了新的阐述。完全颠 覆了我的以往思路。现总结归纳如下一、只要样本量小于 1000 的列联表资料,都应该使用精确 概率法。因为,1000 以下样本量的精确概率法在 Excel 、SAS 、SPSS 等软件中都可以轻松实现

3、二、当样本量比 1000 大很多时,即使在大型计算机上的强 大软件(例如 SAS )做精确概率法的运算都可能存在困难, 所以对于样本量大于 1000 时,应该使用卡方检验。如果自 由度只有 1 ,可以使用 Yates 连续性校正(但是对于如此大 的样本量, Yates 连续性校正对 P 值在准确性上的改进是微 不足道。)三、为了便于操作, McDonald 将其经验法则建立在总样本 量的基础上,而不是最小的期望计数;如果一个或多个期望 计数是非常小(个位数) ,即使总样本量大于 1000 ,也应该 使用精确概率法,只是但愿你的计算机能够处理这样的运算 量。四、如果分类变量的类别数太多,有些类别

4、的期望计数非常 小,应该考虑合并较少频数的类别,即使运用的是精确概率 法,合并类别后,更小的自由度将提高检验的效力。五、如果看到别人按照传统的过时规则,对总样本量小于 1000 的数据进行卡方检验,不用太过于担心。旧的习惯很 难改变,除非期望计数真的非常小(达到个位数) ,否则这 可能不会对结论产生太大的影响。 如果卡方检验得到的 P 值 只低于 0.05 一点点, 可以用精确概率法再次分析该数据。 如 果精确概率法得到的 P 值大于 0.05 ,那说明卡方检验所得 P 值导致了一个完全相反的结论, 产生假阳性。 下面举例阐述: 1 期望计数小的问题当期望计数小时,卡方检验的结果会不 准确,所

5、以应该选用确切概率法。 但到底“什么叫期望计数小”, 下面对其下一个确切的定义。当样本量太小,应该使用精确 概率法来代替卡方检验。然而,多小才是“样本量太小”?传 统的经验法则:所有的期望计数都大于 5 时就可以使用卡方 检验;如果一个期望计数小于 5 ,就应该选择精确概率法。 这个经验法则是从旧时代遗留下来的,那个时候计算机尚不 发达,精确法的手工运算是极其繁杂,容易出错的。现在有 了计算机的帮助, 是时候让“没有期望计数小于 5 就用卡方检 验”的规则废除了。举个栗子: 模拟案例:现有 37 个同类 型病人,随机分成三组,分别采用一种治疗方法进行治疗, 比较三种疗法的效果。疗法有效无效 A

6、 法 74B 法 104C 法 39 本案例的数据类型为 典型的双向无序列联表资料;研究目的为比较三种疗法的有 效率,是三组样本的率的比较,故可采用卡方检验。 SPSS 操作如下: 第一步: 根据列联表建立数据集需要设置三个变量, 行变量、 列变量、频数,本案例分别为疗法、疗效、频数。 (见下图) 第二步:对频数变量进行加权 第三步:进行卡方分析和精确概率法 第五步:选择正确的方法与结果通过第一个列联表中的期望 计数( expected count )结果以及第二个表下方的备注,都 可以快速看出最小期望计数是 5.05 ,没有单元格的期望计数 小于 5.那么根据传统的经验法则(所有的期望计数都

7、大于 5 时就可 以使用卡方分析结果) ,那本案例采用卡方分析的结果,卡 方值为 6.187 ,P=0.045 但是,大家再看看更加准确的 Fisher 精确法的结果, P=0.054 ,得出与卡方检验相反的结论,尚 不能认为三种疗法的有效率不同。这里毋庸置疑是卡方检验 结果的不准确导致了结果的误判。由本例可以看出,当卡方 检验得出的 P 值只小于 0.05 一点时,严谨的做法是用精确 概率法进行再次分析。 尤其不能抱着过时的传统经验法则“奉 为圣经”,如今的计算机软硬件都如此轻而易举的实现 P 值 更加准确的精确概率法的运算( 1000 左右的样本量) ,为何 还死死抱着结果不准确的卡方检验

8、不放。 是时候让“没有期望 计数小于 5 就必用卡方检验”的规则从自己脑海里废除了。 2 卡方检验得出的 P 值总是小于精确概率法 John H. McDonald 在其书中也进行了不同样本量下,卡方检验所得 P 值与精确概率法所得 P 值的大小关系的模拟。 发现卡方检 验得出的 P 值总是小于精确概率法;当样本量达到 1000 左 右,卡方检验的 P 值才能比较接近更加准确的精确概率法的 P 值。所以,当样本量较小时,使用卡方检验更加容易得出 拒绝原假设的结果,产生假阳性错误。松哥统计说本期介绍 了双向无序列联表资料的卡方检验与精确概率法两种方法 的选取问题。既然精确概率法所得 P 值更加准确,如今计算 机在处理其运算方面可以实现,为什么还按传统的经验法则 来限制精确概率法的应用,得出可能错误的结论。主要还是 大家往往习惯沿用以往的规则,旧的习惯很难改变。如果看 到别人按照传统的过时规则,对总样本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论