




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
χ2检验(Chi-squaretest)是现代统计学的创始人之一,英国人K.Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法,可用于两个率或构成比间的比较,多个率或构成比间的比较,多个样本率比较的χ2分割,两个分类变量间有无关联性,拟合优度的χ2检验等等。
卡方检验重点掌握:1.卡方检验的基本思想;2.完全随机设计和配对设计四格表资料卡方检验的步骤及应用条件;3.行×列表资料的卡方检验及应用中应注意的问题。主要内容:1.卡方检验的基本思想;2.四格表资料的卡方检验;3.行×列表资料的卡方检验;4.率的多重比较;5.频数分布拟合优度的卡方检验;6.四格表资料的确切概率法;
7.线性趋势检验。χ2分布的特征:
(1)χ2分布是一种连续型分布,其形状依赖于自由度ν的大小:当自由度ν≤2时,曲线呈L型;随着ν的增加,曲线逐渐趋于对称;当自由度ν∞时,χ2分布趋向正态分布。
(2)χ2分布具有可加性:如果两个独立的随机变量X1和X2分别服从自由度n1和n2的χ2分布,那么它们的和(X1+X2)服从自由度n1+n2的χ2分布。
(3)χ2分布的分位数:当自由度ν确定后,χ2分布曲线下右侧尾部的面积为α时,横轴上相应的χ2值记作χ2α,ν
即χ2分布的分位数。v=1v=4v=6v=9例7-1某神经内科医师欲比较A、B两种药治疗脑血管栓塞病人的疗效,将病情、病程相近且满足试验入选标准的156例脑血管栓塞患者随机分为两组,结果见表7-1。问两药治疗近期有效率是否有差别?表7-1两药治疗脑血管病有效率比较第一节卡方检验的基本思想药物有效无效合计有效率(%)A73(65.7)9(16.3)8289.02B52(59.3)22(14.7)7470.27合计1253115680.132.卡方检验的基本思想实际频数A
(actualfrequency)(a、b、c、d)的理论频数T(theoreticalfrequency)(H0:π1=π2=π):a的理论频数=(a+b)×pc=(a+b)×[(a+c.)/n]=nRnC/n=65.7b的理论频数=(a+b)×(1-pc)=(a+b)×[(b+d.)/n]=nRnC/n=16.3c的理论频数=(c+d)×pc=(c+d)×[(a+c)/n]=nRnC/n=59.7d的理论频数=(c+d)×(1-pc)=(c+d)×[(b+d.)/n]=nRnC/n=14.32.卡方检验的基本思想卡方检验的基本思想可以通过卡方检验的基本公式来理解。从基本公式可以体会到卡方值反映了实际频数和理论频数吻合的程度。A与T相差越大,则(A-T)2的值越大,反之则越小。然而由(A-T)2的值来衡量实际频数与理论频数相差的程度,尚有不足之处。因为绝对差异值的大小还不能完全表示相差的程度,例如:某一资料的实际频数为386,理论频数为380,另一资料实际频数为20,理论频数为14,两者的(A-T)2均为36,然而前者为386例中仅差6,后者在20例中就差6,两者所占的比重极不相同。为弥补这一缺点,需把(A-T)2的值变为相对数,即把(A-T)2的值与相应的理论频数T值相比,即(A-T)2/T,以此来反映(A-T)2应占的比重。将每组的(A-T)2/T的值相加,即得基本公式。(A-T)2为什么与理论频数T相比,而不是与实际频数A相比?其理由是:①当理论频数的数值极小时,由于抽样误差可使实际频数为零,所以不如用理论频数可靠;②理论频数是大量的经验和自然规律推算得来,而实际频数来自有限的样本,变动较大,所以用理论频数比较合理。
各种情形下,理论频数与实际频数偏离的总和即为卡方值(chi-squarevalue),它服从自由度为ν的卡方分布。2.卡方检验的基本思想
上述基本公式由Pearson提出,因此软件上常称这种检验为Pearson卡方检验,下面将要介绍的其他卡方检验公式都是在此基础上发展起来的。它不仅适用于四格表资料,也适用于其它的“行×列表”。2.卡方检验的基本思想二、四格表资料的χ2检验
(一)四格表资料的χ2检验的基本步骤1、建立检验假设,确定检验水准H0
:
1=2H1
:
1
2
=0.05。2、计算检验统计量ν=(2-1)(2-1)=13、确定p值,作出推断结论查ν=1的χ2界值表得P<0.05,按=0.05水准,拒绝H0,接受H1,差别有统计学意义,可以认为A、B两药治疗有效率有差别
。(二)四格表专用公式
为了不计算理论频数T,
当n
40,所有T
5时,可由基本公式推导出,直接由各格子的实际频数(a、b、c、d)计算卡方值的公式:四格表专用公式结果与基本公式计算的相同当n
40,所有T
5时,
2(1)~u2将上例例数据代入专用公式,得(三)四格表资料卡方检验的校正
χ2分布是一连续型分布,而行×列表资料属离散型分布,对其进行校正称为连续性校正(correctionforcontinuity),又称Yates校正(Yates'correction)。⑴当n≥40,且所有T
5时,用基本公式或四格表专用公式;当P≈α时,用四格表资料的Fisher确切概率法。⑵当n≥40,而1≤T<5时,用连续性校正公式。⑶当n<40或T<1时,用四格表资料的Fisher确切概率法。校正公式:例7-2某医师采用复合氨基酸胶囊治疗肝硬化病人,观察两组病人指标ALT的变化,数据见表7-2,试比较治疗后两组病情改善率是否有差别。四格表资料卡方检验的校正公式分组改善未改善合计有效率(%)实验组23(20.24)2(4.76)2592.00对照组11(13.76)6(3.24)1764.71合计3484280.95因为1<T<5,且n>40时,所以应用连续性校正χ2检验表7-2复合氨基酸胶囊对肝硬化病人病情改善效果分析
在计量资料方面,同一对象试验前后差别的统计意义检验(或个别配对资料)与两个样本均数差别的统计意义检验方法是不同的,在计数资料方面也是如此。下面讨论配对设计,试验结果为“二分类”的计数资料,从设计来说,与前面介绍的计量资料配对t检验是一样的,配对计数数据的结果仅有四种情况。三、配对设计分类变量资料的χ2检验甲乙合计+-+aba+b-cdc+d合计a+cb+dn配对四格表形式分组+-合计甲aba+b乙cdc+d合计a+cb+dn一般四格表形式例7-3某研究组采用病理(甲法)与超声(乙法)检查两种方法,检查确诊乳腺癌患者257例,结果见表7-4,问两种方法检出率是否有差别?表7-4两种方法的检验结果
甲法乙法合计+-+130(a)75(b)205-11(c)41(d)52合计141116257配对四格表资料的χ2检验也称McNemar检验H0:两种方法的总体检出率相同,即两总体B=C
H1:两种方法的总体检出率不同,即两总体B≠Cα=0.05已知b=75,c=11,b+c≥40,故将其代入上面公式,有按α=0.05水准拒绝H0,接受H1,有统计学意义,故可认为两种方法的检出率不同,病理检查检出率(205/257)高于超声检查(141/257)。配对四格表资料的χ2检验公式推导第三节、行×列表资料的χ2检验(一)多个样本率的比较(二)两组或多组构成比的比较(三)行×列表资料的关联性检验
(四)行×列表χ2检验的注意事项R×C表的χ2检验通用公式(一)多个样本率的比较例7-4将133例尿路感染患者随机分为3组,接受甲法治疗44例,接受乙法治疗45例,接受丙法治疗44例。一个疗程后检测尿路感染阴转情况,结果整理见表7-5,问三种疗法尿培养阴转率是否有差别?
表7-5三种疗法对尿路感染患者的治疗效果疗法阴转人数阳性人数合计阴转率%)甲30144468.2乙9364520.0丙32124472.7合计716213353.41、建立检验假设,确定检验水准H0
:
1=2=3H1
:
1
、2
、3不全相等=0.052、计算检验统计量ν=(3-1)(2-1)=23、确定p值,作出推断结论查ν=2的χ2界值表,得P<0.005。按=0.05水准拒绝H0,接受H1,差别有统计学意义,故可认为3种疗法对尿路感染疗效有差别。
(二)两组或多组构成比的比较例7-5某院对胃镜检测胃十二指肠球部溃疡患者239例和健康输血员187例血型分布资料整理见表7-6,问胃十二指肠球部溃疡患者与健康输血员血型分布是否不同?239例胃十二指肠疾病患者与187例健康输血员血型分布分组ABABO合计胃十二指肠疾病组476620106239健康输血员组52541962187合计99120391684261、建立检验假设,确定检验水准H0:胃十二指肠疾病患者与健康输血员血型分布的构成相同;H1:胃十二指肠疾病患者与健康输血员血型分布的构成不同
=0.052、计算检验统计量3、确定p值,作出推断结论查χ2界值表,得P>0.05,以
=0.05水准,不拒绝H0,差别无统计学意义,尚不能认为胃十二指肠疾病患者与健康输血员血型分布的构成不同。三、行×列表资料的关联性检验例7-6某医院观察了三年间四个季节中四种甲状腺疾病检出情况,整理结果如表7-7,问四种甲状腺疾病检出情况是否与季节有关联?疾病分类季节合计春夏秋冬甲亢4114512942841440亚甲炎2493293312041113甲低60615952232甲状腺肿瘤45504640181合计7658917305802966表7-7某院季节与甲状腺疾病检出情况关联性分析1、建立检验假设,确定检验水准H0:甲状腺疾病的检出与季节无关联;H1:甲状腺疾病的检出与季节有关联
=0.052、计算检验统计量3、确定p值,作出推断结论查χ2界值表,得P<0.005,以
=0.05水准,拒绝H0,接受H1,差别有统计学意义,可认为甲状腺疾病的检出情况与季节有关联。
欲进一步说明两变量间关联程度的大小,可计算列联系数,常用的有:Pearson列联系数
Cramér列联系数(修正)式中,:根据样本资料计算的值;:样本含量;:取和列联系数值界于0-1之间,列联系数为0表示尚不能认为两变量间有关联;列联系数愈接近于1,可认为两变量间的关联程度越高。中的较小者。本例由此看出甲状腺疾病的检出虽然与季节有关联性,但数值较小,尽管有统计学意义,但两变量间关联性较小。四、R×C表χ2检验注意事项1.计算x2值时,必须用绝对数,而不能用相对数,因为x2值的大小与频数大小有关。2.x2检验要求理论数不宜太小,否则有可能导致分析的偏性。理论频数太小界定为:有1/5以上格子的理论频数小于5大于等于1,或至少有1个格子的理论频数小于1。长期以来,对于理论频数太小的情形,大致有3种处理方法:①适量增大样本含量,增大理论频数;②相邻组进行合理归并。按专业知识考虑,将理论数太小的行(或列)的实际频数与性质相近的邻行(或邻列)合并;③舍弃部分数据。在无法实施前两条措施时,考虑删除理论频数太小的行或列,但这种做法会损失资料的部分信息;④采用确切概率法,可由SAS、SPSS软件实现。
3.行×列表资料检验的结果分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年吉林大附中力旺实验中学初三模拟考试物理试题(文史类)含解析
- 广西工程职业学院《药学细胞生物学》2023-2024学年第二学期期末试卷
- 昆明艺术职业学院《英语实践》2023-2024学年第一学期期末试卷
- 甘肃中医药大学《医学影像成像系统》2023-2024学年第二学期期末试卷
- 扁桃体摘除手术术后护理
- 思维导图集训6小时找到适合你的高效学习法第10讲 时间管理:学习、工作、考试的时间分配
- 摄影基础第11节数码相机
- 店铺管理现状
- 2025年“清明节缅怀革命先烈”主题党日活动方案
- 创意漫画美术课件
- 厂房电费收租合同范例
- 2024年南京市事业单位专项招聘退役大学生士兵笔试真题
- 利用DeepSeek提升教育质量和学习效率
- GB/T 36548-2024电化学储能电站接入电网测试规程
- MOOC 计算机组成与CPU设计实验-江苏大学 中国大学慕课答案
- 第一次月考测试卷(试题)-2023-2024学年人教版六年级数学下册
- 健康档案管理系统
- IEC60826线路设计中文版
- 学生资助政策宣传主题班会PPT课件
- 山东省自然科学基金资助项目结题报告模板
- 【公开课】仁爱七年级上册英语Unit 4 Topic 1 Section C What can I do for you教案
评论
0/150
提交评论