卡方检验及SPSS分析_第1页
卡方检验及SPSS分析_第2页
卡方检验及SPSS分析_第3页
卡方检验及SPSS分析_第4页
卡方检验及SPSS分析_第5页
已阅读5页,还剩104页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Chi-Square Test 预防医学教研室预防医学教研室 张张杰杰 第一节:四第一节:四格表(格表(fourfold data)资料的)资料的x2检验检验* 第二节:配对第二节:配对(paired data)资料的)资料的x2检验检验* 第三节:第三节:RC表资料的表资料的x2检验检验* 第四节:分层卡方检验第四节:分层卡方检验 第五节:多第五节:多个样本率间的多重比较个样本率间的多重比较 课程小结课程小结 交叉表交叉表(Crosstabs)过程 (一)四格表(fourfold data)资料的x2检验 (二)配对(paired data)资料的x2检验 (三)RC表资料的x2检验 (四)

2、两分类变量有无关联分析及列联系数C 卡方卡方(Chi-Square)过程 (五)拟合问题-比较样本与已知总体的分布 第一节第一节 四格表资料的四格表资料的 检验检验 x2 test of fourfold data 2 目的:目的:推断两个总体率(构成比)是否有差推断两个总体率(构成比)是否有差 别别 要求要求:两样本的两分类个体数排列成四格表两样本的两分类个体数排列成四格表 资料资料 一一、 2 检验的基本检验的基本思想思想 是是一种用途较广的一种用途较广的计数资料计数资料的假设检验的假设检验 方法,属于方法,属于非参数检验非参数检验的的范畴。范畴。 根本思想:根本思想:在于在于比较理论频数

3、和实际频数比较理论频数和实际频数 的吻合程度或拟合优度问题。的吻合程度或拟合优度问题。 x2检验:以检验:以x2分布为方法的理论基础分布为方法的理论基础 2 检验的基本公式检验的基本公式 A为实际频数(为实际频数(actual frequency),),T为理论频数(为理论频数(theoretical frequency) nR是行和,是行和,nC是列和,是列和,n是四格数之和是四格数之和 2表示观察值与期望值之间的偏离程度。表示观察值与期望值之间的偏离程度。 1900年由英国统计学家年由英国统计学家Karl Pearson首次提出,故被称为首次提出,故被称为Pearson 2 。 8 检验基

4、本步骤检验基本步骤 1.建立检验假设 H0 : 两总体龋患率相等 H1 : 两总体龋患率不等 计算理论频数 2.计算 x2 统计量 3.确定P值,作出推论 四格表 检验的条件: 1) 2) 3) 2 公式;用不校正的且 2 ,540Tn 公式;用校正的个格子且至少 2 , 51140Tn 需用确切概率法或, 140Tn T TA 2 2 )5 . 0( )()()( )2/( 2 2 dbcadcba nncbad 校正公式:校正公式: SPSS操作过程 建立数据文件:例1.sav 数据格式:包括4行3列的频数格式,3个变量即行变量(group)、列 变量(effect)和频数变量(freq)

5、。 说明频数变量:数据 加权个案 Data Weight Cases x2检验:从菜单选择 分析 描述统计 交叉表 Analyze Descriptive Statistics Crosstabs 结合例1数据演示操作过程。 首先建立数据文件,如下。首先建立数据文件,如下。 注意:由于上表给出的不是原始数据,而是频数表数据,注意:由于上表给出的不是原始数据,而是频数表数据, 应该进行预处理。应该进行预处理。 *指定加权变量指定加权变量(weight cases) 在在实际的统计中,经常需要计算数据的加权平均数实际的统计中,经常需要计算数据的加权平均数。 例如,希望了解不用牙膏使用者的平均患龋量

6、。例如,希望了解不用牙膏使用者的平均患龋量。 如果如果仅以仅以各种牙膏的患龋量的平均数作为平均患各种牙膏的患龋量的平均数作为平均患 龋量是龋量是不合理不合理的的 还还应考虑到应考虑到各牙膏使用者的患龋量对平均患龋量各牙膏使用者的患龋量对平均患龋量 的的影响影响。 因此因此,以各牙膏使用者的患龋量作为以各牙膏使用者的患龋量作为权重计算权重计算各各 牙膏患龋率的牙膏患龋率的加权平均数,才是我们需要求的数加权平均数,才是我们需要求的数 据据。 在在SPSSSPSS处理中就需要处理中就需要将各牙膏的患龋量作为将各牙膏的患龋量作为加权变加权变 量。量。 不设置权重不设置权重 设置权重设置权重 频数变量频

7、数变量 交叉表(Crosstabs)过程 Crosstabs过程用于对分类资料和有序分类资 料进行和。 统计描述过程可以产生2维至n 维列联表,并计 算相应的百分数指标。 统计推断包括了常用的x2检验、Kappa值,分层 X2(X2M-H),以及四格表资料的确切概率 (Fishers Exact Test)值。 行变量行变量 列变量列变量 计算统计量计算统计量 单元格单元格 卡方统计量卡方统计量 Kappa系数系数 风险度风险度 配对四格表配对四格表 McNemar 检验检验 实际频数实际频数 理论频数理论频数 Crosstabs过程详解 界面说明界面说明 -行Rows框用于选择行列表中的行变

8、量。 -列Columns框用于选择行列表中的列变量。 -层Layer框指定分层变量,即控制变量。如果要指定 不同的分层变量做分析,则将其选入Layer框,并 用Previous和Next钮设为不同层。 -Display clustered bar charts 复选框:显示复式条图 -Suppress table复选框:不在输出结果中给出行列 表。 Crosstabs过程详解 界面说明界面说明 精确(Exact)子对话框:针对22以上的行 列表设计计算确切概率的方法。 统计量(Statistics)子对话框:用于定义所需 计算的统计量 -Chi-square 复选框:计算pearson卡方值,

9、对四 格表资料自动给出校正卡方检验和确切概率 法结果。 -Correlations复选框:计算行列变量的pearson相 关系数和Spearman等级相关系数。 Crosstabs过程详解 界面说明界面说明 -Kappa复选框:计算Kappa值,即内部一致性 系数,介于00.7071之间; -Risk复选框:计算比数比OR值、RR值; -McNemanr复选框:进行配对卡方检验的 McNemanr检验(一种非参数检验) -Cochrans and Mantel-Haenszel statistics复选框: 计算X2M-H统计量、X2CMH,可在下方输出H0 假设的OR值,默认为1。 Cros

10、stabs过程详解 界面说明界面说明 单元格(Cells)子对话框:用于定义列联表单 元格中需要计算的指标。 -Counts复选框:是否输出实际观察数(Observed) 和理论频数(Expected) -Percentages复选框:是否输出行百分数(Row)、 列百分数(Column)以及合计百分数(Total) -Residuals复选框:选择残差的显示方式 格式(Format)子对话框:用于选择行变量是 升序还是降序排列。 v 表示含氟牙膏与一般牙膏患龋率的比较,表示含氟牙膏与一般牙膏患龋率的比较,除了观察值以外,除了观察值以外, 还有期望值。还有期望值。 实际频数实际频数 理论频数理

11、论频数 v结论:结论: 2 22.82.82 2,P P0.0930.093,按按 = 0.05= 0.05水准,不拒绝水准,不拒绝H0H0,尚,尚 不能认为使用含氟牙膏比使用一般牙膏儿童的龋患率低。不能认为使用含氟牙膏比使用一般牙膏儿童的龋患率低。 卡方卡方值值自由度自由度 P值值 双侧确切概率值双侧确切概率值 单侧确切概率值单侧确切概率值 注意检查样本例数注意检查样本例数n和理论频数和理论频数T是否满足条件是否满足条件:N40且理论频数且理论频数T5。 将将116例癫痫患者随机分为两组,一组例癫痫患者随机分为两组,一组70例接受常规加高压氧治疗(高压氧组),例接受常规加高压氧治疗(高压氧组

12、), 另一组另一组46例接受常规治疗(常规组例接受常规治疗(常规组),结果如下。),结果如下。问两种疗法的有效率有无差别?问两种疗法的有效率有无差别? 10. 005. 0 P 05.0 0 H 2 4.080.05P, (一)适用条件(一)适用条件 T1或 n40 P (二)基本思想(超几何分布)(二)基本思想(超几何分布) ! )!()!()!()!( ndcba dbcadcba P i 在四格表周边合计不变的条件下,直接计算表内四个数据的各 种组合之概率。找出 的所有表格并将概率求 和,若这些表的合计P Kappa 0.4时,表明一致性一般;时,表明一致性一般; Kappa 0.4时,

13、表明两者一致性较差。时,表明两者一致性较差。 一致性检验一致性检验 P值值 Kappa系数系数=0.1980.05,说明两种方法的吻合说明两种方法的吻合度度 没有没有统计学意义统计学意义,且吻合度较差。,且吻合度较差。 52 *例例5 用A、B两种方法检查已确诊的乳腺癌 患者140名,A法检出91名(65%),B法检出 77名(55%),A、B两法一致的检出56名(40%), 问哪种方法阳性检出率更高? u计数资料的配对设计常用于 的比较 u特点: 第三节第三节 行行列表资料的列表资料的 检验检验 test of RC table 2 比较比较某市重污染区、一般市区和农村三个某市重污染区、一般

14、市区和农村三个 地区的出生婴儿的致畸率地区的出生婴儿的致畸率。 以母乳、牛乳、混合三种不同方式喂养的以母乳、牛乳、混合三种不同方式喂养的 新生儿体重增长的构成是否新生儿体重增长的构成是否一致一致。 推断推断2个分类变量是否有关联,如:研究冠个分类变量是否有关联,如:研究冠 心病与眼底动脉硬化的关系。心病与眼底动脉硬化的关系。 。 。 行行列表资料列表资料 多个样本率比较时,有R行2列,称R 2表; 两样本的构成比比较时,有2行C列,称2C表; 多个样本的构成比比较,以及双向无序分类资 料关联性检验时,有行列,称R C表。 检验统计量检验统计量 2 2 (1) (1)(1) RC A n n n

15、 行数列数 3.1 多多个样本率的比较个样本率的比较 例6 用A、B、C三种不同方法分别处理新生儿脐带, 发生感染的情况见下表,试比较3种不同方法的脐带 感染率有无差异。 三种脐带处理方法的脐带感染情况 脐带感染 处理组 感染 未感染 合计 感染率(%) A 76 3143 3219 2.36 B 15 2409 2424 0.62 C 2 762 764 0.26 合计 93 6314 6407 1.45 SPSS操作过程(行列表卡方检验) 建立数据文件:例6.sav 数据格式:包括6行3列的频数格式,3个变量分别 为行变量、列变量和频数变量。 说明频数变量:数据 加权个案 Data Wei

16、ght Cases x2检验:从菜单选择 分析 描述统计 交叉表 Analyze Descriptive Statistics Crosstabs 结合例6数据(例6.sav)演示操作及界面。 结论:按结论:按=0.05检验水准拒绝检验水准拒绝H0,接受,接受H1,可以认为三,可以认为三种处理种处理 脐带感染率有脐带感染率有差别。差别。 3.2 两组构成比的比较 例7 为研究某种新药对尿路疼痛的止痛效果,将有尿路疼 痛的患者144例随机分为两组,每组72例,一组服该新药(治 疗组),另一组服安慰剂(对照组)。两组患者尿路疼痛的 原因见下表,问两组患者尿路疼痛原因的分布有无差异? 两组患者尿路疼

17、痛原因的分布 尿路疼痛原因 分 组 尿路感染 器械损伤 其它 合计 治疗组 34 29 9 72 对照组 29 35 8 72 合 计 63 64 17 144 2. 求检验统计量和自由度。将表 9-7 数据代入公式 9-14,有 222222 3429929358 2 144(1)1.02 7263726472 177263726472 17 (21)(31)2 3. 确定 P 值,下结论。查 2 界值表, 2 0.5,2 1.39 , 2 0.5,2 1.018 ,所以,P0.50, 以 0.05 水准不拒绝 H0,即尚不能认为两组患者尿路疼痛原因的分布有差异。 结论:按结论:按=0.05

18、检验检验水准不拒绝水准不拒绝H0,尚,尚不可认为两组患者尿路疼痛原因的分布不可认为两组患者尿路疼痛原因的分布 有有差异。差异。 3.4 多组构成比的比较 例例8 在某项疼痛测量研究中,给在某项疼痛测量研究中,给160例手术后疼痛的患者提例手术后疼痛的患者提 供四种疼痛测量量表,即直观模拟量表(供四种疼痛测量量表,即直观模拟量表(VAS),数字评估),数字评估 量表(量表(NRS),词语描述量表(),词语描述量表(VDS),面部表情疼痛量表),面部表情疼痛量表 (FPS),患者首选的量表以及患者的文化程度患者首选的量表以及患者的文化程度见下表,见下表,问患问患 者首选疼痛量表与文化程度是否有关者

19、首选疼痛量表与文化程度是否有关? 不同文化程度患者首选疼痛量表的类型 首选测痛量表 文化程度 V AS VDS NRS FPS 合计 高中以下 3(3.5) 16(18.7) 18(19.7) 44(39.0) 81 高中 0(1.6) 10(8.6) 9(9.0) 18(17.8) 37 高中以上 4(1.8) 11(9.7) 12(10.2) 15(20.2) 42 合计 7 37 39 77 160 结论:按结论:按=0.05检验检验水准不拒绝水准不拒绝H0,尚不能认为术后疼痛患者首选测痛量表类,尚不能认为术后疼痛患者首选测痛量表类 型与文化程度有关型与文化程度有关。 3.5 双向无序分

20、类资料的关联性检验 表中两个分类变量皆为无序分类变 量的行 列表资料,又称为双向无序 表资料。 注意: 双向无序分类资料为两个或多个样 本,做差别检验(例7);若为单样本, 做关联性检验(例9) 。 CR CR 例 9 测得某地5801人的ABO血型和MN血型结果如下表,问 两种血型系统之间是否有关联? MN 血型 ABO 血型 M N MN 合计 O 431 490 902 1823 A 388 410 800 1598 B 495 587 950 2032 AB 137 179 32 348 合计 1451 1666 2684 5801 (单样本,做关联性检验)(单样本,做关联性检验) 上

21、表资料,可用行列表资料 检验来 推断两个分类变量之间有无关系(或关联); 若有关系,可计算Pearson列联系数C进一步 分析关系的密切程度: 2 2 C n 列联系数C取值范围在00.7071之间。0表 示完全独立;0.7071表示完全相关。 2 检验步骤 0 H:两种血型系统间无关联 1 H:两种血型系统间有关联 05. 0 222 2 43149032 5801(1) 1823 14511823 1666348 2684 213.16 (4 1)(3 1)6 2 2 213.16 0.1883 5801213.16 C n 由于列联系数C=0.1883,数值较小,故认为两 种血型系统间虽

22、然有关联性,但关系不太密切。 SPSS操作过程 建立数据文件:例9.sav 数据格式:包括12行3列的频数格式,三个变量分别为行 变量、列变量和频数变量。 说明频数变量:数据 加权个案 Data Weight Cases x2检验:从菜单选择 分析 描述统计 交叉表 Analyze Descriptive Statistics Crosstabs 统计量Statistics: Chi-square 名义 相依系数Contingency coefficient SPSS输出结果 ABO* MN 交叉制表ABO* MN 交叉制表 4314909021823 456.0523.6843.51823.

23、0 3884108001598 399.7458.9739.41598.0 4955879502032 508.3583.6940.22032.087.099.9161.0348.0 1451166626845801 1451.01666.02684.05801.0 计数 期望的计数 计数 期望的计数 计数 期望的计数 计数 期望的计数 计数 期望的计数 o A B AB ABO 合计 MNMN MN 合计 卡方检验卡方检验 213.162a6.000 248.1436.000 51.3361.000 5801 Pearson 卡方 似然比 线性和线性组合 有效案例中

24、的 N 值df 渐进 Sig. (双侧) 0 单元格(.0%) 的期望计数少于 5。最小期望 计数为 87.04。 a. 对称度量对称度量 .188.000 5801 相依系数按标量标定 有效案例中的 N 值近似值 Sig. 不假定零假设。 a. 使用渐进标准误差假定零假设。 b. 结论:按结论:按=0.05检验检验水准拒绝水准拒绝H0,接受,接受H1,可认为两种血型系统间有关联,但由于列,可认为两种血型系统间有关联,但由于列 联系数联系数C=0.1883,数值较小,故认为两种血型系统间虽然有关联性,但关系不太密切。,数值较小,故认为两种血型系统间虽然有关联性,但关系不太密切。 1行列表中的各

25、格T1,并且1T5的格子数不宜 超过1/5格子总数,否则可能产生偏性。处理方法有三种: 增大样本含量以达到增大理论频数的目的(首选)。 根据专业知识,删去理论频数太小的行或列,或将理论频数太小的行 或列与性质相近的邻行或邻列合并。这样做会损失信息及损害样本的 随机性。 例如例如:不同年龄组可以合并,但不同血型就不能合并。 改用双向无序RC表的Fisher确切概率法。 2 例例 10. 某实验室为研究乙肝免疫球蛋白预防小白鼠胎儿宫内某实验室为研究乙肝免疫球蛋白预防小白鼠胎儿宫内 感染感染HBV的效果,将的效果,将33例例HBsAg阳性小白鼠(孕鼠)随机分阳性小白鼠(孕鼠)随机分 为预防注射组和非

26、预防组,结果见下表。问两组新生小白鼠为预防注射组和非预防组,结果见下表。问两组新生小白鼠 的的HBV总体感染率有无差别?总体感染率有无差别? 组别组别阳性阳性阴性阴性合计合计 感染率感染率 (%) 预防注射组预防注射组4182218.18 非预防组非预防组5 61145.45 合计合计9243327.27 第四节 分层资料的卡方检验 Tests of Conditional Independence 例 11. Doll和Hill以709例肺癌患者做病例, 709个非肿瘤患者做对照,按性别分层,研 究吸烟与肺癌的关系,调查结果如下,试 做肺癌的病例对照分析。 Weight cases 关于OR

27、值与RR值 相对危险度相对危险度RRRR:是一个概率的比值,指试验组人群反应阳性概率:是一个概率的比值,指试验组人群反应阳性概率 与对照组人群反应阳性概率的比值。数值为与对照组人群反应阳性概率的比值。数值为1 1,表明试验因素与,表明试验因素与 反应阳性无关联;小于反应阳性无关联;小于1 1时,表明试验因素导致反应阳性的发生时,表明试验因素导致反应阳性的发生 率降低;大于率降低;大于1 1时,表明试验因素导致反应阳性的发生率增加。时,表明试验因素导致反应阳性的发生率增加。 优势比优势比OROR:是一个比值的比,是反应阳性人群中试验因素有无的:是一个比值的比,是反应阳性人群中试验因素有无的 比例

28、与反应阴性人群中试验因素有无的比例之比例与反应阴性人群中试验因素有无的比例之比。暴露者的疾病比。暴露者的疾病 危险度为非暴露者的多少倍。危险度为非暴露者的多少倍。OR1OR1说明疾病的危险度因暴露而增说明疾病的危险度因暴露而增 加,暴露与疾病为加,暴露与疾病为“正正”关联;关联;OR1OR1说明疾病的危险度因暴露而说明疾病的危险度因暴露而 减少,减少,“负负”关联关联。 当关注的事件发生概率比较小时(当关注的事件发生概率比较小时(0.10.1),优势比可作为相对危),优势比可作为相对危 险度的近似。险度的近似。 第五节 多个样本率间的多重比较 Multiple comparison of sa

29、mple rates 一、基本思想(卡方分割法) 多个样本率比较的资料若经行列表 2 检验的结论为拒绝 0 H,接受 1 H时,可采用卡 方分割法把表格分成多个独立的四格表后再 进行两两比较。 但必须重新规定检验水准, 其 目的是为保证检验假设中 I 型错误的概率不 变。 因分析目的不同,k个样本率两两比较的次数不同,故重新规定的检验水准 的估计方法亦不同。通常有两种情况: 1多个实验组间的两两比较 分析目的为 k 个实验 组间,任两个率均进行比较时,须进行 2 k 次独立的四格 表 2 检验,再加上总的行列表资料的 2 检验,共 1 2 k 次检验假设。故检验水准 用下式估计 1 2 = k

30、 + 式中 2 ) 1( )!2( ! 2 ! 2 kk k k k ,k为样本率的个数。 2实验组与同一个对照组的比较 分析目 的为各实验组与同一个对照组的比较,而各实 验组间不须比较。其检验水准 用下式估计 2(1)k 式中k为样本率的个数。由该式估计的检验 水准 较保守( 通常较小) 。 疗法 有效 无效 合计 有效率(%) 物理疗法组 199 7 206 96.60 药物治疗组 164 18 182 90.11 外用膏药组 118 26 144 81.94 合计 481 51 532 90.41 例12 某医师研究物理疗法、药物治疗和外用膏药三种 疗法治疗周围性面神经麻痹的疗效,资料见下表。问三种 疗法的有效率有无差别? 检验步骤 0 H: 21 ,即任两对比组

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论