




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、3/24/20221第五讲第五讲 卡方检验卡方检验周周 虹虹 公共卫生学院妇女与儿童青少年卫生学系公共卫生学院妇女与儿童青少年卫生学系3/24/20222基本内容基本内容 统计描述统计描述统计推断统计推断(1)统计推断统计推断(2)数值变量数值变量 频数分布频数分布集中趋势集中趋势离散趋势离散趋势统计图表统计图表抽样误差抽样误差标准误标准误均数可信区间均数可信区间t Z F检验检验秩和检验秩和检验直线相关与回归直线相关与回归偏相关偏相关多元线性回归多元线性回归因子分析因子分析分类变量分类变量相对数相对数(率、比率、比)率的可信区间率的可信区间 2检验检验Logistic回归回归主要内容主要内容
2、一、分类变量概述一、分类变量概述二、分类变量的统计描述二、分类变量的统计描述 相对数相对数 应用相对数的注意事项应用相对数的注意事项 动态数列动态数列 率的标准化率的标准化三、分类变量的统计推断三、分类变量的统计推断 率的标准误和可信区间率的标准误和可信区间 2 2检验检验 3/24/20224 x2检验检验(Chi-square test) 是一种假设检验方法是一种假设检验方法 与其他假设检验的原理相同与其他假设检验的原理相同 统计量服从统计量服从 x2分布分布 (一)成组设计四格表资料的(一)成组设计四格表资料的 x2 检验检验 (二)配对设计四格表资料的(二)配对设计四格表资料的 x2
3、检验检验 (三)行(三)行x列表列表 x2 检验检验 (四)趋势(四)趋势 x2 检验检验3/24/20225 什么是成组设计四格表资料?什么是成组设计四格表资料? 两个独立样本的率或构成比资料两个独立样本的率或构成比资料例例1:某医生想观察一种新药对流感的预防效果,进行:某医生想观察一种新药对流感的预防效果,进行了如下的研究,问此药是否有效?了如下的研究,问此药是否有效?(一)成组设计四格表资料的(一)成组设计四格表资料的2检验检验3/24/20226组 别阳 性阴 性合计1aba+b2cdc+d合计a+cb+da+b+c+d四格表的一般形式四格表的一般形式理论频数理论频数E计算公式为:计算
4、公式为: NR:所在的行合计,所在的行合计,NC:所在的列合计所在的列合计nnnECRRCSPSS练习练习加权数据库的建立:加权数据库的建立:1. 分类变量进行样本率的比较时,如分类变量进行样本率的比较时,如果没有原始数据库,只有每种分类果没有原始数据库,只有每种分类变量的样本数和某现象的阳性数,变量的样本数和某现象的阳性数,可在可在SPSS软件中建立数据库;软件中建立数据库;8用加权变量的方法建立数据库用加权变量的方法建立数据库甲组乙组阳性aba+b阴性cdc+da+cb+dN+/-组cases+甲甲a+乙乙b-甲甲c-乙乙d+/-组11a12b21c22dSPSS程序:程序:Data We
5、ight Cases Weight cases by 选入选入 Frequency variable OK9组+/-11a12b21c22d甲法乙法11a12b21c22d10数据处理:数据处理:Data-Weight Cases并进行样本率的比较。并进行样本率的比较。练习:练习: 实习六中练习实习六中练习6.1和和6.2数据建立数据库。数据建立数据库。3/24/202211实际频数(实际频数(O, observed)和理论频数)和理论频数(E, expected) 实际频数实际频数是指调查或实验得来的数值,在例是指调查或实验得来的数值,在例1中,四中,四格表中的四个基本数据都是实际频数。格表
6、中的四个基本数据都是实际频数。 理论频数理论频数是根据假设检验来确定的。也就是是根据假设检验来确定的。也就是H0成立成立时,计算出的格子中的数。本题中假设实验组和对照组时,计算出的格子中的数。本题中假设实验组和对照组发病率相同,这样可以算出总的患病率发病率相同,这样可以算出总的患病率: 那么那么: 实验组的理论发病人数为实验组的理论发病人数为 对照组的理论发病人数为对照组的理论发病人数为 因此,四个格子的理论频数为:因此,四个格子的理论频数为:%1002204422044100 22044120208024961. x2 检验的基本思想检验的基本思想148630903/24/202212x2检
7、验的基本公式:检验的基本公式: O:表示实际频数,即实际观察到的例数。:表示实际频数,即实际观察到的例数。 E:理论频数,即如果假设检验成立,应该:理论频数,即如果假设检验成立,应该观察到的例数。观察到的例数。 :求和符号,所有格子的值之和:求和符号,所有格子的值之和自由度:自由度: =(R-1)x(C-1) R行数,行数, C列数列数 注意:注意: 反映的反映的格子数,而不是例数。格子数,而不是例数。EEO223/24/202213 2检验假设两组率相同,检验假设两组率相同, (O-E)2/E 应该很小。应该很小。 如果实际频数和理论频数相差的很大,如果实际频数和理论频数相差的很大,2值也越
8、大。值也越大。当当2值比规定的界值还大时,被认为是小概率事件,值比规定的界值还大时,被认为是小概率事件,就拒绝就拒绝H0,认为两组率不相同。,认为两组率不相同。 因为因为2值是对每个格子的值是对每个格子的(O-E)2/E求和,所以格子求和,所以格子数越多,数越多,2值也越大。即使值也越大。即使O和和E相差很小,如果格相差很小,如果格子数多的话,总和也会很大。这就引出了子数多的话,总和也会很大。这就引出了自由度自由度的的概念,用以消除不同格子数的影响。概念,用以消除不同格子数的影响。 x2检验的原理:检验的原理:EEO223/24/2022142分布规律:分布规律:2分布的图形是不对称的,而且只
9、有正值。分布的图形是不对称的,而且只有正值。其形状和自由度有关,自由度越大,则图形右移。其形状和自由度有关,自由度越大,则图形右移。随着自由度的增加,分布的偏斜程度趋于缓解,逐随着自由度的增加,分布的偏斜程度趋于缓解,逐渐显露出对称性。渐显露出对称性。随着自由度的继续增大,随着自由度的继续增大,2分布将趋近于对称的正分布将趋近于对称的正态分布。态分布。3/24/2022153/24/202216 自由度一定时,自由度一定时,P值越小,值越小, x2值越大,反比关系。值越大,反比关系。 =1时,时, P=0.05, x2 =3.84 P=0.01, x2 =6.63 当当P 值一定时,自由度越大
10、,值一定时,自由度越大, x2越大。越大。 P=0.05时,时, =1, x2 =3.84 =2, x2 =5.99 3/24/2022172成组四格表的专用公式成组四格表的专用公式 该公式从该公式从x2基本公式推导而来,计算较为简单,结果相同。基本公式推导而来,计算较为简单,结果相同。cadcdbbanbcad22abcd3/24/2022183成组四格表成组四格表2检验计算公式的适用条件检验计算公式的适用条件(1)当实验对象总个数当实验对象总个数n40,且所有格子的理论频数,且所有格子的理论频数E5时,时,可用可用2检验基本公式或专用公式计算检验基本公式或专用公式计算2值。值。 (2)当当
11、n40,但有任一格子的理论频数,但有任一格子的理论频数E仅满足仅满足1E40,所有格子,所有格子E5,所以不用校正:,所以不用校正:2 =4.125 确定确定p值值 p=0.0420.05。 判断结果:判断结果: 因为因为p40时时, 或 当当b+c40时,用校正公式:时,用校正公式: 或cbcbx22)(cbcbx22) 1|(|EEO225 . 0EEO223/24/202230配对四格表配对四格表 2检验的检验的SPSS计算程序计算程序ANALYZEnonparametric test2 related samplestest pairsMcnemar甲甲 培培 养养 基基 &
12、& 乙乙 培培 养养 基基37101927甲培养基1212乙培养基T Te es st t S St ta at ti is st ti ic cs sb b932.207.137NChi-SquareaAsymp. Sig.甲培养基 & 乙培养基Continuity Correcteda. McNemar Testb. 3/24/202231例例3:检验步骤:检验步骤第一步:建立假设第一步:建立假设 H0 : B=C=b+c/2 H1 : BC 第二步:确定显著性水平第二步:确定显著性水平 =0.05第三步:计算统计量第三步:计算统计量: b+c 40时,时, 校正公式:校正
13、公式: x2 = (|O-E|-0.5)2/E 或或 x2 =( lb-cl-1)2/ b+c 自由度:自由度: =(2-1) x (2-1)=1第四步:确定第四步:确定P值值第五步:判断结果第五步:判断结果3/24/202232(三)行(三)行x列表列表 x2 检验检验 四格表是指只有四格表是指只有2 2行行2 2列,当行数或列数超过列,当行数或列数超过2 2时,统时,统称为行称为行x列表。列表。 行行x列表列表 x2 检验是对多个样本率(或构成比)的检检验是对多个样本率(或构成比)的检验。验。 基本公式:基本公式:x x2 2 = = (O-EO-E)2 2/E/E 专用公式:专用公式:
14、自由度:自由度: = =(R-1R-1)x x(C-1C-1) 适用条件:表中适用条件:表中不宜有不宜有1/51/5以上格子的理论频数小于以上格子的理论频数小于5 5,或有一个格子的理论频数小于或有一个格子的理论频数小于1 1。122CRnnOn3/24/202233例例4.4.为了解花生黄曲霉素污染,随机观察了为了解花生黄曲霉素污染,随机观察了三个地区,结果见下表。试问这三个地区三个地区,结果见下表。试问这三个地区花生的黄曲霉素污染率是否不同?花生的黄曲霉素污染率是否不同? 三个地区花生的黄曲霉素污染情况三个地区花生的黄曲霉素污染情况调查地区调查地区受检样品受检样品合计合计污染率污染率()(
15、)未污染未污染污染污染甲甲 6232979.3乙乙30144431.8丙丙 8 31127.3合计合计44408447.63/24/202234地区 * 是否受到了黄曲霉毒素的污染 Crosstabulation地区 * 是否受到了黄曲霉毒素的污染 CrosstabulationCount623293014448311444084123地区Total未污染污染了是否受到了黄曲霉毒素的污染TotalC Ch hi i- -S Sq qu ua ar re e T Te es st ts s17.907a2.00018.7552.00014.3151.00084Pearson Chi-Square
16、Likelihood RatioLinear-by-LinearAssociationN of Valid CasesValuedfAsymp. Sig.(2-sided)0 cells (.0%) have expected count less than 5. Theminimum expected count is 5.24.a. 3/24/202235初次分娩时的年龄初次分娩时的年龄疾病状态疾病状态2020242529303435总计总计乳腺癌乳腺癌320120610114632203220对照组对照组142244322893109340610246总总 计计1742563839041
17、55662613466乳腺癌乳腺癌%0.1840.2140.2590.2980.3510.239例例5. 5. 初次分娩年龄与乳腺癌的关联性初次分娩年龄与乳腺癌的关联性3/24/202236Chi-Square Tests130.172a4.000127.2254.000128.8291.00013466Pearson Chi-SquareLikelihood RatioLinear-by-LinearAssociationN of Valid CasesValuedfAsymp. Sig.(2-sided)0 cells (.0%) have expected count less than
18、 5. Theminimum expected count is 149.69.a. 3/24/202237H0:乳腺癌患者与非患者的初次分娩年龄构成相同:乳腺癌患者与非患者的初次分娩年龄构成相同 (初次分娩时的年龄与乳腺癌无关)(初次分娩时的年龄与乳腺癌无关)H1:乳腺癌患者与非患者的初次分娩年龄构成不同:乳腺癌患者与非患者的初次分娩年龄构成不同 (初次分娩时的年龄与乳腺癌有关)(初次分娩时的年龄与乳腺癌有关)=0.05自由度自由度=(R-1)()(C-1)=(2-1)()(5-1)=42 0.01,4=13.28, 2 =130.213.28,p0.01 所以拒绝检验假设所以拒绝检验假设H
19、0,接受,接受H1,认为初次分娩时,认为初次分娩时的年龄与乳腺癌的发生有关联。的年龄与乳腺癌的发生有关联。3/24/202238行列表行列表2检验下结论时应注意:检验下结论时应注意:1. 三组(或三组以上)样本率经三组(或三组以上)样本率经2检验,差异检验,差异有显著性,只说明三组比例数不同或不全相同,有显著性,只说明三组比例数不同或不全相同,不能确定是哪两个比例数不同。不能确定是哪两个比例数不同。3/24/202239 2行列表行列表2检验时,如果有一个格检验时,如果有一个格子的理论数小于子的理论数小于1,或者有,或者有1/5以上的格以上的格子的理论数小于子的理论数小于5,可以将理论数小于,
20、可以将理论数小于5的组别与相邻的组合并,再进行的组别与相邻的组合并,再进行2检验,检验,否则会得到错误结果否则会得到错误结果 解决办法解决办法 2分割法分割法3/24/202240例例4.4.为了解花生黄曲霉素污染,随机观察了为了解花生黄曲霉素污染,随机观察了三个地区,结果见下表。试问这三个地区三个地区,结果见下表。试问这三个地区花生的黄曲霉素污染率是否不同?花生的黄曲霉素污染率是否不同? 三个地区花生的黄曲霉素污染情况三个地区花生的黄曲霉素污染情况调查地区调查地区受检样品受检样品合计合计污染率污染率()()未污染未污染污染污染甲甲 6232979.3乙乙30144431.8丙丙 8 3112
21、7.3合计合计44408447.63/24/202241地区 * 是否受到了黄曲霉毒素的污染 Crosstabulation地区 * 是否受到了黄曲霉毒素的污染 CrosstabulationCount623293014448311444084123地区Total未污染污染了是否受到了黄曲霉毒素的污染TotalC Ch hi i- -S Sq qu ua ar re e T Te es st ts s17.907a2.00018.7552.00014.3151.00084Pearson Chi-SquareLikelihood RatioLinear-by-LinearAssociationN
22、 of Valid CasesValuedfAsymp. Sig.(2-sided)0 cells (.0%) have expected count less than 5. Theminimum expected count is 5.24.a. 3/24/202242比较比较地区地区未污未污染数染数污染数污染数合计合计污染率污染率(% )2值值P1乙乙30144431.80.090.05丙丙 8 31127.3合计合计3817552乙乙+丙丙38175530.917.830.05甲甲6232979.32分割计算表分割计算表3/24/202243初次分娩时的年龄初次分娩时的年龄疾病状态疾病
23、状态2020242529303435总计总计乳腺癌乳腺癌320120610114632203220对照组对照组142244322893109340610246总总 计计174256383904155662613466乳腺癌乳腺癌%0.1840.2140.2590.2980.3510.239例例5. 5. 初次分娩年龄与乳腺癌的关联性初次分娩年龄与乳腺癌的关联性(四)趋势(四)趋势x2检验检验3/24/202244Chi-Square Tests130.172a4.000127.2254.000128.8291.00013466Pearson Chi-SquareLikelihood Ratio
24、Linear-by-LinearAssociationN of Valid CasesValuedfAsymp. Sig.(2-sided)0 cells (.0%) have expected count less than 5. Theminimum expected count is 149.69.a. 3/24/202245 例例5: 行行x列表列表x2检验结论是,检验结论是,5个年龄组中至少个年龄组中至少有有2个年龄组的乳腺癌的构成不同。个年龄组的乳腺癌的构成不同。 进一步进一步关联的性质关联的性质? (趋势(趋势2检验检验) 当某因素是按自然顺序的等级分层或者在连续当某因素是按自然顺序的等级分层或者在连续性资料等级化后再分层的情况下,可采用趋势性资料等级化后再分层的情况下,可采用趋势2检验以分析比例是否随分层等级而变化的趋势检验以分析比例是否随分层等级而变化的趋势 。 3/24/202246iiinxP/步骤:步骤: 假设共有假设共有k组,当组号组,当组号i增加时,对应的增加时,对应的Pi是是否有增加(或减少)的倾向性。否有增加(或减少)的倾向性。nxP/对应于第对应于第i组构建一个记分变量组构建一个记分变量Si
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 网络模板合同履约金协议
- 肉类副产品在食品工业中的循环利用技术考核试卷
- 海洋工程装备模块化设计考核试卷
- 木材制浆与造纸化学品考核试卷
- 石棉云母矿选矿厂智能化改造与技术应用考核试卷
- 包装色彩学与视觉传达考核试卷
- 禽类产品品质认证与市场信任建立考核试卷
- 生物基纤维在环保吸附材料中的应用考核试卷
- 铁路班前安全教育
- 中学生感恩教育体系构建
- 2023-2024公需科目(数字经济与驱动发展)考试题库及答案
- 中国银联招聘笔试题库2024
- 2024安徽制造业发展报告
- 财务机器人开发与应用实战 课件 任务5 E-mail人机交互自动化-2
- 【华为】通信行业:华为下一代铁路移动通信系统白皮书2023
- Python 程序设计智慧树知到期末考试答案章节答案2024年四川师范大学
- 城乡环卫保洁投标方案(技术标)
- 充值合同范本
- MSDS中文版(锂电池电解液)
- 《职业病防治法》知识考试题库160题(含答案)
- 全国初中数学青年教师优质课一等奖《反比例函数的图象和性质》教学设计
评论
0/150
提交评论