计数资料的统计分析课件_第1页
计数资料的统计分析课件_第2页
计数资料的统计分析课件_第3页
计数资料的统计分析课件_第4页
计数资料的统计分析课件_第5页
已阅读5页,还剩225页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计数资料的统计分析计数资料的统计分析1优选计数资料的统计分析优选计数资料的统计分析295%可信区间CI*5个CI不包含总体均数95个CI包含总体均数95%可信区间CI*5个CI不包含总体均数95个CI包含总3可信区间估计的优劣取决两个方面:准确度:1,即区间包含的理论概率大小,愈接近1愈好。精度:区间的宽度,区间愈窄愈好。精度:可信上限与可信下限间的宽度;与准确度、样本量、标准差大小有关。可信区间估计的优劣取决两个方面:精度:可信上限与可信下限间的4可信区间(CI)能提供更多的推断信息:区间范围是否包括总体参数(总体参数差值),若不包括,表明差别无统计学意义;同时能显示差别的程度及临床意义;可信区间CI不能提供确切概率,假设检验提供P值。

因此,统计推断结果的表达:P值与可信区间相结合,同时报告。可信区间(CI)能提供更多的推断信息:52、数值变量资料可信区间的分类单个总体均数的估计两个总体均数差值的估计:基于两组比较t检验的可信区间基于方差分析两两比较的可信区间2、数值变量资料可信区间的分类单个总体均数的估计6两两比较及计算效应量的95%可信区间药物因素(不同药物):两两比较的q检验及其均数差值的95%可信区间。两两比较及计算效应量的95%可信区间药物因素(不同药71、应考虑统计推断的概率性假设检验结论的概率性,应注意I/II型错误;在报告结论时,最好列出检验统计量的值,尽量写出具体的P值或P值的确切范围,而不简单写成P﹤0.05,以便读者与同类研究比较或进行Meta分析之用。三)统计推断结果的综合评价1、应考虑统计推断的概率性假设检验结论的概率性,8II型错误与检验效能检验效能又称把握度、功效,用1-表示(

为II型错误概率):是指事实上当两总体确有差异,按检验水准所能发现该差异的能力。检验效能为0.8,指做100次假设检验,有80次能检验出有差别。II型错误与检验效能检验效能又称把握度、功效,用1-表示(9检验效能的影响因素实际组间差异(效应量)的大小;研究对象个体间的标准差大小;I型错误率大小;样本含量大小:重点考察检验效能的影响因素实际组间差异(效应量)的大小;10当T5,而n>40时,选用一般计算公式即2检验公式:2=(A-T)2/T2值大小与p值呈反比关系,即2值越大,P值越小;率有时间单位—观察时间影响率的大小。H1:两总体bc2%(71)92.60302070对照组消化不良未愈率=15/164=0.表1两组患者氧疗依从性对比[n/(%)]饼图/圆饼图/圆图/pie图OR、RR的解读(实际意义)两个分类变量皆为有序且属性相同。2检验的基本思想8%1600220110(三)、多个样本率比较例3

某医师研究物理疗法、药物疗法和外用膏药三种疗法治疗周围性神经麻痹的疗效,问三种疗法的有效率有无差别?3、应围绕研究本身全面考虑,再下结论从研究设计、抽样等全面评估结果。如样本代表性,有无可能出现系统偏差等。样本均数x总体均数?抽样误差系统误差当T5,而n>40时,选用一般计算公式3、应围绕研究本身114、专业结论同样不能绝对化因统计结论具有概率性质,专业结论同样不要使用“肯定”、“一定”、“必定”等词汇。

4、专业结论同样不能绝对化因统计结论具有概率性质,专业结论同12计数(分类变量)资料的统计分析第三讲计数(分类变量)资料的统计分析第三讲13计数资料的分类无序分类:二项或二分类:对立、不相容的两类。如疗效:病死与未愈等。多项或多分类:互不相容的多类。如血型、疾病分型、种族等有序分类:类间不相容且有程度差别。如疗效:痊愈、显效、好转、无效。特点:无度量衡单位;定性测量计数资料的分类无序分类:特点:无度量衡单位;定性测量14临床研究中计数资料来源、分类本身设置为分类变量(PI/ECOS)计量资料转化而来:如评价降压疗效时,将舒张压降低值分为三类:<5mmHg无效5-10mmHg有效10-20mmHg显效计量资料转化为计数资料,过程本身损失信息,应慎重。临床研究中计数资料来源、分类本身设置为分类变量(PI/ECO15在赋值时应考虑类型而定。*二分类变量:0,1*有序多分类:满足线性关系,多采用等间距赋值如-、+、++、+++(0、1、2、3)不满足线性关系,采用哑变量赋值*无序多分类变量赋值:A、B、AB、O 1234?计数资料的分类赋值在赋值时应考虑类型而定。计数资料的分类赋值16合计847563222分娩方式 例数存活死亡II19672H0:两总体b=c病情程度甲医院乙医院如血型、疾病分型、种族等食管癌771003133.393两个分类变量皆为有序且属性相同。05的水准,拒绝H0,而接受H1,可认为两组总体发癌率不同。结果18岁以下赋值为(1,0),18-40岁赋值为(0,1),40岁以上赋值为(0,0)(二)率、比(构成比、相对比)如-、+、++、+++(0、1、2、3)药物因素(不同药物):两两比较的q检验及其均数差值的95%可信区间。05的水准,拒绝H0,而接受H1,可认为两法检验结果有关。率差或率比(RR)的区间估计二、计数资料的统计推断方法1:采用标准人口构成与原始分组率,计算标准化率,直接比较。例数病死数病死率例数病死数病死率

例如:在先天性畸形儿与产妇年龄关系研究中,将年龄划分为三组,<18岁,18-40岁,>40岁。目的是探讨不同怀孕年龄段的先天性畸形儿发生是否不同?畸形儿发生率年龄18岁40岁采用哑变量方法:dummyvariable(年龄与先天性畸形儿发生率呈U型关系,母亲年龄过大或过小时,畸形儿发生率高)合计84717原来分类哑变量赋值age1age21(18岁以下)102(18-40岁)013(40岁以上)00结果18岁以下赋值为(1,0),18-40岁赋值为(0,1),40岁以上赋值为(0,0)无序多分类变量同样赋值:A、B、AB、OABO血型如何赋值?bt1,bt2,bt3?原来分类哑变量赋值age1age21(18岁以下)102(118革阳菌的哑变量赋值为(1,0,0),革阴菌哑变量赋值为(0,1,0),真菌哑变量赋值为(0,0,1)革阳菌的哑变量赋值为(1,0,0),革阴菌哑变量赋值为(0,19一、计数资料的统计描述(一)图表:频数表,直条图,饼图一、计数资料的统计描述(一)图表:频数表,直条图,饼图20变量类型的识别病例号年龄(岁)性别身高(m)血型心电图尿WBC职业RBC1012/L135女1.65A正常-教师4.67244男1.74B正常-工人5.21326男1.80O正常+职员4.10425女1.61AB正常+农民3.92541男1.71A异常++工人3.49645女1.58B正常++工人5.48750女1.60O异常++干部6.78828男1.76AB正常+++干部7.10931女1.62O正常+军人5.24变量类型的识别病例号年龄性别身高血型心电图尿WBC职业RBC211、频数表职业状况频数工人3干部2职员1军人1农民1教师1合计99例患者的职业状况编号性别身高职业状况1女1.65教师2男1.74工人3男1.80职员4女1.61农民5男1.71工人6女1.58工人7女1.60干部8男1.76干部9女1.62军人部分原始数据1、频数表职业状况频数工人3干部2职员1军人1农民1教师1合222、直条图直条图(bar条形图):分类变量资料的频数图,条与条间独立,顺序可不固定。与Histogram直方图不同2、直条图直条图(bar条形图):分类变量资料的频数图,23饼图/圆饼图/圆图/pie图饼图/圆饼图/圆图/pie图24比数比又常称为机会比/优势比/比值比。病死率/生存率、复发率、治愈率/缓解率、有效率表1两组患者氧疗依从性对比[n/(%)]从研究设计、抽样等全面评估结果。病死数病死数(二)率、比(构成比、相对比)饼图/圆饼图/圆图/pie图粗死亡率(crudedeathrate)优选计数资料的统计分析合计110018516.差别分析:采用专用公式(b、c不宜过小)09,=1,得P值>0.如评价降压疗效时,将舒张压降低值分为三类:常用百分率、千分率、10万分率表示。上例两法总体率差值的95%可信区间为(0.例3

某医师研究物理疗法、药物疗法和外用膏药三种疗法治疗周围性神经麻痹的疗效,问三种疗法的有效率有无差别?肝内胆管220729II19672特点:双向有序、行变量和列变量属性不同的资料。H1:三种疗法的有效率不等或不全等分析三种疗法的有效率?百分条图(percentbar)比数比又常称为机会比/优势比/比值比。百分条图(perce25(二)率、比(构成比、相对比)

rate,proportion,ratio一、计数资料的统计描述(二)率、比(构成比、相对比)一、计数资料的统计描述261、率(rate,frequency)率又包括频率指标(frequency)和强度指标(rate),用来测量一定时期内,某人群特定事件发生的频率或强度。率=(发生某现象的观察单位数)/(某时间段可能发生某现象的观察单位数)常用百分率、千分率、10万分率表示。1、率(rate,frequency)率又包括频率27率是一个动态指标,在观察期内看特定人群中某事件的变化。率有时间单位—观察时间影响率的大小。反应停销售量畸形儿发生率率是一个动态指标,在观察期内看特定人群中某事件的变化。反应停28与临床研究相关的率用于疾病负担测量及选题立题:发病率、患病率、死亡率(年龄别死亡率、死因别死亡率)用于临床疗效与预后评价:病死率/生存率、复发率、治愈率/缓解率、有效率与临床研究相关的率用于疾病负担测量及选题立题:29发病率(incidence)是指一定时间内某人群中新发病例的频率。观察时间可为年、季、月,一般为年。K可以为100%,1000‰,100000/10万年发病率/月发病率/季发病率发病率(incidence)是指一定时间内某人群中新发病例的30计算发病率时,分子确定要注意:病人的发病时间要“落入”观察期内,即必须是新病例。注意病例与病人的区别。疾病必须确诊2009.1.12009.12.31观察期新发病新发病新发病发病新发病已发病计算发病率时,分子确定要注意:2009.1.12009.1231分母:可能发病的人口数,其范围界定很关键暴露人口又称危险人群,指发生研究疾病可能人群应排除那些正在患病、曾经患病、或因年龄、免疫等因素而不会患该病的人,如宫颈癌年发病率?前列腺肥大发生率?分母:可能发病的人口数,其范围界定很关键暴露人口又称危险人群32分母用人时—发病密度(incidencedensityID)——以观察“人时”为分母计算的发病率观察对象不稳定时用。分母用人时—发病密度(incidencedensityI33现患率(prevalence)也称患病率或流行率,指某特定时间某人群中某病现患人数所占比重或比例。现患率(prevalence)也称患病率或流行率,指某特定时34计算现患率时应注意:分子包括新、老病例,只要调查时正处于患病状态,均计算在内。分母不考虑“暴露人口”可分为时点现患率与期间现患率

pointprevalence

periodprevalence调查时应尽量缩短调查时间Cohortstudy/cross-sectionalstudy计算现患率时应注意:可分为时点现患率与期间现患率

point35现患率主要应用于慢性病的调查研究。反映某人群特定时间某病的负担程度。可作为临床选题与立题依据,也可用于评价防治措施效果。现患率主要应用于慢性病的调查研究。36计数资料的统计分析课件37死亡率(mortality)表示一定时期内死亡发生的频率或强度。粗死亡率(crudedeathrate)反映人群因病伤死亡危险性总水平。指示居民健康状况和保健水平。为卫生决策提供依据。死亡率(mortality)表示一定时期内死亡发生的频率或38病死率(casefatalityrate)表示一定时期内(一般为一年)患某病的人群中因该病而死亡的频率。反映疾病严重程度及诊治水平,多用于急性病.复发率缓解率有效率治愈率病死率(casefatalityrate)表示一定时392、构成比(proportion)说明某一事物内部各组成部分所占的比重和分布,常用百分数表示(0%-100%)。结石 结石类型部位 胆固醇胆红素其它合计胆囊 701632118(%) 59.313.627.1100肝外胆管12392475(%)16.052.032.0100肝内胆管220729(%)7.069.024.0100合计8475632222、构成比(proportion)说明某一事物内部各组成部40构成比是一特定时间(timepoint)某特定事件在总体事件数中所占的比重。

proportion=a/(a+b+c+……)是一个静态指标无时间单位,与时间无关。构成比是一特定时间(timepoint)某特定事件在总体事413、相对比(ratio)是A、B两个指标之比。比=A/B两个指标可以性质相同,可以不同;绝对数、相对数或平均数。两个率的相对比?两个比的相对比?3、相对比(ratio)是A、B两个指标之比。比=A42比较两独立事件数量大小关系指标(独立指互不包含):a/b是一个静态指标,反映一特定时间(timepoint)的情况。无时间单位比较两独立事件数量大小关系指标(独立指互不包含):a/b43例某地中毒与损伤汇总分析年度发病人数病死人数病死率构成比相对比199358481.378.8--1994571101.7511.01.281995714121.6813.21.231996748162.1417.61.561997942212.2323.01.6319981095242.1926.41.60合计91计数资料的统计描述:率与比的综合应用例某地中毒与损伤汇总分析年度发病人数病死人数44与Histogram直方图不同双向有序资料--列联表如血型、疾病分型、种族等1、率(rate,frequency)2、假设检验(1):相关分析绝对数、相对数或平均数。分析三种疗法的有效率?百分条图(percentbar)是指一定时间内某人群中新发病例的频率。两个指标可以性质相同,可以不同;+261分析目的:独立性/相关性分析。成组设计-四格表资料的2检验果有无联系?有无差别?即2检验公式:2=(A-T)2/T在无效假设成立的条件下合计110018516.上例两法总体率差值的95%可信区间为(0.双向有序资料--列联表相对比例保持不变,T值越大,(A-T)2值越大,为消除其影响,差值定义为:(A-T)2/T例血清TPS检出率与消化道肿瘤淋巴结转移的关系肿瘤淋巴结转移无淋巴结转移nTPS阳性率nTPS阳性率食管癌771003133.3胃癌9666.7100大肠癌10770.000-合计262076.94125.0(7/7),(6/9),7/10,0/1(三)、注意事项计算率时要求分母不宜过小。少于10例则直接描述。与Histogram直方图不同例血清TPS检出率与消化道肿45分析时不能以构成比代率

例:某作者调查医院门诊沙眼病例,获得如下数据:年龄组(岁)沙眼病例数%0474.610203040-601983304341819.332.142.31.7结论:说明30岁年龄组最容易患沙眼。分析时不能以构成比代率年龄组(岁)46对观察单位数不等的多个率,不能直接相加求其平均率.对率的比较应作统计推断;资料组间比较应注意可比性;若不可比,需要进行校正-率的标准化对观察单位数不等的多个率,不能直接相加求其平均率.47(四)、率的标准化例甲、乙两个医院某疾病病死率比较病情程度甲医院乙医院

例数病死数

病死率例数病死数

病死率重

80016020%1003030%中

2002010%4006015%轻

10055%100010010%合计

110018516.8%150019012.7%(四)、率的标准化例甲、乙两个医院某疾病病死率比较481、标准化法的基本方法方法1:采用标准人口构成与原始分组率,计算标准化率,直接比较。方法2:采用分组标准化率与原始人口,计算标准化比,间接比较。1、标准化法的基本方法方法1:采用标准人口构成与原始分组率,491)、直接法--标准人口病情程度甲医院乙医院

例数病死数

病死率例数病死数

病死率重80016020%80024030%中2002010%2003015%轻10055%1001010%合计110018516.8%110028012.7%

25.4%

同一标准人口同一标准人口1)、直接法--标准人口病情程度甲医院502)、间接法:分组标准率病情程度

甲医院乙医院

例数病死数病死率例数实际预期病死数病死数重

80016020%1003020中

2002010%4006040轻

10055%100010050合计

110018516.8%1600220110

计算标准化死亡比(SMR)=(实际死亡数与预期死亡数比)=220/110=2;SMR<1,表示被标化组的病死率低于标准组;SMR>1,表示被标化组的病死率高于标准组。2)、间接法:分组标准率病情程度 甲医院512、标准化率的注意事项条件:比较双方应同质、同时、同地。比较的两组应选用同一标准。标准选用不同,标化率可不同。标准化率只是两组的相对水平,不反映实际的情况,只能用于比较。推断总体标准化率也需进行假设检验。2、标准化率的注意事项条件:比较双方应同质、同时、同地。52(五)基于率/比的二级描述指标相对指标:相对危险度(RR)比数比(OR)绝对指标:绝对危险度(AR,RD)NNT用来表达危险度的大小或关联程度(五)基于率/比的二级描述指标相对指标:用来表达危险度的大小53相对指标OR(比数比)、RR(相对危险度)适用条件:对于RCT、队列研究:可以计算OR、RR对于病例对照研究:只能计算OR相对指标OR(比数比)、RR(相对危险度)541、相对危险度(率比)组别死亡存活合计病死率治疗组aba+bPe

对照组cdc+dPc合计a+cb+da+b+c+dRR(相对危险度)为治疗组与对照组的病死率之比。RR=Pe/Pc1、相对危险度(率比)组别死亡存55实例分析组别未愈痊愈合计未愈率治疗组119451640.726对照组130341640.793某种新药治疗消化不良的疗效分析。实例分析组别未愈痊愈56RR计算的实例演示治疗组消化不良未愈的危险度(率)=119/164=0.726对照组消化不良未愈的危险度(率)=130/164=0.793相对危险度(RR)RR计算的实例演示治疗组消化不良未愈的危险度(率)=119/57病例组(50例):12例海豹肢畸形儿的母亲服用反应停94125.H1:两组发癌率不等,12在无效假设成立时:2值一般不会很大,出现大的2值的概率P是很小的,若P<(检验水准),则怀疑假设成立,因而拒绝它;若P>(检验水准),则没有理由拒绝它。常用百分率、千分率、10万分率表示。相关分析:采用一般的四格表公式若分析两个有序分类变量间是否存在线性变化趋势,宜用线性趋势检验。3、应围绕研究本身全面考虑,再下结论本例2值=6.上述结论只能说明三种疗法有效率不同,不能说明哪两个不同。如疗效:病死与未愈等。若分析两个分类变量之间有无关联性以及关系的密切程度时,可用行列表卡方检验以及Pearson列联系数进行分析[sqrt(2/2+n)]。四格表资料2检验计算结果1、率(rate,frequency)计算Pearson列联系数反映相关程度[sqrt(2/2+n)]。相对危险度(RR)与比数比(OR)是用来描述两组间事件发生的机会之比。用于疾病负担测量及选题立题:067NNT=1,NNT=1/0.067NNT=1,NNT=1/0.应用条件:不能有1/5格子的理论频数小于5,或最小理论频数小于2。05,以便读者与同类研究比较或进行Meta分析之用。2、比数比(OR)组别暴露非暴露合计暴露/非暴露比病例组aba+ba/b对照组cdc+dc/d合计a+cb+da+b+c+dOR(比数比)为病例组暴露与非暴露的比例与对照组暴露与非暴露的比例之比;OR=ad/bc病例组(50例):12例海豹肢畸形儿的母亲服用反应停2、比数58实例分析组别未愈痊愈合计未愈率治疗组119(a)45(b)1640.726对照组130(c)34(d)1640.793某种新药治疗消化不良的疗效分析。实例分析组别未愈痊愈59OR计算的实例演示比数比又常称为机会比/优势比/比值比。OR计算的实例演示比数比又常称为机会比/优势比/比值比。60OR病例组(50例):12例海豹肢畸形儿的母亲服用反应停对照组(90例):2例正常儿的母亲服用反应停OR=13.89[(12/38)/(2/88)]OR病例组(50例):12例海豹肢畸形儿的母亲服用反应停61OR、RR的解读(实际意义)OR、RR>1,表明暴露因素为危险因素,偏离1越远,表示危险性越强0<OR、RR<1,表明暴露因素为保护因素,离0越近,表示保护性越强OR、RR=1,表明暴露因素与结果无关注意:暴露因素和结果的赋值标准化:1表示暴露,0表示未暴露;1表示恶性结果,0表示良性结果。否则结论可能刚好相反。OR、RR的解读(实际意义)OR、RR>1,表明暴露因素为危62RR与OR的关系例:治疗组消化不良未愈率=119/164=0.726;对照组消化不良未愈率=130/164=0.793RR=0.92OR=0.69例:治疗组消化不良未愈率=9/164=0.055;对照组消化不良未愈率=15/164=0.09RR=0.61OR=0.58当率较低,如小于10%时,RR值与OR值近似相等。率值越小(罕发事件),越接近。对大规模RCT、队列研究:OR、RR可使用。RR与OR的关系例:治疗组消化不良未愈率=119/164=633、绝对危险度(率差)对照组病死率40%,试验组20%,RR=2?对照组病死率10%,试验组5%,RR=2?AR为两个率的绝对差值:即对照组率-治疗组率3、绝对危险度(率差)对照组病死率40%,试验组20%,RR64绝对危险度实例计算对于消化不良研究:绝对危险度为(130/164)-(119/164)=0.793-0.726=0.067(常用百分数表示:6.7%)治疗能使消化不良未愈的危险度减少7%左右绝对危险度实例计算对于消化不良研究:65

4、NNTNNT(NumbersNeededtoTreat):为避免一例不良事件发生而需要治疗的病例数.其值为绝对危险度的倒数(1/AR)类似还有:NNH(NumbersNeededtoHarm)。4、NNTNNT(NumbersNeededtoTr66NNT实例演示如果治疗一个病人能减少消化不良未愈的0.067危险度,即我们能挽救0.067个人。那么为挽救一个完整的人,需要治疗多少病人?(NNT):0.067NNT=1,NNT=1/0.06715需要治疗15个病人,才能比对照组多治愈一个消化不良的患者。NNT实例演示如果治疗一个病人能减少消化不良未愈的0.06767计数资料统计描述小结率与比可用来描述某事件发生机会的大小。基于率/比的二级描述指标:效应量相对危险度(RR)与比数比(OR)是用来描述两组间事件发生的机会之比。当事件的发生机会较大时,RR与OR相差较大;当为罕发事件时,RROR。绝对危险度是指率差,NNT为避免一例不良事件发生而需要治疗的病例数;易于临床解读。计数资料统计描述小结率与比可用来描述某事件发生机会的大小。6809,=1,得P值>0.用来表达危险度的大小或关联程度为反映所有格子的吻合情况,所有差值求和,(A-T)=0(正负抵消),差值和可定义为(A-T)2;行X列表2检验应用条件:要求理论频数不宜太小,对于行X列表不宜1/5以上格式的理论频数小于5,或有一个理论频数小于2。2%(71)92.粗死亡率(crudedeathrate)*连续性校正仅用于四格表资料,当超过四个格子时,一般不作Yate校正。H1:矽肺期次与肺门密度级别之间有关78,df=3,P<0.食管癌771003133.部位 胆固醇胆红素其它合计例数病死数病死率例数病死数病死率组别暴露非暴露合计暴露/非暴露比(%) 59.病例组(50例):12例海豹肢畸形儿的母亲服用反应停病死率/生存率、复发率、治愈率/缓解率、有效率(7/7),(6/9),7/10,0/1对照组cdc+dc/d可定义p1-p2=(b-c)/n假设检验:2检验PearsonChi-squaretest率差或率比(RR)的区间估计二、计数资料的统计推断09,=1,得P值>0.假设检验:2检验Pearson69Karl·Pearson,1857~1936,生卒于伦敦,公认为统计学之父。1879年毕业于剑桥大学数学系;曾参与激进的政治活动,还出版几本文学作品,并且作了三年的实习律师。1884年进入伦敦大学学院,教授数学与力学,从此在该校工作一直到1933年。K·Pearson最重要的学术成就,是为现代统计学打下了坚实基础。K·Pearson在1893-1912年间写出18篇《在进化论上的数学贡献》的文章,而这门“算术”,也就是今日的统计。许多统计名词如标准差,成分分析,卡方检验(1900)都是他提出。

Karl·Pearson,1857~1936,生卒于伦敦,公702检验的主要应用推断两个/两个以上总体率或构成比有无差别;用于两分类变量间有无相关的假设检验;实施拟合优度检验(理论分布与实际分布的吻合情况检验)。2检验的主要应用推断两个/两个以上总体率或构成比有无差别71(一)设计方案与2检验选择成组设计-四格表资料的2检验多组比较-RC表资料的2检验配对设计-22列联表的2检验特殊分类变量资料的统计分析(一)设计方案与2检验选择成组设计-四格表资料的2检72卡方检验基本思想

以四格表资料为例卡方检验基本思想

以四格表资料为例73例1、在二乙基亚硝胺诱发大白鼠鼻咽癌的实验中,一组单纯用亚硝胺向鼻腔灌注,另一组在鼻注的基础上加肌注维生素B12,问两组发癌率有无差别?表1两组大白鼠发癌率的比较

处理发癌鼠数未发癌鼠数合计发癌率鼻注+VitB12组52197173.2鼻注组3934292.9合计912211380.5例1、在二乙基亚硝胺诱发大白鼠鼻咽癌的实验中,一组7473.2%(71)92.9%(42)(样本率不等)推断总体率两总体率相等两总体率不等P值小概率事件拒绝H0不拒绝H02检验的基本思想

73.2%(71)92.9%(42)(样本率不等)推751、建立假设H0:两组发癌率相等,1=2=

H1:两组发癌率不等,12=0.05*两组的总体发癌率相等,均等于合并发癌率

=91/113=80.5%1、建立假设H0:两组发癌率相等,1=2=*两组的76l在无效假设成立的条件下,计算每个格子的发癌情况,T(理论频数)=组例数*总体发癌率,可简化为T=(行合计*列合计)/n.处理发癌鼠数未发癌鼠数合计发癌率鼻注+VitB12组52(57.18)19(13.82)7173.2鼻注组39(33.82)3(8.18)4292.9合计912211380.5l在无效假设成立的条件下,计算每个格子的发癌情况,T(理77为反映所有格子的吻合情况,所有差值求和,(A-T)=0(正负抵消),差值和可定义为(A-T)2;相对比例保持不变,T值越大,(A-T)2值越大,为消除其影响,差值定义为:(A-T)2/T统计量为反映所有格子的吻合情况,所有差值求和,(A-T)=0(782、计算统计量2在样本量足够大时,该统计量服从于自由度为=(行数-1)(列数-1)的2分布。即2检验公式:2=(A-T)2/T2分布是一簇连续性分布,与自由度有关;在自由度固定时,2值越大,P值越小,反之亦然.在无效假设成立时:2值一般不会很大,出现大的2值的概率P是很小的,若P<(检验水准),则怀疑假设成立,因而拒绝它;若P>(检验水准),则没有理由拒绝它。2、计算统计量279PearsonChi-squaredistributions均值等于自由度PearsonChi-squaredistributio803、借助2分布计算P值2值反映了实际频数与理论频数的差值大小2值大小与p值呈反比关系,即2值越大,P值越小;反之亦然。2值达到界值点,就有理由认为成立的可能性不大,是小概率事件,因而拒绝H0。对于四格表资料:0.052=3.84(1.96平方)3、借助2分布计算P值2值反映了实际频数与理论频数的差81四格表资料2检验计算结果本例2值=6.48,自由度为1,查2界值表,得p<0.05,按照=0.05的水准,拒绝H0,而接受H1,可认为两组总体发癌率不同。四格表资料2检验计算结果本例2值=6.48,自82四格表资料的应用条件当T5,而n>40时,选用一般计算公式当1<T<5,而n>40时,需计算校正公式*当T<1或n<40时,选用Fisher确切概率法1934*连续性校正仅用于四格表资料,当超过四个格子时,一般不作Yate校正。四格表资料的应用条件当T5,而n>40时,选用一般计算公83计数资料的统计分析课件84(二)、率比(RR)区间估计本资料为实验研究,可以同时计算RR与OR值,用以分析Vitb12对发癌危险度的大小,RR>1表示Vitb12为危险因素。以RR值为例,RR服从对数正态分布.(二)、率比(RR)区间估计本资料为实验研究,可以同时计算85实例分析

处理发癌鼠数未发癌鼠数合计鼻注/VitB12组521971鼻注组39342合计9122113RR=(0.732)/(0.929)=0.79,其95%的可信区间为0.67-0.93,其RR值均小于1,说明维生素B12是保护因素,能减少发癌率。实例分析处理发癌鼠数未发癌鼠数合计鼻注/Vit86(三)、多个样本率比较适用资料特征:行X列表(RXC)--多个率比较的2检验。应用条件:不能有1/5格子的理论频数小于5,或最小理论频数小于2。(三)、多个样本率比较适用资料特征:行X列表(RXC)--87实例演示例3

某医师研究物理疗法、药物疗法和外用膏药三种疗法治疗周围性神经麻痹的疗效,问三种疗法的有效率有无差别?分析三种疗法的有效率?实例演示例3

某医师研究物理疗法、药物疗法和外用膏药三88表3三种疗法的有效率比较表3三种疗法的有效率比较891、建立假设H0:三种疗法有效率相等,1=2=3=H1:三种疗法的有效率不等或不全等=0.05

1、建立假设H0:三种疗法有效率相等,1=2=3=902、确定统计量、P值与结论

=17.91,=(3-1)(2-1)=2

查卡方界值表,得P<0.005,按照=0.05的水准,拒绝H0,而接受H1,可认为三种疗法的有效率不等。上述结论只能说明三种疗法有效率不同,不能说明哪两个不同。需做两两比较:2分割法,检验水准校正a/(k(k-1)/2);a/(k-1)

2、确定统计量、P值与结论913、两两比较--2分割法先把率差异最小的两组乙丙,分割出来,作2检验,2值=0.09,=1,得P值>0.0167。后把乙丙两组合并,再与甲组比较,作2检验,2=17.83,=1,得P值<0.0167,说明二、三组与第一组有差别。3、两两比较--2分割法先把率差异最小的两组乙丙,分割出92实例演示实例演示93注意事项行X列表2检验应用条件:要求理论频数不宜太小,对于行X列表不宜1/5以上格式的理论频数小于5,或有一个理论频数小于2。若不满足,可采用方法:增加样本例数以增加理论频数;删除上述理论频数太少行或列;将理论频数太小、性质相近行或列实际频数合并。Fisher确切概率法注意事项行X列表2检验应用条件:要求理论频数不宜太小,对94卡方检验:P=0.037卡方检验:P=0.03795(四)、2X2列联表(配对设计)例2、某研究室用甲乙血清学方法检查410例确诊的鼻咽癌患者,得结果如下表,问两种检验结果有无联系?有无差别?表2两种血清学检验结果甲法乙法合计+-+261(a)110(b)371-8(c)31(d)39合计269141410(四)、2X2列联表(配对设计)例2、某研究室用甲乙血清学961、资料特点与分析目的资料的特点:配对计数资料分析目的:A:两法检验结果有无关系(四格表2检验)B:两法检验有无差别(专用公式)。1、资料特点与分析目的资料的特点:配对计数资料972、假设检验(1):相关分析检验目的:两法检验结果有无关系。H0:两法检验结果无关系H1:两法检验结果有关系

=0.05确定统计量:2值=38.85,=1计算P值:查卡方界值表,得P<0.005,按照=0.05的水准,拒绝H0,而接受H1,可认为两法检验结果有关。计算Pearson列联系数反映相关程度[sqrt(2/2+n)]。(本例为r=0.294)2、假设检验(1):相关分析检验目的:两法检验结果有无关系983、假设检验(2):差别分析检验目的:两法检验结果有无差别H0:两总体b=cH1:两总体bc

=0.05

确定统计量:计算P值:查卡方界值表,得P<0.005,按照=0.05的水准,拒绝H0,而接受H1,可认为两法检验结果不同.甲法的阳性检出率高。3、假设检验(2):差别分析检验目的:两法检验结果有无差别994、2X2列联表差别检验的应用条件当b+c>40时,公式可简化(McNemar):

4、2X2列联表差别检验的应用条件当b+c>40时,公式可简100计数资料的统计分析课件1015、率差的95%可信区间可定义p1-p2=(b-c)/n则率差的95%可信区间为:上例两法总体率差值的95%可信区间为(0.200.30)。5、率差的95%可信区间可定义p1-p2=(b-c)/n1022X2列联表资料的分析特点对此类资料可以做两方面的分析:相关分析:采用一般的四格表公式差别分析:采用专用公式(b、c不宜过小)对上例结果:两类检验方法结果是有关的,且有差别,甲法好于乙法。2X2列联表资料的分析特点对此类资料可以做两方面的分析:103(五)特殊行X列表资料的分析列联表:有序行X列表资料,行变量、列变量的属性分为:双向均无序---------卡方检验单向有序------------秩和检验双向均有序属性相同—Kappa分析双向均有序属性不同—等级相关(五)特殊行X列表资料的分析列联表:有序行X列表资料,行变104A、对于双向/单向无序资料:若比较多个样本率(或构成比),可用行列表资料卡方检验;若分析两个分类变量之间有无关联性以及关系的密切程度时,可用行列表卡方检验以及Pearson列联系数进行分析[sqrt(2/2+n)]。卡方检验:19.54,P<0.001A、对于双向/单向无序资料:卡方检验:19.54,P<0.0105B、单向有序资料分组变量(如年龄)有序,而结果变量(如传染病的类型)无序,分析不同组结果构成情况,可用行列表卡方检验进行差别分析。分组变量(如疗法)无序,而结果变量(如疗效按等级分组)有序,比较不同组别疗效,应用秩和检验表1两组患者氧疗依从性对比[n/(%)]组别例数(n)入院时出院时出院6个月完全依从部分依从不依从完全依从部分依从不依从完全依从部分依从不依从干预组3811(30.63)16(42.89)9(25.05)23(61.35)11(30.12)2(7.23)22(58.41)10(28..1)4(12.43)对照组3810(27.98)16(42.87)10(28.03)11(30.11)17(45.84)8(22.98)6(17.22)14(37.96)16(43.10)B、单向有序资料表1两组患者氧疗依从性对比[n/(%)106C、双向有序、属性相同资料两个分类变量皆为有序且属性相同。如两实验室、两人用同一检测方法检测同一批样品的测定结果。其研究目的通常是分析两实验室、两人测量结果的一致性,此时宜用一致性检验或称Kappa检验。0.93-1.000.81-0.920.61-0.800.41-0.600.21-0.40<0.0-0.20C、双向有序、属性相同资料107D、双向有序、属性不同资料若分析不同年龄组患者疗效之间有无差别时,可把它视为单向有序表资料,选用秩转换非参数检验;若分析两个有序分类变量间是否存在相关关系,宜用Spearman相关或Pearson相关分析;若分析两个有序分类变量间是否存在线性变化趋势,宜用线性趋势检验。D、双向有序、属性不同资料108双向有序资料--列联表特点:双向有序、行变量和列变量属性不同的资料。分析目的:独立性/相关性分析。双向有序资料--列联表特点:双向有序、行变量和列变量属性不109实例分析例4、某职工医院探讨矽肺不同期次患者的胸部平片肺门密度变化,把492名患者的资料归纳如下表,问矽肺患者肺门密度的增加与矽肺的期次有无关系?表4不同期次矽肺患者肺门密度级别分布矽肺期次肺门密度级别合计++++++I4318814245II19672169III6175578合计50301141492实例分析例4、某职工医院探讨矽肺不同期次患者的胸部平片肺门密110建立假设:H0:矽肺期次与肺门密度级别之间无关H1:矽肺期次与肺门密度级别之间有关=0.05确定P值与下结论:rs=0.532,查卡方界值表,得P<0.005,按照=0.05的水准,拒绝H0,而接受H1,可认为矽肺期次与肺门密度级别之间有关。建立假设:111(六)、其它类型的2检验

---拟合优度检验例5实例分析:某研究者欲研究心肌梗死与季节间的关系,做了如下研究?季节春夏秋冬发病例数60302070(六)、其它类型的2检验

---拟合优度检验例5实例分1121、结果2=(A-T)2/T=37.78,df=3,P<0.05。因此拒绝H0,接受H1,说明心肌梗死的发生有季节性的差别。季节春夏秋冬发病例数60302070理论例数45454545差值15-15-25251、结果2=(A-T)2/T=37.78,d113(七)、误用卡方检验的实例分析实例6表5螺纹管消毒处理前后采样结果螺纹管消毒采样份数合格数合格率前20315.00后201890.00原文用一般c2=7.48,P<0.05,结论为螺纹管消毒前后的合格率有显著性的差别。(七)、误用卡方检验的实例分析实例6表5螺纹管消毒处理前后114实例7表6不同分娩方式与重症肝炎孕妇的结局分娩方式 例数存活死亡剖宫产 972阴道分娩 1349

注:原文用一般2=4.71,P<0.05,结论为两种分娩方式的存活率间的差别非常显著。实例7表6不同分娩方式与重症肝炎孕妇的结局115计数资料的统计分析计数资料的统计分析116优选计数资料的统计分析优选计数资料的统计分析11795%可信区间CI*5个CI不包含总体均数95个CI包含总体均数95%可信区间CI*5个CI不包含总体均数95个CI包含总118可信区间估计的优劣取决两个方面:准确度:1,即区间包含的理论概率大小,愈接近1愈好。精度:区间的宽度,区间愈窄愈好。精度:可信上限与可信下限间的宽度;与准确度、样本量、标准差大小有关。可信区间估计的优劣取决两个方面:精度:可信上限与可信下限间的119可信区间(CI)能提供更多的推断信息:区间范围是否包括总体参数(总体参数差值),若不包括,表明差别无统计学意义;同时能显示差别的程度及临床意义;可信区间CI不能提供确切概率,假设检验提供P值。

因此,统计推断结果的表达:P值与可信区间相结合,同时报告。可信区间(CI)能提供更多的推断信息:1202、数值变量资料可信区间的分类单个总体均数的估计两个总体均数差值的估计:基于两组比较t检验的可信区间基于方差分析两两比较的可信区间2、数值变量资料可信区间的分类单个总体均数的估计121两两比较及计算效应量的95%可信区间药物因素(不同药物):两两比较的q检验及其均数差值的95%可信区间。两两比较及计算效应量的95%可信区间药物因素(不同药1221、应考虑统计推断的概率性假设检验结论的概率性,应注意I/II型错误;在报告结论时,最好列出检验统计量的值,尽量写出具体的P值或P值的确切范围,而不简单写成P﹤0.05,以便读者与同类研究比较或进行Meta分析之用。三)统计推断结果的综合评价1、应考虑统计推断的概率性假设检验结论的概率性,123II型错误与检验效能检验效能又称把握度、功效,用1-表示(

为II型错误概率):是指事实上当两总体确有差异,按检验水准所能发现该差异的能力。检验效能为0.8,指做100次假设检验,有80次能检验出有差别。II型错误与检验效能检验效能又称把握度、功效,用1-表示(124检验效能的影响因素实际组间差异(效应量)的大小;研究对象个体间的标准差大小;I型错误率大小;样本含量大小:重点考察检验效能的影响因素实际组间差异(效应量)的大小;125当T5,而n>40时,选用一般计算公式即2检验公式:2=(A-T)2/T2值大小与p值呈反比关系,即2值越大,P值越小;率有时间单位—观察时间影响率的大小。H1:两总体bc2%(71)92.60302070对照组消化不良未愈率=15/164=0.表1两组患者氧疗依从性对比[n/(%)]饼图/圆饼图/圆图/pie图OR、RR的解读(实际意义)两个分类变量皆为有序且属性相同。2检验的基本思想8%1600220110(三)、多个样本率比较例3

某医师研究物理疗法、药物疗法和外用膏药三种疗法治疗周围性神经麻痹的疗效,问三种疗法的有效率有无差别?3、应围绕研究本身全面考虑,再下结论从研究设计、抽样等全面评估结果。如样本代表性,有无可能出现系统偏差等。样本均数x总体均数?抽样误差系统误差当T5,而n>40时,选用一般计算公式3、应围绕研究本身1264、专业结论同样不能绝对化因统计结论具有概率性质,专业结论同样不要使用“肯定”、“一定”、“必定”等词汇。

4、专业结论同样不能绝对化因统计结论具有概率性质,专业结论同127计数(分类变量)资料的统计分析第三讲计数(分类变量)资料的统计分析第三讲128计数资料的分类无序分类:二项或二分类:对立、不相容的两类。如疗效:病死与未愈等。多项或多分类:互不相容的多类。如血型、疾病分型、种族等有序分类:类间不相容且有程度差别。如疗效:痊愈、显效、好转、无效。特点:无度量衡单位;定性测量计数资料的分类无序分类:特点:无度量衡单位;定性测量129临床研究中计数资料来源、分类本身设置为分类变量(PI/ECOS)计量资料转化而来:如评价降压疗效时,将舒张压降低值分为三类:<5mmHg无效5-10mmHg有效10-20mmHg显效计量资料转化为计数资料,过程本身损失信息,应慎重。临床研究中计数资料来源、分类本身设置为分类变量(PI/ECO130在赋值时应考虑类型而定。*二分类变量:0,1*有序多分类:满足线性关系,多采用等间距赋值如-、+、++、+++(0、1、2、3)不满足线性关系,采用哑变量赋值*无序多分类变量赋值:A、B、AB、O 1234?计数资料的分类赋值在赋值时应考虑类型而定。计数资料的分类赋值131合计847563222分娩方式 例数存活死亡II19672H0:两总体b=c病情程度甲医院乙医院如血型、疾病分型、种族等食管癌771003133.393两个分类变量皆为有序且属性相同。05的水准,拒绝H0,而接受H1,可认为两组总体发癌率不同。结果18岁以下赋值为(1,0),18-40岁赋值为(0,1),40岁以上赋值为(0,0)(二)率、比(构成比、相对比)如-、+、++、+++(0、1、2、3)药物因素(不同药物):两两比较的q检验及其均数差值的95%可信区间。05的水准,拒绝H0,而接受H1,可认为两法检验结果有关。率差或率比(RR)的区间估计二、计数资料的统计推断方法1:采用标准人口构成与原始分组率,计算标准化率,直接比较。例数病死数病死率例数病死数病死率

例如:在先天性畸形儿与产妇年龄关系研究中,将年龄划分为三组,<18岁,18-40岁,>40岁。目的是探讨不同怀孕年龄段的先天性畸形儿发生是否不同?畸形儿发生率年龄18岁40岁采用哑变量方法:dummyvariable(年龄与先天性畸形儿发生率呈U型关系,母亲年龄过大或过小时,畸形儿发生率高)合计847132原来分类哑变量赋值age1age21(18岁以下)102(18-40岁)013(40岁以上)00结果18岁以下赋值为(1,0),18-40岁赋值为(0,1),40岁以上赋值为(0,0)无序多分类变量同样赋值:A、B、AB、OABO血型如何赋值?bt1,bt2,bt3?原来分类哑变量赋值age1age21(18岁以下)102(1133革阳菌的哑变量赋值为(1,0,0),革阴菌哑变量赋值为(0,1,0),真菌哑变量赋值为(0,0,1)革阳菌的哑变量赋值为(1,0,0),革阴菌哑变量赋值为(0,134一、计数资料的统计描述(一)图表:频数表,直条图,饼图一、计数资料的统计描述(一)图表:频数表,直条图,饼图135变量类型的识别病例号年龄(岁)性别身高(m)血型心电图尿WBC职业RBC1012/L135女1.65A正常-教师4.67244男1.74B正常-工人5.21326男1.80O正常+职员4.10425女1.61AB正常+农民3.92541男1.71A异常++工人3.49645女1.58B正常++工人5.48750女1.60O异常++干部6.78828男1.76AB正常+++干部7.10931女1.62O正常+军人5.24变量类型的识别病例号年龄性别身高血型心电图尿WBC职业RBC1361、频数表职业状况频数工人3干部2职员1军人1农民1教师1合计99例患者的职业状况编号性别身高职业状况1女1.65教师2男1.74工人3男1.80职员4女1.61农民5男1.71工人6女1.58工人7女1.60干部8男1.76干部9女1.62军人部分原始数据1、频数表职业状况频数工人3干部2职员1军人1农民1教师1合1372、直条图直条图(bar条形图):分类变量资料的频数图,条与条间独立,顺序可不固定。与Histogram直方图不同2、直条图直条图(bar条形图):分类变量资料的频数图,138饼图/圆饼图/圆图/pie图饼图/圆饼图/圆图/pie图139比数比又常称为机会比/优势比/比值比。病死率/生存率、复发率、治愈率/缓解率、有效率表1两组患者氧疗依从性对比[n/(%)]从研究设计、抽样等全面评估结果。病死数病死数(二)率、比(构成比、相对比)饼图/圆饼图/圆图/pie图粗死亡率(crudedeathrate)优选计数资料的统计分析合计110018516.差别分析:采用专用公式(b、c不宜过小)09,=1,得P值>0.如评价降压疗效时,将舒张压降低值分为三类:常用百分率、千分率、10万分率表示。上例两法总体率差值的95%可信区间为(0.例3

某医师研究物理疗法、药物疗法和外用膏药三种疗法治疗周围性神经麻痹的疗效,问三种疗法的有效率有无差别?肝内胆管220729II19672特点:双向有序、行变量和列变量属性不同的资料。H1:三种疗法的有效率不等或不全等分析三种疗法的有效率?百分条图(percentbar)比数比又常称为机会比/优势比/比值比。百分条图(perce140(二)率、比(构成比、相对比)

rate,proportion,ratio一、计数资料的统计描述(二)率、比(构成比、相对比)一、计数资料的统计描述1411、率(rate,frequency)率又包括频率指标(frequency)和强度指标(rate),用来测量一定时期内,某人群特定事件发生的频率或强度。率=(发生某现象的观察单位数)/(某时间段可能发生某现象的观察单位数)常用百分率、千分率、10万分率表示。1、率(rate,frequency)率又包括频率142率是一个动

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论