版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医学统计学欢迎学习
医学统计学
第十六章分类变量的统计分析
主讲:黄志碧
第一节常用的相对数
对分类变量进行统计描述常采用相对数。
收集到的分类资料,首先表现为绝对数。绝对数说明事物发生的实际水平,是进行统计分析的基础,但不便于事物进行深入地分析比较。
肿瘤科:住院人数100人,死亡20人。外科:住院人数400人,死亡25人。外科死亡危险性比肿瘤科更大?例16-1:肿瘤科:病人数:100人病死人数:20人病死率:20.0%(20/10)。外科:病人数:400人病死人数:25人病死率:6.25%(25/400)
。肿瘤科病死危险性比外科更大!相对数:是两个有联系指标之比,说明事物发生的相对水平,便于对分类资料进行分析和比较。
常用相对数:率、构成比、相对比率(Rate)又称频率指标,是指在一定时间内发生某现象的观察单位数与可能发生该现象的总观察单位数之比。它说明某现象发生的频率或强度。
一、率
K为比例基数,可以是百分率(%)、千分率(‰)、万分率(1/万)或十万分率(1/10万),可根据习惯或使计算出的率保持一、二位整数。
人口出生率、死亡率、自然增长率、婴儿死亡率等采用千分率;肿瘤的死亡率采用十万分率。习惯用法:
计算率时,注意分母和时间。只有可能发生某事件的观察单位才能做分母。时间一般以年为间期,也有月、周等。注意例如:麻疹发病率=——————————×1000‰某年新发麻疹病例数同年麻疹易感儿总数不应该是儿童总数肿瘤科:病人数:100人病死人数:20人病死率:20.0%(20/10)。外科:病人数:400人病死人数:25人病死率:6.25%(25/400)
。肿瘤科病死危险性比外科更大!构成比(Proportion)又称构成指标,说明一事物内部各个组成部分所占的比重或分布,常以百分数表示,又称百分比。
二、构成比构成比两个特点:1)一组构成比之和等于100%或1(有助于区分率和构成比);2)某部分构成增加或减少,则其它部分构成就相应减少或增加。
某医院2010年与2012年各科病床情况科别2010年2012年病床数构成比病床数构成比内科20050.030060.0
外科10025.010020.0
儿科10025.010020.0
合计400100.0500100.0
三、
相对比(Ratio)相对比是A、B两个有关指标之比,说明A是B的多少倍或百分之几。
A与B的性质可以相同,也可以不同。可以是绝对数也可以是相对数或平均数。
CV、性比例、医护比、医技比、师生比、人口密度(人数/平方公里)、体重指数、婴儿性比例:242/230×100=105.2
例16-3甲乙两地肺癌死亡率分别为:
23.1/10万、12.33/10万,则两地肺癌死亡率的相对比为23.1/12.33=1.87,
即甲地肺癌死亡率是乙地的1.87倍,RR=1.87。第二节应用相对数的注意事项
1、计算相对数的分母不宜过小分母过小则计算所得的相对数不稳定,不可靠,误解。注意:临床资料计算率至少有30例2、构成比不能代替率(分析时不能以比代率)
在实际应用中经常出现以构成比代替率进行分析的错误。有下表资料年龄(岁)0~10~20~30~40~50~60~70~合计沙眼人数47198330198128803881027%4.619.332.119.312.43.77.80.8100.0
某文章作者根据上述资料认为,沙眼在20~组的患病率最高,以后随年龄增大而减少。犯了以比代率的错误3、正确计算合计率对观察单位数不等的几个率,不能直接相加求平均率正确的方法:总的发生数除以总的观察单位数。
某医院各科的病死率科别患者数死亡数病死率(%)外科150018012.0
内科500204.0
传染科400246.0
合计24002247.3
(12.0+4.0+6.0)/3×100%=7.3%平均率=224/2400×100%=9.3%
决定率(或构成比)的因素很多,除所研究的因素外,尚有许多重要的影响因素;两个或两个以上的率(构成比)相比较时,其他重要的影响因素要相同或相近(即所谓的具有可比性),否则就不能直接对率进行比较。一般的,两个地方的出生率、死亡率、发病率,不同级别医院某病的治愈率等不能直接比较。
4、注意资料的可比性
率(或构成比)的比较是否具有可比性,通常注意以下两个方面:(1)观察对象同质,研究方法相同,观察时间相等,以及研究对象所处的地区、民族、职业、生活条件和习惯要一致;(2)影响率的其它因素在各对比组的内部构成是否相同。
两医院乳腺癌手术后的5年生存率(%)腋下淋巴省医院市医院结转移病例数构成生存数生存率病例数构成生存数生存率
无45
6.0
35
77.7730078.321571.67
有71094.0450
63.388321.74250.60
合计755100.048564.24383100.025767.10
不能直接比较两院总的生存率(应标化后再比)甲乙两院乳腺癌病人有无淋巴结转移构成比较
医院有转移无转移甲医院710/755=0.94045/755=0.060乙医院83/383=0.2167300/383=0.7833
5、率或构成比的比较要做假设检验。即两组或多组样本率的比较,要作假设检验再下结论。
第三节率的标准化法
甲乙两医院乳腺癌手术后的5年生存率(%)甲医院乙医院
病例数生存数生存率病例数生存数生存率
75548564.24383257
67.10
不直接比较两院的5年生存率,没有可比性。
两医院乳腺癌手术后的5年生存率(%)腋下淋巴省医院市医院结转移病例数构成生存数生存率病例数构成生存数生存率
无45
6.0
35
77.7730078.321571.67
有71094.0450
63.388321.74250.60
合计755100.048564.24383100.025767.10
不能直接比较两院总的生存率,应标化后再比一、标准化法的意义和基本思想率的标准化:是指在比较两个或多个总率时,采用一个共同的内部构成标准,将两个或多个样本不同的内部构成调整为相同的内部构成,以消除因内部构成不同对总率产生的影响,使算得的标准化率具有可比性。采用标准化方法计算得到的率简称标化率,又调整率。
基本思想:采用统一的标准内部构成(年龄、性别),在相同的内部构成条件下,计算预期的发生率(死亡率);
目的:消除因内部构成不同对总率产生的影响,使标化率具有可比性。
二、标化率的计算
标化率的计算,常用的有直接法和间接法。
(一)直接法计算标化率
当已知被标化组内部各小组的率时(即pi),采用直接法。为标准组的人口数P’代表标准化率,Ni为标准组各个年龄人口数,N为标准组总人口数;pi为被标化组各年龄组的发生率。∑Nipi为预期发生数;Ni/N为标准组年龄构成。注意:不能用N×p求出预期发生数。
标准化率的计算步骤1、选择直接法或间接法2、选择标准3、计算标化率直接法计算标准化率标准人口选择方法:(1)择有代表性的、较稳定的、数量较大的人群,如全世界的、全国的、全省的、本地区的历年人口数;(2)选择相互比较的人群合并做标准;(3)选择相互比较的人群某一组做标准。
相互比较时,标准要相同。例如,国际间的比较要采用世界通用的标准。已知内部各分率,可用直接法
甲乙两医院乳腺癌手术后的5年生存率(%)腋下淋巴甲医院乙医院
结转移病例数生存数生存率病例数生存数生存率无4535
77.77
300215
71.67
有710450
63.38
8342
50.60
合计75548564.24383257
67.10两组合并为标准
甲乙两医院乳腺癌手术后的5年生存率(%)淋巴甲医院乙医院
结转移标准人数原生存率预期生存数原生存率预期生存数无345
77.77
268.3
71.67247.26
有793
63.38
502.6
50.60
401.3
合计113864.24770.9
67.10
648.6甲医院标化率=——————×100%预期生存总数标准病人总数=———×100%770.91138=67.74%乙医院标化率=———×100%=56.99%1138648.6甲院标化治愈率=——————×1000‰预期治愈人数标准人数=———×100%41305000=82.6%乙院标化治愈率=———×100%=80.0%50004000
(二)、间接法若已知每家医院总的治愈人数及各科的病人数,但不知道各科的治愈率,则采用间接法计算标准化率。
间接法计算标化率方法P为标准组总死亡率(发生率),Pi为标准组各科的治愈率,r为实际治愈人数。若Pi为死亡率时,r/ΣniPi为被标化组实际死亡数与预期死亡数之比,称为标准化死亡比,用SMR表示。
若SMR>1,说明被标化组人群死亡率高于标准组;若SMR<1,说明被标化组人群死亡率低于标准组。间接法标化率仅用于被标化人群与标准组比较,两个间接法标准化率不能直接比较(没对年龄进行调整)。
甲医院实际治愈人数:1920例;1920/1845=1.04乙医院实际治愈人数:2140例;2140/2155=0.993三、应用标准化率注意事项1、应用直接法计算标准化率时,由于所选定的标准人口不同,算得的标准化率也不同,因此,比较几个标准化率时,应采用同一标准人口;2、当各年龄组的率出现明显交叉时,宜直接比较各年龄组的发生率,而不宜用标准化法
甲乙两厂某工种某病患病率工龄甲厂乙厂
(年)工人数患者数患病率(%)工人数患者数患病率(%)
<3400123.0
1001
1.0
≥31001010.0
40072
18.0
合计500224.4
5007314.6
<3≥3(工龄)2015105交叉3、两样本标准化率的比较应作假设检验;4、采用间接法计算所得的标准化率仅能与所选标准比较,两个间接法标准化率不能互相比较。
5、标化后的标准化率不反映实际水平,只是用于比较的相对水平。第四节率的抽样误差和总体率的估计总体样本统计推断抽样抽样误差一、率的抽样误差和标准误
1、率的抽样误差
在率的抽样研究中,由于总体中存在个体变异,所以由抽样得到的样本率(P)与总体率()之间存在差异,这种差异称抽样误差。
在抽样研究中,抽样误差是不可避免的,但可以用统计方法计算或估计其大小。总体均数=标准差=……2、率的标准误及其意义:样本率的标准差称为率的标准误,反映样本率的离散程度,说明率的抽样误差大小。标准误愈大,抽样误差愈大;反之,标准误愈小,抽样误差愈小。
率的标准误计算公式:
........理论值
........估计值
3、样本率分布形态(1)当总体率π=0.5时,样本率p呈正态分布;(2)当总体率π≠0.5时,样本率p呈偏态分布;但只要π不接近0和1,随着n的增大,p逐渐逼近正态分布;n=30时,p近似正态分布。当nπ或np≥5和n(1-π)或n(1-p)≥5时,可以按正态分布的原理来处理两项分类资料。例16.5
某医院欲了解某种新药对慢性乙型肝炎的疗效,对100名患者进行疗效试验,结果90名患者有效,试估计该研究率的标准误。n=100,x=90P=90/100=0.9该研究率的标准误是3.0%。4、率的标准误的应用(1)表示率的抽样误差的大小,说明样本率的代表性、可靠性。(2)用于总体率的区间估计;(3)用于率的假设检验(u检验)。
二、总体率的估计
估计方法:点值估计、区间估计点值估计:用样本率直接估计总体率;区间估计:按一定的可信度(1-α)估计总体率所在的范围。总体率区间估计有下述两种方法。(一)正态近似法
当p不接近0和1时,而n足够大(n>100),np和n(1-p)均大于5时,按下列方法估计。
95%可信区间:P±1.96Sp99%可信区间:P±2.58Sp例16.5
估计该新药总体有效率95%可信区间。
n=100,x=90P=90/100=0.9,Sp=0.030.9±1.96×0.03=0.8412~0.9588该药总体有效率95%可信区间是:84.12%~95.88%
P±1.96Sp(二)查表法
当n较小(n<50),特别是P接近0或1时,按二项分布原理估计总体率的可信区间,由于计算较复杂,可以根据n和x查附表16-1。例16-6
某社区抽取40岁以上居民30人进行高血压检查,结果高血压患者10名,试估计该社区40岁以上居民高血压总体患病率95%可信区间。按n=30,X=10查附表16-1得:17%~53%。如果,用n,(n-x)查表,用100减所得结果即可。
如n=30,X=23,则按n=30,X=30-23=7查附表16-6,得10%~42%,用100减得:58%~90%。
第五节率的u检验
根据正态近似的原理对率进行检验。条件是样本含量n足够大,P不太大或太小,np和n(1-p)均大于5.(一)样本率与总体率比较的u检验
1、目的:推断样本率p所代表的未知的总体率π与已知的总体率π0是否有差异。
2、方法(用正态近似法u检验)应用条件:p不能太大(接近1)或太小(接近0),且n足够大(n>100)。例16-7
已知π0=15.0%=0.15,n=150,X=30,P=30/150=0.2
H0:π=π0
,流浪者乙肝阳性率与一般人相同H1:π>π0,流浪者乙肝阳性率高于一般人α=0.05
单侧u0.05=1.645u>u0.05;P<0.05按α=0.05,拒绝H0,接受H1,差别有统计学意义,可以认为流浪者乙肝阳性率高于一般人。二、两样本率比较的u检验
目的:推断两样本率P1和P2所代表的两总体率有无差异。
方法:例16-8n1=1281,X1=386,P1=30.13%n2=387,X2=65,P2=16.80%u0.01=2.58u>u0.01=2.58,P<0.01.因为P<0.01,所以按检验水准,拒绝H0,接收H1,两样本率的差异有统计学意义,工人高血压患病率高于农民。
第六节X2
检验
(卡方检验)X2检验学习要点●X2检验的基本思想●两个样本率的比较●配对设计两样本率比较●多个样本率比较●样本构成比的比较●两个分类变量间的相关分析X2检验用途1、推断两个或两个以上的总体率或总体构成比之间有无差别;2、推断两种属性或两个变量之间有无关联性;3、频数分布的拟合优度检验。
X2检验是用途广泛的假设检验方法,用途有:
X2检验类型
1、四格表资料X2检验;
2、配对计数资料X2检验;
3、行×列(R×C)表资料X2检验;
4、行×列(R×C)列联表X2检验。
四格表资料X2检验用途:
推断两个总体率有无差异。
表16-6AB两种药物治疗老年性抑郁症疗效比较药物有效无效合计有效率%A药19(17.0)11(13.0)3063.33B药15(17.0)15(13.0)3050.00
合计34266056.67注:括号内为理论频数例16.9AB两种药物治疗老年性忧郁症的疗效比较。为何称为四格表?指哪四格?abcd
有效无效A药B药有两行两列有4个基本数据(a、b、c、d)的表格,称为四格表。以下资料的a、b、c、d是?组别治疗人数有效人数有效率(%)治疗组20016080.00对照组19014877.89合计39030878.972001601901481604014842(一)、X2
检验基本思想
值的计算方法(通用公式):
式中A为实际数,T为理论数,根据H0的假设推算出来。
为R行C列的理论数;nR为T所在行合计数;nC为T所在列合计数。
T值的计算:假设:
则总的有效率34/60×100%=56.67%总的无效率26/60×100%=43.33%
A药理论有效人数:T11=30×56.67%(30×34/60)=17B药理论有效人数:T21=30×56.67%(30×34/60)=17
A药理论无效人数:T12=30×43.33%(30×26/60)=13B药理论无效人数:T22=30×43.33%(30×26/60)=13
注意:四格表资料求出一个格子的理论数后,可以用减法推算其他格子的理论数:
T11=17,T12=30-T11=30-17=13T21=34-T11=34-17=17T22=30-T21=30-17=13或
T22=26-T12=26-13=13
从X2值计算公式可以看出,X2检验是检验实际分布和理论分布的吻合程度。若H0假设成立,则实际分布(A)和理论分布(T)相差不大,X2值应较小;若H0假设不成立,则实际分布(A)和理论分布(T)相差较大,X2值应较大。另外X2值的大小尚与格子数(自由度)有关,格子数越多,X2值越大。可以根据X2分布原理,由X2值确定P值,从而作出推论。
V=(行数-1)(列数-1)
X2
检验过程
1、建立假设
H0:π1=π2(AB两药有效率相等)H1:π1≠π2(AB两药有效率不等)
α=0.05
2、计算X2值(用基本公式计算)
3、查X2界值表(附表16-3)确定P值
按V=1,X2界值表得:
(X20.05,1=3.84,X20.01,1=6.63)X20.25,1=1.32,X20.5,1=0.45X20.25,1>X2>X20.5,1,0.5>P>0.254、推断结论
0.5>P>0.25,按α=0.05,不拒绝H0,差异无统计学意义,尚不能认为AB两种药物的有效率不同。(二)四格表资料X2检验专用公式式中:a、b、c、d为四个实际数,其中a、c为阳性数,b、d为阴性数,n为总例数。
为省去计算理论数的麻烦,可用以下公式计算。
(2)用专用公式计算
a=19、b=11、c=15、d=15、n=60(三)四格表资料X2检验的校正
1、四格表资料检验条件:
(1)当n≥40且所有T≥5,用普通X2检验,(2)当n≥40,但1≤T<5时,用校正的X2检验;(3)当n<40或T<1时,用四格表确切概率法。(4)若P≈α,或有实际数为0,改用四格表确切概率法(直接计算概率法);
2、校正公式:
(1)基本公式:
(2)专用公式:
表16-8两种疗法对脑胶质瘤疗效的比较━━━━━━━━━━━━━━━━━━━━━━━
疗法脑功能损伤无脑功能损伤合计损伤率(%)
───────────────────────
手术22(18.88)6(9.12)2878.57
放疗7(10.12)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论