卫生统计学 第二章 资料的统计描述_第1页
卫生统计学 第二章 资料的统计描述_第2页
卫生统计学 第二章 资料的统计描述_第3页
卫生统计学 第二章 资料的统计描述_第4页
卫生统计学 第二章 资料的统计描述_第5页
已阅读5页,还剩126页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章医学资料的统计描述统计描述—用适当的统计图(表)和统计指标(如均数、标准差、有效率、治愈率等)来描述资料的分布规律(图表)和数量特征(统计指标)。目的:用直观的、简单的形式来表达数据资料所蕴藏的信息。10/6/2023第一节频数分布表和频数分布图资料的类型定量资料定性资料等级资料举例:身高体重治疗人数:100有效人数:85化验结果:—:15人+:35人++:46人+++:25人不同的资料类型,要用不同的统计方法和指标10/6/2023某省人均卫生事业费在全国位次(1998年)第一节频数分布表和频数分布图10/6/20231999年中国农村死亡原因构成(%)第一节频数分布表和频数分布图10/6/2023第一节频数分布表和频数分布图一、频数分布表资料按某种标准或标志分组统计不同组别的观察值个数A8个B11个C15个依次类推称为频数ABC…原始数据较大时,很难得出概括的印象。必须对原始数据进行整理:按数量分组或按属性或类别分组,然后统计各组的人数(频数)。10/6/2023原始资料分组定量资料频数分布表定性资料频数分布表按数量分组按类别或属性分组第一节频数分布表和频数分布图10/6/2023(一)定性资料频数分布表定性资料的频数分布表:按事物的属性特征进行归类后统计各类别观察单位所得的统计表。(P10)第一节频数分布表和频数分布图10/6/2023例2-1第一节频数分布表和频数分布图10/6/2023下表是甲、乙两医院治疗同一种疾病的情况,比较甲、乙两医院的总治愈率有无差别。

甲医院乙医院病情治疗人数治愈人数治愈率(%)治疗人数治愈人数治愈率(%)

轻1008080.030021070.0重30018060.01005050.0合计40026065.040026065.0

甲、乙两医院某病治愈率比较第一节频数分布表和频数分布图10/6/2023(二)定量资料频数分布表最小值最大值长度分段按数量大小分组,然后统计各组(段)的频数(人数)第一节频数分布表和频数分布图10/6/2023计量资料离散型资料连续型资料变量取值可以一一列举变量取值为一定范围内的取值每一育龄妇女现有的子女数;每分钟的脉搏数身高(cm)、体重(kg)、总胆固醇(mmol/L)结果为整数结果有度量衡单位10/6/2023以变量取值为标志分组,列出各组别的频数(一)离散型计量资料的频数表啊10/6/2023某医师检测了60例链球菌咽炎患者的潜伏期,结果如下。潜伏期(小时)12-24-36-48-60-72-84-96-108-120合计病例数11018145442260分组标志频数列连续型计量资料的频数表问题:10/6/2023最小值最大值长度分段按数量大小分组,然后统计各组(段)的频数(人数)1、定量资料的频数表的编制

步骤:(1)计算极差(range)(2)确定组距和组段(3)采用划记法,统计各组段频数(4)列表第一节频数分布表和频数分布图10/6/202310/6/2023(1)求极差(全距)

R=最大值-最小值

=4.2-2.5=1.7(kg)

例2-2150名男婴出生体重。第一节频数分布表和频数分布图10/6/2023(2)确定组距和组段求组距(i):i=极差/组数=28.7/10=2.87≌3确定组数原则:n<50,5-8组;n>50,9-15组。实际应用时,应根据研究目的和分析要求,灵活确定组数。一般以能反映频数分布的特征为原则。确定各组段的上下限原则:第一组段包括最小值,最后组段包括最大值。每一组段都有上限和下限下限:组段的起点(最小值)上限:组段的终点(最大值)

一般只列出下限!10/6/2023划记第一节频数分布表和频数分布图10/6/2023频数分布的特征1、集中趋势:数据向某一数值集中的倾向2、离散趋势:数据的数值大小不等的倾向

第一节频数分布表和频数分布图10/6/2023二、频数分布图以观察变量(组段)为横轴,频数或频率为纵轴绘制统计图。可直观地反映频数分布的特征。10/6/2023频数分布的类型

正态分布、对称分布偏态分布

正偏态负偏态10/6/20231、对称分布:集中位置(高峰)居中,左右两侧频数分布大体对称,其中的正态分布是重要的分布形式。2、偏态分布:集中位置(高峰)不居中,偏向某一侧。(1)正偏态:集中位置(高峰)偏向数值较小的一侧。(2)负偏态:集中位置(高峰)偏向数值较大的一侧。第一节频数分布表和频数分布图10/6/2023对称分布示意图正态分布示意图可以是多峰,只要左右对称只能是单峰10/6/2023三、频数表的用途:1、揭示资料分布的特征2、揭示资料分布的类型3、便于进一步计算指标和统计分析4、便于发现特大或特小的可疑值

10/6/2023第二节集中趋势的描述

描述定量资料分布特征的指标集中趋势指标离散趋势指标平均数R、Q、S、CV10/6/2023常用平均数的种类:1、算术均数(arithmeticmean)(简称均数)2、几何均数(geometricmean,G)

3、中位数(median)平均数(average)是描述一组定量资料集中趋势的统计指标,常用于说明该组数据的平均水平。第二节集中趋势的描述

10/6/2023一、算术均数(均数)样本均数用表示,总体均数用μ表示

1、适用范围对称分布,尤其是正态分布的资料

10/6/20232、计算方法:

(1)直接法

(2)加权法适用于频数表资料

其中:X=组中值=(上限+下限)/2,f=频数

第二节集中趋势的描述

10/6/2023身高(cm)频数(f)组中值(x)fxfx295-196.596.59312.2598-799.5696.569301.75101-10102.5104-18105.5107-25108.5110-21111.5113-15114.5116-15117.5119-7120.5122-1251123.5合计120(∑f)13218(∑fx)

1460046(∑fx2)

3.8509.21743.7610/6/20233、均数的应用⑴反映一组观察值的平均水平⑵描述正态分布特征的重要参数均数两个重要特征1、各离均差(各观察值X与均数之差)的总和等于零;2、离均差的平方和小于各观察值X与任何数a之差的平方和。

说明均数是一组观察值最好的代表值。第二节集中趋势的描述

10/6/2023原始数据的分布为偏态分布,但经对数变换后的分布呈正态分布二、几何均数(geometricmean,简记为G)

1、适用资料:

(1)等比级数资料

(2)对数正态分布资料

(微量元素资料)(血清抗体滴度资料)第二节集中趋势的描述

10/6/20232、计算方法:(1)直接法

例2-5求平均抗体滴度X为抗体滴度的倒数G=40平均抗体滴度为1:40。第二节集中趋势的描述

10/6/2023(2)加权法

G=log-1

X不用组中值计算例2-6第二节集中趋势的描述

10/6/20233、应用几何均数注意事项:(1)观察值不能有0;(2)观察值不能同时有正负值;(3)同一资料求得的G<

第二节集中趋势的描述

10/6/2023三、中位数(M)和百分位数(Px)

1、定义中位数:将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数。在全部观察值中,大于和小于中位数的观察值的个数相等。

10/6/2023百分位数:将一组观察值从小到大按顺序排列,一个百分位数将全部观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大。P50分位数也就是中位数。

第二节集中趋势的描述

10/6/2023

2、中位数和百分位数的适用范围:(1)偏态分布资料(2)分布不明资料(3)分布末端无确定值资料(开口资料)

理论上,中位数和百分位数可用于任何分布的计量资料,但实际应用中常用于偏态分布,特别是开口资料。

10/6/2023

某市238名健康人发汞含量

发汞值(μg/g)人数〈0.330.3-170.7-661.1-601.5—481.9—182.3—162.7—63.1—13.5—1≥3.92合计238偏态分布资料开口资料10/6/2023

总胆红素人数(μmol/L)一般组重症组<174017~10080~153160~19240~02320~04400~04合计3022两组肝炎婴儿的血清总胆红素测定结果

10/6/20233、计算方法:

(1)直接法:适用于观察数少资料(中位数)

n为奇数时,

M=

3,4,6,7,9,10,26

x1x2x3x4x5x6x7M10/6/2023

n为偶数时,

M=

x1x2x3x4x5x6x7x8

35789101327

M第二节集中趋势的描述

10/6/2023百分位数(PX)Px=(Xint(nx%)+Xint(nx%)+1)/2⑴当nx%=int(nx%)时:注:式中int(nx%)为n与x%乘积的整数部分第二节集中趋势的描述

10/6/2023⑵当nx%>int(nx%)时:Px=Xint(nx%)+1注:式中int(nx%)为n与x%乘积的整数部分nx%=150×20%=37.5>int(nx%),即P25=X38=3.1例2-9根据例2-1资料,求P25、P75、P90nx%=150×75%=112.5>int(nx%),即P80=X113=3.6nx%=150×90%=135=int(nx%),即P80=(X135+X136)/2

=(3.8+3.8)/2=3.8第二节集中趋势的描述

10/6/2023(2)频数表法:适用于频数表资料步骤:①从小到大计算累计频数和累计频数;②确定百分位数和中位数所在组段;③计算百分位数Px和中位数M第二节集中趋势的描述

10/6/2023

Px=

M=P50=

L=Px或M所在组段的下限i=Px或M所在组段的组距fx=Px或M所在组段的频数=小于L各组段的累计频数10/6/2023

Px=

起点平均每例的组距从起点到Px的例数L(起点)Px10/6/2023例2-10第二节集中趋势的描述

10/6/20234、中位数和百分位数的用途:(1)中位数描述一组偏态资料的集中趋势;

百分位数描述一组资料在某百分位置的水平在对称分布资料中,M=(2)百分位数用于确定医学参考值范围。

10/6/2023集中趋势指标的选择判断步骤:

资料

抗体滴度G否偏态、开口M否X是是10/6/2023甲组26,28,30,32,34.=30

乙组24,27,30,33,36.=30

丙组26,29,30,31,34.

=30

例:第三节定量资料的离散趋势指标10/6/2023反映离散程度的常用指标:1、极差2、四分位数间距3、方差4、标准差5、变异系数第三节定量资料的离散趋势指标10/6/2023一、极差(range)(全距)R1、计算公式:R=最大值-最小值2、意义:R愈大,离散度愈大R愈小,离散度愈小3、优点:计算简单,意义明了4、缺点:(1)不能反映每一个观察值的变异(2)样本例数越大,R可能越大(3)R抽样误差大,不稳定

第三节定量资料的离散趋势指标10/6/2023

二、四分位数间距(quartilerange)(简记QR)

1、计算公式:四分位数间距Q=QU-QLP25:下四分位数,简记QLP75:上四分位数,简记QU2、意义:中间一半观察值的极差,意义与R相似。3、特点:(1)比R稳定,但仍未考虑每一个观察值的变异;(2)常用于描述偏态资料的离散度。

10/6/2023三、方差(总体方差简记,样本方差简记)

一组观察值的离均差平方和,取其均数,即方差。

∑(X-X)=0(离均差和)∑(X-X)2≠0(离均差平方和)缺点:与例数多少有关(variance)10/6/20231、计算公式:

第三节定量资料的离散趋势指标10/6/20232、意义:方差越大,离散度越大;方差越小,离散度越小。

3、缺点:单位被平方,不便于使用第三节定量资料的离散趋势指标10/6/2023四、标准差(总体标准差简记σ,样本标准差简记S)

方差的开方,即标准差。

1、计算公式:

2、意义:与方差的意义相同(注:n-1为自由度)

(standarddeviation)10/6/20233、计算方法:

(1)直接法:

10/6/2023(2)加权法:

X为组中值X为组中值10/6/2023身高(cm)频数(f)组中值(x)fxfx295-196.596.59312.2598-799.5696.569301.75101-10102.5104-18105.5107-25108.5110-21111.5113-15114.5116-15117.5119-7120.5122-1251123.5合计120(∑f)13218(∑fx)

1460046(∑fx2)

3.8509.21743.7610/6/20234、用途:(1)用于表示正态或近似正态分布资料的离散度;(2)结合均数描述正态分布的特征;(3)计算标准误。

标准差第三节定量资料的离散趋势指标10/6/2023五、变异系数(简记CV)

1、计算公式:CV=

2、用途:(1)比较度量衡单位不同的多组资料的变异度(离散度)(2)比较均数相差悬殊的多组资料的变异度(离散度)

(Coefficientofvariation)10/6/2023第三节定量资料的离散趋势指标3、特点:CV没有单位,是相对数,便于资料间的比较。

变异系数10/6/2023第三节定量资料的离散趋势指标集中趋势指标资料

抗体滴度G、S否偏态、开口M、Q否X、S是是选择判断的步骤:离散趋势指标单位不同均数相差悬殊CV10/6/2023第四节分类资料的统计描述10/6/2023

一、常用的相对数分类资料常采用相对数进行描述。

收集到的分类资料,表现为绝对数。绝对数说明事物发生的实际水平,是进行统计分析的基础,但不便于事物进行深入地分析比较。

第四节分类资料的统计描述10/6/2023例如:某年甲乙两村发病情况如下:甲村:发病人数100人。乙村:发病人数300人。发病情况乙村比甲村严重?第四节分类资料的统计描述10/6/2023甲村:人口数:1000人发病人数:100人发病率:10.0%。乙村:人口数:5000人发病人数:300人发病率:6.0%。甲村比乙村严重!第四节分类资料的统计描述10/6/2023相对数:是两个有联系指标之比,说明事物发生的相对水平,便于对分类资料进行分析和比较。

常用的相对数:率、构成比、相对数第四节分类资料的统计描述10/6/2023

率(Rate)又称频率指标,是指在一定时间内发生某现象的观察单位数与可能发生该现象的总观察单位数之比。它说明某现象发生的频率或强度。

(一)率(Rate)第四节分类资料的统计描述10/6/2023

K为比例基数,可以是百分率(%)、千分率(‰)、万分率(1/万)或十万分率(1/10万),可根据习惯或使计算出的率保持一、二位整数。第四节分类资料的统计描述10/6/2023人口出生率、死亡率、自然增长率、婴儿死亡率等采用千分率;肿瘤的死亡率采用十万分率。习惯用法:第四节分类资料的统计描述10/6/2023分母:只有可能发生某事件的观察单位才能做分母。时间:一般以年为间期,也有月、周等。由些指标分子有累积作用,分母没有。比较时要注意。注意:计算率时,注意分母和时间。第四节分类资料的统计描述10/6/2023例如:麻疹发病率=——————————×1000‰某年新发麻疹病例数同年麻疹易感儿总数不应该是儿童总数第四节分类资料的统计描述10/6/2023例如:麻疹发病率=——————————×1000‰某年新发麻疹病例数同年麻疹易感儿总数分子、分母都有累积。第四节分类资料的统计描述10/6/2023例:分子有累积、分母无累积。第四节分类资料的统计描述10/6/2023常见的两种率:发病率与患病率第四节分类资料的统计描述10/6/2023①新发病例─在观察期内发病,如下图的A、B②现患病例─在观察期前已发病,如下图的CA1A2B1B2C1C2C3期初期末第四节分类资料的统计描述10/6/2023该期间新发生的某病病例数发病率=——————————————————×K一定时期内可能发生某病的平均人口数

(2)特点:

①发病率可大于100%;②高低还与时间长短有关:因为分子有累积作用,半年的发病率不能与一年的发病率比较。(3)用途:

①多用于反映急性病在一定人群中发生的频率或水平;②多用于研究疾病发生的因果和评价防治措施的效果;

1、发病率表示一定时期内,在可能发生某病的一定人群中,新发生的病例数。(1)计算公式第四节分类资料的统计描述10/6/2023

2、患病率指在某时点检查时可能发生某病的一定人群中现患的病人总数。(1)公式:

检查时发现某病现患病例总数时点患病率=——————————————————————×K该时点受检人口数

某观察期间发现某病现患病例总数期间患病率=————————————————×K同期的平均人口数K=100%,1000‰,10000/万,100000/10万

第四节分类资料的统计描述10/6/2023

患病率可分为“点”患病率和“期间”患病率。“点”患病率在理论上是无长度的,实际调查不可能无长度,但要尽可能缩短观察时间,一般以不超出一个月为宜。“期间”患病率是按一段时间计算患病率,通常以一年为观察期。

(2)用途患病率的统计对病程短的疾病价值不大,一般用于病程长的慢性病,如心血管疾病、肿瘤。第四节分类资料的统计描述10/6/2023(3)影响患病率升高、降低的原因A.影响患病率升高的原因:①病程延长②未治愈者的寿命延长③新病例增加(即发病率增高)④病例迁入⑤健康者迁出⑥诊断水平提高⑦报告率提高第四节分类资料的统计描述10/6/2023B.影响患病率降低的原因:①病死率高②新病例减少(即发病率下降)③健康者迁入④病例迁出第四节分类资料的统计描述10/6/2023(4)患病率与发病率、病程的关系

发病率的高低和病程的长短都对患病率水平产生影响。三者的关系可近似地表达为:

患病率=发病率×病程例如,在致死疾病中,即使发病率不变,随着医疗水平提高或诊断水平提高,病人存活时间延长(病程长),患病率也可能上升。这时,患病率高是好事。第四节分类资料的统计描述10/6/2023在非致死疾病中,假如发病率不变,随着医疗水平提高或诊断水平提高,病人治愈所需的时间缩短(病程缩短),患病率降低。这时,患病率低是好事。如肺结核病,在相同发病率水平情况下,能否得到彻底治疗会影响患病率的高低。

思考题:发病率与患病率有何区别?第四节分类资料的统计描述10/6/2023构成比(Proportion)又称构成指标,说明一事物内部各个组成部分所占的比重或分布,常以百分数表示,又称百分比。(二)构成比第四节分类资料的统计描述10/6/2023某地2000年5种慢性疾病的构成第四节分类资料的统计描述10/6/20231999年中国农村死亡原因构成(%)第四节分类资料的统计描述10/6/2023构成比两个特点:

1)一组构成比之和等于100%或1;2)某部分构成增加或减少,则其它部分构成就相应减少或增加。第四节分类资料的统计描述10/6/2023某医院1980年与1982年各科病床情况科别1980年1982年病床数构成比病床数构成比内科20050.030060.0外科10025.010020.0儿科10025.010020.0合计400100.0500100.0

10/6/2023

(三)相对比(Ratio)相对比是A、B两个有关指标之比,说明A是B的多少倍或百分之几。

A与B的性质可以相同,也可以不同。可以是绝对数也可以是相对数或平均数。人口密度、性比例、医护比,医技比

10/6/2023第四节分类资料的统计描述10/6/20231、计算相对数的分母不宜过小分母过小则计算所得的相对数不稳定,不可靠,容易产生误解。临床资料至少30例才好计算率动物实验10例也可以计算率!(四)应用相对数的注意事项

10/6/20232、构成比不能代替率(分析时不能以比代率)

在实际应用中经常出现以构成比代替率进行分析的错误。有下表资料年龄(岁)0~10~20~30~40~50~60~70~合计沙眼人数47198330198128803881027%4.619.332.119.312.43.77.80.8100.0第四节分类资料的统计描述10/6/2023犯了以比代率的错误某文章作者根据上述资料认为,沙眼在20~组的患病率最高,以后随年龄增大而减少。要想得到这一结论,应如何做?第四节分类资料的统计描述10/6/20233、正确计算合计率(总率)对观察单位数不等的几个率,不能直接相加求平均率

正确的方法:总的发生数除以总的观察单位数。

第四节分类资料的统计描述10/6/2023某医院各科的病死率科别患者数死亡数病死率(%)外科150018012.0内科500204.0传染科400246.0合计24002247.3(12.0+4.0+6.0)/3×100%=7.3%平均率=224/2400×100%=9.3%10/6/2023

决定率(或构成比)大小的因素很多,除所研究的因素外,尚有许多重要的影响因素;两个或两个以上的率(构成比)相比较时,其他重要的影响因素要相同或相近(即所谓的具有可比性),否则就不能直接对率进行比较。一般的,两个地方的出生率、死亡率、发病率,不同级别医院某病的治愈率等不能直接比较。4、注意资料的可比性10/6/2023率(或构成比)的比较是否具有可比性,通常注意以下两个方面:(1)观察对象同质,研究方法相同,观察时间相等,以及研究对象所处的地区、民族、职业、生活条件和习惯要一致;影响率的其它因素在各对比组的内部构成是否相同。

(2)同一地区不同时期资料的相对数比较,应注意条件有无变化。第四节分类资料的统计描述10/6/2023

甲乙两医院乳腺癌手术后的5年生存率(%)腋下淋巴三甲医院二甲医院结转移病例数构成生存数生存率病例数构成生存数生存率

无456.035

77.7730016.321571.67有71094.0450

63.3883

83.74250.60

合计755100.048564.24383100.025767.10

不能直接比较两院总的生存率(应标化后再比)第四节分类资料的统计描述10/6/2023

5、率或构成比的比较要遵循随机抽样的原则,要做假设检验。即两组或多组率比较,要作假设检验再下结论。第四节分类资料的统计描述10/6/2023

二、率的标准化法第四节分类资料的统计描述1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论