第一讲(二)统计描述_第1页
第一讲(二)统计描述_第2页
第一讲(二)统计描述_第3页
第一讲(二)统计描述_第4页
第一讲(二)统计描述_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二讲统计描述频数分布计量资料的统计描述计数资料的统计描述统计图表

第一节.频数分布

频数分布表(frequencytable)

用途:用于描述资料的分布特征

频数:在一批样本中,相同情形出现的次数称为该情形的频数。资料类型组段频数计数和等级观察结果的所有分类相同类别出现的次数计量根据观察结果重新划分分组统计性别nM男生2689女生2490合计50-表B高一班成绩表例题

100名学生的某项测验中的分数如下76.077.582.090.581.085.571.080.592.578.077.088.081.076.583.084.084.062.079.080.572.089.078.078.080.078.576.575.079.574.586.081.575.084.090.080.086.084.568.577.071.086.081.579.580.573.093.083.072.082.568.071.087.078.066.083.087.082.579.572.580.082.081.086.583.571.583.091.096.073.575.589.087.569.074.070.077.575.079.073.576.088.585.089.578.576.074.098.073.094.079.080.075.583.582.065.074.580.070.579.0(一)频数表的编制步骤(1)求极差(range):即最大值与最小值之差,又称为全距。本例极差:R=98-62=36(2)决定组数、组段和组距:根据研究目的和样本含量n确定。组距=极差/组数,通常分10-15个组,为方便计,组距参考极差的十分之一,再略加调整。本例i=R/12=36/12=3。(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。分组f96-293-390-487-884-1181-1778-1975-1472-1069-766-363-160-1m97949188858279767370676461∑100—1.00100P.02.03.04.08.11.17.19.14.10.07.03.01.01P%234811171914107311表2-1100名学生某测验成绩频数分布表

(二)频数表和频数分布图用途

1.描述频数分布的类型(1)对称分布:若各组段频数的分布以频数最多的组段为中心左右两侧大体对称(总体则完全对称),就认为该资料是对称分布(2)偏态分布右偏态分布(正偏态分布):频数最多组段右侧的组段数多于左侧的组段数,高峰向左偏移,频数向右侧拖尾。

表4-115名正常成年女子血清转氨酶(mmol/L)含量分布左偏态分布(负偏态分布):

左侧的组段数多于右侧的组段数,频数向左侧拖尾。表4-101名正常人的血清肌红蛋白()含量分布2.描述计量资料分布的集中趋势和离散趋势①集中趋势(centraltendency):变量值集中位置。

——平均水平指标②离散趋势(tendencyofdispersion):变量值围绕集中位置的分布情况。离“中心”位置越远,频数越小;且围绕“中心”左右对称。——变异水平指标

3.便于发现一些特大或特小的可疑值*第二节计量资料的常用统计指标集中趋势的描述离散趋势的描述一、描述集中趋势的特征数(平均指标)总称为平均数反映了资料的集中趋势(centraltendency

)。常用的有:

1.算术均数(arithmeticmean)

2.几何均数(geometricmean)

3.中位数(median)

1.均数(mean)符号:总体样本

适用条件:资料呈对称分布,尤其是正态或近似正态。

计算:(1)直接法(2)频数表法2.几何均数(geometricmean)几何均数:变量对数值的算术均数的反对数。

几何均数的适用条件与实例适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料

例血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。此例的算术均数为22222,显然不能代表滴度的平均水平。同一资料,几何均数<均数3.中位数(median)

意义:中位数是将一批数据从小至大排列后位次居中的数据值,反映一批观察值在位次上的平均水平。符号:Md

适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料;②资料有不确定数值;③资料分布不明等。

中位数计算公式与实例

先将观察值按从小到大顺序排列,再按以下公式计算:特点:仅仅利用了中间的1~2个数据均数、中位数二者关系正态分布时:均数=中位数正偏态分布时:均数>中位数负偏态分布时:均数<中位数小结:

集中趋势的描述不同的分布使用不同的指标(算术)均数:正态或近似正态或观察值相差不大的小样本资料几何均数:对数正态分布或等比级数资料中位数:一般偏态分布(传染病发病的潜伏期)二、描述离散趋势的特征数

反映数据的离散度(Dispersion)。即个体观察值的变异程度。常用的指标有:

1.极差(Range)

(全距)

2.百分位数与四分位数间距

PercentileandQuartilerange

3.方差Variance

4.标准差StandardDeviation

5.变异系数CoefficientofVariation

盘编号甲乙丙14404804902460490495350050050045405105055560520510合计250025002500均数500500500例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)甲乙丙1.极差(Range)

(全距)

1204020符号:R意义:反映全部变量值的变动范围。优点:简便,缺点:1.只利用了两个极端值2.n大,R也会大3.不稳定适用范围:任何计量资料;是参考变异指标2.百分位数与四分位数间距

Percentileandquartilerange百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。记为Px。四分位间距:

Q=P75-P25quartiledeviation:QD=QR/2P100(max)P75P50(中位数)P25P0(min)Px频数表资料的百分位数下限值L上限值Ui;fm百分位数PxP25=6+6x[(145x25%-17)/46]=8.51(h)P75=18+6x[(145x75%-101)/32]=19.45(h)Q=19.45-8.51=10.94(h)潜伏期/h(1)频数,f(2)累计频数Sf(3)0~17176~466312~3810118~3213324~613930~013936~414342~48合计2145145百分位数的应用确定医学参考值范围(referencerange):

如95%参考值范围=P97.5-P2.5;

表示有95%正常个体的测量值在此范围。中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征3.方差

方差(variance)也称均方差(meansquaredeviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。样本方差为什么要除以(n-1)数理统计证明,n代替N后,计算出的样本方差对总体方差的估计偏小。对于样本资料,对离均差平方和取平均时分母用n-1代替n。4.标准差

标准差(standarddeviation)即方差的正平方根;其单位与原变量X的单位相同。标准差的计算盘编号甲乙丙甲2乙2丙214404804901936002304002401002460490495211600240100245025350050050025000025000025000045405105052916002601002550255560520510313600270400260100合计250025002500126040012510001250250标准差50.9915.817.915.变异系数(coefficientofvariation)符号:CV适用条件:①观察指标单位不同,如身高、体重②同单位资料,但均数相差悬殊均数标准差变异系数青年男子身高170cm6cm3.5%体重60kg7kg11.7%意义:挑选指标时变异系数越小,指标越好。身高的差异水平:cm体重的差异水平:kg用差异系数可以相互比较可比可比差异系数变异指标小结1.极差较粗,适合于任何分布2.标准差与均数的单位相同,最常用,适合于近似正态分布3.变异系数主要用于单位不同或均数相差悬殊资料4.平均指标和变异指标分别反映资料的不同特征,常配套使用,如正态分布:均数、标准差;

偏态分布:中位数、四分位半间距第三节计数资料的常用统计指标一.常用相对数指标二.应用注意事项一、常用相对数绝对数:通过调查或实验得到的原始数据。如某病的出院人数、治愈人数、死亡人数等。但绝对数通常不具有可比性:

1.如甲、乙两个医院某病出院人数不同时,比较两医院该病的死亡人数没有意义

2.如2002级附二院五年制一、二大班学生人数不同时,比较两班医学统计学的及格人数没有意义,因此需要在绝对数的基础上计算相对数。相对数:两个有联系的指标之比,常用的相对数有:一、比二、比率三、速率相对比简称比,是两个有关指标之比,说明两指标间的比例关系。计算公式为式中两指标可以是绝对数、相对数或平均数。(一)比(ratio)

(一)两个绝对数之比:

如某年某医院出生婴儿中,男性婴儿为370人,女性婴儿为358人,则出生婴儿性别比例为370/358×100=103,说明该医院该年每出生100名女婴儿,就有103名男性婴儿出生,它反映了男性婴儿与女性婴儿出生的对比水平。

(二)两个率之比:如相对危险度(RR)。

例如某地某年龄组男性吸烟和非吸烟的冠心病死亡资料如表7-2,试分析其相对危害度。

说明男性吸烟组的冠心病死亡率是非吸烟组的2.139倍。表7-2

某地某年龄组男性吸烟和非吸烟的冠心病死亡资料

(三)两个相对比之比:如流行病学常用的比数比(OR)。

例服用反应停与肢体缺陷关系病例对照研究资料如表所示:

比率(P57):分子分母都是绝对数,且分子必须是分母的一部分。1.率(rate)(强度相对数)说明某现象或某事物发生的频率或强度。

率=(实际发生数/可能发生总数)×比例基数如:治愈率、病死率、阳性率、人群患病率等比例基数:100%、1000‰、10000/万、100000(1/10万)等(按习惯,使结果保留1-2位小数)例如:患病率通常用百分率、婴儿死亡率用千分率、肿瘤死亡率以十万分率表示。(二)比率(proportion)2.构成比(结构相对数)(proportion):表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布。通常以100%为比例基数。其计算公式为

如:教研室16人高级职称有4人,占25%;中级职称有8人,占50%;初级职称有4人,占25%。(三)速率(rate):分母中含有时间量纲。是反映单位时间内某事件出现的可能性大小,多用于面向人群的出生、死亡和发病资料的统计.人口出生率=(某年中活产总数/该年平均人口数)×100%三、应用注意事项1.计算相对数总观察单位数应足够多2.不能以构成比代替率。3.进行率的对比分析时,应注意资料可比性。如比较疗效时,比较组间应病情轻重相同,性别影响,应按性别分组后再作比较。(1)观察对象是否同质,研究方法是否相同,观察时间是否相等,以及地区、周围环境、风俗习惯和经济条件是否一致或相近等。

(2)观察对象内部结构是否相同,若两组资料的年龄、性别等构成不同,可以分别进行同年龄别、同性别的小组率比较或对总率(合计率)进行标准化后再作比较。

率与构成比容易误用年龄组⑴受检人数⑵白内障例数⑶患者年龄构成比(%)⑷患病率(%)⑸=(3)/(2)40~50~60~70~≥80合计5604412961492268129135971915.1828.7930.1321.654.2412.1429.2545.6165.1086.361468448100.0030.524、正确求平均率。

例:若P1=x1/n1,P2=x2/n2P3=x3/n3

P=(x1+x2+x3)/(n1+n2+n3)(正确)

P=(P1+P2+P3)/3(错误)5.样本率(或构成比)同样存在抽样误差,故应进行样本率(或构成比)差别的假设检验。第四节统计图表

统计表(statisticaltable)——数据代替文字描述,便于统计结果的精确、简洁的表达和对比分析

统计图(statisticalchart)——用图形代替数据,获得直观、形象的效果一.统计表

1.统计表的结构2.统计表的种类

标题:标目:线条:数字:无数字用“—”表示,缺失数字用“

”表示,数值为0者记为“0”,不要留空项。备注:1、统计表的基本结构

顶线底线表名标题

表4-8某省某工厂1994、1998年四项检测指标异常检出率检测指标1994年1998年受检人数异常人数检出率(%)受检人数异常人数检出率(%)

血压心率TTT

GPT

5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75

:TTT(麝香草酚浊度试验),

:GPT(谷丙转氨酶)。

2.统计表的种类

根据分组标目的复杂程度,统计表可大致分为简单表和复合表。

简单表(simpletable):只按一个特征或标志分组。

组合表(combinativetable):按两个或两个以上特征或标志结合起来分组。如表4-8。简单表示例分组标志为矫治方法

表4-8某省某工厂1994、1998年四项检测指标异常检出率检测指标1994年1998年受检人数异常人数检出率(%)受检人数异常人数检出率(%)

血压心率TTT

GPT

5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75

:TTT(麝香草酚浊度试验),

:GPT(谷丙转氨酶)。(丁建生等.中国卫生统计1999;16(3):166)复合表示例分组标志:不同年份

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论