第二讲数据特征与统计描述_第1页
第二讲数据特征与统计描述_第2页
第二讲数据特征与统计描述_第3页
第二讲数据特征与统计描述_第4页
第二讲数据特征与统计描述_第5页
已阅读5页,还剩91页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(优选)第二讲数据特征与统计描述现在是1页\一共有98页\编辑于星期五第一节频数分布表与频数分布图现在是2页\一共有98页\编辑于星期五

一、频数分布表(frequencytable)

用途:用于描述资料的分布特征

频数:在一批样本中,相同情形出现的次数称为该情形的频数。资料类型组段频数计数和等级观察结果的所有分类相同类别出现的次数计量根据观察结果重新划分分组统计现在是3页\一共有98页\编辑于星期五表1某地150名正常成年男子红细胞数(1012/L)

编号红细胞数编号红细胞数13.98……24.541434.6734.741445.4045.131455.2954.431464.7764.811475.3874.981485.1583.791494.64……1505.19现在是4页\一共有98页\编辑于星期五1.频数表的编制步骤(1)求极差(range):即最大值与最小值之差,又称为全距。本例极差:R=5.88-3.79=2.09

(1012/L)(2)决定组数、组段和组距:根据研究目的和样本含量n确定。组距=极差/组数,通常分8-15个组,为方便计,组距参考极差的十分之一,再略加调整。本例i=R/10=2.09/10=0.209≈0.2。现在是5页\一共有98页\编辑于星期五(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。现在是6页\一共有98页\编辑于星期五

组段(1)

频数,f(2)

组中值,X(3)

fX(4)=(2)×(3)3.7~13.83.83.9~44.016.04.1~114.246.24.3~174.474.84.5~264.6119.64.7~324.8153.64.9~265.0130.05.1~185.293.65.3~105.454.05.5~45.622.45.7~5.9

合计15.85.8150719.8现在是7页\一共有98页\编辑于星期五三、频数分布图

现在是8页\一共有98页\编辑于星期五二、频数表和频数分布图用途1.描述频数分布的类型*(1)对称分布:若各组段频数的分布以频数最多的组段为中心左右两侧大体对称(总体则完全对称),就认为该资料是对称分布(2)偏态分布:现在是9页\一共有98页\编辑于星期五右偏态分布(正偏态分布):频数最多组段右侧的组段数多于左侧的组段数,高峰向左偏移,频数向右侧拖尾。

表2115名正常成年女子血清转氨酶(mmol/L)含量分布现在是10页\一共有98页\编辑于星期五现在是11页\一共有98页\编辑于星期五左偏态分布(负偏态分布):

左侧的组段数多于右侧的组段数,频数向左侧拖尾。表3101名正常人的血清肌红蛋白()含量分布现在是12页\一共有98页\编辑于星期五现在是13页\一共有98页\编辑于星期五2.描述计量资料分布的

集中趋势和离散趋势①集中趋势(centraltendency):变量值集中位置。本例在组段“4.7~”。——平均水平指标②离散趋势(tendencyofdispersion):变量值围绕集中位置的分布情况。离“中心”位置越远,频数越小;且围绕“中心”左右对称。——变异水平指标

现在是14页\一共有98页\编辑于星期五3.便于发现一些特大或特小的可疑值*现在是15页\一共有98页\编辑于星期五4.便于进一步做统计分析和处理现在是16页\一共有98页\编辑于星期五第二节计量资料的常用统计指标描述集中趋势的特征数描述离散趋势的特征数现在是17页\一共有98页\编辑于星期五计量资料(定量资料、数值变量资料)总体:有限或无限个(定量)变量值样本:从总体随机抽取的n个变量值:

X1,X2,X3,……,Xnn为样本例数(样本大小、样本含量)现在是18页\一共有98页\编辑于星期五一、描述集中趋势的特征数(平均指标)总称为平均数(average)反映了资料的集中趋势(centraltendency

)。常用的有:

1.算术均数(arithmeticmean),简称均数

(mean)

2.几何均数(geometricmean)

3.中位数

(median)

现在是19页\一共有98页\编辑于星期五均数(mean)Σ为求和符号,读成sigma,k,X,f意义“权数”符号:总体样本

适用条件:资料呈对称分布,尤其是正态或近似正态。

计算:

(1)直接法(2)频数表法现在是20页\一共有98页\编辑于星期五2.几何均数(geometricmean)几何均数:变量对数值的算术均数的反对数。

现在是21页\一共有98页\编辑于星期五几何均数的适用条件与实例适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料

例血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。此例的算术均数为22222,显然不能代表滴度的平均水平。同一资料,几何均数<均数现在是22页\一共有98页\编辑于星期五频数表资料的几何均数抗体滴度⑴

人数,f⑵

滴度倒数,X⑶lgX⑷

f·lgX⑸1:4

1:81:161:32┇1:512

合计1562┇572481632┇5120.60210.90311.20411.5051┇2.70930.60214.51557.22463.0102┇13.546572.2471例:几何均数=反对数(72.2471/40)=64.00现在是23页\一共有98页\编辑于星期五3.中位数(median)

意义:中位数是将一批数据从小至大排列后位次居中的数据值,反映一批观察值在位次上的平均水平。符号:Md

适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料;②资料有不确定数值;③资料分布不明等。

现在是24页\一共有98页\编辑于星期五中位数计算公式与实例

先将观察值按从小到大顺序排列,再按以下公式计算:特点:仅仅利用了中间的1~2个数据例:5人潜伏期:2,3,5,8,20现在是25页\一共有98页\编辑于星期五频数表资料的中位数下限值L上限值Ui;fm中位数Md现在是26页\一共有98页\编辑于星期五

潜伏期/h

(1)

频数,f(2)

累计频数Sf(3)0~17176~466312~3810118~3213324~613930~013936~414342~48

合计2145145例中位数=12+6x[(145x50%-63)/38]

=13.5(h)现在是27页\一共有98页\编辑于星期五均数、中位数二者关系正态分布时:均数=中位数正偏态分布时:均数>中位数负偏态分布时:均数<中位数现在是28页\一共有98页\编辑于星期五小结:

集中趋势的描述——平均数

平均数:描述一组变量值的集中位置或平均水平的指标体系。

不同的分布使用不同的指标

(算术)均数:正态或近似正态或观察值相差不大的小样本资料

几何均数:对数正态分布或等比级数资料

中位数:一般偏态分布(传染病发病的潜伏期)现在是29页\一共有98页\编辑于星期五二、描述离散趋势的特征数

(变异(variation)指标)

反映数据的离散度(Dispersion

)。即个体观察值的变异程度。常用的指标有:

1.极差(Range)

(全距)

2.百分位数与四分位数间距

PercentileandQuartilerange

3.方差

Variance

4.标准差StandardDeviation

5.变异系数

CoefficientofVariation

现在是30页\一共有98页\编辑于星期五

盘编号甲乙丙14404804902460490495350050050045405105055560520510合计250025002500均数500500500

例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)甲乙丙现在是31页\一共有98页\编辑于星期五1.极差(Range)(全距)

1204020符号:R意义:反映全部变量值的变动范围。

优点:简便,如说明传染病、食物中毒的最长、最短潜伏期等。

缺点:1.只利用了两个极端值

2.n大,R也会大

3.不稳定适用范围:任何计量资料;是参考变异指标现在是32页\一共有98页\编辑于星期五2.百分位数与四分位数间距

Percentileandquartilerange百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。记为Px。四分位间距:

(定义:P53)Q=P75-P25

四分位半间距quartiledeviation:QD=QR/2P100(max)P75P50(中位数)P25P0(min)Px现在是33页\一共有98页\编辑于星期五频数表资料的百分位数下限值L上限值Ui;fm百分位数Px现在是34页\一共有98页\编辑于星期五P25=6+6x[(145x25%-17)/46]=8.51(h)P75=18+6x[(145x75%-101)/32]=19.45(h)Q==10.94(h)

潜伏期/h

(1)

频数,f(2)

累计频数Sf(3)0~17176~466312~3810118~3213324~613930~013936~414342~48

合计2145145现在是35页\一共有98页\编辑于星期五百分位数的应用确定医学参考值范围(referencerange):如95%参考值范围=P97.5-P2.5;表示有95%正常个体的测量值在此范围。中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征现在是36页\一共有98页\编辑于星期五3.方差

方差(variance)也称均方差(meansquaredeviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。现在是37页\一共有98页\编辑于星期五样本方差为什么要除以(n-1)数理统计证明,n代替N后,计算出的样本方差对总体方差的估计偏小。对于样本资料,对离均差平方和取平均时分母用n-1代替n。现在是38页\一共有98页\编辑于星期五4.标准差

标准差(standarddeviation)即方差的正平方根;其单位与原变量X的单位相同。现在是39页\一共有98页\编辑于星期五标准差的计算盘编号甲乙丙甲2乙2丙214404804901936002304002401002460490495211600240100245025350050050025000025000025000045405105052916002601002550255560520510313600270400260100合计250025002500126040012510001250250标准差50.9915.817.91现在是40页\一共有98页\编辑于星期五方差=(3476.48-719.82/150)/(150-1)=0.1503标准差=0.39(1012/L)

组段(1)

频数,f(2)

组中值,X(3)

fX(4)=(2)×(3)3.7~13.83.83.9~44.016.04.1~114.246.24.3~174.474.84.5~264.6119.64.7~324.8153.64.9~265.0130.05.1~185.293.65.3~105.454.05.5~45.622.45.7~5.9

合计15.85.8150719.8现在是41页\一共有98页\编辑于星期五5.变异系数(coefficientofvariation)符号:CV适用条件:①观察指标单位不同,如身高、体重②同单位资料,但均数相差悬殊均数

标准差变异系数青年男子身高170cm6cm3.5%体重60kg7kg11.7%

意义:挑选指标时变异系数越小,指标越好。现在是42页\一共有98页\编辑于星期五变异指标小结1.极差较粗,适合于任何分布2.标准差与均数的单位相同,最常用,适合于近似正态分布3.变异系数主要用于单位不同或均数相差悬殊资料4.平均指标和变异指标分别反映资料的不同特征,常配套使用如正态分布:均数、标准差;

偏态分布:中位数、四分位半间距现在是43页\一共有98页\编辑于星期五第三节计数资料的常用统计指标一、计数资料的数据整理二、常用相对数指标三、应用注意事项现在是44页\一共有98页\编辑于星期五

计数资料(分类资料):总体:有限或无限个定性(分类)变量值样本:从总体中抽取的n个定性(分类)变量值整理为:分类个体数,即:计数资料频数表绝对数现在是45页\一共有98页\编辑于星期五一、计数资料的数据整理

计数资料:按某种属性分类,然后清点每类的数据(以下是:孕妇分娩资料)住院号年龄职业文化程度分娩方式妊娠结局202565527无中学顺产足月202565322无小学助产足月202583025管理人员大学顺产足月202567724知识分子中学顺产早产202564730管理人员大学顺产足月202584832无小学剖宫产足月201991527无中学顺产死产202586129无大学剖宫产足月202460125农民中学顺产足月200038626无小学顺产足月现在是46页\一共有98页\编辑于星期五按年龄(2岁一组)与职业整理年龄工人管理人员农民商业服务无知识分子总计18

2

0

0

0

3

0

520

9

2

610

18

0

452228

71024

70111502450342852153443612650432545133703662834351034

78572483011141122

39171143214

2

314

24

3

6034

4

2

5

3

12

2

2836

2

1

1

4

5

1

1438

3

1

1

0

2

1

840

0

0

2

0

0

0

2合计

207

1411022085372061401现在是47页\一共有98页\编辑于星期五二、常用相对数绝对数:通过调查或实验得到的原始数据。如某病的出院人数、治愈人数、死亡人数等。但绝对数通常不具有可比性:1.如2005级临床五年制一、二大班学生人数不同时,比较两班医学统计学的及格人数没有意义,因此需要在绝对数的基础上计算相对数。相对数:两个有联系的指标之比,常用的相对数有:一、比二、比率三、速率现在是48页\一共有98页\编辑于星期五相对比简称比,是两个有关指标之比,说明两指标间的比例关系。计算公式为式中两指标可以是绝对数、相对数或平均数。(一)比(ratio)现在是49页\一共有98页\编辑于星期五

(一)两个绝对数之比:

如某年某医院出生婴儿中,男性婴儿为370人,女性婴儿为358人,则出生婴儿性别比例为370/358×100=103,说明该医院该年每出生100名女婴儿,就有103名男性婴儿出生,它反映了男性婴儿与女性婴儿出生的对比水平。

现在是50页\一共有98页\编辑于星期五(二)两个率之比:如相对危险度(RR)。

例如某地某年龄组男性吸烟和非吸烟的冠心病死亡资料如下表,试分析其相对危害度。

说明男性吸烟组的冠心病死亡率是非吸烟组的2.139倍。表4

某地某年龄组男性吸烟和非吸烟的冠心病死亡资料现在是51页\一共有98页\编辑于星期五

(三)两个相对比之比:如流行病学常用的比数比(OR)。

例服用反应停与肢体缺陷关系病例对照研究资料如表所示:

现在是52页\一共有98页\编辑于星期五比率分子分母都是绝对数,且分子必须是分母的一部分。无量纲,[0,1]

。1.率(rate)(强度相对数)说明某现象或某事物发生的频率或强度。

率=(实际发生数/可能发生总数)×比例基数如:治愈率、病死率、阳性率、人群患病率等比例基数:100%、1000‰、10000/万、100000(1/10万)等(按习惯,使结果保留1-2位小数)例如:患病率通常用百分率、婴儿死亡率用千分率、肿瘤死亡率以十万分率表示。(二)比率(proportion)现在是53页\一共有98页\编辑于星期五2.构成比(结构相对数)(proportion):表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布。通常以100%为比例基数。其计算公式为

如:教研室16人高级职称有4人,占25%;中级职称有8人,占50%;初级职称有4人,占25%。现在是54页\一共有98页\编辑于星期五(三)速率(rate):分母中含有时间量纲。是反映单位时间内某事件出现的可能性大小,多用于面向人群的出生、死亡和发病资料的统计.

人口出生率=(某年中活产总数/该年平均人口数)×100%现在是55页\一共有98页\编辑于星期五三、应用注意事项1、不能以构成比代替率。现在是56页\一共有98页\编辑于星期五率与构成比容易误用

年龄组⑴

受检人数⑵白内障例数⑶

患者年龄构成比(%)⑷患病率(%)⑸=(3)/(2)40~50~60~70~≥80合计5604412961492268129135971915.1828.7930.1321.654.2412.1429.2545.6165.1086.36

1468448100.0030.52现在是57页\一共有98页\编辑于星期五2、计算相对数的分母不宜过小。小则直接叙述。3、进行率的对比分析时,应注意资料可比性。如比较疗效时,比较组间应病情轻重相同,性别影响,应按性别分组后再作比较。现在是58页\一共有98页\编辑于星期五(1)观察对象是否同质,研究方法是否相同,观察时间是否相等,以及地区、周围环境、风俗习惯和经济条件是否一致或相近等。(2)观察对象内部结构是否相同,若两组资料的年龄、性别等构成不同,可以分别进行同年龄别、同性别的小组率比较或对总率(合计率)进行标准化后再作比较。

现在是59页\一共有98页\编辑于星期五4、正确求平均率。例:若P1=x1/n1,P2=x2/n2

P3=x3/n3

P=(x1+x2+x3)/n1+n2+n3)(正确)

P=(P1+P2+P3)/3(错误)5.样本率(或构成比)同样存在抽样误差,故应进行样本率(或构成比)差别的假设检验。现在是60页\一共有98页\编辑于星期五第四节统计图表

统计表(statisticaltable)——数据代替文字描述,便于统计结果的精确、简洁的表达和对比分析统计图(statisticalchart)——用图形代替数据,获得直观、形象的效果现在是61页\一共有98页\编辑于星期五现在是62页\一共有98页\编辑于星期五一、统计表1.统计表的结构

2.统计表的种类

现在是63页\一共有98页\编辑于星期五标题:标目:线条:数字:无数字用“—”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。备注:1、统计表的基本结构

现在是64页\一共有98页\编辑于星期五顶线底线表名标题现在是65页\一共有98页\编辑于星期五

表5某省某工厂1994、1998年四项检测指标异常检出率检测指标1994年1998年受检人数异常人数检出率(%)

受检人数异常人数检出率(%)

血压心率

TTTGPT5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75

:TTT(麝香草酚浊度试验),:GPT(谷丙转氨酶)。现在是66页\一共有98页\编辑于星期五2.统计表的种类

根据分组标目的复杂程度,统计表可大致分为简单表和复合表。

简单表(simpletable):只按一个特征或标志分组。见表6。

组合表(combinativetable):按两个或两个以上特征或标志结合起来分组。如表5。现在是67页\一共有98页\编辑于星期五简单表示例分组标志为矫治方法6现在是68页\一共有98页\编辑于星期五表5某省某工厂1994、1998年四项检测指标异常检出率检测指标1994年1998年受检人数异常人数检出率(%)

受检人数异常人数检出率(%)

血压心率

TTTGPT5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75

:TTT(麝香草酚浊度试验),:GPT(谷丙转氨酶)。

(丁建生等.中国卫生统计1999;16(3):166)复合表示例

分组标志:不同年份不同检测指标现在是69页\一共有98页\编辑于星期五例下表是复方猪胆胶囊治疗两型老年性慢性支气管炎的疗效比较,请对该表的绘制进行评价,并指出所存在的问题。表

两个组的疗效观察

分型及疗效

单纯型慢性支气管炎

喘息型慢性支气管炎

指标

治愈

显效

好转

无效

治愈

显效

好转

无效

例数

60

98

51

12

23

83

65

11

合计

209

12

171

11

疗效

94.6

94.0

现在是70页\一共有98页\编辑于星期五表7复方猪胆胶囊治疗两型老年慢性支气管炎患者的疗效比较现在是71页\一共有98页\编辑于星期五一、统计图

统计图(statisticalchart或statisticalgraph)是用点、线、面等几何图形,直观形象地表达、描述数据或结果。

1.统计图的结构

2.

统计图的种类与绘制注意事项现在是72页\一共有98页\编辑于星期五1、统计图的结构标题:用于简明扼要地说明资料的内容,一般位于图的下方中央位置。图域:即制图空间,是整个统计图的视觉中心。除圆图外,一般都是存在于特定的坐标体系下。标目:分为纵标目和横标目,表示坐标系下纵轴与横轴的含义。图例:用于识别比较的统计图中各种图形所代表的含义。刻度:即纵轴和横轴上的坐标。刻度数值按从小到大的顺序,纵轴由下向上,横轴由左向右排列。现在是73页\一共有98页\编辑于星期五2.统计图的种类与绘制注意事项直条图百分条图圆图线图与半对数线图直方图箱图散点图统计地图现在是74页\一共有98页\编辑于星期五

(1)条图(bargraph)

1.概念

条图用等宽长条的高度表示按性质分类资料各类别的数值大小,用于表示他们之间的对比关系。

2.适用资料:相互独立的资料(资料有明确分

组,不连续)。

3.分类

(1)单式条图具有一个统计指标,一个分组因素。

(2)复式条图具有一个统计指标,两个分组因素。

现在是75页\一共有98页\编辑于星期五条图现在是76页\一共有98页\编辑于星期五表5某省某工厂1994、1998年四项检测指标异常检出率检测指标1994年1998年受检人数异常人数检出率(%)

受检人数异常人数检出率(%)

血压心率

TTTGPT5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75

:TTT(麝香草酚浊度试验),:GPT(谷丙转氨酶)。

(丁建生等.中国卫生统计1999;16(3):166)条图现在是77页\一共有98页\编辑于星期五条图现在是78页\一共有98页\编辑于星期五绘制条图注意事项

⑴纵轴的刻度必须从“0”开始。

(2)横轴各直条一般按统计指标由大到小排列,也可按事物本身的自然顺序排列。

(3)各直条的宽度要一致,各直条应有相等的间隔,其宽度一般与直条的宽度相等或为直条宽度的一半。

现在是79页\一共有98页\编辑于星期五(2)圆图(piegraph)

1.概念

以圆形的总面积代表100%,把面积按比例分成若干部分,以角度大小来表示各部分所占的比重。

2.适用资料:构成比资料现在是80页\一共有98页\编辑于星期五2002年某医院1402例孕妇分娩结果分娩结果例数构成比(%)过期产21

1死产21

1早产212

15足月1148

83总计1402100现在是81页\一共有98页\编辑于星期五(3)百分条图(percentagechart)

百分条图的作用与圆图相同。但更适用于多组百分比的比较。020406080

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论