




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二讲数据特征与统计描述第二讲数据特征与统计描述1第一节频数分布表与频数分布图第一节频数分布表与频数分布图
一、频数分布表(frequencytable)
用途:用于描述资料的分布特征
频数:在一批样本中,相同情形出现的次数称为该情形的频数。资料类型组段频数计数和等级观察结果的所有分类相同类别出现的次数计量根据观察结果重新划分分组统计一、频数分布表(frequencytable)
用途:表1某地150名正常成年男子红细胞数(1012/L)
编号红细胞数编号红细胞数13.98……24.541434.6734.741445.4045.131455.2954.431464.7764.811475.3874.981485.1583.791494.64……1505.19表1某地150名正常成年男子红细胞数(1012/L)1.频数表的编制步骤(1)求极差(range):即最大值与最小值之差,又称为全距。本例极差:R=5.88-3.79=2.09
(1012/L)(2)决定组数、组段和组距:根据研究目的和样本含量n确定。组距=极差/组数,通常分8-15个组,为方便计,组距参考极差的十分之一,再略加调整。本例i=R/10=2.09/10=0.209≈0.2。1.频数表的编制步骤(1)求极差(range):即最大值与(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。(3)列出组段:第一组段的下限略小于最小值,最后一个组段上
组段(1)
频数,f(2)
组中值,X(3)
fX(4)=(2)×(3)3.7~13.83.83.9~44.016.04.1~114.246.24.3~174.474.84.5~264.6119.64.7~324.8153.64.9~265.0130.05.1~185.293.65.3~105.454.05.5~45.622.45.7~5.9
合计15.85.8150719.8组段频数,f组中值,XfX3三、频数分布图
三、频数分布图
百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。样本率(或构成比)同样存在抽样误差,故应进行样本率(或构成比)差别的假设检验。统计图的种类与绘制注意事项负偏态分布时:均数<中位数n为样本例数(样本大小、样本含量)总体:有限或无限个定性(分类)变量值4.便于进一步做统计分析和处理符号:总体样本
适用条件:资料呈对称分布,尤其是正态或近似正态。如:治愈率、病死率、阳性率、人群患病率等(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。X1,X2,X3,……,Xn率),横轴表示连续变量,以各矩形(宽(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。X1,X2,X3,……,Xn(1)条图(bargraph)
1.绝对数百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。如:治愈率、病死率、阳性率、人群患病率等二、频数表和频数分布图用途1.描述频数分布的类型*(1)对称分布:若各组段频数的分布以频数最多的组段为中心左右两侧大体对称(总体则完全对称),就认为该资料是对称分布(2)偏态分布:百分位数:数据从小到大排列;在百分尺度下,所占百分比对应右偏态分布(正偏态分布):频数最多组段右侧的组段数多于左侧的组段数,高峰向左偏移,频数向右侧拖尾。
表2115名正常成年女子血清转氨酶(mmol/L)含量分布右偏态分布(正偏态分布):频数最多组段右侧的组段数多于左侧的第二讲数据特征与统计描述优质课件左偏态分布(负偏态分布):
左侧的组段数多于右侧的组段数,频数向左侧拖尾。表3101名正常人的血清肌红蛋白()含量分布左偏态分布(负偏态分布):左侧的组段第二讲数据特征与统计描述优质课件2.描述计量资料分布的
集中趋势和离散趋势①集中趋势(centraltendency):变量值集中位置。本例在组段“4.7~”。——平均水平指标②离散趋势(tendencyofdispersion):变量值围绕集中位置的分布情况。离“中心”位置越远,频数越小;且围绕“中心”左右对称。——变异水平指标
2.描述计量资料分布的
集中趋势和离散趋势①集中3.便于发现一些特大或特小的可疑值*3.便于发现一些特大或特小的可疑值*率(rate)(强度相对数)(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。3.变异系数主要用于单位不同或均数相差悬殊资料②同单位资料,但均数相差悬殊确定医学参考值范围(referencerange):表示一组数据的平均离散情况。不同检测指标3.百分位数与四分位数间距
PercentileandQuartilerange
3.例:几何均数=反对数(72.2、计算相对数的分母不宜过小。总体:有限或无限个定性(分类)变量值右偏态分布(正偏态分布):频数最多组段右侧的组段数多于左侧的组段数,高峰向左偏移,频数向右侧拖尾。如2005级临床五年制一、二大班学生人数不同时,比较两班医学统计学的及格人数没有意义,因此需要在绝对数的基础上计算相对数。概念
条图用等宽长条的高度表示按性质分类资料各类别的数值大小,用于表示他们之间的对比关系。=13.分类
(1)单式条图具有一个统计指标,一个分组因素。偏态分布:中位数、四分位半间距患者年龄构成比(%)在比较事物间的变化速度时,4.便于进一步做统计分析和处理率(rate)(强度相对数)4.便于进一步做统计分析和处理第二节计量资料的常用统计指标描述集中趋势的特征数描述离散趋势的特征数第二节计量资料的常用统计指标描述集中趋势的特征数计量资料(定量资料、数值变量资料)总体:有限或无限个(定量)变量值样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xnn为样本例数(样本大小、样本含量)计量资料(定量资料、数值变量资料)一、描述集中趋势的特征数(平均指标)总称为平均数(average)反映了资料的集中趋势(centraltendency)。常用的有:
1.算术均数(arithmeticmean),简称均数
(mean)
2.几何均数(geometricmean)
3.中位数(median)
一、描述集中趋势的特征数(平均指标)总称为平均数(avera均数(mean)Σ为求和符号,读成sigma,k,X,f意义“权数”符号:总体样本
适用条件:资料呈对称分布,尤其是正态或近似正态。
计算:
(1)直接法(2)频数表法均数(mean)Σ为求和符号,读成sigma,k,X,2.几何均数(geometricmean)几何均数:变量对数值的算术均数的反对数。
2.几何均数(geometricmean)几何均数:变量几何均数的适用条件与实例适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料
例血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。此例的算术均数为22222,显然不能代表滴度的平均水平。同一资料,几何均数<均数几何均数的适用条件与实例适用条件:呈倍数关系的等比资料或对数频数表资料的几何均数抗体滴度⑴
人数,f⑵
滴度倒数,X⑶lgX⑷
f·lgX⑸1:4
1:81:161:32┇1:512
合计1562┇572481632┇5120.60210.90311.20411.5051┇2.70930.60214.51557.22463.0102┇13.546572.2471例:几何均数=反对数(72.2471/40)=64.00频数表资料的几何均数抗体滴度人数,f滴度倒数,XlgX3.中位数(median)
意义:中位数是将一批数据从小至大排列后位次居中的数据值,反映一批观察值在位次上的平均水平。符号:Md
适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料;②资料有不确定数值;③资料分布不明等。
3.中位数(median)意义:中位数是将一中位数计算公式与实例
先将观察值按从小到大顺序排列,再按以下公式计算:特点:仅仅利用了中间的1~2个数据例:5人潜伏期:2,3,5,8,20中位数计算公式与实例先将观察值按从小到大顺序排列,再按以下频数表资料的中位数下限值L上限值Ui;fm中位数Md频数表资料的中位数下限值L上限值Ui;fm中位数Md
潜伏期/h
(1)
频数,f(2)
累计频数Sf(3)0~17176~466312~3810118~3213324~613930~013936~414342~48
合计2145145例中位数=12+6x[(145x50%-63)/38]
=13.5(h)潜伏期/h频数,f累计频数Sf0~17176均数、中位数二者关系正态分布时:均数=中位数正偏态分布时:均数>中位数负偏态分布时:均数<中位数均数、中位数二者关系正态分布时:均数=中位数2、计算相对数的分母不宜过小。百分位数与四分位数间距
Percentileandquartilerange标准差StandardDeviation
5.平均数:描述一组变量值的集中位置或平均水平的指标体系。P25=6+6x[(145x25%-17)/46]=8.度,特别适宜作不同指标变化速度的比较。X1,X2,X3,……,Xn(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。负偏态分布时:均数<中位数表2115名正常成年女子血清转氨酶(mmol/L)含量分布标准差StandardDeviation
5.相对数:两个有联系的指标之比,常用的相对数有:无量纲,[0,1]。如:治愈率、病死率、阳性率、人群患病率等总体:有限或无限个定性(分类)变量值表1某地150名正常成年男子红细胞数(1012/L):TTT(麝香草酚浊度试验),:GPT(谷丙转氨酶)。总称为平均数(average)反映了资料的集中趋势(centraltendency)。统计图的种类与绘制注意事项(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。中位数:一般偏态分布(传染病发病的潜伏期)小结:
集中趋势的描述——平均数
平均数:描述一组变量值的集中位置或平均水平的指标体系。
不同的分布使用不同的指标
(算术)均数:正态或近似正态或观察值相差不大的小样本资料几何均数:对数正态分布或等比级数资料中位数:一般偏态分布(传染病发病的潜伏期)2、计算相对数的分母不宜过小。小结:
集二、描述离散趋势的特征数
(变异(variation)指标)
反映数据的离散度(Dispersion)。即个体观察值的变异程度。常用的指标有:
1.极差(Range)(全距)
2.百分位数与四分位数间距
PercentileandQuartilerange
3.方差Variance
4.标准差StandardDeviation
5.变异系数CoefficientofVariation
二、描述离散趋势的特征数
(变异(variation)指
盘编号甲乙丙14404804902460490495350050050045405105055560520510合计250025002500均数500500500
例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)甲乙丙盘编号甲乙丙14404804902460490495351.极差(Range)(全距)
1204020符号:R意义:反映全部变量值的变动范围。
优点:简便,如说明传染病、食物中毒的最长、最短潜伏期等。
缺点:1.只利用了两个极端值
2.n大,R也会大
3.不稳定适用范围:任何计量资料;是参考变异指标1.极差(Range)(全距)1204020符号:R2.百分位数与四分位数间距
Percentileandquartilerange百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。记为Px。四分位间距:
(定义:P53)Q=P75-P25
四分位半间距quartiledeviation:QD=QR/2P100(max)P75P50(中位数)P25P0(min)Px2.百分位数与四分位数间距
Percentileand频数表资料的百分位数下限值L上限值Ui;fm百分位数Px频数表资料的百分位数下限值L上限值Ui;fm百分位数PxP25=6+6x[(145x25%-17)/46]=8.51(h)P75=18+6x[(145x75%-101)/32]=19.45(h)Q=19.45-8.51=10.94(h)
潜伏期/h
(1)
频数,f(2)
累计频数Sf(3)0~17176~466312~3810118~3213324~613930~013936~414342~48
合计2145145P25=6+6x[(145x25%-17)/46]=8.51百分位数的应用确定医学参考值范围(referencerange):如95%参考值范围=P97.5-P2.5;表示有95%正常个体的测量值在此范围。中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征百分位数的应用确定医学参考值范围(referencera3.方差
方差(variance)也称均方差(meansquaredeviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。3.方差方差(variance)也称均方差(me样本方差为什么要除以(n-1)数理统计证明,n代替N后,计算出的样本方差对总体方差的估计偏小。对于样本资料,对离均差平方和取平均时分母用n-1代替n。样本方差为什么要除以(n-1)数理统计证明,n代替N后,计算4.标准差
标准差(standarddeviation)即方差的正平方根;其单位与原变量X的单位相同。4.标准差标准差(standarddeviat其单位与原变量X的单位相同。标目:分为纵标目和横标目,表示坐标系下纵轴与横轴的含义。标准差StandardDeviation
5.绝对数符号:总体样本
适用条件:资料呈对称分布,尤其是正态或近似正态。概念
以圆形的总面积代表100%,把面积按比例分成若干部分,以角度大小来表示各部分所占的比重。极端值适用资料:双变量资料。3.不同检测指标表5某省某工厂1994、1998年四项检测指标异常检出率(1)求极差(range):即最大值与最小值之差,又称为全距。第三节计数资料的常用统计指标中位数(median)3.变异系数主要用于单位不同或均数相差悬殊资料刻度数值按从小到大的顺序,纵轴由下向上,横轴由左向右排列。不同的分布使用不同的指标普通线图(线图):纵横轴均为算术尺度,标准差的计算盘编号甲乙丙甲2乙2丙214404804901936002304002401002460490495211600240100245025350050050025000025000025000045405105052916002601002550255560520510313600270400260100合计250025002500126040012510001250250标准差50.9915.817.91其单位与原变量X的单位相同。标准差的计算盘编号甲乙丙甲2乙方差=(3476.48-719.82/150)/(150-1)=0.1503标准差=0.39(1012/L)
组段(1)
频数,f(2)
组中值,X(3)
fX(4)=(2)×(3)3.7~13.83.83.9~44.016.04.1~114.246.24.3~174.474.84.5~264.6119.64.7~324.8153.64.9~265.0130.05.1~185.293.65.3~105.454.05.5~45.622.45.7~5.9
合计15.85.8150719.8方差=(3476.48-719.82/150)/(150-15.变异系数(coefficientofvariation)符号:CV适用条件:①观察指标单位不同,如身高、体重②同单位资料,但均数相差悬殊均数
标准差变异系数青年男子身高170cm6cm3.5%体重60kg7kg11.7%
意义:挑选指标时变异系数越小,指标越好。5.变异系数(coefficientofvariatio变异指标小结1.极差较粗,适合于任何分布2.标准差与均数的单位相同,最常用,适合于近似正态分布3.变异系数主要用于单位不同或均数相差悬殊资料4.平均指标和变异指标分别反映资料的不同特征,常配套使用如正态分布:均数、标准差;偏态分布:中位数、四分位半间距变异指标小结1.极差较粗,适合于任何分布第三节计数资料的常用统计指标一、计数资料的数据整理二、常用相对数指标三、应用注意事项第三节计数资料的常用统计指标一、计数资料的数据整理
计数资料(分类资料):总体:有限或无限个定性(分类)变量值样本:从总体中抽取的n个定性(分类)变量值整理为:分类个体数,即:计数资料频数表绝对数计数资料(分类资料):一、计数资料的数据整理
计数资料:按某种属性分类,然后清点每类的数据(以下是:孕妇分娩资料)住院号年龄职业文化程度分娩方式妊娠结局202565527无中学顺产足月202565322无小学助产足月202583025管理人员大学顺产足月202567724知识分子中学顺产早产202564730管理人员大学顺产足月202584832无小学剖宫产足月201991527无中学顺产死产202586129无大学剖宫产足月202460125农民中学顺产足月200038626无小学顺产足月一、计数资料的数据整理计数资料:按某种属性分按年龄(2岁一组)与职业整理年龄工人管理人员农民商业服务无知识分子总计18
2
0
0
0
3
0
520
9
2
610
18
0
452228
71024
70111502450342852153443612650432545133703662834351034
78572483011141122
39171143214
2
314
24
3
6034
4
2
5
3
12
2
2836
2
1
1
4
5
1
1438
3
1
1
0
2
1
840
0
0
2
0
0
0
2合计
207
1411022085372061401按年龄(2岁一组)与职业整理年龄工人管理人员农民商业服务无知二、常用相对数绝对数:通过调查或实验得到的原始数据。如某病的出院人数、治愈人数、死亡人数等。但绝对数通常不具有可比性:1.如2005级临床五年制一、二大班学生人数不同时,比较两班医学统计学的及格人数没有意义,因此需要在绝对数的基础上计算相对数。相对数:两个有联系的指标之比,常用的相对数有:一、比二、比率三、速率二、常用相对数绝对数:通过调查或实验得到的原始数据。如某病的相对比简称比,是两个有关指标之比,说明两指标间的比例关系。计算公式为式中两指标可以是绝对数、相对数或平均数。(一)比(ratio)相对比简称比,是两个有关指标之比,说明两指标间的比例关系。((一)两个绝对数之比:
如某年某医院出生婴儿中,男性婴儿为370人,女性婴儿为358人,则出生婴儿性别比例为370/358×100=103,说明该医院该年每出生100名女婴儿,就有103名男性婴儿出生,它反映了男性婴儿与女性婴儿出生的对比水平。
(一)两个绝对数之比:(二)两个率之比:如相对危险度(RR)。
例如某地某年龄组男性吸烟和非吸烟的冠心病死亡资料如下表,试分析其相对危害度。
说明男性吸烟组的冠心病死亡率是非吸烟组的2.139倍。表4
某地某年龄组男性吸烟和非吸烟的冠心病死亡资料(二)两个率之比:如相对危险度(RR)。
(三)两个相对比之比:如流行病学常用的比数比(OR)。
例服用反应停与肢体缺陷关系病例对照研究资料如表所示:
(三)两个相对比之比:如流行病学常用的比数比(OR)。比率分子分母都是绝对数,且分子必须是分母的一部分。无量纲,[0,1]
。1.率(rate)(强度相对数)说明某现象或某事物发生的频率或强度。率=(实际发生数/可能发生总数)×比例基数如:治愈率、病死率、阳性率、人群患病率等比例基数:100%、1000‰、10000/万、100000(1/10万)等(按习惯,使结果保留1-2位小数)例如:患病率通常用百分率、婴儿死亡率用千分率、肿瘤死亡率以十万分率表示。(二)比率(proportion)比率分子分母都是绝对数,且分子必须是分母的一部分。无量纲,[2.构成比(结构相对数)(proportion):表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布。通常以100%为比例基数。其计算公式为如:教研室16人高级职称有4人,占25%;中级职称有8人,占50%;初级职称有4人,占25%。2.构成比(结构相对数)(proportion):(三)速率(rate):分母中含有时间量纲。是反映单位时间内某事件出现的可能性大小,多用于面向人群的出生、死亡和发病资料的统计.
人口出生率=(某年中活产总数/该年平均人口数)×100%(三)速率(rate):是反映单位时间内某事件出现的可能性大三、应用注意事项1、不能以构成比代替率。三、应用注意事项1、不能以构成比代替率。率与构成比容易误用
年龄组⑴
受检人数⑵白内障例数⑶
患者年龄构成比(%)⑷患病率(%)⑸=(3)/(2)40~50~60~70~≥80合计5604412961492268129135971915.1828.7930.1321.654.2412.1429.2545.6165.1086.36
1468448100.0030.52率与构成比容易误用年龄组受检白内障例数患者年龄构成比2、计算相对数的分母不宜过小。小则直接叙述。3、进行率的对比分析时,应注意资料可比性。如比较疗效时,比较组间应病情轻重相同,性别影响,应按性别分组后再作比较。2、计算相对数的分母不宜过小。小则直接叙述。(1)观察对象是否同质,研究方法是否相同,观察时间是否相等,以及地区、周围环境、风俗习惯和经济条件是否一致或相近等。(2)观察对象内部结构是否相同,若两组资料的年龄、性别等构成不同,可以分别进行同年龄别、同性别的小组率比较或对总率(合计率)进行标准化后再作比较。
(1)观察对象是否同质,研究方法是否相同,观察时间是否相等,4、正确求平均率。例:若P1=x1/n1,P2=x2/n2
P3=x3/n3
P=(x1+x2+x3)/n1+n2+n3)(正确)
P=(P1+P2+P3)/3(错误)5.样本率(或构成比)同样存在抽样误差,故应进行样本率(或构成比)差别的假设检验。4、正确求平均率。5.样本率(或构成比)同样存在抽样第四节统计图表
统计表(statisticaltable)——数据代替文字描述,便于统计结果的精确、简洁的表达和对比分析统计图(statisticalchart)——用图形代替数据,获得直观、形象的效果第四节统计图表统计表(statistical第二讲数据特征与统计描述优质课件一、统计表1.统计表的结构
2.统计表的种类
一、统计表1.统计表的结构标题:标目:线条:数字:无数字用“—”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。备注:1、统计表的基本结构
标题:1、统计表的基本结构顶线底线表名标题顶线底线表名
表5某省某工厂1994、1998年四项检测指标异常检出率检测指标1994年1998年受检人数异常人数检出率(%)
受检人数异常人数检出率(%)
血压心率
TTTGPT5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75
:TTT(麝香草酚浊度试验),:GPT(谷丙转氨酶)。表5某省某工厂1994、1998年四项检测指标2.统计表的种类
根据分组标目的复杂程度,统计表可大致分为简单表和复合表。简单表(simpletable):只按一个特征或标志分组。见表6。组合表(combinativetable):按两个或两个以上特征或标志结合起来分组。如表5。2.统计表的种类根据分组标目的复杂程度,统计简单表示例分组标志为矫治方法6简单表示例分组标志为矫治方法6表5某省某工厂1994、1998年四项检测指标异常检出率检测指标1994年1998年受检人数异常人数检出率(%)
受检人数异常人数检出率(%)
血压心率
TTTGPT5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75
:TTT(麝香草酚浊度试验),:GPT(谷丙转氨酶)。
(丁建生等.中国卫生统计1999;16(3):166)复合表示例
分组标志:不同年份不同检测指标表5某省某工厂1994、1998年四项检测指标异常检出例下表是复方猪胆胶囊治疗两型老年性慢性支气管炎的疗效比较,请对该表的绘制进行评价,并指出所存在的问题。表
两个组的疗效观察
分型及疗效
单纯型慢性支气管炎
喘息型慢性支气管炎
指标
治愈
显效
好转
无效
治愈
显效
好转
无效
例数
60
98
51
12
23
83
65
11
合计
209
12
171
11
疗效
%
94.6
94.0
例下表是复方猪胆胶囊治疗两型老年性慢性支气管炎的疗效表7复方猪胆胶囊治疗两型老年慢性支气管炎患者的疗效比较表7复方猪胆胶囊治疗两型老年慢性支气管炎患者的疗效比较一、统计图
统计图(statisticalchart或statisticalgraph)是用点、线、面等几何图形,直观形象地表达、描述数据或结果。
1.统计图的结构
2.
统计图的种类与绘制注意事项一、统计图统计图(statisticalchar1、统计图的结构标题:用于简明扼要地说明资料的内容,一般位于图的下方中央位置。图域:即制图空间,是整个统计图的视觉中心。除圆图外,一般都是存在于特定的坐标体系下。标目:分为纵标目和横标目,表示坐标系下纵轴与横轴的含义。图例:用于识别比较的统计图中各种图形所代表的含义。刻度:即纵轴和横轴上的坐标。刻度数值按从小到大的顺序,纵轴由下向上,横轴由左向右排列。1、统计图的结构标题:用于简明扼要地说明资料的内容,一般位于2.统计图的种类与绘制注意事项直条图百分条图圆图线图与半对数线图直方图箱图散点图统计地图2.统计图的种类与绘制注意事项直条图
(1)条图(bargraph)
1.概念
条图用等宽长条的高度表示按性质分类资料各类别的数值大小,用于表示他们之间的对比关系。
2.适用资料:相互独立的资料(资料有明确分
组,不连续)。
3.分类
(1)单式条图具有一个统计指标,一个分组因素。
(2)复式条图具有一个统计指标,两个分组因素。
(1)条图(bargraph)
条图条图表5某省某工厂1994、1998年四项检测指标异常检出率检测指标1994年1998年受检人数异常人数检出率(%)
受检人数异常人数检出率(%)
血压心率
TTTGPT5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75
:TTT(麝香草酚浊度试验),:GPT(谷丙转氨酶)。
(丁建生等.中国卫生统计1999;16(3):166)条图表5某省某工厂1994、1998年四项检测指标异常检出条图条图绘制条图注意事项
⑴纵轴的刻度必须从“0”开始。
(2)横轴各直条一般按统计指标由大到小排列,也可按事物本身的自然顺序排列。
(3)各直条的宽度要一致,各直条应有相等的间隔,其宽度一般与直条的宽度相等或为直条宽度的一半。
绘制条图注意事项⑴纵轴的刻度必须从“0”开始。(2)圆图(piegraph)
1.概念
以圆形的总面积代表100%,把面积按比例分成若干部分,以角度大小来表示各部分所占的比重。
2.适用资料:构成比资料(2)圆图(piegraph)1.概念
以圆形的2002年某医院1402例孕妇分娩结果分娩结果例数构成比(%)过期产21
1死产21
1早产212
15足月1148
83总某医院1402例孕妇分娩结果分娩结果例数构成比(%(3)百分条图(percentagechart)
百分条图的作用与圆图相同。但更适用于多组百分比的比较。020406080100呼吸系统病脑血管病恶性肿瘤损伤与中毒心脏疾病其它图5我国部分县1988年的死因构成比(3)百分条图(percentagechart)百分条图不同性别某癌三种类型的构成
分化型癌低分化腺癌未分化型合计男52.327.819.9100女30.218.151.7100不同性别某癌三种类型的构成分化型癌低分化腺癌未分化型合计男(4)线图一、普通线图(线图)1.概念线图(linegraph)是用线段的升降来表示统计指标的变化趋势。如某事物随时间的发展变化,或某现象随另一现象变迁的情况。2.适用资料适用于随时间变化的连续性资料。(4)线图一、普通线图(线图)1.概念3.分析目的:用线段的升降表示某事物在时间上的发展变化趋势。3.分析目的:第二讲数据特征与统计描述优质课件二、半对数线图1.概念是一种特殊的线图,其坐标纵轴是对数尺度,特别适宜作不同指标变化速度的比较。
2.适用资料适用于随时间变化的连续性资料,尤其比较数值相差悬殊的多组资料时采用。二、半对数线图1.概念3.分析目的:半对数线图中线段的升降是用来表示某事物发展速度(或者说是相对比)。3.分析目的:第二讲数据特征与统计描述优质课件普通线图(线图):纵横轴均为算术尺度,半对数图:纵轴为对数尺度,横轴为算术尺度。普通线图(线图):纵横轴均为算术尺度,注意:在普通线图中,结核病死亡率线条的坡度比白喉死亡率线条下降的陡峭,只能说明两种疾病的死亡率逐年变化幅度不同,不能错认为结核病死亡率的下降速度比白喉死亡率的下降速度快。在半对数线图中就不会出现这种错觉。在比较事物间的变化速度时,应选择半对数线图。
注意:在普通线图中,结核病死亡率线条的坡度比白(5)直方图1.概念是以直方面积描述各组频数的多少,面积的总和相当于各组频数之和。2.适用资料:直方图用于表达连续性资料的频数分布。(5)直方图1.概念3.制图要求:(1)一般纵轴表示被观察现象的频数(或频率),横轴表示连续变量,以各矩形(宽为组距)的面积表示各组段频数。(2)直方图的各直条间不留空隙;各直条间可用直线分隔,但也可不用直线分隔。(3)组距不等时,横轴仍表示连续变量,但纵轴是每个横轴单位的频数。3.制图要求:第二讲数据特征与统计描述优质课件(6)散点图1.概念
散点图以直角坐标系中各点的密集程度和趋势来表示两现象间的关系。常在对资料进行相关分析之前使用。
2.适用资料:双变量资料。(6)散点图1.概念
散点图以直角坐标系中各点的密12名女大学生身高与体重散点图12名女大学生身高与体重散点图六、箱丝图与误差限图多用于比较两组或多组资料的平均指标与变异指标,描述其分布特征
1.箱丝图(boxandwhiskerdiagram)
适用于非正态或非对称分布的资料。六、箱丝图与误差限图第二讲数据特征与统计描述优质课件第二讲数据特征与统计描述第二讲数据特征与统计描述99第一节频数分布表与频数分布图第一节频数分布表与频数分布图
一、频数分布表(frequencytable)
用途:用于描述资料的分布特征
频数:在一批样本中,相同情形出现的次数称为该情形的频数。资料类型组段频数计数和等级观察结果的所有分类相同类别出现的次数计量根据观察结果重新划分分组统计一、频数分布表(frequencytable)
用途:表1某地150名正常成年男子红细胞数(1012/L)
编号红细胞数编号红细胞数13.98……24.541434.6734.741445.4045.131455.2954.431464.7764.811475.3874.981485.1583.791494.64……1505.19表1某地150名正常成年男子红细胞数(1012/L)1.频数表的编制步骤(1)求极差(range):即最大值与最小值之差,又称为全距。本例极差:R=5.88-3.79=2.09
(1012/L)(2)决定组数、组段和组距:根据研究目的和样本含量n确定。组距=极差/组数,通常分8-15个组,为方便计,组距参考极差的十分之一,再略加调整。本例i=R/10=2.09/10=0.209≈0.2。1.频数表的编制步骤(1)求极差(range):即最大值与(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。(3)列出组段:第一组段的下限略小于最小值,最后一个组段上
组段(1)
频数,f(2)
组中值,X(3)
fX(4)=(2)×(3)3.7~13.83.83.9~44.016.04.1~114.246.24.3~174.474.84.5~264.6119.64.7~324.8153.64.9~265.0130.05.1~185.293.65.3~105.454.05.5~45.622.45.7~5.9
合计15.85.8150719.8组段频数,f组中值,XfX3三、频数分布图
三、频数分布图
百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。样本率(或构成比)同样存在抽样误差,故应进行样本率(或构成比)差别的假设检验。统计图的种类与绘制注意事项负偏态分布时:均数<中位数n为样本例数(样本大小、样本含量)总体:有限或无限个定性(分类)变量值4.便于进一步做统计分析和处理符号:总体样本
适用条件:资料呈对称分布,尤其是正态或近似正态。如:治愈率、病死率、阳性率、人群患病率等(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。X1,X2,X3,……,Xn率),横轴表示连续变量,以各矩形(宽(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。X1,X2,X3,……,Xn(1)条图(bargraph)
1.绝对数百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。如:治愈率、病死率、阳性率、人群患病率等二、频数表和频数分布图用途1.描述频数分布的类型*(1)对称分布:若各组段频数的分布以频数最多的组段为中心左右两侧大体对称(总体则完全对称),就认为该资料是对称分布(2)偏态分布:百分位数:数据从小到大排列;在百分尺度下,所占百分比对应右偏态分布(正偏态分布):频数最多组段右侧的组段数多于左侧的组段数,高峰向左偏移,频数向右侧拖尾。
表2115名正常成年女子血清转氨酶(mmol/L)含量分布右偏态分布(正偏态分布):频数最多组段右侧的组段数多于左侧的第二讲数据特征与统计描述优质课件左偏态分布(负偏态分布):
左侧的组段数多于右侧的组段数,频数向左侧拖尾。表3101名正常人的血清肌红蛋白()含量分布左偏态分布(负偏态分布):左侧的组段第二讲数据特征与统计描述优质课件2.描述计量资料分布的
集中趋势和离散趋势①集中趋势(centraltendency):变量值集中位置。本例在组段“4.7~”。——平均水平指标②离散趋势(tendencyofdispersion):变量值围绕集中位置的分布情况。离“中心”位置越远,频数越小;且围绕“中心”左右对称。——变异水平指标
2.描述计量资料分布的
集中趋势和离散趋势①集中3.便于发现一些特大或特小的可疑值*3.便于发现一些特大或特小的可疑值*率(rate)(强度相对数)(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。3.变异系数主要用于单位不同或均数相差悬殊资料②同单位资料,但均数相差悬殊确定医学参考值范围(referencerange):表示一组数据的平均离散情况。不同检测指标3.百分位数与四分位数间距
PercentileandQuartilerange
3.例:几何均数=反对数(72.2、计算相对数的分母不宜过小。总体:有限或无限个定性(分类)变量值右偏态分布(正偏态分布):频数最多组段右侧的组段数多于左侧的组段数,高峰向左偏移,频数向右侧拖尾。如2005级临床五年制一、二大班学生人数不同时,比较两班医学统计学的及格人数没有意义,因此需要在绝对数的基础上计算相对数。概念
条图用等宽长条的高度表示按性质分类资料各类别的数值大小,用于表示他们之间的对比关系。=13.分类
(1)单式条图具有一个统计指标,一个分组因素。偏态分布:中位数、四分位半间距患者年龄构成比(%)在比较事物间的变化速度时,4.便于进一步做统计分析和处理率(rate)(强度相对数)4.便于进一步做统计分析和处理第二节计量资料的常用统计指标描述集中趋势的特征数描述离散趋势的特征数第二节计量资料的常用统计指标描述集中趋势的特征数计量资料(定量资料、数值变量资料)总体:有限或无限个(定量)变量值样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xnn为样本例数(样本大小、样本含量)计量资料(定量资料、数值变量资料)一、描述集中趋势的特征数(平均指标)总称为平均数(average)反映了资料的集中趋势(centraltendency)。常用的有:
1.算术均数(arithmeticmean),简称均数
(mean)
2.几何均数(geometricmean)
3.中位数(median)
一、描述集中趋势的特征数(平均指标)总称为平均数(avera均数(mean)Σ为求和符号,读成sigma,k,X,f意义“权数”符号:总体样本
适用条件:资料呈对称分布,尤其是正态或近似正态。
计算:
(1)直接法(2)频数表法均数(mean)Σ为求和符号,读成sigma,k,X,2.几何均数(geometricmean)几何均数:变量对数值的算术均数的反对数。
2.几何均数(geometricmean)几何均数:变量几何均数的适用条件与实例适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料
例血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。此例的算术均数为22222,显然不能代表滴度的平均水平。同一资料,几何均数<均数几何均数的适用条件与实例适用条件:呈倍数关系的等比资料或对数频数表资料的几何均数抗体滴度⑴
人数,f⑵
滴度倒数,X⑶lgX⑷
f·lgX⑸1:4
1:81:161:32┇1:512
合计1562┇572481632┇5120.60210.90311.20411.5051┇2.70930.60214.51557.22463.0102┇13.546572.2471例:几何均数=反对数(72.2471/40)=64.00频数表资料的几何均数抗体滴度人数,f滴度倒数,XlgX3.中位数(median)
意义:中位数是将一批数据从小至大排列后位次居中的数据值,反映一批观察值在位次上的平均水平。符号:Md
适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料;②资料有不确定数值;③资料分布不明等。
3.中位数(median)意义:中位数是将一中位数计算公式与实例
先将观察值按从小到大顺序排列,再按以下公式计算:特点:仅仅利用了中间的1~2个数据例:5人潜伏期:2,3,5,8,20中位数计算公式与实例先将观察值按从小到大顺序排列,再按以下频数表资料的中位数下限值L上限值Ui;fm中位数Md频数表资料的中位数下限值L上限值Ui;fm中位数Md
潜伏期/h
(1)
频数,f(2)
累计频数Sf(3)0~17176~466312~3810118~3213324~613930~013936~414342~48
合计2145145例中位数=12+6x[(145x50%-63)/38]
=13.5(h)潜伏期/h频数,f累计频数Sf0~17176均数、中位数二者关系正态分布时:均数=中位数正偏态分布时:均数>中位数负偏态分布时:均数<中位数均数、中位数二者关系正态分布时:均数=中位数2、计算相对数的分母不宜过小。百分位数与四分位数间距
Percentileandquartilerange标准差StandardDeviation
5.平均数:描述一组变量值的集中位置或平均水平的指标体系。P25=6+6x[(145x25%-17)/46]=8.度,特别适宜作不同指标变化速度的比较。X1,X2,X3,……,Xn(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。负偏态分布时:均数<中位数表2115名正常成年女子血清转氨酶(mmol/L)含量分布标准差StandardDeviation
5.相对数:两个有联系的指标之比,常用的相对数有:无量纲,[0,1]。如:治愈率、病死率、阳性率、人群患病率等总体:有限或无限个定性(分类)变量值表1某地150名正常成年男子红细胞数(1012/L):TTT(麝香草酚浊度试验),:GPT(谷丙转氨酶)。总称为平均数(average)反映了资料的集中趋势(centraltendency)。统计图的种类与绘制注意事项(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。中位数:一般偏态分布(传染病发病的潜伏期)小结:
集中趋势的描述——平均数
平均数:描述一组变量值的集中位置或平均水平的指标体系。
不同的分布使用不同的指标
(算术)均数:正态或近似正态或观察值相差不大的小样本资料几何均数:对数正态分布或等比级数资料中位数:一般偏态分布(传染病发病的潜伏期)2、计算相对数的分母不宜过小。小结:
集二、描述离散趋势的特征数
(变异(variation)指标)
反映数据的离散度(Dispersion)。即个体观察值的变异程度。常用的指标有:
1.极差(Range)(全距)
2.百分位数与四分位数间距
PercentileandQuartilerange
3.方差Variance
4.标准差StandardDeviation
5.变异系数CoefficientofVariation
二、描述离散趋势的特征数
(变异(variation)指
盘编号甲乙丙14404804902460490495350050050045405105055560520510合计250025002500均数500500500
例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)甲乙丙盘编号甲乙丙14404804902460490495351.极差(Range)(全距)
1204020符号:R意义:反映全部变量值的变动范围。
优点:简便,如说明传染病、食物中毒的最长、最短潜伏期等。
缺点:1.只利用了两个极端值
2.n大,R也会大
3.不稳定适用范围:任何计量资料;是参考变异指标1.极差(Range)(全距)1204020符号:R2.百分位数与四分位数间距
Percentileandquartilerange百分位数:数据从小到大排列;在百分尺度下,所占百分比对应的值。记为Px。四分位间距:
(定义:P53)Q=P75-P25
四分位半间距quartiledeviation:QD=QR/2P100(max)P75P50(中位数)P25P0(min)Px2.百分位数与四分位数间距
Percentileand频数表资料的百分位数下限值L上限值Ui;fm百分位数Px频数表资料的百分位数下限值L上限值Ui;fm百分位数PxP25=6+6x[(145x25%-17)/46]=8.51(h)P75=18+6x[(145x75%-101)/32]=19.45(h)Q=19.45-8.51=10.94(h)
潜伏期/h
(1)
频数,f(2)
累计频数Sf(3)0~17176~466312~3810118~3213324~613930~013936~414342~48
合计2145145P25=6+6x[(145x25%-17)/46]=8.51百分位数的应用确定医学参考值范围(referencerange):如95%参考值范围=P97.5-P2.5;表示有95%正常个体的测量值在此范围。中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征百分位数的应用确定医学参考值范围(referencera3.方差
方差(variance)也称均方差(meansquaredeviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。3.方差方差(variance)也称均方差(me样本方差为什么要除以(n-1)数理统计证明,n代替N后,计算出的样本方差对总体方差的估计偏小。对于样本资料,对离均差平方和取平均时分母用n-1代替n。样本方差为什么要除以(n-1)数理统计证明,n代替N后,计算4.标准差
标准差(standarddeviation)即方差的正平方根;其单位与原变量X的单位相同。4.标准差标准差(standarddeviat其单位与原变量X的单位相同。标目:分为纵标目和横标目,表示坐标系下纵轴与横轴的含义。标准差StandardDeviation
5.绝对数符号:总体样本
适用条件:资料呈对称分布,尤其是正态或近似正态。概念
以圆形的总面积代表100%,把面积按比例分成若干部分,以角度大小来表示各部分所占的比重。极端值适用资料:双变量资料。3.不同检测指标表5某省某工厂1994、1998年四项检测指标异常检出率(1)求极差(range):即最大值与最小值之差,又称为全距。第三节计数资料的常用统计指标中位数(median)3.变异系数主要用于单位不同或均数相差悬殊资料刻度数值按从小到大的顺序,纵轴由下向上,横轴由左向右排列。不同的分布使用不同的指标普通线图(线图):纵横轴均为算术尺度,标准差的计算盘编号甲乙丙甲2乙2丙214404804901936002304002401002460490495211600240100245025350050050025000025000025000045405105052916002601002550255560520510313600270400260100合计250025002500126040012510001250250标准差50.9915.817.91其单位与原变量X的单位相同。标准差的计算盘编号甲乙丙甲2乙方差=(3476.48-719.82/150)/(150-1)=0.1503标准差=0.39(1012/L)
组段(1)
频数,f(2)
组中值,X(3)
fX(4)=(2)×(3)3.7~13.83.83.9~44.016.04.1~114.246.24.3~174.474.84.5~264.6119.64.7~324.8153.64.9~265.0130.05.1~185.293.65.3~105.454.05.5~45.622.45.7~5.9
合计15.85.8150719.8方差=(3476.48-719.82/150)/(150-15.变异系数(coefficientofvariation)符号:CV适用条件:①观察指标单位不同,如身高、体重②同单位资料,但均数相差悬殊均数
标准差变异系数青年男子身高170cm6cm3.5%体重60kg7kg11.7%
意义:挑选指标时变异系数越小,指标越好。5.变异系数(coefficientofvariatio变异指标小结1.极差较粗,适合于任何分布2.标准差与均数的单位相同,最常用,适合于近似正态分布3.变异系数主要用于单位不同或均数相差悬殊资料4.平均指标和变异指标分别反映资料的不同特征,常配套使用如正态分布:均数、标准差;偏态分布:中位数、四分位半间距变异指标小结1.极差较粗,适合于任何分布第三节计数资料的常用统计指标一、计数资料的数据整理二、常用相对数指标三、应用注意事项第三节计数资料的常用统计指标一、计数资料的数据整理
计数资料(分类资料):总体:有限或无限个定性(分类)变量值样本:从总体中抽取的n个定性(分类)变量值整理为:分类个体数,即:计数资料频数表绝对数计数资料(分类资料):一、计数资料的数据整理
计数资料:按某种属性分类,然后清点每类的数据(以下是:孕妇分娩资料)住院号年龄职业文化程度分娩方式妊娠结局202565527无中学顺产足月202565322无小学助产足月202583025管理人员大学顺产足月202567724知识分子中学顺产早产202564730管理人员大学顺产足月202584832无小学剖宫产足月201991527无中学顺产死产202586129无大学剖宫产足月202460125农民中学顺产足月200038626无小学顺产足月一、计数资料的数据整理计数资料:按某种属性分按年龄(2岁一组)与职业整理年龄工人管理人员农民商业服务无知识分子总计18
2
0
0
0
3
0
520
9
2
610
18
0
452228
71024
70111502450342852153443612650432545133703662834351034
78572483011141122
39171143214
2
314
24
3
6034
4
2
5
3
12
2
2836
2
1
1
4
5
1
1438
3
1
1
0
2
1
840
0
0
2
0
0
0
2合计
207
1411022085372061401按年龄(2岁一组)与职业整理年龄工人管理人员农民商业服务无知二、常用相对数绝对数:通过调查或实验得到的原始数据。如某病的出院人数、治愈人数、死亡人数等。但绝对数通常不具有可比性:1.如2005级临床五年制一、二大班学生人数不同时,比较两班医学统计学的及格人数没有意义,因此需要在绝对数的基础上计算相对数。相对数:两个有联系的指标之比,常用的相对数有:一、比二、比率三、速率二、常用相对数绝对数:通过调查或实验得到的原始数据。如某病的相对比简称比,是两个有关指标之比,说明两指标间的比例关系。计算公式为式中两指标可以是绝对数、相对数或平均数。(一)比(ratio)相对比简称比,是两个有关指标之比,说明两指标间的比例关系。((一)两个绝对数之比:
如某年某医院出生婴儿中,男性婴儿为370人,女性婴儿为358人,则出生婴儿性别比例为370/35
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 盆景师应急处置分析及对策
- 氯氢处理工技能测试题库及答案
- 发电集控值班员实操任务书
- 熔炼浇注工职业技能模拟试卷含答案
- 浴池服务员职业技能模拟试卷含答案
- 氯丙烯装置操作工职业技能鉴定经典试题含答案
- 钻井工岗位实习报告
- 驯马工公司招聘笔试题库及答案
- 数控组合机床操作调整工基础技能培训手册
- 缫丝工技能测试题库及答案
- 虚拟货币行业分析及未来展望研究报告
- 海洋物理现象研究:南海东北部深层次结构与湍流混合机制
- 农业水利考试试题及答案
- 医疗质量安全 培训课件
- 2025中国核工业集团公司招聘(300人)笔试参考题库附带答案详解
- 肺结核患者护理课件
- 商业房屋租赁合同协议书
- 弘扬教育家精神做新时代大学教师
- 生态环境执法案件培训
- 孕期健康方式课件
- 2025至2030年中国油页岩行业市场竞争格局及发展前景研判报告
评论
0/150
提交评论