计量资料的统计描述_第1页
计量资料的统计描述_第2页
计量资料的统计描述_第3页
计量资料的统计描述_第4页
计量资料的统计描述_第5页
已阅读5页,还剩175页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章计量资料的统计描述1/14/20241学习目的与要求1.掌握频数分布表的用途。2.掌握均数、几何均数、中位数的适用条件。3.掌握变异程度的指标。4.熟悉百分位数的应用。1/14/20242第一节频数分布1/14/20243对一组研究对象进行观察,某变量或指标数值出现的次数称为频数〔frequency)。当观察例数较多时,可通过资料的整理,编制频数分布表,简称频数表〔frequencytable〕。1/14/202441/14/202451、求全距〔极差〕

R=最大值-最小值

=5.71-2.35=3.36mmol/L

2、确定组段数和求组距〔i〕

i=极差/组数=3.36/10=0.336≌0.3(组数一般分8~15,组距尽可能取整)编制频数表的步骤:1/14/202463、分组段原那么:第一组段包括最小值,最后组段包括最大值。每一组段都有上限和下限下限:组段的起点〔最小值〕上限:组段的终点〔最大值〕上限=下限+组距1/14/202474、列表划记组段划记频数组段划记频数2.30--4.40-2.60--4.70-2.90-5.00--3.20-5.30-3.80-4.10--2.354.213.32方法:对号入座1/14/202481/14/20249二、频数分布图以变量值〔身高〕为横轴,以频数为纵轴,可绘制频数分布图。每一组段画一直条,直条的面积与该组频数成正比,称为直方图〔histogram〕。1/14/2024101/14/202411三、频数分布的特征①集中趋势(centraltendency):频数向中间集中,中等水平的人数最多。②离散趋势(tendencyofdispersion):随变量值逐渐变大变小,人数越来越少,即向两端分散。1/14/2024121/14/2024131/14/202414四、频数分布的类型〔1〕对称分布:观察值向中央局部集中,以中等数据居多,左右两侧分布大体对称。1/14/2024151/14/2024161/14/202417〔2〕偏态分布:集中位置偏离中央,频数分布左右不对称。如集中位置偏向小的一侧,称正偏态分布;如集中位置偏向大的一侧,称负偏态分布。1/14/2024181/14/202419正(右)偏态分布:顶峰偏于左侧,长尾向右侧伸延负〔左〕偏态分布:顶峰偏于右侧,长尾向左侧伸延1/14/202420对称分布1/14/202421四、频数表的用途:

1、揭示资料的分布特征和分布类型2、便于进一步计算指标和统计分析3、便于发现特大或特小的可疑值

1/14/202422描述计量资料分布特征的指标集中趋势指标离散趋势指标平均数R、Q、S、CV第二节集中趋势的描述

1/14/2024231/14/2024241/14/202425

1、直接计算法观察例数不多或计算机分析选用。1/14/202426某地抽样得5名7岁男孩体重〔kg〕分别为:17.3,18.0,19.4,20.6,21.2。求其均数。=19.3〔kg〕例:1/14/202427用直接法计算例2-1某单位101名正常成人女子血清总胆固醇的均数。=4.03〔mmol/L〕例:2-21/14/2024282、加权法观察例数多又无计算机处理时选用。

1/14/202429例2-1

计算101名正常成年女子血清总胆固醇的均数。

①组中值=(本组下限+下组下限)/2

②fx=f•x

③fx2=x•fx=f•x2

④1/14/2024301/14/2024313、均数的特性〔1〕各观察值与均数之差〔离均差〕的总和等于零,即〔2〕各观察值的离均差平方和最小,即1/14/2024324、均数的应用〔1〕均数反映一组同质观察值的平均水平,并可作为样本的代表值与其他样本进行比较。〔2〕均数适用于描述单峰对称分布,特别是正态分布或近似正态分布资料的集中趋势。〔3〕均数在描述正态分布特征方面具有重要的意义。1/14/202433二、几何均数〔简记为G〕1、适用资料:〔1〕等比级数资料(呈倍数关系的资料〕〔2〕对数正态分布资料〔血清抗体滴度资料〕1/14/202434

1、直接法观察例数不多时选用。1/14/202435例2—4

某地5例微丝蝴血症患者治疗7年后用间接荧光抗体试验测得其抗体滴度倒数分别为10,20,40,40,160,求几何均数。1/14/202436例:6份钩端螺旋体显凝试验的血清效价为:1:50,1:100,1:200,1:400,1:800,1:1600。求其平均血清效价。=lg-1〔2.4515)=282.5故其平均血清效价为1:282.51/14/202437

2、加权法观察例数较多时选用。先将资料编成频数分布表,再按公式计算:1/14/202438

具体步骤:1、编成频数分布表;2、求滴度倒数;3、取滴度倒数的对数;4、频数乘以滴度倒数的对数1/14/202439例2—569例类风湿关节炎(RA)患者血清EBV—VCA—1gG抗体滴度的分布见表2—5第(1)、(2)栏,求其平均抗体滴度。1/14/2024401/14/202441例2.3计算326人菌苗接种2个月后lgG滴度的平均滴度。=lg-1〔2.1441〕=139.35平均滴度为1:139.35。1/14/202442lgG滴度倒数(X)人数(f)lgXflgX20161.301020.81640571.602191.319780761.9031144.6356160752.2041165.3075320542.5051135.2754640252.806270.1551280233.107271.4656合计326--698.9748表2-3菌苗接种2个月后lgG滴度1/14/2024433、应用几何均数本卷须知:〔1〕观察值不能有0;〔2〕观察值不能同时有正负值;〔3〕同一资料求得的G<1/14/202444三、中位数〔M〕和百分位数〔Px〕适用范围:〔1〕偏态分布资料〔2〕分布不明资料〔3〕分布末端无确定值资料〔开口资料〕

1/14/202445某市238名健康人发汞含量发汞值〔μg/g〕人数〈0.330.3-170.7-661.1-601.5—481.9—182.3—162.7—63.1—13.5—1≥3.92合计2381/14/202446

总胆红素人数〔μmol/L〕一般组重症组<174017~10080~153160~19240~02320~04400~04合计3022两组肝炎婴儿的血清总胆红素测定结果

1/14/2024471/14/202448理论上,中位数和百分位数可用于任何分布的计量资料,但实际应用中常用于偏态分布,特别是开口资料。1/14/202449〔一〕中位数定义将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数。用M表示。在全部观察值中,大于和小于中位数的观察值的个数相等。

1/14/202450〔1〕直接计算方法将变量值从小到大排列,再按下式计算:n为奇数M=X〔n+1)/2

n为偶数1/14/202451例:某病患者7人潜伏期〔d〕从小到大排列为2、3、4、5、6、9、16,求中位数。

本例n=7为奇数M=X〔n+1)/2=X4=5〔d〕1/14/202452例:某病患者10人潜伏期〔d〕从小到大排列为1、3、8、9、15、19、20、23、25、30,求中位数。

1/14/202453〔2〕频数表法适用于观察值个数较多时,其步骤如下:1、将资料编制成频数分布表;2、计算累计频数和累计频率;3、找出中位数所在组段;累计频率最先到达50%的组段4、按公式计算。1/14/202454潜伏期〔h〕频数f累计频数累计频率〔%〕0~303016.5712~639351.3824~4714077.3536~2016088.4048~1217295.0360~818099.4572-841181100.00表14-4181名食物中毒患者的潜伏期1/14/202455计算公式:L:中位数所在组段的下限

fx:中位数所在组段的频数∑fL:中位数所在组段以前的累积频数1/14/202456

例14.7某医生调查了181名食物中毒患者的潜伏期,见表14-4,求其中位数反映其平均水平。1/14/202457潜伏期〔h〕频数f累计频数累计频率〔%〕0~303016.5712~639351.3824~4714077.3536~2016088.4048~1217295.0360~818099.4572-841181100.00表14-4181名食物中毒患者的潜伏期1/14/202458〔二〕百分位数将n个观测值从小到大排列,分成100等份,与第x百分位次对应的观测值称为第x百分位数,用Px表示。百分位数是一种位置指标。1/14/202459一个百分位数将全部观察值分为两局部,理论上有x%的观察值比它小,〔100-x〕%观察值比它大。0%x

%

100%x%观察值(100-x)%观察值1/14/202460中位数是一个特定的百分位数,即P50在全部观察值中,有50%的观察值比它小,〔100-50〕%观察值比它大。1/14/2024611、直接计算法计算公式为:当nX%为带有小数位数时:当nX%为整数时:1/14/2024621/14/202463

用频数表计算百分位数的公式:

L:第x百分位数所在组段的下限

fx:第x百分位数所在组段的频数∑fL:第x百分位数所在组段以前的累积频数2、频数表法1/14/20246425%1/14/20246575%1/14/20246650%1/14/202467潜伏期〔h〕频数f累计频数累计频率〔%〕0~303016.5712~639351.3824~4714077.3536~2016088.4048~1217295.0360~818099.4572-841181100.00表181名食物中毒患者的潜伏期1/14/202468潜伏期〔天〕频数f累计频数累计频率〔%〕2~262623.634~487467.276~259990.008~610595.4510~310898.1812~2110100.00某传染性的潜伏期〔天〕的中位数和百分数数计算表1/14/2024693、中位数和百分位数的用途:〔1〕中位数描述一组偏态资料的集中趋势;百分位数描述一组资料在某百分位置的水平在对称分布资料中,M=〔2〕百分位数也用于确定医学参考值范围。1/14/202470应用中位数和百分位数时注意1、对资料的分布没有特殊要求,所有的资料均可计算。2、分布在中间的百分位数(50%)较稳定,靠近两端的百分位数〔99%〕不稳定。1/14/202471

3、中位数不如均数精确,但抗极端值的影响比均数的稳定性好。当资料适合计算均数或几何均数时,不宜计算中位数表示其平均水平。1/14/202472集中趋势指标的选择判断步骤:

资料

抗体滴度G否偏态、开口M否X是是1/14/202473

第三节离散程度指标

离散指标又称变异指标,它描述数值变量资料频数分布的离散趋势。常用指标有:全距、方差、标准差、变异系数和四分位数间距。1/14/202474

甲组90,95,100,105,110.=100乙组96,98,100,102,104.=100丙组96,99,100,101,104.

=100

均数只描述集中趋势,没有描述变量值之间的差异,变异指标描述变量的变异〔离散〕趋势。1/14/202475一、极差〔全距〕R1、计算公式:R=最大值-最小值

甲组90,95,100,105,110.R=110-90=20乙组96,98,100,102,104.R=104-96=8丙组96,99,100,101,104.

R=104-96=81/14/202476极差只表示两极端数值的差异,而不能综合反映每个变量值的变异情况。1/14/2024772、意义:R愈大,离散度愈大,R愈小,离散度愈小。3、优点:计算简单,意义明了4、缺点:〔1〕不能反映每一个观察值的变异;〔2〕样本例数越大,R可能越大;〔3〕R抽样误差大,不稳定。1/14/202478二、四分位数间距〔Q〕Q是上四分位数Qu〔P75〕与下四分位数QL〔P25〕之差。Q=Qu-QL其间包括全部观察值的一半。P75P25MP0P1001/14/202479Q和R类似,比R稳定,但仍未考虑到每个观察值的变异程度。Q与M配合使用〔M±Q〕,用于描述偏态分布资料、分布末端无界限而不能计算全距、方差和标准差的资料。1/14/20248025%1/14/20248175%1/14/2024821、计算公式:四分位数间距Q=QU-QLP25:下四分位数,简记QLP75:上四分位数,简记QU

P75-P25=67.7-39.2=28.5(天)1/14/202483潜伏期〔h〕频数f累计频数累计频率〔%〕0~303016.5712~639351.3824~4714077.3536~2016088.4048~1217295.0360~818099.4572-841181100.00表14-4181名食物中毒患者的潜伏期1/14/2024842、意义:

中间一半观察值的极差,意义与R相似。3、特点:(1)比R稳定,但仍未考虑每一个观察值的变异;(2)常用于描述偏态资料的离散度。1/14/202485三、方差和标准差为衡量每个变量值的变异情况,计算:离均差之和∑〔X-μ〕但∑〔X-μ〕=0。1/14/202486于是计算:离均差平方和∑〔X-μ〕2用SS或表示,它又受样本含量〔变量值个数〕大小的影响,所以取其平均值表示,称为方差〔MS〕。1/14/202487

方差是另一变异指标,方差越大,表示变量值的变异程度越大,观察值分布越离散。1、计算公式:

1/14/2024882、意义:方差越大,离散度越大;方差越小,离散度越小。

3、缺点:单位被平方,不便于使用1/14/202489方差的单位被平方,与均数单位不一致,不便于比较,于是取其平方根,称为〔总体〕标准差〔σ〕。标准差是最常用的变异指标。1/14/202490

总体均数μ常是未知的,只能用样本均数X代替,而得样本标准差(S)

,作为总体标准差的估计值。1/14/202491

数理统计研究:样本标准差较总体标准差偏小,因此用n-1代替n,n-1称为自由度(v)。1/14/2024921、标准差的计算方法〔1〕直接法〔小样本〕为方便计算,前式变为:1/14/202493例14.10:5个8岁男孩的体重〔kg〕为:26、28、30、32、34,试求其标准差。n=5,1/14/202494〔2〕加权法〔大样本〕先将资料编成频数表,再按公式计算:1/14/2024951/14/202496例2-14计算例2-1中101名正常成年女子的血清总胆固醇的标准差1/14/2024971/14/202498例14.11求表14-2中150名3岁女孩体重的标准差1/14/202499标准差的用途:①适用于对称分布,特别是正态分布资料,表示观测值分布的离散程度。1/14/2024100标准差大,说明观测值的变异程度大,即观测值围绕均数分布较离散,均数的代表性较差;标准差小,说明观测值的变异程度小,即观测值围绕均数分布较密集,均数的代表性较好。1/14/2024101②估计观测值的频数分布和医学参考值范围。③结合均数描述正态分布的特征;④计算标准误。⑤计算变异系数1/14/2024102四、变异系数〔CV)比较均数相差悬殊或单位不同的两组〔或多组〕观测值的变异程度时,不宜用标准差,而需计算变异系数进行比较。1/14/2024103用途:〔1〕比较度量衡单位不同的多组资料的变异度〔离散度〕〔2〕比较均数相差悬殊的多组资料的变异度〔离散度〕1/14/2024104特点:CV没有单位,是相对数,便于资料间的比较。变异系数1/14/2024105例:某地7岁男孩身高〔单位cm〕X1=123.10,s1=4.71;体重〔单位kg〕X2=22.29,s2=2.26。比较身高和体重的变异程度。1/14/2024106例10小学生胸围〔单位cm〕X1=67.1,s1=3.0;背肌力〔单位kg〕X2=37.0,s2=2.5。比较胸围和背肌力的变异程度。CV1<CV2

,背肌力的变异程度大于胸围。1/14/2024107例14.13某地200名2月女婴身高均数为56.9cm,标准差为2.3cm;而同年该地150名5岁女孩身高均数为109.2cm,标准差为3.1cm。比较不同年龄女性的身高的离散程度。1/14/2024108

CV1>CV2

,2月女婴身高的离散程度大于5岁女婴身高的离散度。1/14/2024109集中趋势指标资料

抗体滴度G、S否偏态、开口M、Q否X、S是是选择判断的步骤:离散趋势指标单位不同均数相差悬殊CV1/14/2024110第四节正态分布〔Gauss分布〕1/14/20241111/14/2024112一、正态分布的概念和特征(一)正态分布的概念

两头低,中间高,左右对称,呈钟型的单峰曲线。

1/14/20241131、正态分布曲线的函数式为:式中称密度函数,是与X对应的正态曲线的纵坐标高度。1/14/2024114注意:对称分布不一定是正态分布

对于不便作统计处理的医学资料,但有的通过对数变换〔即原数据lgX代替X〕,后服从正态分布,可按正态分布来处理,如人体血铅含量、血清滴度等,经对数转化后呈正态分布。正态性检验对称分布正态分布1/14/2024115制图工具:SPSSforwindows1/14/20241162、正态分布的特征〔1〕正态分布曲线在横轴上方均数处最高。〔2〕正态分布以均数为中心,左右对称,逐渐降低,两端永不与横轴相交。1/14/20241171/14/2024118〔3〕有两个参数均数μ:位置参数,决定曲线的中心位置;μ越大,曲线越向右移;μ越小,那么曲线越向左移。1/14/20241191/14/2024120标准差-离散度参数,决定曲线的形态:当μ一定时,σ越大,表示数据越分散,曲线越“胖〞;σ越小,表示数据越集中,曲线越“瘦〞。1/14/20241211/14/20241221/14/2024123(4)正态曲线下面积分布有一定规律:

无论μσ取什么值,正态曲线与横轴间的面积总等于1面积总等于11/14/2024124假设以曲线下的面积为100%,正态曲线下面积的分布规律变量值曲线下面积(变量值出现概率)μ±1.0σ68.27%μ±1.96σ95.00%μ±2.58σ99.00%1/14/2024125如果资料呈正态分布,且样本足够大〔如n>100),可样本指标代替总体指标变量值曲线下面积(变量值出现概率)X±1.0S68.27%X±1.96S95.00%X±2.58S99.00%1/14/2024126μ±1σ范围占正态曲线下面积的68.27%。1/14/2024127

μ±1.96σ范围占正态曲线下面积的95%。

1/14/2024128μ±2.58σ范围占正态曲线下面积的99%。1/14/20241291、-∞~μ-1.96σ的面积是2、-∞~μ+1.96σ的面积是3、μ+1.96σ~∞的面积是4、μ~μ+1.96σ的面积是5、μ-1.96σ~∞的面积是1/14/20241303、正态分布的应用1〕估计频数分布2〕制定参考值范围3〕质量控制4〕统计处理方法的根底1/14/2024131二、标准正态分布〔一〕标准正态分布与标准化变换正态分布是一个分布族。对应于不同的参数μ和σ会产生不同位置,不同形状的正态分布。1/14/2024132-1.9601.961/14/2024133为应用方便,将任何正态分布N〔μ,σ〕变换成的正态分布N〔0,1〕,称为标准正态分布〔u分布〕。变换方法是将变量值X变换为u(标准正态离差)1/14/2024134将任何均数为μ,标准差为σ的正态分布N〔μ,σ2〕变换成μ=0,σ=1的正态分布N〔0,1〕,称为标准正态分布,也称u分布。1/14/20241351/14/20241361/14/20241371/14/20241384.04.035.048.01%7.08%44.91%1/14/2024139查表确定标准正态分布曲线下的面积时必须注意:

〔1〕当μ,σ和X时,先按u变换公式求得u值,再用u值查表;1/14/2024140当μ,σ和X未知时,用样本均数和样本标准差S代替求u值。

1/14/2024141〔2〕查表时,可以利用标准正态分布的两个特征:a.曲线下对称于0的区间,面积相等;b.曲线下横轴上的总面积为100%或1。1/14/2024142例3.3=121.95cm,S=4.72cm欲估计身高界于范围内的7岁男童比例及人数。116.5119.0求该面积1/14/2024143

116.5-121.95u1==-1.154.72

119.0-121.95u2==-0.634.721/14/2024144Ф(u1)=Ф(-1.15)=0.1251

Ф(u2)=Ф(-0.63)=0.2643

Ф(u2)-Ф(u1)

=

0.2643-0.1251=0.1392=13.92%

即身高界于范围内的7岁男童比例为13.92%,其人数为110×13.92%=15〔人〕。1/14/2024145一、根本概念医学参考值:正常人〔或动物〕的个体形态、功能和代谢产物等的各种生理和生化常数。由于个体指标的变异,需要确定其波动范围,即医学参考值范围。第五节医学参考值范围的制定1/14/2024146〔一〕医学参考值范围制定的一般原那么:

1、抽取足够数量的“正常人〞作为调查对象2、对选定的正常人进行统一而准确的测定3、考虑是否应按性别、年龄、职业等因素分组确定医学参考值范围4、确定取单侧还是双侧医学参考值范围5、选定适当的百分界限6、选择适当制定方法1/14/2024147〔二〕制定参考值的根本步骤1、选择样本含量足够大的“正常人〞足够大的样本含量,一般认为每组n>100。“正常人〞指排除了影响所研究指标的疾病和有关因素的同质人群。1/14/2024148例如:制定SGPT〔谷丙转氨酶〕正常值范围,“正常人〞的条件是:a.无肝、肾、心、脑、肌肉等疾患;b.近期无服用损肝的药物〔如氯丙嗪,异烟肼〕c.测定前未作剧烈运动。1/14/2024149对选定的正常人进行统一而准确的测定:

(1)测定的方法、仪器、试剂,操作的熟练程度,方法的精确度均要统一;(2)要尽量与应用医学参考值范围时的实际情况一致。

1/14/20241502、控制测量误差测量误差控制在一定的范围内。3、判断是否需要分组确定参考值范围原那么上组间差异明显,差异有实际意义应分开,否那么应当合并确定。1/14/2024151考虑是否应按性别、年龄、职业等因素分组确定医学参考值范围。

1/14/2024152考察组间差异最简便而有效的方法是:

从频数分布表,直接比较各组的分布范围,顶峰位置,分布趋势等是否相近,如相近就合并,如差异明显,就分组。或做两样本均数的假设检验,有差异就分组,无差异就合并。1/14/2024153

4、决定单侧和双侧界限根据专业知识确定:

双侧:指标过高、过低均为异常

单侧上限:指标过高为异常

单侧下限:指标过低为异常1/14/2024154如:白细胞数过高和过低均属于异常,需制定下限〔最小值〕和上限〔最大值〕,称双侧医学参考值范围。肺活量只过低为异常,只需制定医学参考值范围的下限;尿铅只过高为异常,只需制定医学参考值范围的上限;均称单侧医学参考值范围。

1/14/20241555、选择适当的百分界值医学参考值范围是指绝大多数正常人的变量值所在的范围。“绝大多数〞习惯包括80%、90%、95%、99%,最常用为95%。1/14/2024156根据所选定的百分界限,会造成假阳性或/和假阴性。如何选定百分位数,以平衡假阳性和假阴性:〔1〕正常人的分布和病人的分布没有重叠,这是只要求减少假阳性,那么取99%较为理想。1/14/2024157正常人病人诊断界值1/14/2024158〔2〕正常人分布与病人分布有重叠诊断界值正常人病人假阳性〔误诊〕假阴性〔漏诊〕1/14/2024159a.如需兼顾假阳性和假阴性,取95%较适当;b.如主要目的是减少假阳性〔如用于确诊病人或选定科研病例〕,宁取99%。c.如主要目的是减少假阴性〔如用于初筛搜查病人〕,宁取80%或90%。1/14/2024

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论