版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一篇基本统计方法第二章计量资料的统计描述桂立辉新乡医学院公共卫生学系流行病与卫生统计学教研室第二章计量资料的统计描述第二章计量资料的统计描述第一节频数分布第二节集中趋势的描述第三节离散趋势的描述第二节正态分布第五节医学参考值范围的制定第二章计量资料的统计描述第一节频数分布一、离散型定量变量的频数分布例2-1
1998年某山区96名孕妇产前检查次数资料如下:第二章计量资料的统计描述第一节频数与频数分布一、离散型定量变量的频数分布例2-1第二章计量资料的统计描述第一节频数与频数分布二、连续型定量变量的频数分布第二章计量资料的统计描述第一节频数与频数分布(1)找最大值和最小值:
Xmax=29.64μmol/L;Xmin
=7.42μmol/L(2)计算全距
(range):亦称极差,简记为R,
R=Xmax-Xmin=29.64-7.42
=22.22(μmol/L)(3)确定组段数和组距:一般分为8~15组。
i=R/10=22.22/10=2.222(μmol/L)
,取2为组距。第一组段应包括最小值,各个组段从本组段的“下限”开始,不包括本组段的上限。最末一组段应包括最大值,同时写出其下限和上限。(4)列出频数分布表并绘制频数分布图。第二章计量资料的统计描述第一节频数与频数分布
第二章计量资料的统计描述第一节频数与频数分布第二章计量资料的统计描述第一节频数与频数分布第二章计量资料的统计描述第一节频数与频数分布频数表的用途:1.揭示资料的分布特征和分布类型。2.便于进一步计算统计指标和统计分析处理。3.便于发现某些特大或特小的可疑值。第二章计量资料的统计描述第二节定量变量的特征值
统计描述即用恰当的统计指标描述资料的数量特征。计量资料的统计描述分为两个方面:集中趋势(centraltendency)
离散趋势(tendencyofdispersion)第二章计量资料的统计描述一、描述集中趋势的统计指标
描述计量资料集中趋势的统计指标称平均数(average)。常用的平均数有三种:
1算术均数(arithmeticmean,)2几何均数(geometricmean,G)3中位数(median,M)
4众数(mode)5调和均数(harmonicmean,H)第二章计量资料的统计描述1.算术均数(arithmeticmean)
是n个变量值的数值平均值,即各个变量值之和除以变量值的个数。适用于对称分布资料。
例测得5名周岁儿童的头围(cm)为:44、45、46、47、48,求其平均头围。直接法:第二章计量资料的统计描述加权法(weightingmethod):当观察值较多时,可先编制频数表(frequencytable),然后用加权法(weightingmethod)计算:1.算术均数(arithmeticmean)第二章计量资料的统计描述=2228/120=18.57(μmol/L)1.算术均数(arithmeticmean)第二章计量资料的统计描述2.几何均数(geometricmean)几何均数是n个变量值的乘积开n次方所得的积。直接计算法第二章计量资料的统计描述2.几何均数(geometricmean)
例2-5有5人的血清中某抗体效价分别为1:10、1:20、1:40、1:80、1:160,求其平均效价。第二章计量资料的统计描述2.几何均数(geometricmean)加权法第二章计量资料的统计描述2.几何均数(geometricmean)例2-6第二章计量资料的统计描述3.中位数(median)
将一组观察值按大小依次排列,位置居中的数即中位数。第二章计量资料的统计描述3.中位数(median)百分位数(percentile)第二章计量资料的统计描述3.中位数(median)
第二章计量资料的统计描述百分位数计算公式的推导(示意)
百分位数计算公式的推导过程(内插法)第x百分位数:
第二章计量资料的统计描述某地205例伤寒患者潜伏期见下表,求平均潜伏期。潜伏期人数(f)累积频数(Σf)累积频数%2~262612.684~295526.836~429747.328~5014771.7110~4819578.0012~419997.0714~220198.0516~220399.0218~120499.5120~221205100.00合计205205-(fx)(fL)(L)第二章计量资料的统计描述平均数的应用三种平均数的应用条件比较指标应用条件算术均数①对称分布;②封口资料。几何均数①等比资料或对数正态分布资料;②封口资料;③观察值不能为0,也不能同时既有正值又有负值。中位数①所有分布类型的资料,但主要用于偏态分布或分布不明的资料;②有不确定值(开口资料)。第二章计量资料的统计描述二、描述离散中趋势的特征数
离散趋势(tendencyofdispersion)变异(variation)例2-11观察比较3组数据的离散状况。A组:2628303234B组:2427303336C组:2629303134第二章计量资料的统计描述1.
全距R=Xmax﹣Xmin全距(range,R)反映了某随机变量的变化范围。两端的观察值不够稳定,因此全距也不稳定。全距只考虑了最大值和最小值,其它观察值的变化对其没有影响,即R代表性较差,一般不单独应用,而常与其它变异指标结合应用。第二章计量资料的统计描述2.四分位数间距四分位数间距(quartile,Q)则反映了中间50%观察值的变动范围。因中间的观察值比较稳定,因此四分位数间距的稳定性优于全距。全距和四分位数间距都属于点估计值,代表性差,二者常结合使用。第二章计量资料的统计描述百分位数的计算第二章计量资料的统计描述百分位数计算公式的推导(示意)
百分位数计算公式的推导过程(内插法)第x百分位数:
第二章计量资料的统计描述Q=13.12-8.08=5.04(天)表某传染病潜伏期(天)百分位数计算表潜伏期(天)人数(f)累积频数(Σf)累积频率(%)4~262624.078~487468.5212~259991.6716~610597.2220~3108100.00第二章计量资料的统计描述3.方差
n-1称自由度(degreeoffreedom,ν),其意义是随机变量能自由取值的个数:ν=n-限制条件数。第二章计量资料的统计描述4.标准差(standarddeviation)总体标准差样本标准差直接法:加权法:第二章计量资料的统计描述例:5名周岁儿童头围(cm)见下表,试计算S。XX2441936452025462116472209482304ΣX=230ΣX2=10590标准差的计算——直接法第二章计量资料的统计描述标准差的计算——频数表法(加权法)表某地14岁女孩身高频数表身高(cm)频数(f)组中值(X0)fX0fX0
2124~212625231752128~313039050700132~111341474197516136~221383036418968140~391425538786396144~271463942575532148~161502400360000152~5154770118580156~315847474892160~164216232452488合计130(Σf)-18600(ΣfX0)(ΣfX0
2)第二章计量资料的统计描述将有关数值代入公式得:标准差的计算——频数表法(加权法)第二章计量资料的统计描述均数相同的4组数值变量资料变异指标的比较。资料nRSSS2S1,2,5,8,91,3,5,7,93,4,5,6,73,4,4,5,6,6,75557555588445040101212.510.02.52.03.543.161.581.41变异指标的比较第二章计量资料的统计描述标准差的应用1.表示变量值分布的离散程度(或称变异程度);2.计算变异系数:3.与均数结合,估计变量值的频数分布范围;4.计算标准误。第二章计量资料的统计描述5.变异系数CV用于比较两组单位不同或均数相差较大时变量值的变异程度大小。标准差反映的是各观察值与均数之间平均的绝对差值,但对于不同的指标而言,相同的差值意义却不同。例:对于一个身高170cm、足长25cm人来说,身高增加2cm与足长增加2cm的意义是大不一样的。因为身高增加2cm只是增加了1.2%,而足长增加2cm却增加了8.0%。显然,相对指标比绝对指标能更好地反映变异程度大小。第二章计量资料的统计描述5.变异系数例:某地某年7岁男童身高均数为121.16cm,标准差为4.31cm;胸围均数为57.71cm,标准差2.82cm;试比较两个指标的变异程度。身高:CV1=4.31/121.76×100%=3.56%
胸围:CV2=2.82/57.71×100%=4.89%第二章计量资料的统计描述变异指标应用条件比较
变异指标应用条件R所有分布类型的资料。Q所有分布类型的资料,多用于偏态分布资料。SS对称分布、封口资料。S2同上。S同上。CV同上。多用于比较均数相差较大或单位不同时两组资料间的比较。第二章计量资料的统计描述数值变量资料的统计描述
正态分布资料偏态分布资料M(R、Q)第二章计量资料的统计描述正态分布的概念和特征正态分布曲线下面积分布规律正态分布的应用制定医学参考值范围正态分布是许多统计方法的理论基础质量控制第四节正态分布第二章计量资料的统计描述一、正态分布的概念和特征第二章计量资料的统计描述一、正态分布的概念和特征正态分布(normaldistribution)是数理统计学中最重要的理论分布。是经典统计学的最重要的理论基础。医学中许多现象如身高、体重、血压、红细胞数等的频数分布服从正态分布,或近似于正态分布,或经过数据转换可使其符合正态分布,如平方根变换、对数变换lgx
、平方根反正弦变换arcsin
。对于偏态分布的资料,当样本量很大时,也可以近似地用正态分布来处理。第二章计量资料的统计描述一、正态分布的概念和特征
如果以总频数为1,当随机变量X取值为x时的频数可用下式求得:即随机变量X服从均数为μ,标准差为σ的正态分布,记为:X~N(μ,σ2)
f(x)称随机变量X的概率密度函数。第二章计量资料的统计描述一、正态分布的概念和特征正态分布以均数所在处频数最多,两侧逐渐减少,但永不为零,左右完全对称,其图形为近似钟形。正态分布有两个基本参数:μ和σ2μ为均数,是正态分布的位置参数;σ2是方差,为变异度参数,它决定正态分布的形态。σ2越大,则各变量值平均的离均差越大,变量值的分布较分散,正态曲线越低平(胖);σ2越小,则各变量值平均的离均差越小,变量值的分布较集中,正态曲线越瘦高。有了这两个参数,即可绘制出正态分布的图形。
第二章计量资料的统计描述一、正态分布的概念和特征
例设某地成年男性身高的均数为170cm,标准差为7cm,成年女性身高的均数为165cm,标准差为5cm,均符合正态分布。试绘制频数分布图并比较二者的异同。按上式计算X取不同值时的理论频数,结果见下表。第二章计量资料的统计描述正态分布频数计算表男性女性x
f(x)x
f(x)1461501541581621661701741781821861901940.0001600.0009620.0041810.0131120.0296610.0484070.0569920.0484070.0296610.0131120.0041810.0009620.0001601471501531561591621651681711741771801830.0001220.0008860.0044790.0157900.0388370.0666450.0797880.0666450.0388370.0157900.0044790.0008860.000122第二章计量资料的统计描述一、正态分布的概念和特征将表中频数绘制成频数分布图第二章计量资料的统计描述一、正态分布的概念和特征
男女身高的频数分布图形的比较:
1.共同点:男女在不同身高的频数分布均为完全对称的钟形分布,以均数所在处频数最多,两侧逐渐减少。
2.不同点:①位置不同,男性身高的均数大于女性,故图形靠右;②高低不同,男性身高的方差大于女性,故变量值更分散,图形更低平。第二章计量资料的统计描述二、正态分布曲线下的面积
如果以曲线下的总面积为1,则随机变量X取值范围从-∞至x所对应的曲线下的面积可用下列积分公式求得:
F(x)称随机变量X的概率分布函数,即当随机变量X取值范围为-∞~x时所对应的正态曲线下的面积占总面积的比例,F(x)实际上反映了随机变量X取值范围为-∞~x的概率大小。第二章计量资料的统计描述二、正态分布曲线下的面积
例设某地成年男性身高的均数为170cm,标准差为7cm,假设该地共有成年男性10000人,求该地身高不超过160cm者有多少人?又该地身高在160cm~180cm之间者共有多少人?第二章计量资料的统计描述正态分布曲线下面积的计算第二章计量资料的统计描述二、正态分布曲线下的面积即:身高不超过160cm的人数为:10000×0.0764=764(人)身高在160cm~180cm之间的人数为:10000×(0.9236-0.0764)=10000×0.8472=8472(人)第二章计量资料的统计描述标准正态分布
由于不同随机变量的概率分布不同,要求得随机变量X取值范围为-∞至x的概率需要经过繁琐的计算,从而给实际应用带来困难。如果将任一正态分布转化为同一个分布,则使问题大大简化。不同正态分布的差别在于其均数和标准差不同,如果把原来的随机变量值用相对数值表示,就可以解决这一问题。第二章计量资料的统计描述标准正态分布
将各变量值的离均差与标准差比较,即离均差是标准差的多少倍,此值称标准单位(u),即该变量值在平均数之上或之下多少个标准差。例如,如果某成年男性的身高为177cm,则离均差=177-170=7(cm),恰好等于标准差,其标准单位值为1,即超过均数1个标准差。又如某成年男性的身高为156cm,其标准单位值为-2,即低于均数2个标准差。第二章计量资料的统计描述标准正态分布
对于任一正态分布N(μ,σ2)作下列u变换:则u值的分布为均数为0,标准差为1的正态分布,即标准正态分布(standardnormaldistribution)。由于正态分布以均数所在处频数最多,两侧逐渐减少,左右完全对称,故u值的均数为0。又由于以原变量值的标准差为单位,故u值的标准差为1第二章计量资料的统计描述标准正态分布
如果以总频数为1,不同u值时的频数(概率)可用下式求得:如果以曲线下的总面积为1,则从-∞至u的面积可用下列积分公式求得:第二章计量资料的统计描述标准正态分布u值所对应的概率和曲线下的面积
第二章计量资料的统计描述标准正态分布
由于标准正态分布只有唯一的1条曲线,我们可以把从-∞至u取不同值时所对应的曲线的面积求出,列成表格(见表9-8标准正态分布曲线下的面积),这样我们就不需要面积的积分公式,避免了繁琐的计算过程,从而能够比较轻松地解决正态分布的问题。第二章计量资料的统计描述第二章计量资料的统计描述标准正态分布
例设某地成年男性身高的均数为170cm,标准差为7cm,假设该地共有成年男性10000人,求该地身高不超过160cm者有多少人?又该地身高在160cm~180cm之间者共有多少人?对于本例的问题,采用标准正态分布来解决就简单多了。首先,计算x1=160cm和x2=180cm时的u值:第二章计量资料的统计描述标准正态分布曲线下面积的计算第二章计量资料的统计描述标准正态分布查标准正态分布曲线下的面积表得:Φ(-1.43)=0.0764身高不超过160cm的人数为:10000×0.0764=764(人)由于标准正态分布左右完全对称,因此:Φ(u)=1-Φ(-u)Φ(1.43)=1-0.0764=0.9236从u1至u2所对应的曲线下的面积=Φ(u)-Φ(-u)=0.8472故身高在160cm~180cm之间的人数为:10000×0.8472=8472(人)第二章计量资料的统计描述标准正态分布
例设某地成年女性身高的均数为165cm,标准差为5cm,假设该地共有成年女性9000人,求该地身高身高在158cm~168cm之间者共有多少人?首先,计算x1=158cm和x2=168cm时的u值:查表得:Φ(-1.40)=0.0808,Φ(-0.60)=0.2743Φ(0.60)=1-Φ(-0.60)=1-0.2743=0.7257
从u1至u2所对应的曲线下的面积=0.6449
身高158cm~168cm的人数:9000×0.6449=5804(人)第二章计量资料的统计描述标准正态分布曲线下面积的计算第二章计量资料的统计描述2.正态分布的特征1.正态曲线在横轴上方均数所在处最高;2.正态分布以均数为中心,左右对称;3.正态分布有两个参数:μ(位置参数)和σ
(变异度参数);4.正态分布曲线下的面积有一定规律。第二章计量资料的统计描述正态分布曲线下的面积规律
对于任一正态分布X~N(μ,σ2),在μ±uασ范围所对应的曲线下的面积是一定的。表2-4100名18岁男大学生身高的实际分布与理论分布±uαs身高范围(cm)实际分布理论分布(%)人数百分比(%)±1s168.84~176.716767.0068.27±1.96s164.84~180.569595.0095.00±2.58s162.35~183.059999.0099.00第二章计量资料的统计描述正态分布曲线下的面积规律第二章计量资料的统计描述正态分布曲线下的面积规律对于正态分布X~N(μ,σ2),以总面积为1,则在μ±uασ范围所对应的曲线下的面积为1-α。表2-5常用u值表α单侧双侧0.200.8421.2820.101.2821.6450.051.6451.9600.012.3262.576第二章计量资料的统计描述三、正态分布的应用(一)制定医学参考值范围正常参考值范围(normalreferenceranges)是指正常人群中一些解剖、生理、生化指标及组织代谢产物含量等数据的正常波动范围。个体差异生理变异第二章计量资料的统计描述制定医学参考值范围
制定参考值的基本步骤1.从正常人总体中随机抽样这里的“正常人”并非是指没有任何疾病的人,只要排除那些对所研究指标有影响的疾病或有关因素的人即可。例如,制定血压正常值范围时,应将高血压病人及相关疾病的患者排除于研究对象之外,同时,研究对象在研究期间内不能有对血压有影响的因素,如情绪激动、大量运动等,也不能服用对血压有影响的药物。另外,样本量要足够,每个人群组在100例以上。第二章计量资料的统计描述2.控制测量误差测量方法、仪器、试剂、精密度、操作熟练程度等应统一。一般应选用测量结果准确、可靠,并能为大多数医疗单位采用的检测仪器或方法。3.确定是否需要分组制定参考值范围制定医学参考值范围
第二章计量资料的统计描述4.确定采用单侧界值还是双侧界值如果该指标升高或降低均有病理学意义,则需要制定双侧界值,如红细胞数、白细胞数等;如果该指标升高时有病理学意义,而降低时无意义,只需要制定一个正常值上限,如尿铅值;如果该指标降低时有病理学意义,而升高时无意义,只需要制定一个正常值下限,如肺活量。制定医学参考值范围
第二章计量资料的统计描述5.选定适当的百分界限即确定发生错误的概率(α)。一般取α=0.05,即95%正常值范围,该范围将包含95%的正常观察值,也就是说有5%的正常观察值将被排除于该范围之外。如果临床上要求尽量减少误诊,则应取较高的百分界限,如95%或99%;如果临床上要求尽量减少漏诊,则应取较低的百分界限,如90%或80%。6.确定资料的分布是否为正态分布——正态性检验制定医学参考值范围
第二章计量资料的统计描述7.根据资料的类型选择适当的参考值范围的估计方法(1)正态分布法:如果所研究指标的总体分布符合正态分布或近似于正态分布,可根据正态分布曲线下的面积分布规律,计算包含95%的观察值范围,即为95%正常值范围。计算公式为:
95%双侧正常值范围:
95%单侧正常值上限:
95%单侧正常值下限:制定医学参考值范围
第二章计量资料的统计描述单双侧正常值范围示意图第二章计量资料的统计描述例
已知健康人群中血糖含量的频数分布近似于正态分布,今测定某地健康成人500名,得血糖均数为5.10mmol/L,标准差为0.51mmol/L,试估计该地健康成人血糖含量95%正常值范围。本例需计算双侧正常值范围:上限:=5.10+1.96×0.51=6.10(mmol/L)下限:=5.10-1.96×0.51=4.10(mmol/L)即估计该地健康成人血糖含量95%正常值范围为:4.10~6.10mmol/L。制定医学参考值范围
第二章计量资料的统计描述(2)对数正态分布法:95%双侧正常值范围:95%单侧正常值上限:
95%单侧正常值下限:制定医学参考值范围
第二章计量资料的统计描述(3)百分位数法:对于偏态分布或开口资料,可按百分位数法计算。计算公式为:95%双侧正常值范围:P2.5~P97.5
95%单侧正常值上限:P95
95%单侧正常值下限:P5制定医学参考值范围
第二章计量资料的统计描述单双侧正常值范围(百分位数法)示意图第二章计量资料的统计描述例测得某地200名正常人尿铅含量,试计算95%正常值范围。尿铅(mg/L)f
Σf
累积频数(%)0~
4~
8~12~16~20~24~28~32~2039554330912120591141571
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 零售企业行政经理合同
- 幼儿园放学接送合同范本参考
- 建筑工程维修合同完整版
- 交通运输总监合同模板
- 人才引进服务协议合同范例
- 钻石升值回购合同范例
- 财产保险合同范本(2篇)
- 托运人案例合同法
- 集体经济与公司合作协议书
- 拆监控设备合同范例
- 健康管理实务考试题+参考答案
- FSSC22000V6.0变化点和文件修改建议
- 小学音乐教学案例
- 2021-2022学年北京市丰台区北京版二年级上册期末测试数学试卷
- 老旧排水管网改造 投标方案(技术方案)
- 临床医学概论复习资料
- 国家开放大学-法学专业-2023年秋季《法律文化》形成性考核作业答案
- 2024全国养老护理职业技能大赛养老护理员赛项备考试题库500题(含答案)
- 2024年公安机关人民警察高级执法资格考试试卷含答案(案例分析题 论述题)
- 2024届新高考英语练习:动词的时态和语态
- 推进新型工业化思考
评论
0/150
提交评论