版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数值变量资料的统计描述预防医学
预防医学教研室1
第五章数值变量资料的统计描述第一节数值变量资料的频数分布2一、频数表对一组研究对象进行观察,某变量或指标数值出现的次数称为频数(frequency)。3
例8.1某地区2002年132名55~58岁健康成人的空腹血糖(mmol/L)测定值如下:
5.175.564.864.87…………4.555.165.155.1645
①极差,或称全距(R)
R=最大值-最小值
=5.59-3.60=1.99(mmol/L)②组距(i)
i=R÷组数=1.99÷10≈0.2(mmol/L)(组数一般分8~15,组距尽可能取整)6③组段
每一组的起点称为组下限,终点称为组上限。
70分~80分(下限)(上限)
第一组应包括最小值,最后一组应包括最大值。7
④频数(f)
划记、合计每组的变量个数。8某地2002年55~58岁健康成人的空腹血糖值(mmol/L)血糖(mmol/L)
划记频数(f)
3.60-33.80-34.00-84.20-234.40-244.60-254.80-205.00-125.20-105.40-5.604
合计1329
二、频数分布的特征①集中趋势(centraltendency):频数向中间集中,中等水平的人数最多。②离散趋势(tendencyofdispersion):随变量值逐渐变大变小,人数越来越少,即向两端分散。10
1、频数分布的图示以变量值(血糖)为横轴,以频数为纵轴,每一组段画一直条,直条的面积与该组频数成正比,称为直方图(histogram)。1112
2、频数分布的类型(1)对称分布:观察值向中央部分集中,以中等数据居多,左右两侧分布大体对称。13对称分布14
(2)偏态分布:观察值偏离中央,尾部偏向数轴正侧,称正偏态,尾部偏向数轴负侧,称负偏态。15正偏态分布:高峰偏于左侧,长尾向右侧伸延负偏态分布:高峰偏于右侧,长尾向左侧伸延16对称分布17
第二节集中趋势指标
平均数(average):描述一组数值变量资料的集中趋势、平均水平或中心位置的指标。常用的平均数有算术平均数、几何均数和中位数。18
一、算术平均数(arithmeticmean)
简称均数,总体均数用μ表示,样本均数用X表示。
适用条件:对称分布资料,特别是正态分布资料。19
1、直接计算法观察例数不多或计算机分析选用。20
例:某地抽样得5名7岁男孩体重(kg)分别为:17.3,18.0,19.4,20.6,21.2。求其均数。=19.3(kg)21
2、加权法观察例数多又无计算机处理时选用。
22
例计算某地区2002年55~58岁健康成人的空腹血糖(mmol/L)的平均值。①组中值=(本组下限+下组下限)/2②fx=f•x③fx2=x•fx=f•x2④23空腹血糖值(mmol/L)平均数和标准差计算表血糖频数(f)组中值(x)fx
fx23.60-33.711.141.073.80-33.911.745.634.00-84.132.8134.484.20-234.398.9425.274.40-244.5108.0486.004.60-254.7117.5552.254.80-204.998.0480.205.00-125.161.2312.125.20-105.353.0280.905.40-5.6045.522.0121.00
合计132614.22878.9224
二、几何均数(G)(geometricmean)
适用条件对数正态分布资料:变量值呈倍数关系,当变量值取对数后服从正态分布或近似正态分布。25
1、直接法观察例数不多时选用。26例题:6份钩端螺旋体显凝试验的血清效价为:1:50,1:100,1:200,1:400,1:800,1:1600。求其平均血清效价。27
=lg-1(2.4515)=282.5
故其平均血清效价为1:282.5。28
2、加权法观察例数较多时选用。先将资料编成频数分布表,再按公式计算:29
例8.4计算某地60人抗体效价的平均滴度。
=lg-1(1.31602)=20.705
平均滴度为1:20.705。30效价倒数(X)人数(f)lgX
flgX570.698974.8927910111.0000011.0000020221.3010328.6226640121.6020619.224728081.9030915.22472
合计60-78.96489某地60人抗体效价几何均数计算表31
三、中位数(median)和百分位数
适用条件①偏态分布资料②分布类型不清的资料;③数据一端或两端无界限的资料。32组段X频数(f)<20014200-25220-
52240-
8260-
5280-
1300-
2>3002合计109两端无界限资料举例33
1、中位数一组从小到大排列的变量值,位于正中间位置的变量值称为中位数。用M表示。34
(1)直接计算方法
将变量值从小到大排列,再按下式计算:n为奇数M=X(n+1)/2
n为偶数35
例:11例颅脑外伤病人的伤后来院时间为1、2、4、5、7、8、8、10、12、16、20小时,求其伤后来医院治疗的平均时间。
本例n=11为奇数
M=X(n+1)/2=X6=8(h)
若本例只收前10例病人,则(h)36
(2)频数表计算方法将资料编制成频数分布表,再计算:L:中位数所在组段的下限
fx
:中位数所在组段的频数∑fL
:中位数所在组段以前的累积频数37
例8.6某传染病的潜伏期(天)见表8-3,求其平均潜伏期。38潜伏期(天)频数f累计频数累计频率(%)
2~262623.634~487467.276~259990.008~610595.4510~310898.1812~2110100.00某传染性的潜伏期(天)的中位数和百分数数计算表39组段2~4—4~6—6~8—位次
1、2、…2627、…7475、…99%0.9…23.624.5…67.368.2…90.0
中位数所在组的确定1、累计频数刚超过n/2所在组2、累计频率刚超过50%所在组40
2、百分位数将n个观测值从小到大排列,分成100等份,与第x百分位次对应的观测值称为第x百分位数,用Px表示。百分位数是一种位置指标。41
一个百分位数将全部观察值分为两部分,理论上有x%的观察值比它小,(100-x)%观察值比它大。0%x
%
100%x%观察值(100-x)%观察值42
中位数是一个特定的百分位数,即P50在全部观察值中,有50%的观察值比它小,(100-50)%观察值比它大。43
用频数表计算百分位数的公式:
L:第x百分位数所在组段的下限
fx
:第x百分位数所在组段的频数∑fL:第x百分位数所在组段以前的累积频数44潜伏期(天)频数f累计频数累计频率(%)
2~262623.634~487467.276~259990.008~610595.4510~310898.1812~2110100.00某传染性的潜伏期(天)的中位数和百分数数计算表45
应用中位数和百分位数时注意
1、对资料的分布没有特殊要求,所有的资料均可计算。
2、分布在中间的百分位数(50%)较稳定,靠近两端的百分位数(99%)不稳定。46
3、中位数不如均数精确,但抗极端值的影响比均数的稳定性好。当资料适合计算均数或几何均数时,不宜计算中位数表示其平均水平。47
第三节离散程度指标
离散指标又称变异指标,它描述数值变量资料频数分布的离散趋势。常用指标有:全距、方差、标准差、变异系数和四分位数间距。48
例:二组变量值(单位略)
A:8、9、10、11、12XA=10B:6、9、10、11、14XB=10均数只描述集中趋势,没有描述变量值之间的差异,变异指标描述变量的变异(离散)趋势。49
一、全距(极差,R)
R=最大值-最小值
RA=12-8=4RB=14-6=8
说明B组观测值的变异程度大A组。极差只表示两极端数值的差异,而不能综合反映每个变量值的变异情况。50
二、四分位数间距(Q)
Q是上四分位数Qu(P75)与下四分位数QL(P25)之差。
Q=Qu-QL
其间包括全部观察值的一半。P75P25MP0P10051
Q和R类似,比R稳定,但仍未考虑到每个观察值的变异程度。
Q与M配合使用(M±Q),用于描述偏态分布资料、分布末端无界限而不能计算全距、方差和标准差的资料。
52
三、方差和标准差为衡量每个变量值的变异情况,计算:
离均差之和∑(X-μ)
但∑(X-μ)=0。53
于是计算:
离均差平方和∑(X-μ)2
用SS或表示,它又受样本含量(变量值个数)大小的影响,所以取其平均值表示,称为方差(MS)。54
方差是另一变异指标,方差越大,表示变量值的变异程度越大。55
方差的单位被平方,与均数单位不一致,不便于比较,于是取其平方根,称为(总体)标准差(σ)。标准差是最常用的变异指标。56
总体均数μ常是未知的,只能用样本均数X代替,而得样本标准差(S)
,作为总体标准差的估计值。57
数理统计研究:样本标准差较总体标准差偏小,因此用n-1代替n,n-1称为自由度(v)。58
1、标准差的计算方法(1)直接法(小样本)为方便计算,前式变为:59
XX2
86498110100111211214450510A组资料S计算表B组资料S计算表
XX2
6369811010011121141965053460
(2)加权法(大样本)先将资料编成频数表,再按公式计算:61以例8.1资料为例计算62空腹血糖值(mmol/L)平均数和标准差计算表血糖频数(f)组中值(x)fx
fx23.60-33.711.141.073.80-33.911.745.634.00-84.132.8134.484.20-234.398.9425.274.40-244.5108.0486.004.60-254.7117.5552.254.80-204.998.0480.205.00-125.161.2312.125.20-105.353.0280.905.40-5.6045.522.0121.00
合计132-614.22878.9263
(3)标准差的应用①适用于对称分布,特别是正态分布资料,表示观测值分布的离散程度。64标准差大,说明观测值的变异程度大,即观测值围绕均数分布较离散,均数的代表性较差;标准差小,说明观测值的变异程度小,即观测值围绕均数分布较密集,均数的代表性较好。65
②估计观测值的频数分布和医学参考值范围。③计算标准误。④计算变异系数66
四、变异系数(CV)
比较均数相差悬殊或单位不同的两组(或多组)观测值的变异程度时,不宜用标准差,而需计算变异系数进行比较。67
例某地7岁男孩身高(单位cm)X1=114.82,s1=5.52;体重(单位kg)X2=20.91,s2=2.05。比较身高和体重的变异程度。CV1<CV2,体重的变异程度大于身高。68
第四节正态分布和医学参考值一、正态分布(nomaldistribution)
从例8.1频数分布图看:频数分布以均数为中心,靠近均数两侧的频数较多,较远两侧频数逐渐减少,两侧基本对称。697071
如果不断增多观测例数、缩小组距,则图形趋向于光滑曲线。这是一条中间高、两头低、左右对称的钟型曲线,在统计学上称为正态分布曲线,表示为
N(μ,σ2)
。7273
为应用方便,将任何正态分布N(μ,σ2)变换成的正态分布N(0,1),称为标准正态分布(u分布)。变换方法是将变量值X变换为u(标准正态离差)7475
二、正态分布的特征1、在均数处最高。2、以均数为中心,左右对称,逐渐降低,两端永不与横轴相交。76
3、有两个参数
均数μ:位置参数,决定曲线的中心位置;μ越大,曲线越向右移;μ越小,则曲线越向左移。7778
标准差σ:形状参数,决定曲线的陡峭或扁平:σ越大,曲线越扁平(矮胖);σ越小,曲线越陡峭(瘦高)。7980
4、正态曲线下的面积有一定的规律在正态图形中,横轴为变量X,纵轴为频数f。可用曲线下的面积代表频数分布。81
若以曲线下的面积为100%,正态曲线下面积的分布规律变量值曲线下面积(变量值出现概率)μ±1.0σ68.27%μ±1.96σ95.00%μ±2.58σ99.00%82838485
如果资料呈正态分布,且样本足够大(如n>100),可样本指标代替总体指标变量值曲线下面积(变量值出现概率)X±1.0S68.27%X±1.96S95.00%X±2.58S99.00%86变量值曲线下面积(变量值出现概率)±1.068.27%±1.9695.00%±2.5899.00%标准正态曲线下面积87区间体重范围(kg)实际人数(%)理论人数(%)
X±1.0S45.29~52.3786(71.67)82(68.27)X±1.96S41.89~55.77114(95.00)114(95.00)X±2.58S39.70~57.96120(100.00)119(99.00)某地120名21岁女大学生体重的实际分布与理论分布88
三、医学参考值范围(一)医学参考值的意义
医学参考值:正常人(或动物)的个体形态、功能和代谢产物等的各种生理和生化常数。由于个体指标的变异,需要确定其波动范围,即医学参考值范围。89(二)制定参考值的基本步骤
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 课件大赛作品
- 剖宫产手术麻醉
- 仓管员工作培训
- 家长素养提升培训
- 人均生活用水标准
- 云计算服务智慧养老技术概论
- 《光通讯基础》课件
- 二年级数学100以内加减法竖式计算题综合测试训练题带答案
- 社区护理概论长沙民政彭芳
- 北京市西城区2020-2021学年高一下学期期末联考化学试题
- 亚华控股多元化经营对持续盈利能力的影响的开题报告
- 安全的枢纽-无针输液接头的使用
- 加油站安全风险评估报告 - 事故发生可能性及后果分析
- 《世界遗产背景下的影响评估指南和工具包》
- 川2020G145-TY 四川省超限高层建筑抗震设计图示
- 《夏洛的网》之“生命的价值”论文
- 2023年成都铁路局招聘笔试参考题库附带答案详解
- 小学信息技术教案《认识键盘》
- 房地产企业税金计算表
- 骨科DRG付费方式下编码临床应用培训(骨科)
- 电气改造工程施工方案施工组织设计
评论
0/150
提交评论