第二章 数值变量的描述_第1页
第二章 数值变量的描述_第2页
第二章 数值变量的描述_第3页
第二章 数值变量的描述_第4页
第二章 数值变量的描述_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章计量资料的统计描述第一节频数分布第二节集中趋势的描述第三节 离散趋势的描述第四节正态分布第五节医学参考值范围的制定第一节频数分布

一、频数分布表(frequencytable)

例2-1某医院用随机抽样方法检查了138名成年女子的红细胞数,其测量结果如下,试编制频数分布表。(1)求极差(range):即最大值与最小值之差,又称为全距。R=5.46–3.07=2.39(2)决定分组组数、组距:根据研究目的和样本含量n确定分组组数,通常分为10~15个组。组距=极差/组数,为方便计,组距为极差的十分之一,再略加调整。i=2.39/12=0.199≈0.2(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值。(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。频数表的编制步骤表2-1138名成年女子的红细胞数的频数分布表N=∑f二、频数分布图138名成年女子的红细胞数的频数分布图三、频数表和频数分布图用途1.描述频数分布的类型(对称分布、偏态分布)

(1)对称分布:若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布是否为对称分布?是否为对称分布?(2)偏态分布:

1)右偏态分布(正偏态分布):右侧的组段数多于左侧的组段数,频数向右侧拖尾。

表2-3115名正常成年女子血清转氨酶(mmol/L)含量分布

2)左偏态分布(负偏态分布):左侧的组段数多于右侧的组段数,频数向左侧拖尾。

表2-4101名正常人的血清肌红蛋白含量分布2.描述频数分布的特征表2-1数据的频数分布特征:①数据变异(离散)的范围在57~84(次/分)②数据集中(平均)的组段在68~73(次/分)之间,尤以组段的人数71~(次/分)最多。且上下组段的频数分布基本对称。3.便于发现一些特大或特小的可疑值4.便于进一步做统计分析和处理第二节集中趋势的描述

统计上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平。常用的平均数有:算术均数(均数)(mean)几何均数(geometricmean)中位数(median)与百分位数(percentile)众数(mode)

一、算术均数算术均数:简称均数(mean)

可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。1、计算方法(1)直接计算法

公式:举例:试计算4,4,4,6,6,8,8,8,10的均数?例2-1某医院用随机抽样方法检查了138名成年女子的红细胞数,其测量结果如下,试编制频数分布表。(2)加权法(利用频数表):公式:k:频数表的组段数,f:频数,X:组中值。表2-1138名成年女子的红细胞数的频数分布表2、应用均数适用于对称分布,特别是正态分布资料。二、几何均数(geometricmean)

可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。几何均数(geometricmean)几何均数:变量对数值的算术均数的反对数。

其他对数(如自然对数)变换获得相同的几何均数例2-4某地5例微丝蚴血症患者治疗7年后用间接荧光抗体试验测得其抗体滴度倒数分别为10,20,40,40,160,求几何均数。(2)加权法公式:例2-52、应用:适用于成等比数列的资料,特别是服从对数正态分布资料。三、

中位数与百分位数11个大鼠存活天数:4,10,7,50,3,15,2,9,13,>60,>60平均存活天数?(一)中位数(median)是将每个变量值从小到大排列,位置居于中间的那个变量值。

计算公式:

n为奇数时

n为偶数时

例2-67名病人患某病的潜伏期分别为2,3,4,5,6,9,16天,求其中位数。例2-78名患者食物中毒的潜伏期分别为1,2,2,3,5,8,15,24小时,求其中位数。频数表资料的中位数下限值L上限值Ui;fm中位数M例2-10表2-6118名链球菌咽喉炎患者的潜伏期应用1、各种分布类型的资料2、特别适合大样本偏态分布资料或者一端或两端无确切数值的资料。

百分位数示意图(二)百分位数(percentile)频数表法

公式:

当时,公式(2-9)即为中位数的计算公式例2-10表2-6118名链球菌咽喉炎患者的潜伏期众数(mode)众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段的组中值。适用于大样本;较粗糙。例有16例高血压病人的发病年龄(岁)为:42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数。正态分布时:均数=中位数=众数

正偏态分布时:均数>中位数>众数

负偏态分布时:均数<中位数<众数设有甲、乙、丙三名医生,分别对相同的5份血样进行红细胞计数(万/mm3),甲得出了560、540、500、460、440,乙得出了520、510、500、490、480,丙得出了510、505、500、495、490,见下图2,三名医生的计数结果得到的均数均为500,5个数值之和均为2500。第三节离散趋势的描述甲医生得出的5个观察值间的差异(离散程度)较大,而丙医生得出的5个观察值间的差异(离散程度)较小。常用统计指标:极差、四分位数间距、方差、标准差和变异系数。一、极差(Range)极差,用R表示:即一组变量值最大值与最小值之差。对于书中例2-1数据,有简单,但仅利用了两端点值,稳定性差。R=5.46–3.07=2.39二、四分位数间距

(quartilerange)

四分位数间距,用Q表示:下四分位数:上四分位数:118名链球菌咽喉炎患者的潜伏期的四分位数间距三、方差与标准差1.方差(variance)也称均方差(meansquaredeviation),反映一组数据的平均离散水平。

总体方差

样本方差

离均差平方和SS

2、总体标准差用σ表示公式:样本标准差用表示,其度量单位与均数一致,所以最常用。公式:离均差平方和SS

标准差的公式还可以写成:利用频数表计算标准差的公式为甲医生,的5份血样进行红细胞计数560、540、500、460、440,其标准差为50.99(万/mm3)同理,乙医生5份血样进行红细胞计数其标准差为31.14(万/mm3),丙医生5份血样进行红细胞计数其标准差为7.91(万/mm3),例2-14计算表2-1中138名成年女子的红细胞数的标准差。(1)直接计算法:表2-1138名成年女子的红细胞数的频数分布表(2)频数表法:标准差的意义和用途说明资料的离散趋势(或变异程度),标准差的值越大,说明变异程度越大,均数的代表性越差;...。标准差与原始数据的单位一致,在科技论文报告中,均数与标准差经常被同时用来描述资料的集中趋势与离散趋势。用于计算变异系数用于计算标准误(见第四章)结合均值与正态分布的规律,估计参考值的范围(见第五节)。四、变异系数变异系数(coefficientofvariation,CV)常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。某地7岁男孩身高的均数为123.10cm,标准差为4.71;体重均数为22.59kg,标准差为2.26kg,比较其变异度?身高体重第四节正态分布正态曲线(normalcurve)的发现

deMoivre(1667-1754),publishedin1733

Laplace(1749-1827)

Gauss(1777-1855)正态分布:又称高斯分布(Gaussiandistribution)

一、正态分布的概念和特征

1.正态分布曲线的数学表达式(概率密度函数,probabilitydensityfunction,pdf

)

2.正态分布的特征正态曲线下面积分布有一定的规律,总面积=1。累积面积可通过对概率密度函数f(X)积分求得(累积)分布函数:图2-7正态曲线面积分布示意图

二、标准正态分布见P695,u~N(0,12)1.u值是原变量值(x)离均数差的相对值(标准化得分)。2.不同总体的μ、σ不同,但x值的u值可以相同。3.在相同的u值情况下,其u值对应曲线下的面积(概率)相同。标准正态变量的特征:例2-15138名成年女子的红细胞数的均数、标准差分别为:4.23与0.45;问在正态分布假定下,试估计该医院所抽查成年女子的红细胞数:①在4.00以下者占成年女子总人数的百分比;②在4.00~5.00之间者占成年女子总人数的百分比;③在5.00以上者占成年女子总人数的百分比。①在4.00以下者占成年女子总人数的百分比查附表1:Φ(-0.51)=0.3050,故在4.00以下者占成年女子总人数的30.50%③在5.00以上者占成年女子总人数的百分比。查附表1:Φ(-1.71)=0.0436,故在5.00以上者占成年女子总人数的4.36%②在4.00~5.00之间者占成年女子总人数的百分比100%-(4.36%+30.50%)=65.14%

正态分布

标准正态分布-0.511.71一、基本概念第五节医学参考值范围的制定1.意义:医学参考值(referencevalue)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围作为判定正常和异常的参考标准,但不是“金标准”。2.单、双侧问题,常依据医学专业知识而定

双侧:如:血清总胆固醇、血液白细胞数无论过低或过高均属异常单侧上限:如:血清转氨酶、体内有毒物质过高异常(越低越好,<P95)单侧下限:如:肺活量过低异常(越高越好,>P5)

3.有90%、95%、99%等医学参考值范围,最常用的是95%。计算医学参考值范围的常用方法:1、正态分布法2、百分位数法二、正态分布法公式:单侧下限单侧上限Z利用例2-1资料求正常成年女子的红细胞数的95%参考值范围。图2-1显示资料近似服从正态分布,因红细胞数过

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论