计量资料的统计描述2014-09-15-18_第1页
计量资料的统计描述2014-09-15-18_第2页
计量资料的统计描述2014-09-15-18_第3页
计量资料的统计描述2014-09-15-18_第4页
计量资料的统计描述2014-09-15-18_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二讲第二讲 计量资料的统计描述计量资料的统计描述中南大学卫生统计教研室中南大学卫生统计教研室杨土保杨土保频数分布频数分布一、频数分布表一、频数分布表(frequency table)编制频数分布表可了解其分布的范围、数据最集中的区间以及分布的形态。例2-1 从某单位1999年的职工体检资料中获得101名正常成年女子的血清总胆固醇()的测量结果如下,试编制频数分布表。2.35 4.21 3.32 5.35 4.17 4.13 4.48 3.98 4.73 2.78 4.26 3.58 4.34 4.84 4.41 3.99 3.80 3.87 4.78 3.95 3.92 3.58 3.66

2、4.28 3.78 4.57 4.26 3.26 3.50 2.70 4.61 4.75 2.91 3.93 3.78 4.13 3.91 4.59 3.26 4.19 3.00 2.68 4.52 4.91 3.84 3.68 3.18 4.83 3.87 3.95 3.91 4.52 4.28 5.13 3.27 4.15 4.55 4.80 3.41 4.12 3.95 4.06 5.71 5.26 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.17 4.95 4.15 3.25 4.36 3.29 4.33 3.63 3.30 3.755.08 4.53 3

3、.92 3.58 3.84 3.60 3.19 4.50 4.505.35 3.51 4.06 3.07 3.55 3.96 4.59 3.52 4.83 4.23 3.57频数分布频数分布编制步骤如下:求极差(range,R):也称全距,即最大值和最小值之差,本例R=5.71-2.35=3.36(mmol/L)。确定组段数和组距:组段数(10-15组)。组距可通过极差除以组段数求得,本例i=3.36/10=0.30。 3写出组段: 每个组段的下限为L、上限为U,起始组段和最后组段应分别包含全部变量值的最小值和最大值,见表2-1第(1)栏。4分组划记并统计频数:各组段的频数见表2-1第(2)栏

4、,然后求频数合计,完成频数表。 频数分布频数分布组 段 频数f 组中值X fx fx2 (1) (2) (3) (4)=(2)(3) (5)=(2)(3)22.30 1 2.45 2.45 6.002.60 3 2.75 8.25 22.692.90 6 3.05 18.30 55.823.20 8 3.35 26.80 89.783.50 17 3.65 62.05 26.483.80 20 3.95 79.00 312.054.10 17 4.25 72.25 307.064.40 12 4.55 54.60 248.434.70 9 4.85 43.65 211.705.00 5 5.1

5、5 25.75 132.615.30 2 5.45 10.90 59.415.605.90 1 5.75 5.75 33.06合 计 101 409.75 1705.09频数分布频数分布二、频数分布图二、频数分布图根据表2-1资料,以各组段血清总胆固醇含量为横坐标、频数为纵坐标,可绘制频数分布图(graph of frequency distribution), 图2-1 血 清 总 胆 固 醇(mmol/L)05101520252.453.053.654.254.855.456.10图 2 - 1 101 名 正 常 成 年 女 子 血 清 总 胆 固 醇 的 频 数 分 布频 数频数分布频

6、数分布三、频数表和图的用途三、频数表和图的用途1 1、描述频数分布的类型、描述频数分布的类型 对称分布对称分布:各组段的频数以频数最多组段为中心左右两侧大体对称; 偏态分布偏态分布:频数最多组段不在中心位置,其两侧组段数不对称。 正(右)偏态分布(见图2-2) 负(左)偏态分布(见图2-3)频数分布频数分布图2-2 血清转氨酶(mmol/L)051015202513.519.525.531.537.543.5.图2-2 115名正常成年女子血清转氨酶的频数分布人 数频数分布频数分布图2-3 血 清 肌 红 蛋 白(g / m L)05101520252.512.522.532.542.552.

7、5图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布人 数频数分布频数分布2 2描述频数分布的特征描述频数分布的特征 从表2-1可看出这些数据的分布特征有两点:变异的范围在;有明显的统计分布规律,数据主要集中在之间,尤以组段的人数最多,且上下组段数的频数分布基本对称。 3 3便于发现一些特大或特小的可疑值便于发现一些特大或特小的可疑值4 4便于进一步做统计分析和处理便于进一步做统计分析和处理集中趋势的描述集中趋势的描述集中趋势 描述数据的集中位置和平均水平。常用指标: 算术均数 几何均数 中位数集中趋势的描述集中趋势的描述1、算术均数(算术均数(MeanMean):

8、适应于对称分布的资料。1)直接计算法:计算公式为 式中X1,X2和Xn为所有观察值,n为样本含量,(希腊字母,读作sigma)为求和的符号。例2-1资料得: 12nXXXXXnn2.354.783.914.03(mmol/L)101X集中趋势的描述集中趋势的描述2)频数表法:计算公式为表2-1资料得:112233123kkkfXf Xf Xf Xf XXfffff1 2.45 3 2.751 5.75 409.754.06(m m ol/L)1 31101X 集中趋势的描述集中趋势的描述 2.几何均数 几何均数(geometric mean)可用于反映一组经对数转换后呈对称分布的变量值在数量上

9、的平均水平,在医学研究中常适用于免疫学的指标。其计算公式为 nXXXXXnnGlglg.121集中趋势的描述集中趋势的描述例例2-4 某地某地5例微丝蚴血症患者治疗七年后例微丝蚴血症患者治疗七年后用间接荧光抗体试验测得其抗体滴度倒用间接荧光抗体试验测得其抗体滴度倒数分别为,求几何均数。数分别为,求几何均数。或或 故故5份血清抗体效价的平均滴度为。份血清抗体效价的平均滴度为。510 20 40 40 16034.8G11lglg10 lg20 lg40 lg40 lg160lg ()lg ()34.85XGn集中趋势的描述集中趋势的描述对于频数表资料,几何均数的计算公式为 例2-5,见表2-4资

10、料.计算结果如下:1lglg ()fXGf111lg150.2778lg ()lg ()lg (2.1779) 150.669fXGf集中趋势的描述集中趋势的描述3.中位数中位数 中位数(中位数(median)是将个变量值从小到大排列,位置居于中间的那)是将个变量值从小到大排列,位置居于中间的那个数。适用范围个数。适用范围:各种分布类型的资料各种分布类型的资料(如是偏态分布资料和一端或两端如是偏态分布资料和一端或两端无确切数值的资料。无确切数值的资料。 奇数奇数:次居中的变量值次居中的变量值 偶数偶数:次居中的两个变量值的均数。次居中的两个变量值的均数。1()2nMX()(1)2212nnMX

11、X集中趋势的描述集中趋势的描述 例例:8名患者食物中毒的潜伏期分别为名患者食物中毒的潜伏期分别为1,2,2,3,4,8,15,24小时,求其中位数。小时,求其中位数。 本例,为偶数,得本例,为偶数,得8845( )(1)221113 54()222MXXXX 小 时集中趋势的描述集中趋势的描述4.百分位数 百分位数(percentile)是一种位置指标,用来表示。一个百分位数将全部变量值分为两部分,在不包含的全部变量值中有的变量值比它小,变量值比它大。故百分位数是一个界值,其重要用途是确定医学参考值范围(reference range)。中位数实际上是第百分位数。 集中趋势的描述集中趋势的描述

12、百分位数的计算公式为 式中LX、iX和fX分别为第百分位数所在组段的下限、组距和频数,fL为小于各组段的累计频数, LX为总例数。即为中位数的计算公式(%)XXXLXiPLnXff (%)XXXLXiPLnXff50505050()2LinMPLff离散趋势的描述 1.极差极差:一组变量值最大值与最小值之差。 极差不能反映所有数据的变异大小,且受样本含量的影响较大。即使在不变的情况下,每次抽样得到的极差值相差也大,故其稳定性较差。离散趋势的描述2.四分位数间距 四分位数(quartile)是把全部变量值分为四部分的百分位数,即第1四分位数(QL=P25)、第2四分位数(M=P5 0)、第3四分

13、位数(QU=P75)。四分位数间距(quartile range)是由第3四分位数和第1四分位数相减而得,记为QR。它一般和中位数一起描述偏态分布资料的分布特征。离散趋势的描述3.方差与标准差方差(variance)也称均方差(mean square deviation),反映一组数据的平均离散水平。离均差:每一个变量值与均数的差值,离均差平方和(sum of squares):离均差平方后相加得到的值方差:离均差平方和除以得到的值总体方差用 表示离散趋势的描述方差计算公式为标准差:22()XN2()XN2()1XXSn22()1XXnSn离散趋势的描述 4.变异系数变异系数(coeffici

14、ent of variation)记为,多用于观察指标单位不同时的变异程度的比较。其计算公式为CVSX100%正态分布正态分布(normal distribution)是最常见、最重要的一种连续型分布。 图2-4中的直条就不断变窄,其顶端则逐渐接近于一条光滑的曲线。 曲线形态呈钟形,两头低、中间高,左右对称,近似于数学上的正态分布。正态分布图2-4正态分布1、正态分布的特征(1)在直角坐标上方呈钟型曲线,两端与X轴永不相交,且以X=为对称轴,左右完全对称。(2)在X=处,f(X)取最大值;X越远离,f(X)值越小。 正态分布(3)正态分布有两个参数,即位置参数和形态参数。若固定,改变值,曲线沿

15、着X轴平行移动,其形状不变(见图2-5)。若固定,越小,曲线越陡峭;反之,越大,曲线越平坦(见图2-6) 正态分布图2-500.10.20.30.40.5-4-3-2-101234正态分布图2-600.10.20.30.40.50.60.70.80.9-6-5-4-3-2-10123456=0.5 =1=2正态分布(4)正态曲线下的面积分布有一定的规律。轴与正态曲线所夹面积恒等于或;区间 的面积为68.27%, 区间 的面积为95.00%, 区间 的面积为99.00%。见图2-7。 96. 158. 2正态分布图2-7正态分布标准正态分布 正态分布是一个分布族,对应于不同的参数和会产生不同位置

16、、不同形状的正态分布。为了应用方便,令即将 的正态分布转化为 的标准正态分布(standard normal distribution),式中的称为标准正态变量 Xu2( ,)XN (0,1)uN参考值范围的制定参考值范围的制定1.基本概念 医学参考值(reference value)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定 范 围 内 波 动 , 故 采 用 医 学 参 考 值 范 围(medical reference range)作为判定正常和异常的参考标准。通常使用的医学参考值范围有、等,最常用的为。 参考值范围的制定参考值范围的制定2.制定方法1)正态分布法 许多生物医学数据服从或近似服从正态分布,如同年龄同性别儿童的身高值、体重值,同性别健康成人的红细胞数等;有些医学资料虽然呈偏态分布,但若能通过适当的变量变换转换为正态分布,也可采用正态分布法制定参考值范围。采用此方法前一般要对资料进行正态性检验,且要求样本含量足够大(如100),其计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论