医学统计 数值变量的描述性统计课件_第1页
医学统计 数值变量的描述性统计课件_第2页
医学统计 数值变量的描述性统计课件_第3页
医学统计 数值变量的描述性统计课件_第4页
医学统计 数值变量的描述性统计课件_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章 数值变量的描述性统计山东大学公共卫生学院刘云霞1主要内容2.1 频数分布2.2 集中趋势2.3 离散趋势2.4 正态分布及其应用22.1 频数分布频数分布表的概念频数分布表的编制方法频数分布的特征频数分布的类型频数分布表的用途3 例2.1某地2004年抽样调查 100名男大学生的身高(cm)1074一、频数分布表的概念当样本含量 n 较大时,为了解样本中观察值的分布规律和便于指标计算,可编制频数分布表,简称频数表(frequency table)。频数:对某一随机现象进行重复观察,或测量大量个体的某项特征,其中某个或某一组变量值出现的次数。频数表:将各变量值与其相应的频数列成表格形式即

2、为频数表。5全距(或极差,range)是最大值与最小值之差,用 R 表示。例2.1中,最大值为183.5cm,最小值为162.9cm, 故R =183.5-162.9=20.6(cm)。1. 求全距数值变量资料频数表的编制7组段数:根据样本含量的多少确定,一般设813个组段。组距:各组段的起点和终点分别称为下限和上限,相邻两组段的下限之差(或每一组段的上、下限之差)称为组距。一般取等距分组,常用全距的1/10取整做组距。某组段(下限+上限)/2为组中值。划分组段:各组段应是连续的,不能有交叉或重叠。第一组段应包括最小值;最末组段应包括最大值,并同时写出其下限与上限。例2.1中,全距的1/10为

3、 20.6/10 = 2.06,组距取整为2.0cm ;最小值为162.9cm,故第一组段的下限为162cm,第二组段的下限为164cm,依次类推,最末组段为182cm184cm,包含最大值183.5cm 。 2. 确定组段和组距数值变量资料频数表的编制82010三、频数分布的特征频数分布的两个重要特征: 1. 集中趋势(central tendency):身高向中央部分集中,以中等身高居多(172cm组段),此为集中趋势。反映集中位置或平均水平。 2. 离散程度(tendency of dispersion):由中等身高到较矮或较高的频数分布逐渐减少,反映了身高的离散程度。对于数值变量资料,

4、应用集中趋势和离散程度二者结合起来分析其分布规律。 11图 某地100名18 岁男大学生身高的频数分布集中趋势离散程度4512图2-1 某地100名18岁男大学生身高的频数分布14五、频数表的用途频数表可以揭示资料分布类型和分布特征,以便选取适当的统计方法;便于进一步计算指标和进行统计分析;便于发现资料中的某些特大或特小的可疑值。当样本含量特别大时,可以频率估计概率。作为资料的陈述形式。在文献报告中,用频数表既可直观地反映被研究事物的分布特征,又便于作进一步的分析研究。15一、均数均数(mean)是算术均数(arithmetic mean)的简称。定义:指所有观察值的代数和除以观察值的个数。符

5、号:样本均数用 表示,总体均数用 (miu)表示。 应用: 用于反映一组同质观察值的平均水平,应用 甚广。 适用于正态或近似正态分布的数值变量资料。计算方法:直接法 加权法17直接法:用于样本含量 n 较小时,公式为: 式中,希腊字母 (sigma)表示求和; 为各观察值;n为样本含量,即观察值的个数。例2.2 某地随机抽取10名18岁健康男大学生身高(cm)分别为168.7,178.4,170.0,170.4,172.1,167.6,172.4,170.7,177.3,169.7,求平均身高。 集中趋势的描述指标-均数-直接法(cm)18加权法:用于频数表资料或样本中相同观察值较多时,其公式

6、为:例2.3 计算例2.1表2-1 资料100名男大学生的平均身高。 集中趋势的描述指标-均数-加权法该100名18岁健康男大学生身高的均数为172.70cm。19几何均数(geometric mean)定义:指一组观察值的乘积,再被观察值个数开方。符号:用 表示应用:适用于 数据经过对数变换后呈正态分布的(对数正态分布)资料;观察值之间呈倍数或近似倍数变化(等比关系)的资料。如医学实践中的抗体滴度、平均效价等。计算方法:直接法 频数表法二、几何均数20例2.4 有6份血清的抗体效价为1:10,1:20,1:40,1:80,1:80,1:160, 求其平均效价。 集中趋势的描述指标-几何均数-

7、直接法该6份血清的平均抗体效价为1:45。 或样本含量 n 较小时21计算公式:例2.5 某地区50名麻疹易感儿童接种麻疹疫苗1个月后,测其血凝抑制抗体滴度,如表2-2中(1)、(2)栏,求平均抗体滴度。集中趋势的描述指标-几何均数-频数表法频数表资料或样本中相同观察值较多时22注意:计算几何均数时观察值中不能有0;一组观察值中不能同时有正值和负值。集中趋势的描述指标-几何均数-加权法即其血凝抗体滴度的平均滴度为1:57。24中位数(median)是一种位置指标。定义:将一组观察值按由小到大的顺序排列后位次居中的数值就是中位数,小于和大于中位数的观察值个数相等。符号:用 M 表示。应用:用于描

8、述任何分布,特别是偏态分布资料以及频数分布的一端或两端无确切数据资料的中心位置。计算方法:直接法 频数表法三、中位数50%50%M25计算步骤:按所分组段由小到大计算累计频数和累计频率;确定中位数所在组段,即累计频率包含50的组段;求中位数。 式中, 分别为中位数所在组段的下限、组距和频数; 为小于L的各组段的累计频数。 例2.7 某疾病控制中心记录了199名沙门氏菌属食物中毒患者发病的潜伏期(表2-3),计算平均发病潜伏期。集中趋势的描述指标-中位数-频数表法适用于n 较大时27集中趋势的描述指标-中位数-频数表法28例:分别取甲、乙、丙三人每人的耳垂血,然后红细胞计数,每人数5个计数盘,得

9、结果如下(万/mm3)2.3 离散趋势甲乙丙29全距(range,简记为 R)亦称极差。定义:指一组同质观察值中最大值与最小值之差。全距反映了个体差异的范围:全距大,说明变异度大;反之,全距小,说明变异度小。应用:简单明了。常用于说明传染病、食物中毒等的最短及最长潜伏期。公式:R = xmax- xmin不足:仅考虑了最大值与最小值之差 ,不能反映组内其它观察值的变异度;样本含量越大,抽到较大或较小观察值的可能性越大,故全距可能越大。因此,样本含量相差悬殊时不宜用全距比较。 一、全距30二、百分位数百分位数(percentile)用 表示,0 x 100,是描述一组数据某百分位的位置指标。 将

10、全部观察值分为两部分,理论上有x的观察值比它小,有(100-x)的观察值比它大。最常用的百分位数是 ,即中位数。应用:常与中位数结合应用,可以描述一组资料在某百分位置上的水平,也可以描述资料的分布特征。 M - P5 = P95 M 时,分布近似对称 M -P5 P95 M 时,分布呈负偏态P5P95M31百分位数(percentile)应用:也可用多个百分位数的结合来描述一组观察值的分布特征,如 和 合用时,反映中间50%观察值的分布情况; 百分位数可用于确定非正态分布资料的医学参考值范围。注意:应用百分位数,样本含量要足够大,否则不宜取靠近两端的百分位数。计算公式: 分别为 所在组段的下限

11、、组距和频数; 为小于L的各组段的累计频数。 32百分位数33定义:四分位数间距(quartile interval,Q ) 为上四分位数与下四分位数之差(或 与 之差)。计算公式:应用:用于描述偏态分布以及分布的一端或两端无确切数值资料或分布类型未知资料的离散程度。三、四分位数间距QLQMQU25%25%25%25%34四分位数间距包括了一组观察值的一半,故可把四分位数间距看成是中间50%观察值的极差。意义:Q 越大,变异度越大;反之,Q 越小,变异度越小。特点:由于四分位数间距不受两端个别极大值或极小值的影响,因而它较全距稳定,但仍未考虑全部观察值的变异度 。 离散程度的描述指标-四分位数

12、间距35极差和四分位数间距都只考虑了个别观察值的大小差异,没有全面反映每个观察值的变异程度。就总体而言,即应考虑总体中每个观察值 与总体均数 的差值( ),即离均差。因离均差之和 ,不能反映变异度的大小,故用离均差平方和 (sum of squares of deviations from mean)反映之。离均差平方和的大小除与变异度有关外,还与变量值的个数N 有关。为了消除这一影响,取离均差平方和的均数,称方差(variance)或均方(mean of squares)。四、方差36计算公式: 总体方差 样本方差n-1为自由度(degree of freedom),一般用 (niu)表示。

13、因方差的度量单位是原度量单位的平方,故计算结果难以解释。 离散程度的描述指标-方差样本方差用自由度n-1去除!37计算公式: 总体标准差 样本标准差五、标准差样本标准差用自由度n-1去除!38样本标准差离均差平方和 常用 或 表示。 直接法: 加权法: 求表2-1中100名18岁男大学生身高的标准差。 39意义:标准差大,表示观察值的变异度大; 反之,标准差小,表示观察值的变异度小。应用:适用于描述对称分布资料尤其是正态分布资 料的离散程度。 结合均数,描述正态分布资料的频数分布规 律,用于估计医学参考值范围; 结合均数,计算变异系数; 结合样本含量,计算标准误,估计抽样误 差,用于统计推断。

14、标准差40例题甲:n=5 x=2500 x2=1260400乙:n=5 x=2500 x2=1251000丙:n=5 x=2500 x2=1250250(万/mm3)(万/mm3)(万/mm3)41变异系数(coefficient of variation, CV ),是标准差与均数的比值,用百分数表示,没有单位。计算公式:应用:常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异度。六、变异系数42例2.9 某地调查100名18岁男大学生,身高(cm) 为172.70, 为4.01;体重(kg) 为55.02, 为4.06,试比较两者变异度。 由此可见,该地18岁男大学生体重的变异

15、度大于身高的变异度。变异系数例题身高:体重:43例 某地调查100名7岁男童的身高(cm) 为119.95, 为4.72;100名18岁男大学生的身高(cm) 为172.70, 为4.01。试比较两者变异度。 由此可见,该地7岁男童身高的变异程度较18岁男大学生大。变异系数例题7岁男童:18岁男大学生:44生物现象中有许多变量服从正态分布,如健康人群的大部分反映身体形态、生理功能、机体代谢及免疫状况的解剖学、生理、生化、免疫学指标,一般都基本服从正态分布。例2.1中,由100名18岁男大学生的身高资料所绘制的直方图可看出,高峰位于中部,左右两侧大致对称。设想,如果观察例数逐渐增多,组段不断分细

16、,直方图顶端中点的连线就会逐渐形成一条高峰位于中央(均数所在处),两侧逐渐降低且左右对称,不与横轴相交的光滑曲线。该频数曲线(或频率曲线)被称作正态分布曲线。4 正态分布及其应用1245图2-1 频数分布逐渐接近正态分布示意图46正态分布(normal distribution),也叫高斯分布(Gaussian distribution),是最常见、最重要的一种连续型分布。定义:设 x 为一随机变量,若其概率密度函数可以表示为: 称 x 服从均数为 、方差为 的正态分布,记为 。一、正态分布的概念及特征47 根据正态分布的概率密度函数 当 和 已知时,以 为横轴, 为纵轴,可绘出正态分布图形

17、正态曲线(normal curve)。 1. 正态分布的图形Xf(X)m48正态曲线在横轴上方均数处最高。正态分布以均数为中心,左右对称。正态分布有2个参数-均数和标准差。均数决定了曲线的位置,称为位置参数;标准差决定了曲线的形状,称为变异度参数。正态分布在 处各有一个拐点。 正态曲线下面积的分布有一定规律。2. 正态分布的特征Xf(X)m49正态分布的特征(1) 正态曲线为单峰曲线,在横轴上方均数处最高,曲线两端均以横轴为渐近线。(2) 正态分布以均数为中心,左右对称。50(3) 正态分布有2个参数,即均数 和标准差。 是位置参数,当 固定不变时, 越大,曲线沿横轴越向右移动;反之, 越小,

18、则曲线沿横轴越向左移动。 是形状参数(亦称变异度参数),当 固定不变时, 越大,曲线越平阔; 越小,曲线越尖峭。通常用N( ,2)表示均数为 ,标准差为 的正态分布。 不变, 发生变化 不变, 发生变化正态分布的特征51(4) 正态分布在 处各有一个拐点。 +凸凹凹(5) 正态曲线下的面积分布有一定规律。(见下文)正态分布的特征52标准正态分布 (standard normal distribution): 均数 ,标准差 的正态分布 称为标准正态分布。概率密度函数为: 3. 标准正态分布53 若 x N ( ,2),对 x 进行如下变换: 则可证明,u服从标准正态分布,即 u N (0 ,1

19、)。标准正态变换标准正态离差标准正态变量x N ( ,2)u N (0 ,1)标准正态变换标准正态分布与一般正态分布的关系:54标准正态曲线只有一条,因此其性质、规律都是固定的,而普通正态分布 又可通过 u 变换转化为标准正态分布 ,从而为研究带来极大的方便。但在实际应用中,常以样本为研究对象, 和 未知,此时当 n 足够大时,可以样本均数 和样本标准差 代替 和 ,则标准正态变换为 。标准正态分布55正态曲线下面积的分布有一定规律。利用曲线下某一区间的面积占总面积的百分比,可以估计该区间的例数占总例数的百分比(频数分布)或估计观察值落在该区间的概率。 正态曲线下某一区间的面积可通过对概率密度

20、函数积分求得。二、正态曲线下面积的分布规律561. 正态曲线下面积的计算图1中阴影部分反映了(-,x)的面积,计算方法如下:图2中阴影部分(代表任意区间)的面积,理论上可以如下计算:xab正态分布的分布函数572. 标准正态曲线下的面积计算对于标准正态分布,其分布函数记为 即标准正态曲线下(-, u)的面积,其大小随u的变化而变化。为了应用方便,统计学家按 编制了标准正态分布曲线下的面积分布表(简称 u 值表) ,可以根据u值查表得到区间(-, u)的面积。58u-x1x2(u)u59603. 一般正态分布曲线下的面积对于一般的正态分布 N( , 2),其曲线下(-, x)区间的面积除与x有关

21、外,还与 和 有关。即不同的正态曲线,由于其位置和形状不同,同一区间内的面积是不同的。但可利用标准正态变换 ,将N( , 2)转化为标准正态分布,再根据标准正态曲线下的面积分布表推算。611. 求 u 值当 、 和 已知时,按 求得 值,再查 值表,求得所求区间的面积占总面积的比例;当 、 未知且样本含量n足够大时,可用样本均数 和标准差 分别代替 和 求得 u 的估计值。2. 查 u 值表根据所求的 u 值查表。查u界值表的步骤:62曲线下横轴上方的总面积为100 或1;附表仅列出了标准正态曲线下-到u的面积;标准正态曲线下对称于0的区间其面积相等,如 和 的面积相等, 即 。应用u界值表时

22、应注意:(u)u63例2.10由例2.1资料得:100名18岁男大学生身高的均数 cm,标准差 cm。试估计该地18岁男大学生身高在168cm以下者占该地18岁男大学生总数的百分数。本例, 未知但n较大,用 和 分别代替 和 ,按 求得 值 。 查附表1标准正态曲线下的面积得0.1210,即该地18岁男大学生身高在168cm以下者,约占总数的12.10%。 64实例: mmol/L, mmol/L, 。 试估计该地正常女子血清甘油三脂在1.10 mmol/L以上者占正常女子血清甘油三脂总人数的百分比。本例, 未知但n较大,用 和 分别代替 和 ,按 求得 值,将x=1.10 mmol/L代入公

23、式, 。查u界值表得1-(-0.14)0.5557,即该地正常女子血清甘油三脂在1.10mmol/L以上者占总人数的55.57%。 65实例图示55.57664. 常用正态曲线下面积及其对应的分位数x = + u67-+-1.645+1.645-1.96+1.96 -2.58+2.5815.866%15.866%68.27%5%5%90%2.5%2.5%95%99%0.5%0.5%68三、正态分布的应用许多医学现象服从正态分布或近似正态分布,如同性别、同年龄儿童的身高;同性别健康成年人的红细胞数、血红蛋白含量、胆固醇、心率等生理生化指标;医学实验中的随机误差等,一般都呈现正态或近似正态分布,故

24、可按正态分布规律处理。有些医学资料虽然本身呈偏态分布,但经数据变换后可成为正态或近似正态分布,如疾病的潜伏期、医院病人的住院天数等,在施加对数变换后,转化成正态分布或近似正态分布,也可以按正态分布规律处理。691. 制定医学参考值范围 医学参考值范围(reference ranges),亦称医学正常值范围,是指所谓“正常人”的解剖、生理、生化等指标的波动范围。所谓“正常人”不是指“健康人”,而是指排除了影响所研究指标的疾病和有关因素的同质人群。70医学正常值范围的用途作为诊断标准,划分正常与异常的界限;根据传染病传染期的长短确定该病患者的隔离期限,或根据潜伏期长短确定接触者的留验期限;制订卫生标准及有害物质的容许浓度,作为保护健康的安全界限;制订不同性别、年龄儿童的某项生长发育指标的等级标准;在质量控制中制订各种控制限。71制定医学参考值范围的步骤及要求 1. 选取研究对象,要求样本含量足够大,保证研究对象的同质性;2. 根据研究目的和使用要求选定适当的百分界值,如80,90,95和99,常用95;3. 根据指标的实际用途确定单侧或双侧界值,如白细胞计数过高或过低皆属不正常,须确定双侧界值;又如肝功能检查中转氨酶过高属不正常须确定单侧上界,肺活量过低属不正常须确定单侧下界;4. 根据资料的分布特点,选用恰当的界值计算方法。72单侧或

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论