




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章 定量资料的统计描述2022/7/241 学习要求 了解:应用SAS程序编制频率表的方法和means、univariate过程对定量资料的描述。 熟悉:定量资料频率表的编制方法和用途。 掌握:算术均数、几何均数、中位数的计算方法和使用条件;四分位间距、方差、标准差、变异系数的计算方法和使用条件。 2022/7/242 统计描述是用统计图表、统计指标来描述资料的分布规律及其数量特征的。 第一节 频率分布表与频率分布图 医学研究资料变量值的个数较多时,对个变量值出现的频数或频率列表即为频数分布表或频率分布表(frequency distribution table),简称频数表或频率表。 2
2、022/7/243 一、离散型定量变量的频率分布 例2-1 1998年某山区96名孕妇产前检查次数资料,编制频率表。 表2-1 1998年某地96名孕妇产前检查次数频率分布检查次数(1)频数(2)频率(%)(3)累计频数(4)累计频率(%)(5)0123455 4 71113262312 4.2 7.311.513.527.124.012.5 4112235618496 4.211.522.936.563.587.5 100.0合计961002022/7/244 图2-1 1998年某地96名孕妇产前检查次数频率分布 离散型定量变量的频率分布图可用直条图表达,以等宽直条的高度表示各组频率的多少
3、2022/7/245二、连续型定量变量的频率分布 例2-2 抽样调查某地120名1835岁健康男性居民血清铁含量(mmo/L),数据如下。试编制血清铁含量的频率分布表。2022/7/246频率表的编制步骤如下: 1. 计算极差 (range, R),亦称全距,即最大值与最小值之差。本例最大值为29.64,最小值为7.42,故R=29.64-7.42=22.22 (mmo/L)。 2. 确定组段数与组距(class interval) 组段数一般取10组左右。组距用i表示,组距=极差/组段数,本例拟分10组,i=22.22/10=2.22,一般取靠近的整数作为组距,本例取i2。 3. 确定各组段
4、的上、下限 每个组段的起点称为组段的下限,终点称为组段的上限。第一组段要包括最小值,其下限取小于或等于最小值的整数,本例取6最为第一组段的下限(也可取7),最后一个组段要包括最大值。注意各组段不能重合,每组段只写出下限,如6,8,最后一个组段可包括其上限值,如本例2830。 4. 列表 清点各组的频数,计算频率、累积频率数和累计频率。 2022/7/247组段(1)频数(2)频率(%)(3)累计频数(4)累计频率(%)(5)6810121416 18 20 22 24 26 2830 1 3 6 81220271812 8 4 1 0.83 2.50 5.00 6.6710.0016.6722
5、.5015.0010.00 6.67 3.33 0.83 1 4 10 18 30 50 77 95107115119120 0.83 3.33 8.33 15.00 25.00 41.67 64.17 79.17 89.17 95.83 99.17100.00合计120100.00表2-2 120名正常成年男子血清铁含量(mmo/L)频率分布2022/7/248图2-2 120名健康成年男子血清铁含量(mol/L)分布2022/7/2492-2 120名健康成年男子血清铁含量(mmo/L)分布2022/7/2410三、频率分布表(图)的用途 1.揭示资料的分布类型 2022/7/2411 正
6、偏态(右偏态) 负偏态(左偏态) 2.观察资料的集中趋势和离散趋势 3.便于发现某些特大或特小的可疑值 4.便于进一步计算统计指标和作统计处理2022/7/2412第二节 描述集中趋势的统计指标 医学定量资料中,描述集中趋势的统计指标主要有算术均数、几何均数和中位数。一、算术均数(arithmetic mean) 简称均数。均数适用于对称分布或近似对称分布的资料。习惯上以希腊字母 表示总体均数(population mean),以表示样本均数 (sample mean)。常用计算方法有直接法和频率表法(亦称加权法)。2022/7/24131.直接法 例2-3 测得8至正常大白鼠血清总酸性磷酸酶
7、(TACP)含量 (U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。 本例(U/L)2022/7/2414 2.频率表法 当变量值的个数较多时,在编制频率表的基础上,应用加权法计算均数的近似值。 公式中,f 为各组段的频数,X0为各组段的组中值, X0=(组段上限+组段下限)/2。 例2-4 (mmo/L)如用直接法计算, =18.61(mmo/L)2022/7/2415 表2-3 频数表法计算均数组段(1)组中值(X0)(2)频数(f)(3)fX0(4)=(2)(3) 6 8 10 12 14 16 18 20 22 24 26 28
8、 30 7 911131517192123252729 1 3 6 81220271812 8 4 1 7 27 66104180340513378276200108 29合计 120 22282022/7/2416二、几何均数(geometric mean,) 几何均数使用于原始变量不呈对称分布,但对变量经对数转换后呈对称分布的资料,又称对数正态分布资料。常见于正偏态分布资料,如抗体滴度,某些传染病的潜伏期,细菌计数等。计算公式亦可用直接法和频数表法。 1.直接法 对数的形式为 2022/7/2417 例2-5 7名慢性迁延型肝炎患者的HBsAg滴度资料为: 1:16,1:32,1:32,1
9、:64,1:64,1:128,1:512。试计算其几何均数。 本例先求平均滴度的倒数7名慢性迁延型肝炎患者的HBsAg滴度几何均数为1:64。2022/7/2418 2.频率表法:当资料中相同变量值的个数f(即频数)较多时,可通过频率表法计算几何均数,公式为 表2-4 52例慢性肝炎患者的 HBsAg滴度资料抗体滴度频数(f)滴度倒数(X)logXflogX1:161:321:641:1281:2561:5122711131271632641282565121.204121.505151.806182.107212.408242.709272.4082410.5360519.8679827.3
10、937328.8988818.96489合计52108.069772022/7/2419本例f lgX= 108.06977 , f=52,代入公式得 52例慢性肝炎患者的 HBsAg滴度的几何均数为1:119.75 计算几何均数应注意:变量值中不能有0;不能同时有正值和负值;若全是负值,计算时可先把负号去掉,得出结果后再加上负号。2022/7/2420滴度倒数XlgX频数 f20.3010440.6021780.903115161.204120321.505116641.806271282.107232022/7/24212022/7/24222022/7/2423三、中位数及百分位数 1.
11、中位数(median , M) 将一组变量值从小到大按顺序排列,位次居中的变量值称为中位数。在全部变量值中,大于和小于中位数的变量值的个数相等。 用中位数表示平均水平主要适用于:变量值中出现个别特小或特大的数值;资料的分布呈明显偏态,即大部分的变量值偏向一侧;变量值分布一端或两端无确定数值,只有小于或大于某个数值;资料的分布不清。2022/7/2424 (1)直接法 当例数较少时,先将变量值由小到大顺序排列,再按以下公式计算。n为奇数时 n为偶数时 式中X的下标为变量值的位置。2022/7/2425 例2-7 某药厂观察9只小鼠口服高山红景天醇提物后在乏氧条件下的生存时间(min)如下:49.
12、1,60.8,63.3,63.6,63.6,65.6,65.8,68.9,69.0。试求其中位数。 本例n=9,为奇数如果n=10例,生存时间为69.6,则中位数为2022/7/2426 (2)频率表法 当例数较多时,先将变量值从小到大编制频率表,并分别计算累计频数和累计频率(见表2-5)。先从累计频率找出M所在的组段,然后按下式计算。 式中L为中位数所在组段的下限,i为该组段的组距,fm为该组段的频数,fL为小于L的各组段累计频数。 例2-8 50例链球菌咽颊炎患者的潜伏期(小时)如表2-5,试计算潜伏期的中位数。2022/7/2427表2-5 50例链球菌咽颊炎患者的潜伏期(小时)的频率分
13、布表 组段组中值(X0)频数(f)累计频数累计频率(%)122436486072849610812018304254667890102114 1 71111 7 5 4 2 2 1 819303742464850 2 16 38 60 74 84 92 96100合计-50-本例从累计频率看,M位于48组段,即L=48,i=12,fm=11, fL=19,(小时)2022/7/2428fLMfm2022/7/2429 1.百分位数 百分位数(percentile,P)是一种位置指标,以Px表示。百分位数是将频数等分为一百的分位数。一组观察值从小到大按顺序排列,理论上有x%的变量值比Px小,有(
14、100 x)%的变量值比Px大。故P50分位数也就是中位数,即P50=M 。百分位数的计算公式为 式中L为Px所在组段的下限,i为该组段的组距,fx为该组段的频数,fL为小于L的各组段累计频数。2022/7/2430 如 试求表2-5资料中百分位数P25、P75 。 由表2-5累计频数栏可见P25在“36”组段,L=36,i=12, fx=11, fL=8,代入公式得(小时) 同理可知 P75在“72”组段,L=72,i=12, fx=5, fL=74,代入公式得(小时) 百分位数的使用条件同中位数一样。主要用途为:描述一组资料在某百分位置上的水平;用于确定正常值范围;计算四分位数间距。 20
15、22/7/2431四、众数( mode) 一组数据中出现次数最多的数值,叫众数。众数在频率分布表中是频数最多的那一组的组中值,有时众数在一组数中有好几个或者没有众数。 例如:1,2,3,3,4的众数是3 ;1,2,2,3,3,4的众数是2和3;1,2,3,4,5没有众数;表2-5众数为42和54。 2022/7/2432第三节 描述离散趋势的统计指标 例2-10 是观察三组数据的离散状况。A组:26,28,30,32,34;B组:24,27,30,33,36;C组:26,29,30,31,34。三组均数都是30。 A组 . . . . . B组 . . . . . C组 . . . . . 常
16、用的离散指标有: 极差、四分位数间距、方差、标准差和变异系数,最常用的指标为标准差。 2022/7/2433一、极差和四分位数间距 1.极差 极差(range,R)亦称全距,即一组变量值中最大值与最小值之差。R值大,离散度就大;R值小,离散度就小。 A组: R=34-26=8 B组:R=36-24=12 C组:R=34-26=8 极差的特点是计算简单,但只考虑最大值和最小值,容易受个别极端值的影响,且不能反映组内其他变量值的离散情况。另外,当调查例数增多时,遇到较大或较小变量值的机会就大,极差就可能增大。2022/7/2434 2.四分位数间距(quartile interval,Q) 极差的
17、不稳定主要受两端值的影响,如将两端数据各去掉一部分,这样所得的数据就比较稳定了。例如两端各去掉25,取中间50的数据的极差,这样可先计算P25和P75,求出P75与P25之差,即为四分位数间距。 Q= P75P25 P75又称为上四分位数(upper quartile ); P25又称为下四分位数(lower quartile )。2022/7/2435 例2-12 试计算表2-5中 50例链球菌咽颊炎患者的潜伏期(小时)的四分位间距。 已知P75=73.20小时,P25=40.91小时,代入公式得 Q=73.2040.91=32.29(小时) 由以上的结果可以看出:链球菌咽颊炎患者的潜伏期在
18、40.9173.20小时之间,其四分位数间距为32.29小时。 四分位数间距可用于各种分布资料,特别是偏态分布资料,经常把中位数和四分位间结合起来描述资料的集中趋势和离散趋势。2022/7/2436二、方差和标准差 方差(variance)和标准差(standard deviation)是描述对称分布,特别是正态分布或近似正态分布资料离散趋势(变异程度)的常用指标。 1.方差 总体方差用 表示,样本方差用S2表示。2022/7/2437 式中: n-1是自由度(degree of freedom),用希腊小写字母表示。它描述了当 不变的情况下,n个变量值(X)中能自由变动的变量值的个数。用n-
19、1作分母,S2可作为 的无偏估计。 对于频率表资料如例2-10三组数据其方差为2022/7/2438 2.标准差 标准差为方差的开方根,它与原始变量值单位相同。总体标准差用 表示 ,样本标准差用S表示。 总体标准差计算公式为 样本标准差计算公式为 2022/7/2439 对于频率表资料例 2-14 计算例2-2数据的标准差。 已算得fX0=2228, n=f=120, =43640(mol/L) 对于正态分布资料,研究报告中经常用 的形式来描述资料的集中趋势和离散趋势。2022/7/2440三、变异系数(coefficient of variation, CV) 当两组或多组变量值的单位不同或
20、均数相差较大时,不能或不宜用两个或多个标准差的大小来比较其离散程度的大小。此时可用变异系数反映变量值的相对离散程度。样本变异系数CV的计算公式 由上式可以看出:变异系数为无量纲单位,可以比较不同单位指标间的变异度;变异系数消除了均数的大小对标准差的影响,所以可以比较两均数相差较大时指标间的变异度。2022/7/2441 例2.14 1985年通过十省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg,身高均数为72.4cm,标准差为3.0cm。试计算周岁女童身高与均数变异系数。身高 体重 周岁女童体重的变异程度比身高的变异程度大。 2022/7/2442 第四节 描述分布
21、形态的统计指标 1.偏度系数(coefficient of skewness ,SKEW) 偏度系数(G1)按照以下公式计算G1=0为正态分布;G10为正偏态分布;G10负偏态G1M0,为尖峭峰;G2 |t| = |M| = |S| .0001 Tests for Normality Test -Statistic- -p Value- Shapiro-Wilk (W检验) W 0.992187 Pr D 0.1500 Cramer-von Mises W-Sq 0.060468 Pr W-Sq 0.2500 Anderson-Darling A-Sq 0.343631 Pr A-Sq 0.25002022/7/2460Quantiles (Definition 5) Quantile Estimate 100% Max 29.640 99% 27.900 95% 25.180 90% 24.135 75% Q3 21.570 50% Median 18.985 25% Q1 16.020 10% 12.660 5% 10.975 1% 8.400 0% Min 7.4202022/7/2461 Extreme Observations -Lowest- -Highest- Value Obs Value Obs 7.42
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论