(预防医学课件)数值变量资料的统计描述_第1页
(预防医学课件)数值变量资料的统计描述_第2页
(预防医学课件)数值变量资料的统计描述_第3页
(预防医学课件)数值变量资料的统计描述_第4页
(预防医学课件)数值变量资料的统计描述_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、(预防医学课件数值变量资料的统计描述课后复习题 以下数据是什么类型资料?以下数据是什么类型资料? 血压值血压值 贫血人数贫血人数 患者的住院天数患者的住院天数 患者的抗体滴度患者的抗体滴度3第十五章第十五章 数值变量的统计分析数值变量的统计分析统计描述统计描述 从资料中获取信息最根本的从资料中获取信息最根本的方法方法 把握资料的根本特征把握资料的根本特征 为进一步分析打下根底为进一步分析打下根底 统计指标统计指标 统计表统计表 统计图统计图45掌握:掌握: 频数分布表的类型、特征和作用;频数分布表的类型、特征和作用; 集中趋势的指标适用条件、计算;集中趋势的指标适用条件、计算; 变异程度的指标

2、适用条件、计算;变异程度的指标适用条件、计算;熟悉:熟悉: 频数分布表的编制步骤;频数分布表的编制步骤; 频数分布图的应用。频数分布图的应用。学习目的与要求学习目的与要求61频数分布表与频数分布图频数分布表与频数分布图2集中趋势的描述集中趋势的描述3离散趋势的描述离散趋势的描述数值变量资料的统计描述数值变量资料的统计描述7 150 名名 3 岁女孩身高岁女孩身高cm资料如下资料如下 如何有效地组织、整理和表达数据的信息?如何有效地组织、整理和表达数据的信息? 一、数值变量资料的频数分布一、数值变量资料的频数分布8 表表15-1 某市某市 150 名名 3 岁女孩身高的频数分布岁女孩身高的频数分

3、布cm组段组段频数频数频率(频率(%)累计频数累计频数累计频率(累计频率(% %)8010.67 10.67 8232.00 42.67 8485.33 128.00 86106.67 2214.67 881912.67 4127.33 902315.33 6442.67 922617.33 9060.00 942416.00 11476.00 961711.33 13187.33 98106.67 14194.00 10064.00 14798.00 10221.33 14999.33 10410610.67 150100.00 合计合计150100.0091.计算全距:全距又叫极差计算全距

4、:全距又叫极差range,以,以R表示,指数据中最大值与最小值之差,表示,指数据中最大值与最小值之差,它描述了数据变异的幅度。它描述了数据变异的幅度。2.划分组段:确定组数、组距和上下限。划分组段:确定组数、组距和上下限。3.列表归组。列表归组。组数过少,信息损失较大,组数过少,信息损失较大,组数太多,就掩盖了数据分布的组数太多,就掩盖了数据分布的规律。规律。一般取一般取815组,最常取组,最常取10组组具体视观察值个数具体视观察值个数n的多少而定的多少而定组距组距class interval即每组间的距离即每组间的距离,以以i表示表示i= Rk 即全距组数即全距组数本例中本例中为了便于分组,

5、可以将为了便于分组,可以将 i 取整为取整为2确定了组数和组距就可以划分组段,确定了组数和组距就可以划分组段,每个组段的起点称每个组段的起点称“下限下限,终点称,终点称“上限上限。为防止含混,每个组段包含下限,为防止含混,每个组段包含下限,不包含上限,是个半开半闭区间不包含上限,是个半开半闭区间 : )第一组必包含最小值,最后一组必包括最大值。第一组必包含最小值,最后一组必包括最大值。本例:第一组下限取本例:第一组下限取80,上限,上限=下限下限+组距组距=82该值也是第二组的下限,以此类推。该值也是第二组的下限,以此类推。本例共划分本例共划分13个组段。个组段。10 表表15-1 某市某市

6、150 名名 3 岁女孩身高的频数分布(岁女孩身高的频数分布(cm) 组段组段 划记划记 频数频数 f (1) (2) (3) 80 一一 1 82 T 3 84 正正T 8 86 正正正正 10 88 正正正正正正T 19 90 正正正正正正正正T 23 92 正正正正正一正正正正正一 26 94 正正正正正正正正T 24 96 正正正正正正T 17 98 正正正正 10 100 正一正一 6 102 T 2 104106 一一 1 合计合计 150 -_-_11 表表15-1 某市某市 150 名名 3 岁女孩身高的频数分布岁女孩身高的频数分布cm组段组段频数频数频率(频率(%)累计频数累

7、计频数累计频率(累计频率(% %)8010.67 10.67 8232.00 42.67 8485.33 128.00 86106.67 2214.67 881912.67 4127.33 902315.33 6442.67 922617.33 9060.00 942416.00 11476.00 961711.33 13187.33 98106.67 14194.00 10064.00 14798.00 10221.33 14999.33 10410610.67 150100.00 合计合计15010012n 以直方图多见,更直观了解频数分布情况。以直方图多见,更直观了解频数分布情况。n 组

8、距有等距与不等距之分。组距有等距与不等距之分。 不等距是就变量值的划分而言,直方图的宽度不等距是就变量值的划分而言,直方图的宽度 始终相等始终相等。频数分布图频数分布图13图图15-1 15-1 某市某市150150名名3 3岁女孩身高的频数分布岁女孩身高的频数分布14年龄岁年龄岁 患者人数患者人数 每岁患者人数每岁患者人数 年龄岁患者人数年龄岁患者人数 每岁患者人数每岁患者人数 0 3 3 8 8 8 1 3 3 9 6 6 7 14 14某市某年乙脑患者的年龄分布某市某年乙脑患者的年龄分布1516n 揭示资料的揭示资料的分布特征、分布类型分布特征、分布类型。n 便于发现某些特大或特小的可疑

9、值。便于发现某些特大或特小的可疑值。n 便于进一步计算统计学指标。便于进一步计算统计学指标。频数分布表和频数分布图的频数分布表和频数分布图的应用应用17图图15-1 15-1 某市某市150150名名3 3岁女孩身高的频数分布岁女孩身高的频数分布18集中趋势集中趋势central tendencycentral tendency3 3岁女孩身高虽然有岁女孩身高虽然有高有矮,但向中间集中,中等身高高有矮,但向中间集中,中等身高92-94cm92-94cm的人的人数最多。数最多。离散趋势离散趋势tendency of dispersiontendency of dispersion从中等身高从中等

10、身高向较矮或较高方向频数逐渐减少,向两端离散。向较矮或较高方向频数逐渐减少,向两端离散。频数分布频数分布特征特征19频数分布频数分布类型类型对称对称分布(正态分布)分布(正态分布)偏态偏态分布分布 20对称分布正态分布:在频数分布图上对称分布正态分布:在频数分布图上表现为中间高、两边低,左右两端对称并表现为中间高、两边低,左右两端对称并逐渐下降。逐渐下降。如:体温、血压、脉搏、体重、血糖值。如:体温、血压、脉搏、体重、血糖值。21图图15-1 15-1 某市某市150150名名3 3岁女孩身高的频数分布岁女孩身高的频数分布22偏态分布:频数分布不对称,在频数分布图上表现偏态分布:频数分布不对称

11、,在频数分布图上表现为顶峰偏向一侧,依顶峰所在位置又分为正偏态分为顶峰偏向一侧,依顶峰所在位置又分为正偏态分布和负偏态分布两种。布和负偏态分布两种。正偏态分布:顶峰偏左侧,即在观察值较小的一端正偏态分布:顶峰偏左侧,即在观察值较小的一端集中了较多的频数。集中了较多的频数。如:正常人体中某些非必需微量元素的频数分布。如:正常人体中某些非必需微量元素的频数分布。负偏态分布:顶峰偏右侧,较为少见。负偏态分布:顶峰偏右侧,较为少见。23238名正常人发汞值名正常人发汞值(g/g) 的频数分布的频数分布发发 汞汞 值值 频频 数数 累计频数累计频数 累计频率累计频率 (1) (2)(3) (4)=(3)

12、/23824 年龄组年龄组 恶性肿瘤死亡率恶性肿瘤死亡率(1/10万万) 10 12 20 15 30 76 40 189 50 234 60 386 70 286某地某年恶性肿瘤死亡率的年龄分布某地某年恶性肿瘤死亡率的年龄分布共共 69 页页25图2-2 59名链球菌咽喉炎患者的潜伏期(h)0246810121416181224364860728496108 120潜伏期(h)病例数图2-3 101名正常人的血清肌红蛋白含量051015202505101520253035404550肌红蛋白含量(ug/mL)人数 正偏态右偏态正偏态右偏态峰向左偏移,向右侧拖尾峰向左偏移,向右侧拖尾 负偏态左

13、偏态负偏态左偏态峰向右偏移,向左侧拖尾峰向右偏移,向左侧拖尾261频数分布表与频数分布图频数分布表与频数分布图2集中趋势的描述集中趋势的描述3离散趋势的描述离散趋势的描述数值变量资料的统计描述数值变量资料的统计描述27 又称又称平均数平均数( (average) ),是统计学中应用最是统计学中应用最广泛、最重要的一个指标体系。广泛、最重要的一个指标体系。 常用的有常用的有算术均数、几何均数、中位数算术均数、几何均数、中位数三个三个指标。用于描述一组同质计量资料的集中位置或指标。用于描述一组同质计量资料的集中位置或反映一组观察值的平均水平反映一组观察值的平均水平。二、集中趋势指标二、集中趋势指标

14、(central tendency)28n 最常用,也简称均数最常用,也简称均数meanmean。n 反映一组数据在数量上的平均水平和在分布图上反映一组数据在数量上的平均水平和在分布图上n 的集中位置。的集中位置。n 总体均数用总体均数用 表示,样本均数用表示,样本均数用 x x 表示表示n 适用于描述对称分布、正态分布或近似正态适用于描述对称分布、正态分布或近似正态n 分布资料的集中趋势。分布资料的集中趋势。1 算术均数算术均数一一291.1.直接法用于小样本或有计算机及软件直接法用于小样本或有计算机及软件 将所有数据相加,再除以总例数。将所有数据相加,再除以总例数。 X1 X1、X2 Xn

15、X2 Xn为变量值,为变量值,n n为总例数,为总例数, 为希腊字母,为求和符号。为希腊字母,为求和符号。nXnXXXXn 213010名名3岁女孩身高岁女孩身高cm分别为:分别为:、,求其平均身高。、,求其平均身高。代入公式得:代入公式得:)()(cmX27.93101 .955 .825 .92 312.加权法大样本,一般以频数表为根底加权法大样本,一般以频数表为根底 f1、f2fk为各组段频数,为各组段频数, X1、 X2 Xk 为为各组段组中值,即本组下限各组段组中值,即本组下限+下组下限下组下限2,k为组数。为组数。 ffXfffXfXfXfXkkk21221132 表表 15-2

16、某市某市150名名3岁女孩身高均数的加权法计表岁女孩身高均数的加权法计表 组段组段 频数频数 组中值组中值 X fX 1 2 3 4(2) (3) 80 1 81 8182 3 83 24984 8 85 68086 10 87 870 88 19 89 1691 90 23 91 209392 26 93 2418 94 24 95 228096 17 97 164998 10 99 990 100 6 101 606102 2 103 206104 106 1 105 105合计合计 150(f) 13918 (fX)33 用加权法计算某市用加权法计算某市150名名3岁女孩的身高岁女孩的身

17、高均数如下:均数如下:本例本例 fX=13918, f=150,带入公式得:,带入公式得:即该市即该市150名名3岁女孩身高的均数为。岁女孩身高的均数为。1391892.79()150fXXcmf34用来描述对数正态分布呈倍数关系资料。用来描述对数正态分布呈倍数关系资料。1.1.直接法用于小样本直接法用于小样本 nn21XXXG nXnXXXnlglglglglglg12112 几何均数几何均数geometric mean,G35例例2 有有5人的血清抗体效价为人的血清抗体效价为:1:10,1:100,1:1000,1:10000,1:1000000。求其平均效价求其平均效价? 为计算方便,先

18、求其倒数的平均效价:为计算方便,先求其倒数的平均效价: 5份血清的平均抗体效价为份血清的平均抗体效价为1:1000。10003lg5100000lg100lg10lglglglg111 )(nXG362.加权法用于大样本、频数表资料加权法用于大样本、频数表资料f1、f2fk 为各组段频数,为各组段频数, X1、 X2 Xk 为倒数为倒数,k为组数。为组数。fXffffXfXfXfGKKKlglg.lg.lglglg1212211137 例例3 3 35 35 人血清抗体滴度见下表,求平均滴度。人血清抗体滴度见下表,求平均滴度。 代入公式:代入公式: 得得 35 35 人血清抗体平均滴度为人血清

19、抗体平均滴度为 1:441:44。446428. 1lg354967.57lglglg111)(fXfG38抗体滴度抗体滴度 人数人数f 滴度倒数滴度倒数X lgX flgX 1 2 3 4 (5)=(2) (4) 合计合计 35 57.4967(flgX)表表15-3 平均抗体滴度计算表平均抗体滴度计算表39n是将一组变量值从小到大排序后位次居中是将一组变量值从小到大排序后位次居中的变量值。的变量值。n主要用于描述偏态分布资料;主要用于描述偏态分布资料;n 开口资料一端或两端无确定数据;开口资料一端或两端无确定数据;n 变量值中有个别过大或过小值资料的集变量值中有个别过大或过小值资料的集中趋

20、势。中趋势。3 中位数中位数median , M401. 1. 直接法用于小样本直接法用于小样本 n n 为奇数时,为奇数时, n n 为偶数时,为偶数时,21nXM12221nnXXM41某病患者某病患者 5 人的潜伏期人的潜伏期d从小到从小到大排列为大排列为1,3,8,9,15天,求中位数。天,求中位数。本例本例 n=5 为奇数,为奇数, (天)8321XXMn42例例4 4 某病患者某病患者 10 10 人的潜伏期人的潜伏期d d从小到从小到大排列为大排列为1 1,3 3,8 8,9 9,1515,1919,2020,2323, 25 25,3030,求中位数。,求中位数。 此时此时 n

21、 n 为偶数,为偶数,(天)()(17191521212165122XXXXMnn43 百分位数是一种位置指标,以百分位数是一种位置指标,以 PX 表示,表示, PX 就表示位就表示位于于X位置的数值。位置的数值。 中位数就是位于中位数就是位于50%位置的数值,位置的数值,是百分位数的一个特例。是百分位数的一个特例。例例 对某地对某地630名名5060岁的正常女性检查了血清甘油三脂含岁的正常女性检查了血清甘油三脂含量量mmol/L,资料如下表所示,试计算其中位数。,资料如下表所示,试计算其中位数。2. 频数表法频数表法表表 某地某地630630名正常女性血清甘油三脂含量名正常女性血清甘油三脂含

22、量(mmol/L)(mmol/L) - -630合计合计100.0 630 13.10629 32.80626 42.50622 142.20608 281.90580 421.60538 811.30457 941.00 57.6 M3631670.701961690.40 27 270.10累积频率累积频率(%) (%) 累积频数累积频数频数频数 甘油三脂甘油三脂03060901201501801频频数数甘油三脂甘油三脂(mg/dL)0.10.4 0.7 1.01.31.6 1.92.2 2.5 2.8 3.16300.5196M0.306300.70(196)0.914(/)1672Mm

23、molL46中位数频数表法中位数频数表法 LM:中位数所在组下限:中位数所在组下限 iM:中位数所在组组距:中位数所在组组距 fM:中位数所在组的频数:中位数所在组的频数 fL:中位数所在组前一组的累计:中位数所在组前一组的累计频数频数LMMMfnfiLM247例例5 5 某医师调查了某医师调查了181181名食物中毒患者的潜名食物中毒患者的潜伏期,见下表,试用中位数反映其平均水平。伏期,见下表,试用中位数反映其平均水平。思路:思路:先判断中位数在哪一个组段,再用公式先判断中位数在哪一个组段,再用公式 计算。计算。48表表15-4 181名食物中毒患者的潜伏期名食物中毒患者的潜伏期潜伏期(小时

24、)潜伏期(小时) 人数人数f 累计频数累计频数 f 累计频率()累计频率() (1) (2) (3) (4)()(3)/n 0 30 30 16.57 12 63 93 51.38(16.57+34.81) 24 47 140 77.35 36 20 160 88.40 48 12 172 95.03 60 8 180 99.45 72 84 1 181 100.0049本例中位数在第二组段,那么本例中位数在第二组段,那么L=12L=12,i=12i=12,f=63f=63, fL=30 fL=30,代入公式得:,代入公式得: )(52.23)302/181(631212 2小时LMfnfiL

25、M501频数分布表与频数分布图频数分布表与频数分布图2集中趋势的描述集中趋势的描述3离散趋势的描述离散趋势的描述数值变量资料的统计描述数值变量资料的统计描述51 通常,描述一组观察值,除需要表示其平通常,描述一组观察值,除需要表示其平均水平外,还要说明它的离散或变异的情况。均水平外,还要说明它的离散或变异的情况。 常用于描述离散趋势的统计指标有常用于描述离散趋势的统计指标有极差、极差、四分位数间距、方差、标准差和变异系数四分位数间距、方差、标准差和变异系数。52 例例 对甲乙两名高血压患者连续观察对甲乙两名高血压患者连续观察5 5天,测得的收缩压天,测得的收缩压(mmHg)(mmHg)结果如下

26、:结果如下: 甲患者甲患者 162 145 178 142 186 162 145 178 142 186 乙患者乙患者 164 160 163 159 166 164 160 163 159 166 可以看出:两患者收缩压的均数十分接近,但甲患可以看出:两患者收缩压的均数十分接近,但甲患者的血压波动较大,而乙患者相对稳定。者的血压波动较大,而乙患者相对稳定。极差极差 range range 也称作全距,即观察值中最大值和也称作全距,即观察值中最大值和最小值之差,用符号最小值之差,用符号R R 表示。如前例甲乙两患者收表示。如前例甲乙两患者收缩压的极差分别为缩压的极差分别为(mmHg)4414

27、2186甲R(mmHg) 7159166乙R1 极差极差range,R又称全距又称全距54 优点:优点:易理解易记忆。易理解易记忆。 缺点:缺点:只能反映最大值与最小值的差距,组内其只能反映最大值与最小值的差距,组内其它数的变异反映不出来。它数的变异反映不出来。 受最大值和最小值的影响,样本含量相差悬殊时受最大值和最小值的影响,样本含量相差悬殊时不宜用。不宜用。 适用范围:适用范围:适用于适用于开口资料除外的开口资料除外的任何分布资料。任何分布资料。55 是特定的百分位数,把数列分为是特定的百分位数,把数列分为 100等份,等份,前四分之一变量值比第前四分之一变量值比第25百分位数百分位数 P

28、25 小小,称下四分位数,记作,称下四分位数,记作QL;后四分之一变量;后四分之一变量值比第值比第75百分位数百分位数 P75 大,称上四分位数大,称上四分位数,记作,记作QU。 四分位数间距四分位数间距= QU QL 2. 四分位数四分位数quartile , Q 56LX:第第X X百分位数所在组下限百分位数所在组下限iX:PX所在组的组距所在组的组距fX:PX所在组的频数所在组的频数 fL: PX所在组前一组的累计频数所在组前一组的累计频数LxxxxfxnfiLP%百分位数计算百分位数计算57首先求资料的首先求资料的 P25 和和 P75由表可见由表可见P25 在在12 组段组段,L=1

29、2,i=12,f=63, fL=30,代入公式得:代入公式得:P25=同理可知同理可知 P75 在在24组段组段,L=24,i=12,f=47, fL=93,代入公式得:代入公式得:P75=)(90.14)30%25181(631212小时)(91.34)93%75181(471224小时 例例6 求表求表15-4数据的四分位数间距数据的四分位数间距58表表15-4 181名食物中毒患者的潜伏期名食物中毒患者的潜伏期潜伏期(小时)潜伏期(小时) 人数人数f 累计频数累计频数 f 累计频率()累计频率() (1) (2) (3) (4)()(3)/n 0 30 30 16.57 12 63 93

30、 51.38 24 47 140 77.35 36 20 160 88.40 48 12 172 95.03 60 8 180 99.45 72 84 1 181 100.0059 前面已计算出前面已计算出 P25 ,P75 ,代入公式得四分位数间距:代入公式得四分位数间距: QU QL 小时小时60优点:优点:比极差稳定,误差较小。比极差稳定,误差较小。缺点:缺点:仍未考虑每一个数据的变异。仍未考虑每一个数据的变异。适用范围:适用范围:偏态分布资料偏态分布资料,特别是分布末端,特别是分布末端 无确定数据的资料。无确定数据的资料。61离均差:离均差:离均差平方和:离均差平方和:总体方差:总体方

31、差: 0X2X3 方差方差variance0XNX2262样本方差:样本方差: 0X12_2nxXSn1 称自由度称自由度degree of freedom,常用,常用 表示,它描述了当表示,它描述了当 X 选定时,选定时,n个变量值个变量值X 中能自由变动的中能自由变动的 X 的个数。的个数。 n1_ 63总体标准差:总体标准差:样本标准差:样本标准差: 加权法:加权法:NX212nxXs1/22nnXX122fnfXfXs4 标准差标准差standard deviation64适用条件:适用条件: 方差与标准差均用于描述方差与标准差均用于描述对称分布资料对称分布资料的的离散趋势,尤其是离散

32、趋势,尤其是正态分布资料正态分布资料的离散趋势。的离散趋势。6545402X)(16. 315515045401/222kgnnXXs150X例例7 5 个个 8 岁男孩的体重为:岁男孩的体重为:26,28,30,32,34,试求其标准差试求其标准差。6612945662fX)(61. 411501501391812945661/222cmfnfXfXs13918fX例例 求表求表15-2中中150名名3岁女孩体重的标准差。岁女孩体重的标准差。67 表表 15-2 某市某市150名名3岁女孩身高均数的加权法计表岁女孩身高均数的加权法计表 组段组段 频数频数 组中值组中值 X fX fX2 1

33、2 3 4(2) (3) 5=3480 1 81 81 656182 3 83 249 2066784 8 85 680 5780086 10 87 870 75690 88 19 89 1691 150499 90 23 91 2093 19046392 26 93 2418 224874 94 24 95 2280 21660096 17 97 1649 15995398 10 99 990 98010 100 6 101 606 61206102 2 103 206 21218104 106 1 105 105 11025合计合计 150(f) 13918 (fX) 1294566(fX2)68n 描述事物描述事物变异程度变异程度:适

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论