定量变量统计描述_第1页
定量变量统计描述_第2页
定量变量统计描述_第3页
定量变量统计描述_第4页
定量变量统计描述_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、关于定量变量的统计描述第一张,PPT共一百页,创作于2022年6月定量变量的统计描述统计图表统计指标:集中趋势指标离散趋势指标 利用统计表对数据进行概括,用统计图对分布形态及分布间的关系做直观的表达,用于描述定量资料的统计指标的意义与计算。第二张,PPT共一百页,创作于2022年6月一、频率分布表与频率分布图 (Frequency / Frequency distribution)二、描述平均水平统计指标 (Description of central tendency) 【教学内容】三、描述变异程度统计指标 (Description of tendency of dispersion) 第三

2、张,PPT共一百页,创作于2022年6月四、描述分布形态统计指标 (Description of distribution )五、统计表与统计图 (statistical table, statistic chart) 【教学内容】 第四张,PPT共一百页,创作于2022年6月变 量统计学 卫生统计学 研究内容定性变量定量变量统计描述统计推断随机性现象概率论数理统计第五张,PPT共一百页,创作于2022年6月统计描述:从资料中获取信息最基本的方法 把握资料基本的特征 为统计分析打下基础第六张,PPT共一百页,创作于2022年6月表2-2 120名18-35岁健康男性居民血清铁含量(umol/L

3、)7.428.6523.0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.417.3229.6419.6921.6923.917.4519.0820.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.422.5517.5516.117.9820.132114.5619.8919.8217.4814.8918.3719.517.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.262

4、6.1316.9918.8918.4620.8717.5113.1211.7517.421.3617.1413.7712.520.420.319.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.911.7424.6614.1816.52第七张,PPT共一百页,创作于2

5、022年6月目的:描述该组18-35岁健康男性居民血清铁含量的分布规律。问题1.该组居民血清铁含量平均值多少?问题4. 用表/图表示血清铁分布?问题2.血清铁含量范围?最高多少?最低多少?问题3.血清铁含量主要集中在哪个范围?集中趋势频数表频数分布图离散趋势第八张,PPT共一百页,创作于2022年6月【教学要求】 了解频数分布表的编制方法及应用 掌握数值变量资料的平均水平、变 异程度常用统计描述指标,及各自 的应用。第九张,PPT共一百页,创作于2022年6月第一节 频数与频数分布 频数(frequency):对一个随机变量做重复观察,其中某变量值出现的次数。 频数分布表(frequency

6、distribution table):将各变量值及其相应的频数列成表格的形式。 例2-2 抽样调查某地120名18岁35岁健康男性居民血清铁含量(mol/L) ,试编制频数分布表。频数表的编制:一、连续型定量变量的频数分布第十张,PPT共一百页,创作于2022年6月(二)连续型变量频数表的编制方法:求全距列表划记步骤:写组段定组距第十一张,PPT共一百页,创作于2022年6月 求全距(Range,简记R ):是一组资料中最大值(Xmax)与最小值(Xmin)之差,亦称极差。全距( R)= Xmax - Xmin =29.64 7.42 = 22.22( umol/L )7.428.6523.

7、0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.417.3229.6419.6921.6923.917.4519.0820.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.422.5517.5516.117.9820.132114.5619.8919.8217.4814.8918.3719.517.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.9918.

8、8918.4620.8717.5113.1211.7517.421.3617.1413.7712.520.420.319.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.911.7424.6614.1816.52第十二张,PPT共一百页,创作于2022年6月2. 定组

9、距:将全距分为若干段,称为组段。组与组之间的距离,称为组距;用小写i 表示。原则:(1)“组段”数一般为8-15个;(2)“组距”一般为R/10取整;(3)为计算方便根据组距采取取整数方法 本例题:组距(i)=全距/ 预分组段= 22.22 /10=2.222( umol/L )第十三张,PPT共一百页,创作于2022年6月3.写组段:即将全距分为若干段的过程。原则:(1)第一组段要包括Xmin,最末组段包括 Xmax ; (2)每组段均用下限值加 “ ”表示,最终组段同时注明上下限。 注意:各组段不能重叠,每一组段均为半开半闭区间。4. 列表划记:根据预定的组段和组距,用划记的方法整理原始资

10、料。第十四张,PPT共一百页,创作于2022年6月 表2-3 120名18-35岁健康男性居民血清铁含量的频数分布表 6 8 10 12 14 16 18 20 22 24 26 2830 合计一上正一正上正正丅正正正正正正正正正丅正正正上正正丅正上止一13681220271812841组段划记频数120第十五张,PPT共一百页,创作于2022年6月表2.2 120名18-35岁健康男性居民血清铁含量(umol/L)频数表组段 频数 频率% 累计频数 累计频率%6 1 0.83 1 0.83 8 3 2.50 4 3.3310 6 5.00 10 8.3312 8 6.67 18 15.001

11、4 12 10.00 30 25.0016 20 16.67 50 41.6718 27 22.50 77 64.17 20 18 15.00 95 79.1722 12 10.00 107 89.17 24 8 6.67 115 95.83 26 4 3.33 119 99.172830 1 0.83 120 100.00合计 120 100.0第十六张,PPT共一百页,创作于2022年6月特点:中间高、两侧逐渐下降、左右基本对称的分布-直方图(直条间连续),用于表达连续型变量的频数分布。频数直方图(frequency distribution figure) :根据频数分布表,以变量值为横

12、坐标,频数为纵坐标,绘制的直方图。第十七张,PPT共一百页,创作于2022年6月 的频数是7, 频率为7.3%,进行3次检查 的频数是11, 频率 为 11.5%,进行5次以上检查的 频数是12,频率为12.5%。 进行0次检查的频数是4,其频率为4.2%, 进行1次 检查 0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,4,7二、离散型定量变量的频数分布例2-1(P11)第十八张,PPT共一百页,创作于2022年6月离散型变量的频数分布表每一个组段就是一个固定的取值第十九张,PPT共一百页,创作于2022年6月 离散型变量的频数分布图 直条图 横坐标为产前检查次数;纵坐标

13、为 频率,即产前检查K次的妇女在被统计妇女中所占的比例%。图中等宽矩形长条的高度与相应检查次数的频率呈正比。第二十张,PPT共一百页,创作于2022年6月 频率:各组的频数除以总例数 n 所得的比值。频率描述了各组频数在全体中所占的比重,各组频率之和等于100%。 累计频数:本组段的频数与以前各组段的频数相加; 累计频率:每组段的累计频数除以总例数。第二十一张,PPT共一百页,创作于2022年6月 三、 频数分布的两个特征 集中趋势:血清铁含量向中央部分集中,即中等含量者居多,集中在18 这个组段,这种现象为集中趋势。离散趋势:从中央部分到两侧的频数分布逐渐减少,而且血清铁含量的值参差不齐,最

14、低的接近6 ,最高的接近30 ,这种现象称为离散趋势。由于同质性,所有实测值趋向同一数值的趋势称为集中趋势。离散趋势或变异程度是指观察值之间参差不齐的程度。第二十二张,PPT共一百页,创作于2022年6月血清胆固醇组段(1)划记(2)频数(3) 2.30 2.60 2.90 3.20 3.50 3.80 4.10 4.40 4.70 5.00 5.30 5.60 一 下 正一 正下 正正正丅 正正正正 正正正丅 正正丅 正止 正 丅 一 1368172017129521表2-2 某地101名正常成年女子血清总胆固醇的频数表合计 140从中央部分到两侧的频数分布逐渐减少、血清胆固醇的的值参差不齐

15、离散趋势血清胆固醇值向中央部分集中,即中等含量者居多集中趋势第二十三张,PPT共一百页,创作于2022年6月频数分布 四、频数分布的类型对称分布型:指集中位置在正中,左右两侧频数分布大体对称。偏态分布型:指集中位置偏向一侧,频数分布不对称。偏态分布正偏态分布:集中位置偏向数值小的一侧。负偏态分布:集中位置偏向数值大的一侧。第二十四张,PPT共一百页,创作于2022年6月第二十五张,PPT共一百页,创作于2022年6月第二十六张,PPT共一百页,创作于2022年6月第二十七张,PPT共一百页,创作于2022年6月(三)频数表的用途:1.揭示变量的分布特征 图3.1 某市100名8岁男童身高(cm

16、)的频数分布离散趋势 (tendency of dispersion)集中趋势与离散趋势结合能全面反映频数的分布特征集中趋势 (central tendency) 身高(cm)频数分布特征第二十八张,PPT共一百页,创作于2022年6月2.揭示变量的分布类型 频数分布偏态分布正偏 负偏集中部位在中部,两端渐少,左右两侧的基本对称,为对称(正态)分布。 对称分布集中部位偏于较小值一侧(左侧),较大值方向渐减少,为正偏态分布。集中部位偏于较大值一侧(右侧),较小值方向渐减少,为负偏态分布。第二十九张,PPT共一百页,创作于2022年6月4. 便于进一步计算统计指标和统计分析3.便于发现某些离群值或

17、极端值。 图3.1 某市101名8岁男童身高(cm)的频数分布身高(cm)频数第三十张,PPT共一百页,创作于2022年6月一.集中趋势统计指标:反映总体内部的同质。 二.离散度统计指标:反映总体内个体间的变异。 三.分布形态统计指标:反映高峰的形态。第二节 描述平均水平的统计指标第三十一张,PPT共一百页,创作于2022年6月平均数:描述一组同质计量资料的集中趋势;反映一组观察值的平均水平。常用的平均数有算术均数,几何均数和中位数。(一)算术均数(mean):简称均数,总体均数用希腊字母表示,样本均数用拉丁字母 表示。 1. 计算方法 1) 直接法:适用于样本例数n较少的资料。 其中X1,X

18、2Xn为各变量值,n为样本例数。第三十二张,PPT共一百页,创作于2022年6月 2) 加权法:适用于变量值较多的资料。 K=1、2、3.,fk为第k组段的频数,X0k 为第k组段的组中值, 组中值=(本组段下限+下组段下限)/2。权即频数多,权数大,作用也大,频数小,权数小,作用也小。第三十三张,PPT共一百页,创作于2022年6月10,10,10,15,1510有3个,权数为3,计算均数时起3/5的作用频数多,权数大,作用大15有2个,权数为2,计算均数时起2/5的作用频数小,权数小,作用小第三十四张,PPT共一百页,创作于2022年6月 例2-3 某年某医院8名女性晚期肺癌患者红细胞计数

19、(1012/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。 例2-4求例2-2中某地120名18-35岁健康男性居民的血清铁含量的均数。第三十五张,PPT共一百页,创作于2022年6月120名18-35岁健康男性居民血清铁含量均数、标准差计算表(加权法) 组段 频数(f) 组中值(X0) fX 0 (1) (2) (3) (4)=(2)(3) (5)=(3)(4) 6 8 10 12 14 16 18 20 22 24 26 2830 合计 120(f) 2228(fX0) 43640( )136812202712108417276610

20、41803405133782762001082979111315171921232527294924372613522700578097477938634850002916841第三十六张,PPT共一百页,创作于2022年6月2. 算数均数的应用 它最适用于对称分布资料,尤其是 正态分布资料。因为这时均数位于分布的中心,最能反映资料的集中趋势。第三十七张,PPT共一百页,创作于2022年6月( 二)几何均数(geometric mean): (几何均数也称为倍数均数,用G表示) 1. 几何均数的计算方法 1) 直接法:适用于样本例数n较少的资料。 将n个观察值X1,X2,X3Xn的乘积开n次方

21、对数形式:G=lg-1(lgX1+lgX2+lgX3+lgXn)/n =lg-1(lgX/n)第三十八张,PPT共一百页,创作于2022年6月 例2-5 7名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64,1:64,1:128,1:512。求其平均效价。7份HBsAg的平均滴度为1:64第三十九张,PPT共一百页,创作于2022年6月2) 加权法:适用于样本例数n较多的资料。 X1,X2Xn 为各组段的滴度或滴度倒数。f1,f2fn分别为各组段的频数。第四十张,PPT共一百页,创作于2022年6月 例2-6 52例慢性肝炎患者的HBsAg滴度数据见表,求其平均滴

22、度。52例慢性肝炎患者的HBsAg滴度的几何均数为1:119.74705第四十一张,PPT共一百页,创作于2022年6月 二)几何均数应用的注意事项: 1)几何均数常用于等比资料或对数正态分布资料。 2)观察值中不能有0。 3)观察值中不能同时有正值和负值。第四十二张,PPT共一百页,创作于2022年6月练习题:1.有8份血清的抗体效价分别为: 1:5, 1:10, 1:20, 1:40, 1:80, 1:160, 1:320, 1:640 求平均抗体效价。2.有50人的血清抗体效价,分别为:5人1:10, 9人1:20, 20人1:40, 10人1:80, 6人1:160 求平均抗体效价。第

23、四十三张,PPT共一百页,创作于2022年6月 中位数(median,M):将一组变量值从小到大按顺序排列,位次居中的那个变量值就是中位数。 (三)中位数和百分位数 百分位数(percentile, Px):指把数据从小到大排列后位于第X%位置的数值。有n个观察值X1,X2Xn,把他们由小到大按顺序排列成X1X2X3Xn,将这n个观察值平均的分为100等份,对应于每一等份的数值就是一个百分位数,对应于前面X%个位置的数值称为第X百分位数,用Px表示。 一个百分位数Px将总体或样本的全部观察值分为两部分,理论上,在不包括Px的全部数据中有X%的观察值比它小,有(100-X)%的观察值比它大。第四

24、十四张,PPT共一百页,创作于2022年6月 1. 中位数和百分位数的计算 1) 直接法:适用于样本例数n较少的资料。 将观察值按大小顺序排列,当n为奇数时,中间那个数就是中位数。当n为偶数时,中间两个数的平均数就是中位数。 例2-7 某药厂观察9只小鼠口服高山红景天醇提物(RSAE)后在乏氧条件下的生存时间(分钟)如下:49.1,60.8,63.3,63.6,63.6,65.6,65.8,68.6,69.0 n为奇数,M=63.6 (cm)第四十五张,PPT共一百页,创作于2022年6月练习:1.某病患者9名,发病潜伏期分别为顺序 2、3、3、3、4、5、6、9、16d,求中位数。2.某病患

25、者8名,发病潜伏期从小到大排分别为5、6、8、9、11、11、13、16d,求平均潜伏期。第四十六张,PPT共一百页,创作于2022年6月 2)频数表法计算中位数和百分位数:适用于样本例数n较多的资料。 累计频数:本组段的频数与以前各组段的频数相加; 累计频率:每组段的累计频数除以总例数。 公式为 L为百分位数所在组段的下限,i为该组段的组距,fx为该组段的频数,fL为百分位数所在组段的前一组段的累计频数,n为总例数。第四十七张,PPT共一百页,创作于2022年6月例2-8 50例链球菌咽峡炎患者潜伏期(h),计算其中位数。 组段 频数 累计频数 累计频率 (%) 12 24 36 48 60

26、 72 84 96 108120 合计 50 1 1 27 8 16 11 19 3811 30 607 37 745 42 844 46 922 48 962 50 100 第四十八张,PPT共一百页,创作于2022年6月求P25,P75。第四十九张,PPT共一百页,创作于2022年6月 2. 中位数和百分位数的应用 1)中位数常用于描述偏态分布资料的集中趋势,反映位次居中的观察值的平均水平。在对称分布的资料中,中位数和均数在理论上是相同的。 2)百分位数可用于确定医学参考值范围(详后)。 3)分布在中部的百分位数相当稳定,具有较好的代表性,但靠近两端的百分位数,只有在样本例数足够多时才比较

27、稳定。第五十张,PPT共一百页,创作于2022年6月 应用平均数的注意事项 1.平均数的计算和应用必须具备同质基础,必须先合理分组。 不同质的事物要分别求平均数,以便分析比较。 2.根据资料的分布选用适当的平均数。对称分布资料,尤其是正态分布资料,宜用均数,也可用中位数,而偏态分布资料则中位数的代表性较好,对数正态分布及等比级数资料宜用几何均数。第五十一张,PPT共一百页,创作于2022年6月4. 众数(mode) 是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段。第五十二张,PPT共一百页,创作于2022年6月例 有16例高血压病人的发病年龄(岁)为:42

28、,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数?出现频数最多的数值为58,故众数为58。58岁为高血压的高发年龄。众数从概念上易于理解。但没有充分利用样本观察值的全部信息。第五十三张,PPT共一百页,创作于2022年6月 例. 对甲乙两名高血压患者连续观察5天,测得的收缩压(mmHg)结果如下: 可以看出:两患者收缩压的均数十分接近, 但甲患者的血压波动较大,而乙患者相对稳定。 患者第1天第2天第3天第4天第5天均数甲患者 162145178142186162.6乙患者 164160163159166162.4 第三节、描述变异程度的统计指

29、标第五十四张,PPT共一百页,创作于2022年6月 只用平均数描述资料的弊病甲组 26 29 30 31 34 均数30kg乙组 24 27 30 33 36 均数30kg丙组 26 28 30 32 34 均数30kg丙乙甲三组儿童体重的离散程度第五十五张,PPT共一百页,创作于2022年6月例2-11 试观察3组数据的离散情况。A组 26 28 30 32 34 B组 24 27 30 33 36 C组 26 29 30 31 34为了全面的把握数据的分布特征,通常,描述一组观察值,除需要表示其平均水平外,还要说明它的离散或变异的情况。 第五十六张,PPT共一百页,创作于2022年6月离散

30、趋势:用于描述一组数值变量观察值之间参差不齐的程度,即变异程度。包括极差(Range, R)四分位数间距(Quartile, Q)方差(Variance, )标准差(Standard deviation,S)变异系数(Coefficient of variation,CV)第五十七张,PPT共一百页,创作于2022年6月1. 极差(range ,R) 也称为全距,用R表示,即一组资料中,最大值与最小值之差。 缺点:1)除了最大、最小值外,不能反映组内其他数据的变异度。2)样本例数越多,抽到较大或较小变量值的可能性越大,因而极差可能越大。3)即使样本含量相同,极差也不够稳定。 第五十八张,PPT

31、共一百页,创作于2022年6月 1、适用条件:常用于描述单峰对称分布小样本 资料的变异程度,或用于初步 了解资料的变异程度。 2、意义:对于计量单位相同的变量,极差越 大,观察值的离散程度越大。 3、优点:用以说明数据分布的离散程度,方法 简单明了;理论上可用于各种分布资 料 第五十九张,PPT共一百页,创作于2022年6月4、缺点(1)除了最大值与最小值外,不能反映组内其它观察值的变异度;稳定性差。(2)样本较大时,抽到较大值与较小值的可能性也较大,因而样本极差也较大,故样本含量相差较大时,不宜用极差来比较分布的离散度。(3)当两组样本例数相差悬殊时,不宜选用极差作为比较两组变异程度的指标

32、第六十张,PPT共一百页,创作于2022年6月 2. 四分位数间距(quartile range ,Q) 简记为Q,可看为特定的百分位数。P25表示全部观察值中有25%(1/4)的观察值比它小,记为下四分位数QL, P75表示全部观察值中有75%的观察值比它小,记为上四分位数QU。 Q适用于各种类型的连续型变量,特别是偏态分布的资料。第六十一张,PPT共一百页,创作于2022年6月 例 2-8第六十二张,PPT共一百页,创作于2022年6月 四分位数间距的特点:适用于描述偏态分布、一端或两端无确切数值、分布不明确资料的离散程度。 四分位数间距越大,数据分布的变异度越大;反之,变异度越小。与中位

33、数一起描述偏态分布资料的分布特征。作为描述数据分布离散程度的指标,比极差稳定,但仍未考虑到每个数据的大小,未考虑全部观察值的变异度,在统计分析中应用的不够普遍。第六十三张,PPT共一百页,创作于2022年6月3. 方差( Variance)公式及来源:极差和四分位间距未考虑全部观察值的变异度全面地考虑每个变量值的离散情况为了衡量每个变量值的变异;先选择一个数值作为比较标准;谁合适呢?均数最有代表性。第六十四张,PPT共一百页,创作于2022年6月应考虑总体中每个变量值x与总体均数之差;x-称为离均差。分析:为解决这个问题,给每项离均差平方后再相加,称离均差平方和, 即(x-)2。但每个变量值与

34、均数相减所得到得差值有正有负相消,即(x-x)=0;这样就不能反映变异的大小? ? 第六十五张,PPT共一百页,创作于2022年6月还有没有问题没考虑到? 离均差平方和的大小,除与变异度有关外,还与变量值的个数(多少)有关,为在变量值个数不等时进行比较,还要除以变量值的个数,所得值即为总体方差,用2表示:2 =总体方差:NX-2)(m样本方差: 以样本均数代表,用样本例数n代表总体例数N,所得方差称样本方差,用S2表示:nXXS-=22)(第六十六张,PPT共一百页,创作于2022年6月公式中存在的问题? 根据以上公式研究的结果表明求得的样本方差总是偏小;为解决此问题,英国统计学家通过实验,用

35、n-1代替可消除误差。 n-1 称为自由度( degree of freedom ),用希腊字母nju:表示,表示随机变量能够自由取值的个数。n-1XXS-=22)(样本方差的公式调整为:第六十七张,PPT共一百页,创作于2022年6月 (n-1)称为自由度( degree of freedom ),用希腊字母nju:表示,表示随机变量能够自由取值的个数。 分析: 如有一组四个(n=4)数据的样本,受到 = 5的条件限制,在自由确定4、2、5三个数据后,第四个数据只能是9,否则 5。因而这里的自由度= n-1= 4-1=3。推而广之,任何统计量的 自由度=n-限制条件的个数。第六十八张,PPT

36、共一百页,创作于2022年6月 方差:分总体方差 ,样本方差S2计算:意义:克服了值的不足,考虑了每个变量值的离散情况并消除了的影响。优点:全面地考虑每个变量值的离散情况缺点:其单位是原度量单位的平方。总体方差样本方差第六十九张,PPT共一百页,创作于2022年6月例:计算三组数据的方差 A组:24,27,30,33,36; B组: 26,28,30,32,34; C组:26,29,30,31,34。第七十张,PPT共一百页,创作于2022年6月 方差的特点适用条件:对称分布资料,特别是正态分布或近似正态分布资料。意义:方差越大,数据间的变异越大优点:利用了每个数据的信息,是常用的 描述数据分

37、布离散程度指标不足:度量衡单位发生了改变,不便于实际应用。为此,更常用的是标准差。第七十一张,PPT共一百页,创作于2022年6月4.标准差(Standard deviation,SD或S)方差的单位是原度量单位的平方,不便使用。将方差公式展开,并开方,即得到另一个重要的离散趋势的指标,即标准差,简写为S。公式来源:总体标准差:1()2-=nXXs样本标准差:第七十二张,PPT共一百页,创作于2022年6月1. 直接法:适用于n较小的资料求例题中A组数据的标准差。2. 加权法:适用于n较大的资料第七十三张,PPT共一百页,创作于2022年6月120名成年男子血清铁含量均数、标准差计算表(加权法

38、) 组段 频数(f) 组中值(X0) fX 0 fX02 (1) (2) (3) (4)=(2)(3) (5)=(3)(4) 6 8 10 12 14 16 18 20 22 24 26 2830 合计 120(f) 2228(fX0) 43640(fX02)13681220271210841727661041803405133782762001082979111315171921232527294924372613522700578097477938634850002916841第七十四张,PPT共一百页,创作于2022年6月3. 标准差的应用: 1) 表示变量分布的离散程度。 2) 结合均

39、数计算变异系数。 3) 结合样本含量计算标准误。 4)结合均数描述正态分布特征。第七十五张,PPT共一百页,创作于2022年6月问题的引入例: 某校一年级男大学生身高样本均数为167.4cm,标准差为5.8cm;体重均数为57.3kg,标准差为6.4kg。 试比较其变异程度的大小?第七十六张,PPT共一百页,创作于2022年6月5. 变异系数(coefficient of variation ,CV) 公式为:常用于:1) 比较度量衡单位不同的多组资料的变异度。 例2-15 某年通过10省调查得知,农村刚满周岁的女童体重均数为8.42kg ,标准差为0.98kg ;身高均数为72.4cm,标准

40、差为3.0cm,试比较二者变异度。体重 CV=0.98/8.42100%=11.64%身高 CV=3.0/72.4100%=4.14%第七十七张,PPT共一百页,创作于2022年6月2). 比较均数相差悬殊的几组资料的变异度。 运用变异系数的注意事项:1.有关的事物才能比较 。2.均数小于标准差时要考虑其实际运用价值 。 某地不同年龄段男子身高的变异度 年龄组 人数 均数 标准差 变异系数(%) 3-3.5岁 100 96.1 3.1 3.23 30-35岁 100 170.2 4.0 2.35 第七十八张,PPT共一百页,创作于2022年6月变异系数的特点:与前面的四种离散程度指标相比,变异

41、系数有以下两个不同之处:1、它描述的不是数据分布的绝对离散程度,而是相对离散程度;不属于描述性统计指标,是一个用于比较的统计指标。2、它不像极差、四分位数间距、方差、标准差那样具有取值单位。它没有取值单位第七十九张,PPT共一百页,创作于2022年6月 偏度系数(coefficient of skewness,SKEW)理论上,总体偏度系数为0时,分布是对称分布;取正值时,分布为正偏峰;取负值时,分布为负偏峰。 第四节、描述分布形态的特征数第八十张,PPT共一百页,创作于2022年6月 峰度系数(coefficient of kurtosis,KURT)理论上,正态分布的总体峰度系数为0;取负

42、值时,其分布较正态分布的峰平阔;取正值时,其分布较正态分布的峰尖峭。第八十一张,PPT共一百页,创作于2022年6月SKEW=-0.19393, KURT=-0.01783第八十二张,PPT共一百页,创作于2022年6月 小结反映集中趋势的指标: 算术均数:对称分布 几何均数:测定值按等比级数变化 中位数:不规则分布反映离散度的指标: 标准差(方差):对称分布 变异系数: 对称分布 四分位数间距: 不规则分布 极差(全距): 不规则分布反映峰型的指标: 偏度系数:测定高峰的位置, 分布的对称性. 峰度系数 :测定峰度的高低。 集中趋势的强度.第八十三张,PPT共一百页,创作于2022年6月平均

43、数与标准差(方差)联合应用 中位数与四分位数间距(极差)联合应用第八十四张,PPT共一百页,创作于2022年6月 统计表(statistical table)和统计图(statistical chart)是统计描述的重要工具。医学科学研究资料经过整理和计算各种必要的统计指标后,所得结果除了用适当文字说明以外,常用统计表和统计图表达分析结果。统计图表可以对于数据进行概括、对比或做直观的表达。统计表和统计图不仅便于阅读,而且便于分析比较。 第五节 统计图表和统计图第八十五张,PPT共一百页,创作于2022年6月1概念:指在科技报告中,常将统计分析的事物及其指标用表格列出,以反映事物的内在规律性和关

44、联性。2作用:1)避免繁杂的文字叙述2)便于计算3)便于事物间的比较分析 一、统计表第八十六张,PPT共一百页,创作于2022年6月3. 统计表的结构 从外形上看,统计表由标题、标目(包括横标目、纵标目)、线条、数字及必要的文字说明和备注5部分构成。其基本格式如表1: 第八十七张,PPT共一百页,创作于2022年6月 1)标题:概括说明表的中心内容,要求用词简练、确切。必要时注明资料的时间、地点,写在表的上端中央。 注意:防止标题过于简略或过于繁杂,有的 甚至不写标题。 2)标目:要求文字简明,有单位的标目要 注明单位。横标目位于表的左侧,说明各横行数字的含义。纵标目位于表的右侧,向下说明各纵行数字的含义。 注意:防止标目过多,层次不清。 第八十八张,PPT共一百页,创作于2022年6月第八十九张,PPT共一百页,创作于2022年6月 3线条:只需要顶线、底线及纵标目下面与合计上面

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论