数值变量统计描述10919_第1页
数值变量统计描述10919_第2页
数值变量统计描述10919_第3页
数值变量统计描述10919_第4页
数值变量统计描述10919_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、School of public health,Shandong University数值变量资料的统计描述数值变量资料的统计描述 Descriptive Statistics Descriptive Statistics统计描述统计描述统计推断统计推断指标描述指标描述图表描述图表描述参数估计参数估计假设检验假设检验变量关系变量关系统计设计统计设计统计分析统计分析实验设计实验设计调查设计调查设计研究内容研究内容 Descriptive Statistics频数分布表(频数分布表(frequency table) 离散型资料(discrete data):是指变量取值可以一一列举的资料。例如,每

2、个育龄妇女现有的子女数。如1998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,4,7。 连续型资料(continuity data):是指变量取值不能一一列举(即变量取值为一定范围内的任意值)的资料。例如,人体的身高(cm)、体重(kg) 等。 数值变量资料的分类: Descriptive Statistics检查次数(1)频 数 (2)频率(%)(3)0 4 4.21 7 7.321111.531313.542627.152324.0 51212.5合计96 100.0 离散型资料(discrete data) Descript

3、ive Statistics频数分布表(频数分布表(frequency table)某地96名妇女产前检查频率分布051015202530产前检查次数 0123455频 率 %根据表2-1频数的分布可绘出频数分布图。 Descriptive Statistics频数分布表(频数分布表(frequency table) 离散型资料(discrete data)1998年某校100名18岁健康女大学生(cm)资料 Descriptive Statistics频数分布表(频数分布表(frequency table) 连续型资料( continuity data)1998年某校100名18岁健康女大学

4、生(cm)资料 Descriptive Statistics频数分布表(频数分布表(frequency table) 连续型资料( continuity data)例例1 测得测得130名健康成年男子脉搏资料名健康成年男子脉搏资料(次次/分分)如下,试编制频数表和观察频数分布如下,试编制频数表和观察频数分布情况。情况。75767269667257687172697273828082676973647458706460776677646776757571656276727160677575737966697978707270727872677280687061707372718170667571

5、637774766865776977757964797376618064697073696865706966816364807478768466707360768273646573736380687670797764706669737876 频数表的编制: Descriptive Statistics频数分布表(频数分布表(frequency table)o(1 1)求极差求极差(rangerange):即最大值与最小值之差,又称为全距。):即最大值与最小值之差,又称为全距。R R84 57 =27(84 57 =27(次次/ /分分) )o(2 2) 决定分组组数、组距决定分组组数、组距:根

6、据研究目的和样本含量:根据研究目的和样本含量n n确定分组组确定分组组数,通常分为数,通常分为10101515个组。组距个组。组距= =极差极差/ /组数,为方便计,组距为极组数,为方便计,组距为极差的十分之一差的十分之一, , 再略加调整。再略加调整。 27/10=2.7 3 27/10=2.7 3 o(3 3) 列出组段列出组段:第一组段的下限略小于最小值,最后一个组段上:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值。限必须包含最大值。5656 5959 80 80 83838585o(4 4) 划记计数划记计数:用划记法将所有数据归纳到各组段,得到各组段:用划记法将所有数据

7、归纳到各组段,得到各组段的频数。的频数。 Descriptive Statistics频数分布表(频数分布表(frequency table) 频数表的编制:表2-3 130名健康成年男子脉搏(次/分)的频数分布表Nf f Descriptive Statistics频数分布表(频数分布表(frequency table) 频数表的编制: 频数分布图 Descriptive Statistics频数分布表(频数分布表(frequency table) 频数表的编制:表表2-4 160名正常成年女子的血清甘油三酯(名正常成年女子的血清甘油三酯(mmol/L)编号编号血清甘油三脂血清甘油三脂编号编

8、号血清甘油三脂血清甘油三脂1 10.510.512 20.520.521531531.651.653 30.590.591541541.661.664 40.610.611551551.671.675 50.610.611561561.671.676 60.620.621571571.691.697 70.630.631581581.71.78 80.640.641591591.711.711601601.771.77 Descriptive Statistics频数分布表(频数分布表(frequency table) 频数表的编制:(1)求)求极差极差(range):即最大值与最小值之差,又

9、称为全距。):即最大值与最小值之差,又称为全距。 本例极差:本例极差: R=1.770.51=1.26(mmol/L)(2) 决定决定组数组数、组段组段和和组距组距:根据研究目的和样本含量:根据研究目的和样本含量n确定。组确定。组距距=极差极差/组数,通常分组数,通常分10-15个组,为方便计,组距参考极差的十分个组,为方便计,组距参考极差的十分之一之一, 再略加调整。再略加调整。 本例本例i= R /10=1.26/10=0.1260.1。(3) 列出组段:第一组段的列出组段:第一组段的下限略小于最小值下限略小于最小值,最后一个组段,最后一个组段上限上限必须包含最大值必须包含最大值,其它组段

10、上限值忽略。,其它组段上限值忽略。(4) 划记计数划记计数:用划记法将所有数据归纳到各组段,得到各组段的:用划记法将所有数据归纳到各组段,得到各组段的频数。频数。 Descriptive Statistics频数分布表(频数分布表(frequency table) 频数表的编制: 组段组段 (1) 划划 记记(2) 频数,频数,f(3) 组中值,组中值,X(4) fX(5)= (3)(4)0.5 30.551.650.6正正90.655.850.7正正正正120.759.000.8正正正正130.8511.050.9正正正正正正170.9516.151.0正正正正正正181.0518.901.

11、1正正正正正正正正201.1523.001.2正正正正正正181.2522.501.3正正正正正正171.3522.951.4正正正正131.4518.851.5正正91.5512.401.6正正 81.6514.851.71.8 合计合计 31.755.25160182.30 Descriptive Statistics频数分布表(频数分布表(frequency table) 编制频数表的基本步骤:频数分布表(频数分布表(frequency table) Descriptive Statistics 频数表的用途:频数分布表(频数分布表(frequency table) Descriptiv

12、e Statistics 频数表的用途:1描述频数分布的类型和特征描述频数分布的类型和特征 Descriptive Statistics频数分布表(频数分布表(frequency table)(1 1)对称分布)对称分布 :若各组段的频:若各组段的频数以中数以中 心位置左右两侧大心位置左右两侧大体对称,就认为该资料是对体对称,就认为该资料是对称分布称分布 频数表的用途:1描述频数分布的类型和特征描述频数分布的类型和特征是否为对称分布? Descriptive Statistics频数分布表(频数分布表(frequency table)(2 2)偏态分布)偏态分布 :1 1)正偏态分布:右侧的组

13、段数多于左正偏态分布:右侧的组段数多于左侧的组段数,频数向右侧拖尾。侧的组段数,频数向右侧拖尾。2)负偏态分布:左侧的组段数多于右侧的组段数,频数向左侧拖尾。 血清转氨酶(mmol/L)051015202513.519.525.531.537.543.5.图2-2 115名正常成年女子血清转氨酶的频数分布人 数 频数表的用途:1描述频数分布的类型和特征描述频数分布的类型和特征 Descriptive Statistics频数分布表(频数分布表(frequency table)表表2 23 3数据的频数分布特征:数据的频数分布特征:数据数据的范围在的范围在575784 84 (次(次/ /分分

14、)数据数据在在686873 73 (次(次/ /分)之间,分)之间,尤以组段的人数尤以组段的人数7171(次(次/ /分)最多。且上下组段分)最多。且上下组段的频数分布基本对称。的频数分布基本对称。 频数表的用途:1描述频数分布的类型和特征描述频数分布的类型和特征 Descriptive Statistics频数分布表(频数分布表(frequency table) 频数表的用途:2便于发现一些特大或特小的可疑值便于发现一些特大或特小的可疑值3 3便于进一步做统计分析和处理便于进一步做统计分析和处理 Descriptive Statistics频数分布表(频数分布表(frequency tabl

15、e)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标指标统计上使用平均数(统计上使用平均数(averageaverage)这一指标体系来描述一组变量值的集中这一指标体系来描述一组变量值的集中位置或平均水平。位置或平均水平。常用的平均数有常用的平均数有: : 算术均数(均数)(算术均数(均数)(meanmean) 几何均数(几何均数(geometric meangeometric mean) 中位数中位数 (medianmedian)与百分位数()与百分位数(percentilepercentile) 众数(众数(m

16、odemode) Descriptive Statistics 算术均数算术均数(arithmetic mean :简称均数(:简称均数(mean) 可用于反映一组呈对称分布的变量值在数量上的平均水平可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。或者说是集中位置的特征值。 计算方法计算方法:12nXXXXXnn直接法:例2.2 某地随机抽取10名18岁健康男大学生身高(cm)分别为168.7,178.4,170.0,170.4,172.1,167.6,172.4,170.7,177.3,169.7,求平均身高。73.171107 .1694 .1787 .168n

17、XX(cm) Descriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标指标例:测得例:测得130130健康健康成年男子成年男子脉搏资料脉搏资料( (次次/ /分分) )如下,计如下,计算平均水算平均水平。平。7576726966725768717269727382808267697364745870646077667764677675757165627672

18、716067757573796669797870727072787267728068706170737271817066757163777476686577697775796479737661806469707369686570696681636480747876846670736076827364657373638068767079776470666973787632.711307678727675X 算术均数算术均数(arithmetic mean :简称均数(:简称均数(mean)直接法: Descriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(

19、central (central tendency)tendency)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标指标公式 :112233123kkkfXf Xf Xf Xf XXfffffX 本组段下限值+下组段下限值其中2k k: 频数表的组段数,频数表的组段数, f f :频数,频数,X X:组中值。组中值。 算术均数算术均数(arithmetic mean :简称均数(:简称均数(mean)加权法:o权数:各组次数(频数)的大小所对应的标志值对平均数的影响具有权衡轻重的作用。o当各组的次数都相同时,即当

20、f1=f2=f3=fn时:o加权算术平均数就等于简单算术平均数。 nxnfxfffxxnininiiniii1111描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency) Descriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标指标表2-2 130名健康成年男子脉搏(次/分)的频数分布表Nf ffXfXfXfX2 22 57.55 60.51 84.5931171.62()251130X 次 分 Descrip

21、tive Statisticsniiniixxnxx110)( 算术均数算术均数(arithmetic mean :简称均数(:简称均数(mean)o 各个标志值与其算术平均数的离差之和等于零。o 简单算术平均数:o 加权算术平均数: 特点:niniiniiiininiiiixffxfxxfxxf111110)( Descriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tende

22、ncy)指标指标 算术均数算术均数(arithmetic mean :简称均数(:简称均数(mean) 特点:o 各标志值与算术平均数离差的平方和为最小值。o 对于任意两个变量x和y,它们的代数和的算术平均数等于两个变量的算术平均数的代数和。 niixx12min)( Descriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标指标 算术均数算术均数(arith

23、metic mean :简称均数(:简称均数(mean) 适用条件:1.均数反映一组同质观察值的平均水平,并可作为样本的代表值与其他样本进行比较。2.均数适用于描述单峰对称分布,特别是正态或近似正态分布资料的集中趋势。o意义:一组性质相同的观察值在数量上的平均水平。o表示 (总体) X(样本)o计算:直接法、间接法、计算机o特征: (X- X)=0 估计误差之和为0。o应用:正态分布或近似正态分布o注意:合理分组,才能求均数,否则没有意义。小结: Descriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency

24、)tendency)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标指标 几何均数(几何均数( geometric mean )1000510lg10lg10lg10lg10lglg543211G例题:血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。此例的算术均数为此例的算术均数为2222222222,显然不能代表滴度的平均水平。同一资料,显然不能代表滴度的平均水平。同一资料, Descriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中

25、趋势(central (central tendency)tendency)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标指标12121lg1lg(lglglg)lglgnnnGX XXXGXXXnnXGn为正值,为底的反对数表示以为底的对数;表示以010lg10lg1X几何均数几何均数:变量对数值的变量对数值的算算术均数术均数的反对数的反对数。 其他对数(如自然对数)变换获得相同的几何均数 几何均数(几何均数( geometric mean ) Descriptive Statistics描述数值变量资料的集中

26、趋势描述数值变量资料的集中趋势(central (central tendency)tendency)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标指标例例 有有8份血清的抗体效价分别为份血清的抗体效价分别为1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求平均抗体效价。求平均抗体效价。57.566403201608040201058G1lg (lg5lg10lg20lg640)/856.57G平均抗体效价为:平均抗体效价为: 1:57 几何均数(几何均数( geom

27、etric mean ) Descriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标指标 例例 69 69例类风湿关节炎(例类风湿关节炎(RARA)患者血清患者血清EBV-VCA-EBV-VCA-lgGlgG抗体滴度的分布见表抗体滴度的分布见表2-42-4第第(1)(1)、(2)(2)栏,求其平均抗体滴度。栏,求其平均抗体滴度。111lg150.2778lg

28、() lg () lg (2.1779) 150.669fXGf 几何均数(几何均数( geometric mean ) Descriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标指标适用于成等比数列的资料,特别是服从对数正态分适用于成等比数列的资料,特别是服从对数正态分布资料。布资料。 几何均数(几何均数( geometric mean ) 适用条件:变量值

29、中不能有变量值中不能有0 0;不能同时有正值和负值;不能同时有正值和负值;若全是负值,计算时可先把负号去掉,得出结果后再加上负号。若全是负值,计算时可先把负号去掉,得出结果后再加上负号。 注意事项: Descriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标指标 几何均数(几何均数( geometric mean )小结 意义:N个数值的乘积开N次方即为这N个

30、数的几何均数 表示:G 计算: 应用:原始数据分布不对称,经对数转换后呈对称分布 的资料。例如:抗体滴度 Descriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标指标例题:例题:11个大鼠存活天数:个大鼠存活天数:4,10,7,50,3,15,2,9,13,60,60平均存活天数平均存活天数? 中位数(中位数( median )和百分位数()和百分位数( p

31、ercentile )中位数v 定义:将一组变量值从小到大按顺序排列,位次居中的变量值称为中位数(median,简记为M)。v1.直接法:用于例数较少时 n为奇数时 n n为偶数时 Descriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标指标例:例: 9 9名中学生甲型肝炎的潜伏期分别为名中学生甲型肝炎的潜伏期分别为1212,1313,1414, 1414,

32、 1515, 1515, 1515, 17, 1917, 19天,求其中位数。天,求其中位数。88451222214 15 214.5()MXXXX如果只调查了前八位中学生,则:()( )天)(155219天XXM 中位数(中位数( median )和百分位数()和百分位数( percentile ) Descriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标

33、指标(50%)(50%)LmMnnfMLif 所在组段下限值至该下限值的累计频数组距所在组段下限值至上限值间的频数下限值下限值L L上限值上限值U中位数中位数M M 中位数(中位数( median )和百分位数()和百分位数( percentile )描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency) Descriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标指标例2.7 某疾病控制中心记录了199名沙门氏菌

34、属食物中毒患者发病的潜伏期,并整理成表2-3中(1)、(2)栏,试计算其平均发病潜伏期。75.23)30%50199(71/1212)%50(LMfnfiLM Descriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标指标 中位数(中位数( median )和百分位数()和百分位数( percentile )v中位数适用条件:中位数适用条件:v变量值中出现个别

35、特小或特大的数值变量值中出现个别特小或特大的数值; ;v资料的分布呈明显偏态,即大部分的变量值偏向一侧资料的分布呈明显偏态,即大部分的变量值偏向一侧; ;v变量值分布一端或两端无确定数值,只有小于或大于某个数值变量值分布一端或两端无确定数值,只有小于或大于某个数值; ;v资料的分布不清。资料的分布不清。 Descriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指

36、标指标(二)百分位数(二)百分位数(percentilepercentile) 中位数(中位数( median )和百分位数()和百分位数( percentile )百分位数(percentile)是一种位置指标,以Px表示。百分位数是将频数等分为一百的分位数。一组观察值从小到大按顺序排列,理论上有x%的变量值比Px小,有(100-x)%的变量值比Px大。故P50分位数也就是中位数,即P50=M 。 Descriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)描述数值变量资料的集中趋势描

37、述数值变量资料的集中趋势(central (central tendency)tendency)指标指标设有设有n个原始数据从小到大排列,第个原始数据从小到大排列,第X百分位数的计算公式为:百分位数的计算公式为: 当当 为带有小数位时:为带有小数位时: 当当 为为 整数时:整数时:%nXtrunc(%) 1XnXPX(%)(% 1)12XnXnXPXX%nXTrunc()取整函数取整函数 中位数(中位数( median )和百分位数()和百分位数( percentile ) 直接法: Descriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(centra

38、l (central tendency)tendency)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标指标例例 对某医院细菌性痢疾治愈者的住院天数统计,对某医院细菌性痢疾治愈者的住院天数统计,120120名患者的住名患者的住院天数从小到大排列如下,试求第院天数从小到大排列如下,试求第5 5百分位数和第百分位数和第9999百分位数。百分位数。患患 者者:住院天数住院天数: (1)n=120,为整数为整数: 12099%118.85(6)(7)11(34)3.5()22PXX天120 5%61 2 3 4 5 6

39、7 8 9 117 118 119 120 1 2 2 2 3 3 4 4 5 40 40 42 45(2) ,带有小数,故取整带有小数,故取整 trunc(118.8)= 11899(119)(%) 142()trunc nXPXX天 Descriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标指标(%)XXXLXiPLnXff XL:第 X 百分位数所在组段

40、下限 Lf:小于XL各组段的累计频数 Xi:第 X 百分位数所在组段组距 n:为总例数 频数表法: 中位数(中位数( median )和百分位数()和百分位数( percentile ) Descriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标指标例2.7 某疾病控制中心记录了199名沙门氏菌属食物中毒患者发病的潜伏期,并整理成表2-3中(1)、(2)栏,试

41、计算其平均发病潜伏期。?)178%50199(14/1248)%50(95LMfnfiLP Descriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标指标 例例 试分别求频数表的第试分别求频数表的第25、第、第75百分位数。百分位数。P2565+3x(130 x25%19)/1565.90P7574+3x(130 x75%85)/1974.66 Descrip

42、tive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标指标o 众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段的组中值。适用于大样本;较粗糙。o 例2-7 有16例高血压病人的发病年龄(岁)为:42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数。 众数(众数( mode ) D

43、escriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标指标正态分布时: 均数中位数众数均数中位数众数正偏态分布时: 均数均数 中位数中位数 众数众数负偏态分布时: 均数均数 中位数中位数 众数众数 均数、中位数、均数、中位数、众数之间的关系众数之间的关系 Descriptive Statistics描述数值变量资料的集中趋势描述数值变量资料的集中趋势(cen

44、tral (central tendency)tendency)描述数值变量资料的集中趋势描述数值变量资料的集中趋势(central (central tendency)tendency)指标指标盘编号盘编号 甲甲乙乙丙丙124604904953 35005005004 45405105055 5560520510合计合计250025002500250025002500均数均数500500500500500500例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5 5个计个计数盘,得结果如下(万数盘

45、,得结果如下(万/mm/mm3 3) Descriptive Statistics描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)指标指标变异(变异(variationvariation)指标)指标反映数据的离散度(反映数据的离散度( DispersionDispersion )。即个体观察值的变异程度。常用)。即个体观察值的变异程度。常用的指标有:的指标有: 1. 1. 极差极差( (RangeRange) ( (全距全距) ) 2. 2. 百分位数与四分位数间距百分位数与四分位数间距 Percentile and

46、Quartile Percentile and Quartile rangerange 3. 3. 方差方差 VarianceVariance 4. 4. 标准差标准差Standard DeviationStandard Deviation 5. 5. 变异系数变异系数 Coefficient of VariationCoefficient of Variation Descriptive Statistics描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)指标指标minmaxXXR优点:简便缺点:1. 只利用了两个

47、极端值 2.n大,R也会大 3.不稳定1204020 极差(极差( Range ) Descriptive Statistics描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)指标指标百分位数百分位数 :数据从小到大:数据从小到大 排列排列; ;在百分在百分尺度下,所占百分比对应的值。记为尺度下,所占百分比对应的值。记为P Px x。 四分位间距四分位间距: QR QRP P7575 P P252

48、5 四分位数间距(四分位数间距( quartile range)特点:特点: 比极差稳定,只反映中间两端值的差异。比极差稳定,只反映中间两端值的差异。 计算不太方便。可用于各种分布的资料。计算不太方便。可用于各种分布的资料。 Descriptive Statistics描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)指标指标 方差(方差( variance )NXXlSSXxx222)-()-()

49、square of sum(0)-(总体方差离均差平方和离均差和 Descriptive Statistics描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)指标指标方差(方差(variancevariance)也称均方差(也称均方差(mean square deviationmean square deviation),),反映一组数据的平均离散水平。反映一组数据的平均离散水平。 总体方差总体方

50、差 样本方差样本方差 22()XN离均差平方和SS22()1XXSn 方差(方差( variance ) Descriptive Statistics描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)指标指标2()1XXSn 标准差(标准差( Standard Deviation )样本方差为什么要除以(样本方差为什么要除以(n n1 1)与自由度(degrees of freedom)有关。自由度

51、是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(nk)个自由度了。计算标准差时, n个变量值本身有n个自由度。但受到样本均数的限制,任何一个“离均差”均可以用另外的(n1)个“离均差”表示,所以只有(n1)个独立的“离均差”。因此只有(n1)个自由度。 11)(2222nnXXnXXS样本方差 Descriptive Statistics描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)描述数值变量资料的离散趋势描述数值变量资料的离散趋势(cen

52、tral (central tendency)tendency)指标指标 标准差的公式还可以写成 :利用频数表计算标准差的公式为22()1XXnSn22()1fXfXfSf 标准差(标准差( Standard Deviation ) Descriptive Statistics描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)指标指标例2-11 对例2-1的前10个数据: 75,76,72,69,6

53、6,72,57,68,71,72, 用直接法计算标准差。48984727675,698727675,102222XXn248984698 /105.41()101S次/分 标准差(标准差( Standard Deviation ) Descriptive Statistics描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)指标指标例2-11 对例2-1的前10个数据: 75,76,72,69,66

54、,72,57,68,71,72, 用直接法计算标准差。48984727675,698727675,102222XXn248984698 /105.41()101S次/分 标准差(标准差( Standard Deviation ) Descriptive Statistics描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)指标指标例2-12 利用表2-2中的数据和频数表法计算标准差Nf ffXfXf

55、XfX2 22671354.59311.0 /1305.89()130 1S次/分 Descriptive Statistics标准差的意义和用途1. 说明资料的离散趋势(或变异程度),标准差的值越大,说明变异程度越大,均数的代表性越差; .。 标准差与原始数据的单位一致,在科技论文报告中,均数与标准差经常被同时用来描述资料的集中趋势与离散趋势。2. 用于计算变异系数3. 用于计算标准误(见第四章)4. 结合均值与正态分布的规律,估计参考值的范围(见第五节)。 标准差(标准差( Standard Deviation ) Descriptive Statistics描述数值变量资料的离散趋势描述

56、数值变量资料的离散趋势(central (central tendency)tendency)描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)指标指标C VSX 1 0 0 % 变异系数(coefficient of variation,CV) 常用于比较度量单位度量单位不同不同或均数相差悬殊均数相差悬殊的两组(或多组)资料的变异程度。 变异系数(变异系数( coefficient of variation,CV ) Descriptive Statistics描述数值变量资料的离散趋势描述数值变量资料的离散趋势(ce

57、ntral (central tendency)tendency)描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)指标指标某地某地7岁男孩身高的均数为岁男孩身高的均数为123.10cm,标准差为标准差为4.71;体重均数为;体重均数为22.59kg,标准差为标准差为2.26kg,比较其变异度?比较其变异度? 体重 2.26100% 10.14%22.29CV 身 高 4.71100% 3.83%123.10CV 变异系数(变异系数( coefficient of variation,CV ) Descriptive S

58、tatistics描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)指标指标 变异指标小结变异指标小结1极差较粗,适合于任何分布极差较粗,适合于任何分布2标准差标准差与均数的单位相同,最常用,适合于近似正态分布与均数的单位相同,最常用,适合于近似正态分布3变异系数主要用于单位不同或均数相差悬殊资料变异系数主要用于单位不同或均数相差悬殊资料4平均指标和变异指标分别反映资料的不同特征,平均指标和变异指标

59、分别反映资料的不同特征, 常配套使用常配套使用 如如 正态分布正态分布:均数、标准差;:均数、标准差; 偏态分布偏态分布:中位数、四分位半间距:中位数、四分位半间距 Descriptive Statistics描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)描述数值变量资料的离散趋势描述数值变量资料的离散趋势(central (central tendency)tendency)指标指标o正态分布的通俗概念: 如果把数值变量资料编制频数表后绘制频数分布图(又称直方图,它用矩形面积表示数值变量资料的频数分布,每条直条的宽

60、表示组距,直条的面积表示频数(或频率)大小,直条与直条之间不留空隙。),若频数分布呈现中间为最多,左右两侧基本对称,越靠近中间频数越多,离中间越远,频数越少,形成一个中间频数多,两侧频数逐渐减少且基本对称的分布,那我们一般认为该数值变量服从或近似服从数学上的正态分布。正态分布的概念 Descriptive Statistics正态分布(正态分布(Gaussian distribution)以某地13岁女孩118人的身高(cm)资料,来说明身高变量服从正态分布。o频数分布表:某地 13 岁女孩 118 人的身高(cm)资料频数分布 身高组段 频数 组中值 (1) (2) (3) 129 2 13

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论