版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章定量资料的统计描述
2022/12/161第二章定量资料的统计描述
2022/12/1111
[学习要求]
了解:应用SAS程序编制频率表的方法和means、univariate过程对定量资料的描述。
熟悉:定量资料频率表的编制方法和用途。
掌握:算术均数、几何均数、中位数的计算方法和使用条件;四分位间距、方差、标准差、变异系数的计算方法和使用条件。
2022/12/1622022/12/1122
统计描述是用统计图表、统计指标来描述资料的分布规律及其数量特征的。
第一节频率分布表与频率分布图
医学研究资料变量值的个数较多时,对个变量值出现的频数或频率列表即为频数分布表或频率分布表(frequencydistributiontable),简称频数表或频率表。
2022/12/163统计描述是用统计图表、统计指标来描述资料的3一、离散型定量变量的频率分布
例2-11998年某山区96名孕妇产前检查次数资料,编制频率表。
表2-11998年某地96名孕妇产前检查次数频率分布2022/12/164一、离散型定量变量的频率分布2022/12/114图2-11998年某地96名孕妇产前检查次数频率分布
离散型定量变量的频率分布图可用直条图表达,以等宽直条的高度表示各组频率的多少2022/12/165图2-11998年某地96名孕妇产前5二、连续型定量变量的频率分布
例2-2抽样调查某地120名18~35岁健康男性居民血清铁含量(μmmo/L),数据如下。试编制血清铁含量的频率分布表。2022/12/166二、连续型定量变量的频率分布例2-2抽样调查6频率表的编制步骤如下:
1.计算极差(range,R),亦称全距,即最大值与最小值之差。本例最大值为29.64,最小值为7.42,故R=29.64-7.42=22.22(μmmo/L)。
2.确定组段数与组距(classinterval)组段数一般取10组左右。组距用i表示,组距=极差/组段数,本例拟分10组,i=22.22/10=2.22,一般取靠近的整数作为组距,本例取i=2。
3.确定各组段的上、下限每个组段的起点称为组段的下限,终点称为组段的上限。第一组段要包括最小值,其下限取小于或等于最小值的整数,本例取6最为第一组段的下限(也可取7),最后一个组段要包括最大值。注意各组段不能重合,每组段只写出下限,如6~,8~,最后一个组段可包括其上限值,如本例28~30。
4.列表清点各组的频数,计算频率、累积频率数和累计频率。
2022/12/167频率表的编制步骤如下:2022/12/1177表2-2120名正常成年男子血清铁含量(μmmo/L)频率分布2022/12/168表2-2120名正常成年男子血清铁含量(μmmo/L)8图2-2120名健康成年男子血清铁含量(μmol/L)分布2022/12/169图2-2120名健康成年男子血清铁含量(μmol/L)分92-2120名健康成年男子血清铁含量(μmmo/L)分布2022/12/16102-2120名健康成年男子血清铁含量(μmmo/L)分10三、频率分布表(图)的用途
1.揭示资料的分布类型2022/12/1611三、频率分布表(图)的用途2022/12/111111正偏态(右偏态)负偏态(左偏态)
2.观察资料的集中趋势和离散趋势
3.便于发现某些特大或特小的可疑值
4.便于进一步计算统计指标和作统计处理2022/12/1612正偏态(右偏态)负偏态(左偏态12第二节描述集中趋势的统计指标
医学定量资料中,描述集中趋势的统计指标主要有算术均数、几何均数和中位数。一、算术均数(arithmeticmean)
简称均数。均数适用于对称分布或近似对称分布的资料。习惯上以希腊字母表示总体均数(populationmean),以表示样本均数(samplemean)。常用计算方法有直接法和频率表法(亦称加权法)。2022/12/1613第二节描述集中趋势的统计指标医学定量资料131.直接法例2-3
测得8至正常大白鼠血清总酸性磷酸酶(TACP)含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。本例(U/L)2022/12/16141.直接法例2-3测得8至正常大白鼠血清总酸性磷酸14
2.频率表法当变量值的个数较多时,在编制频率表的基础上,应用加权法计算均数的近似值。
公式中,f为各组段的频数,X0为各组段的组中值,X0=(组段上限+组段下限)/2。例2-4(μmmo/L)如用直接法计算,=18.61(μmmo/L)2022/12/16152.频率表法当变量值的个数较多时,在编制频率表15表2-3频数表法计算均数2022/12/1616表2-3频数表法计算均16二、几何均数(geometricmean,G)
几何均数使用于原始变量不呈对称分布,但对变量经对数转换后呈对称分布的资料,又称对数正态分布资料。常见于正偏态分布资料,如抗体滴度,某些传染病的潜伏期,细菌计数等。计算公式亦可用直接法和频数表法。
1.直接法
对数的形式为2022/12/1617二、几何均数(geometricmean,G)1.直17
例2-57名慢性迁延型肝炎患者的HBsAg滴度资料为:1:16,1:32,1:32,1:64,1:64,1:128,1:512。试计算其几何均数。
本例先求平均滴度的倒数7名慢性迁延型肝炎患者的HBsAg滴度几何均数为1:64。2022/12/1618例2-57名慢性迁延型肝炎患者的HBsAg18
2.频率表法:当资料中相同变量值的个数f(即频数)较多时,可通过频率表法计算几何均数,公式为
表2-452例慢性肝炎患者的HBsAg滴度资料2022/12/16192.频率表法:当资料中相同变量值的个数f(即频19本例ΣflgX=108.06977,Σf=52,代入公式得
52例慢性肝炎患者的HBsAg滴度的几何均数为1:119.75
计算几何均数应注意:①变量值中不能有0;②不能同时有正值和负值;③若全是负值,计算时可先把负号去掉,得出结果后再加上负号。2022/12/1620本例ΣflgX=108.06977,Σf=52,代入202022/12/16212022/12/1121212022/12/16222022/12/1122222022/12/16232022/12/112323三、中位数及百分位数
1.中位数(median,M)
将一组变量值从小到大按顺序排列,位次居中的变量值称为中位数。在全部变量值中,大于和小于中位数的变量值的个数相等。用中位数表示平均水平主要适用于:①变量值中出现个别特小或特大的数值;②资料的分布呈明显偏态,即大部分的变量值偏向一侧;③变量值分布一端或两端无确定数值,只有小于或大于某个数值;④资料的分布不清。2022/12/1624三、中位数及百分位数2022/12/112424
(1)直接法当例数较少时,先将变量值由小到大顺序排列,再按以下公式计算。n为奇数时
n为偶数时
式中X的下标为变量值的位置。2022/12/1625(1)直接法当例数较少时,先将变量值由小到大顺序排25
例2-7某药厂观察9只小鼠口服高山红景天醇提物后在乏氧条件下的生存时间(min)如下:49.1,60.8,63.3,63.6,63.6,65.6,65.8,68.9,69.0。试求其中位数。本例n=9,为奇数如果n=10例,生存时间为69.6,则中位数为2022/12/1626例2-7某药厂观察9只小鼠口服高山红景天醇提物26
(2)频率表法当例数较多时,先将变量值从小到大编制频率表,并分别计算累计频数和累计频率(见表2-5)。先从累计频率找出M所在的组段,然后按下式计算。
式中L为中位数所在组段的下限,i为该组段的组距,fm为该组段的频数,ΣfL为小于L的各组段累计频数。例2-850例链球菌咽颊炎患者的潜伏期(小时)如表2-5,试计算潜伏期的中位数。2022/12/1627(2)频率表法当例数较多时,先将变量值从小到27表2-5
50例链球菌咽颊炎患者的潜伏期(小时)的频率分布表
本例从累计频率看,M位于48~组段,即L=48,i=12,fm=11,ΣfL=19,(小时)2022/12/1628表2-550例链球菌咽颊炎患者的潜伏期(小时)的频率分28ΣfLMfm2022/12/1629ΣfLMfm2022/12/112929
1.百分位数
百分位数(percentile,P)是一种位置指标,以Px表示。百分位数是将频数等分为一百的分位数。一组观察值从小到大按顺序排列,理论上有x%的变量值比Px小,有(100-x)%的变量值比Px大。故P50分位数也就是中位数,即P50=M。百分位数的计算公式为式中L为Px所在组段的下限,i为该组段的组距,fx为该组段的频数,ΣfL为小于L的各组段累计频数。2022/12/16301.百分位数式中L为Px所在组段的下限,30如试求表2-5资料中百分位数P25、P75
。由表2-5累计频数栏可见P25在“36~”组段,L=36,i=12,fx=11,ΣfL=8,代入公式得(小时)同理可知P75在“72~”组段,L=72,i=12,fx=5,ΣfL=74,代入公式得(小时)
百分位数的使用条件同中位数一样。主要用途为:①描述一组资料在某百分位置上的水平;②用于确定正常值范围;③计算四分位数间距。
2022/12/1631如试求表2-5资料中百分位数P25、P75。(31四、众数(mode)
一组数据中出现次数最多的数值,叫众数。众数在频率分布表中是频数最多的那一组的组中值,有时众数在一组数中有好几个或者没有众数。
例如:1,2,3,3,4的众数是3;1,2,2,3,3,4的众数是2和3;1,2,3,4,5没有众数;表2-5众数为42和54。
2022/12/1632四、众数(mode)2022/12/113232第三节描述离散趋势的统计指标例2-10是观察三组数据的离散状况。A组:26,28,30,32,34;B组:24,27,30,33,36;C组:26,29,30,31,34。三组均数都是30。
A组.....B组
.....C组
.....
常用的离散指标有:极差、四分位数间距、方差、标准差和变异系数,最常用的指标为标准差。2022/12/1633第三节描述离散趋势的统计指标2022/12/113333一、极差和四分位数间距
1.极差
极差(range,R)亦称全距,即一组变量值中最大值与最小值之差。R值大,离散度就大;R值小,离散度就小。
A组:R=34-26=8B组:R=36-24=12C组:R=34-26=8
极差的特点是计算简单,但只考虑最大值和最小值,容易受个别极端值的影响,且不能反映组内其他变量值的离散情况。另外,当调查例数增多时,遇到较大或较小变量值的机会就大,极差就可能增大。2022/12/1634一、极差和四分位数间距2022/12/113434
2.四分位数间距(quartileinterval,Q)
极差的不稳定主要受两端值的影响,如将两端数据各去掉一部分,这样所得的数据就比较稳定了。例如两端各去掉25%,取中间50%的数据的极差,这样可先计算P25和P75,求出P75与P25之差,即为四分位数间距。
Q=P75-P25
P75又称为上四分位数(upperquartile);P25又称为下四分位数(lowerquartile)。2022/12/16352.四分位数间距(quartileinterva35例2-12试计算表2-5中50例链球菌咽颊炎患者的潜伏期(小时)的四分位间距。已知P75=73.20小时,P25=40.91小时,代入公式得
Q=73.20-40.91=32.29(小时)由以上的结果可以看出:链球菌咽颊炎患者的潜伏期在40.91~73.20小时之间,其四分位数间距为32.29小时。四分位数间距可用于各种分布资料,特别是偏态分布资料,经常把中位数和四分位间结合起来描述资料的集中趋势和离散趋势。2022/12/1636例2-12试计算表2-5中50例链球菌咽颊36二、方差和标准差
方差(variance)和标准差(standarddeviation)是描述对称分布,特别是正态分布或近似正态分布资料离散趋势(变异程度)的常用指标。
1.方差
总体方差用表示,样本方差用S2表示。2022/12/1637二、方差和标准差2022/12/113737
式中:n-1是自由度(degreeoffreedom),用希腊小写字母表示。它描述了当不变的情况下,n个变量值(X)中能自由变动的变量值的个数。用n-1作分母,S2可作为的无偏估计。对于频率表资料如例2-10三组数据其方差为2022/12/1638式中:n-1是自由度(degreeoff38
2.标准差
标准差为方差的开方根,它与原始变量值单位相同。总体标准差用表示,样本标准差用S表示。
总体标准差计算公式为
样本标准差计算公式为
2022/12/16392.标准差样本标准差计算公式为2022/12/39
对于频率表资料例2-14计算例2-2数据的标准差。已算得ΣfX0=2228,n=Σf=120,=43640(μmol/L)
对于正态分布资料,研究报告中经常用的形式来描述资料的集中趋势和离散趋势。2022/12/1640对于频率表资料例2-14计算例2-2数据的标准40三、变异系数(coefficientofvariation,CV)
当两组或多组变量值的单位不同或均数相差较大时,不能或不宜用两个或多个标准差的大小来比较其离散程度的大小。此时可用变异系数反映变量值的相对离散程度。样本变异系数CV的计算公式
由上式可以看出:①变异系数为无量纲单位,可以比较不同单位指标间的变异度;②变异系数消除了均数的大小对标准差的影响,所以可以比较两均数相差较大时指标间的变异度。2022/12/1641三、变异系数(coefficientofvariatio41
例2.141985年通过十省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg,身高均数为72.4cm,标准差为3.0cm。试计算周岁女童身高与均数变异系数。身高体重
周岁女童体重的变异程度比身高的变异程度大。
2022/12/1642例2.141985年通过十省调查得知,农42
第四节描述分布形态的统计指标
1.偏度系数(coefficientofskewness,SKEW)
偏度系数(G1)按照以下公式计算G1=0为正态分布;G1>0为正偏态分布;G1<0为负偏态分布。2022/12/1643第四节描述分布形态的统计指标1.偏度系数(coef43fxfxfx正态G1=0正偏态G1>0负偏态G1<0=M>M<M2022/12/1644fxfxfx正态G1=0正偏态G1>0负偏态G1<0=M>M44
2.峰度系数(coefficientofkurtosis,KURT)
峰度系数(G2)按照以下公式计算G2=0,为标准正态峰;G2>0,为尖峭峰;G2<0,为平阔峰。2022/12/16452.峰度系数(coefficientofkur45第五节定量资料描述的SAS过程一、MEANS过程
MEANS过程除了能对数值型变量进行一般的统计描述之外,还可以作配对设计资料的t检验。语句格式:Procmeans[操作选项][统计量列表];
VAR变量名列;/*指定分析的变量名列,缺省为所有数值变量*/
[CLASS变量名列;]/*按变量名列分组统计*/
[FREQ变量名;]
/*表明该变量为分析变量的频数*/Run;2022/12/1646第五节定量资料描述的SAS过程一、MEANS过程20246Procmeans
[操作选项]
data=
指定要分析的数据集名
maxdec=
指定输出结果最大的小数位数,默认为7位
alpha=
设定计算可信区间的α水平,默认为0.05
注:在proc语句中的选项直接跟在proc名后,以空格分隔,中间不加“/”,其他命令语句的选项需以“/”分隔。
2022/12/1647Procmeans
[操作选项]2022/12/147Procmeans
[统计量列表选项]
(缺省时只输出N、MEAN、STD、MIN、MAX
五项)常用统计量:N(例数)、MEAN(均数)、STD(标准差)、STDERR(标准误)、MAX(最大值)、MIN(最小值)、CV(变异系数)、RANGE(全距)、VAR(方差)、CSS(离均差平方和)、USS(平方和)、SUM(合计)。
分位数:P50(中位数)、P75(上四分位数)、P25(下四分位数)、QRANGE(四分位间距)、P1、P5、P10、P90、P95、P99。
分布度量:SKEW(偏度系数)、KURT(峰度系数)。
可信区间:CLM(95%可信区间)、LCLM(95%可信区间下限)、UCLM(95%可信区间上限)。
单样本t检验:T(μ=0检验的t值)、PRT(t值对应的概率P值)。2022/12/1648Procmeans[统计量列表选项]2022/12/1148例1
例2-2某地120名健康男性居民血清铁含量(μmmo/L)资料。
dataex2_1;inputx@@;cards;
7.428.6523.0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.13 21.5311.0918.8918.26 23.2917.6715.3818.6114.2717.4022.5517.55 16.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.99 18.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.40 20.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.73 17.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.86 27.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.12 19.2219.2216.7227.9011.7424.6614.1816.52
;
procmeansmaxdec=2nmeanstdminmaxcvp50p25p75qrange;run;2022/12/1649例1例2-2某地120名健康男性居民血清铁含量(μ49
TheMEANSProcedureAnalysisVariable:x
Coeffof
NMeanStdDevMinimumMaximumVariation------------------------------------------------------------------------------------18.614.347.4229.6423.33-------------------------------------------------------------------------------------50thPctl25thPctl75thPctlQuartileRange------------------------------------------------------------------------18.9916.0221.575.55-----------------------------------------------------------
2022/12/1650
50例2
某克山病区测得11名克山病患者与13名健康人的血磷值(mmol/L)如下,试求两组的平均血磷值和标准差。dataex2_2;inputgx@@;cards;10.8411.0511.2011.2011.3911.5311.6711.8011.8712.0712.1120.5420.6420.6420.7520.7620.8121.1621.2021.3421.3521.4821.5821.87;procmeans;varx;classg;run;2022/12/1651例2某克山病区测得11名克山病患者与13名健康人的血磷值51
TheMEANSProcedureAnalysisVariable:xNgObsNMeanStdDevMinimumMaximum-----------------------------------------------------------------------------------------111111.52090910.42179270.84000002.1100000213131.08615380.42405850.54000001.8700000-----------------------------------------------------------------------------------------2022/12/1652
52例3
循环语句
dataex2_3;dog=1to2;
/*g为分组变量,循环开始,循环次数为2*/
inputn;
/*输入n值*/
doi=1ton;
/*i循环开始,循环次数为n*/
inputx@@;
/*输入x值,注意@@的合理使用*/
output;
/*output将x输出,循环语句中必须使用。*/
end;
/*i循环结束*/
end;
/*g循环结束*/
cards;
110.841.051.201.201.391.531.671.801.872.072.11130.540.640.640.750.760.811.161.201.341.351.481.581.87;procmeans;varx;classg;run;2022/12/1653例3循环语句2022/12/115353二、几何均数的计算
SAS程序没有直接计算几何均数的模块,可用means过程间接计算几何均数。
例4
例2-6资料计算几何均数。dataex2_4;inputxf@@;y=log10(x);cards;162327641112813256125127;procmeans;vary;freqf;outputout=gmean=ym;datag1;setg;G=10**ym;procprintdata=g1;varG;run;显示结果:ObsG1119.7472022/12/1654二、几何均数的计算dataex2_4;datag1;显示54三、UNIVARIATE过程
univariate过程可对数值变量进行详细的统计描述。除了提供means过程所有的统计描述外,还可以给出了变量的峰度、偏度、众数、中位数及四分位数等更详尽的统计描述,同时还可进行正态性检验,单样本资料(或配对设计资料)的t检验,符号秩和检验以及几个描述分布的图。2022/12/1655三、UNIVARIATE过程2022/12/115555
语句格式:PROCUNIVARIATE[操作选项];
VAR变量名列;
/*指定分析的变量名列表*/
[CLASS变量名列
;]/*按变量名列分组统计*/
[FREQ变量名;]
/*表明该变量为分析变量的频数*/[HISTOGRAM
变量名列/绘图选择项;]
/*按变量名列绘制直方图*/Run;2022/12/1656语句格式:PROCUNIVARIATE[操作选项]56
PROCUNIVARIATE语句的[操作选项];
data=数据集名
/*指定要分析的数据集名*/
normal
/*进行正态性检验*/
plot
/*生成统计图:茎叶图,盒状图,正态概率图*/
mu0=总体均值
/*指定要比较的总体均值,缺省时总体均值为0。*/
HISTOGRAM语句的[绘图选择项]vscale=count;/*
纵轴用频数绘制直方图,缺省时用频率绘制直方图*/
midpoints=各组中值;/*横轴指定各组组中值以确定各组组段.可以使用变量的循环语句,如MIDPOINTS=7TO29BY2*/cfill=填充颜色;/*指定直方图的填充颜色。如cfill=blue,为蓝色。*/2022/12/1657PROCUNIVARIATE语句的[操作选项];57例5
例2-2某地120名健康男性居民血清铁含量(μmmo/L)资料。dataex2_5;inputx@@;cards;
7.428.6523.0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.13 21.5311.0918.8918.26 23.2917.6715.3818.6114.2717.4022.5517.55 16.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.99 18.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.40 20.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.73 17.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.86 27.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.12 19.2219.2216.7227.9011.7424.6614.1816.52
;
procunivariatenomalplot;varx;run;2022/12/1658例5例2-2某地120名健康男性居民血清铁含量(58
MomentsN(样本含量)
120SumWeights(总权数)
120Mean(均数)
18.6135833SumObservations(合计值)
2233.63StdDeviation(标准差)
4.34319961Variance(方差)
18.8633829Skewness(偏度系数)
-0.1939341Kurtosis(峰度系数)
-0.0178296UncorrectedSS(平方和)43820.6007CorrectedSS(离均差平方和)2244.74256CoeffVariation(变异系数)23.3334954StdErrorMean(标准误)
0.39647807BasicStatisticalMeasuresLocationVariabilityMean(均数)
18.61358StdDeviation(标准差)
4.34320Median(中位数)
18.98500Variance(方差)
18.86338Mode(众数)
17.40000Range(全距)
22.22000InterquartileRange(四分位间距)
5.55000NOTE:Themodedisplayedisthesmallestof6modeswithacountof2.2022/12/16592022/12/115959
TestsforLocation:Mu0=0(均数是否为0的检验)
Test-Statistic------pValue------
(检验方法)(统计量)(P值)
Student‘st(t检验)
t
46.94732Pr>|t|<.0001Sign(符号检验)
M60Pr>=|M|<.0001SignedRank(符号秩和检验)
S3630Pr>=|S|<.0001TestsforNormalityTest--Statistic--------pValue------Shapiro-Wilk(W检验)
W0.992187Pr<W0.7386Kolmogorov-Smirnov(D检验)
D0.062602Pr>D>0.1500Cramer-vonMisesW-Sq0.060468Pr>W-Sq>0.2500Anderson-DarlingA-Sq0.343631Pr>A-Sq>0.25002022/12/1660
60Quantiles(Definition5)QuantileEstimate100%Max29.64099%27.90095%25.18090%24.13575%Q321.57050%Median18.98525%Q116.02010%12.6605%10.9751%8.4000%Min7.4202022/12/1661Quantiles(Definition5)2022/161
ExtremeObservations-----Lowest--------Highest----ValueObsValueObs7.42126.02548.401426.13638.65227.811019.97727.9011610.255729.64162022/12/1662
622022/12/16632022/12/1163632022/12/16642022/12/116464四、频率表的编制例6对例2-2某地120名健康男性居民血清铁含量资料用SAS过程编制频率表DATAEX2_6;INPUTX@@;L=6;/*定义第一组的下限值*/I=2;/*定义组距*/Y=X-MOD(X-L,I);/*y值取6,8,10,12,...,等整数*/CARDS;7.428.6523.0221.61
21.3121.469.9722.7314.9420.1821.6223.07…
…
…
…
…
…
…
…
…
…
…
…12.6518.4819.8323.12
19.2219.2216.7227.9011.7424.6614.1816.52;
PROCFREQ;/*用freq语句输出频数表*/TABLESY;/*一维的分组变量*/PROCUNIVARIATE;VARY;HISTOGRAMY/VSCAL=COUNTMIDPOINTS=7TO29BY2CFILL=RED;RUN;2022/12/1665四、频率表的编制2022/12/1165652022/12/16662022/12/1166662022/12/16672022/12/116767思考题
1.数值变量资料频数表的组段数目是否越多越好?2.均数、几何均数和中位数的适用范围有何异同?3.中位数与百分位数在意义、计算和应用上有何区别与联系?4.标准差和变异系数在计算公式上有何联系?在适用范围上有何不同?2022/12/1668思考题2022/12/116868ThankYou!2022/12/1669ThankYou!2022/12/116969第二章定量资料的统计描述
2022/12/1670第二章定量资料的统计描述
2022/12/11170
[学习要求]
了解:应用SAS程序编制频率表的方法和means、univariate过程对定量资料的描述。
熟悉:定量资料频率表的编制方法和用途。
掌握:算术均数、几何均数、中位数的计算方法和使用条件;四分位间距、方差、标准差、变异系数的计算方法和使用条件。
2022/12/16712022/12/11271
统计描述是用统计图表、统计指标来描述资料的分布规律及其数量特征的。
第一节频率分布表与频率分布图
医学研究资料变量值的个数较多时,对个变量值出现的频数或频率列表即为频数分布表或频率分布表(frequencydistributiontable),简称频数表或频率表。
2022/12/1672统计描述是用统计图表、统计指标来描述资料的72一、离散型定量变量的频率分布
例2-11998年某山区96名孕妇产前检查次数资料,编制频率表。
表2-11998年某地96名孕妇产前检查次数频率分布2022/12/1673一、离散型定量变量的频率分布2022/12/1173图2-11998年某地96名孕妇产前检查次数频率分布
离散型定量变量的频率分布图可用直条图表达,以等宽直条的高度表示各组频率的多少2022/12/1674图2-11998年某地96名孕妇产前74二、连续型定量变量的频率分布
例2-2抽样调查某地120名18~35岁健康男性居民血清铁含量(μmmo/L),数据如下。试编制血清铁含量的频率分布表。2022/12/1675二、连续型定量变量的频率分布例2-2抽样调查75频率表的编制步骤如下:
1.计算极差(range,R),亦称全距,即最大值与最小值之差。本例最大值为29.64,最小值为7.42,故R=29.64-7.42=22.22(μmmo/L)。
2.确定组段数与组距(classinterval)组段数一般取10组左右。组距用i表示,组距=极差/组段数,本例拟分10组,i=22.22/10=2.22,一般取靠近的整数作为组距,本例取i=2。
3.确定各组段的上、下限每个组段的起点称为组段的下限,终点称为组段的上限。第一组段要包括最小值,其下限取小于或等于最小值的整数,本例取6最为第一组段的下限(也可取7),最后一个组段要包括最大值。注意各组段不能重合,每组段只写出下限,如6~,8~,最后一个组段可包括其上限值,如本例28~30。
4.列表清点各组的频数,计算频率、累积频率数和累计频率。
2022/12/1676频率表的编制步骤如下:2022/12/11776表2-2120名正常成年男子血清铁含量(μmmo/L)频率分布2022/12/1677表2-2120名正常成年男子血清铁含量(μmmo/L)77图2-2120名健康成年男子血清铁含量(μmol/L)分布2022/12/1678图2-2120名健康成年男子血清铁含量(μmol/L)分782-2120名健康成年男子血清铁含量(μmmo/L)分布2022/12/16792-2120名健康成年男子血清铁含量(μmmo/L)分79三、频率分布表(图)的用途
1.揭示资料的分布类型2022/12/1680三、频率分布表(图)的用途2022/12/111180正偏态(右偏态)负偏态(左偏态)
2.观察资料的集中趋势和离散趋势
3.便于发现某些特大或特小的可疑值
4.便于进一步计算统计指标和作统计处理2022/12/1681正偏态(右偏态)负偏态(左偏态81第二节描述集中趋势的统计指标
医学定量资料中,描述集中趋势的统计指标主要有算术均数、几何均数和中位数。一、算术均数(arithmeticmean)
简称均数。均数适用于对称分布或近似对称分布的资料。习惯上以希腊字母表示总体均数(populationmean),以表示样本均数(samplemean)。常用计算方法有直接法和频率表法(亦称加权法)。2022/12/1682第二节描述集中趋势的统计指标医学定量资料821.直接法例2-3
测得8至正常大白鼠血清总酸性磷酸酶(TACP)含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。本例(U/L)2022/12/16831.直接法例2-3测得8至正常大白鼠血清总酸性磷酸83
2.频率表法当变量值的个数较多时,在编制频率表的基础上,应用加权法计算均数的近似值。
公式中,f为各组段的频数,X0为各组段的组中值,X0=(组段上限+组段下限)/2。例2-4(μmmo/L)如用直接法计算,=18.61(μmmo/L)2022/12/16842.频率表法当变量值的个数较多时,在编制频率表84表2-3频数表法计算均数2022/12/1685表2-3频数表法计算均85二、几何均数(geometricmean,G)
几何均数使用于原始变量不呈对称分布,但对变量经对数转换后呈对称分布的资料,又称对数正态分布资料。常见于正偏态分布资料,如抗体滴度,某些传染病的潜伏期,细菌计数等。计算公式亦可用直接法和频数表法。
1.直接法
对数的形式为2022/12/1686二、几何均数(geometricmean,G)1.直86
例2-57名慢性迁延型肝炎患者的HBsAg滴度资料为:1:16,1:32,1:32,1:64,1:64,1:128,1:512。试计算其几何均数。
本例先求平均滴度的倒数7名慢性迁延型肝炎患者的HBsAg滴度几何均数为1:64。2022/12/1687例2-57名慢性迁延型肝炎患者的HBsAg87
2.频率表法:当资料中相同变量值的个数f(即频数)较多时,可通过频率表法计算几何均数,公式为
表2-452例慢性肝炎患者的HBsAg滴度资料2022/12/16882.频率表法:当资料中相同变量值的个数f(即频88本例ΣflgX=108.06977,Σf=52,代入公式得
52例慢性肝炎患者的HBsAg滴度的几何均数为1:119.75
计算几何均数应注意:①变量值中不能有0;②不能同时有正值和负值;③若全是负值,计算时可先把负号去掉,得出结果后再加上负号。2022/12/1689本例ΣflgX=108.06977,Σf=52,代入892022/12/16902022/12/1121902022/12/16912022/12/1122912022/12/16922022/12/112392三、中位数及百分位数
1.中位数(median,M)
将一组变量值从小到大按顺序排列,位次居中的变量值称为中位数。在全部变量值中,大于和小于中位数的变量值的个数相等。用中位数表示平均水平主要适用于:①变量值中出现个别特小或特大的数值;②资料的分布呈明显偏态,即大部分的变量值偏向一侧;③变量值分布一端或两端无确定数值,只有小于或大于某个数值;④资料的分布不清。2022/12/1693三、中位数及百分位数2022/12/112493
(1)直接法当例数较少时,先将变量值由小到大顺序排列,再按以下公式计算。n为奇数时
n为偶数时
式中X的下标为变量值的位置。2022/12/1694(1)直接法当例数较少时,先将变量值由小到大顺序排94
例2-7某药厂观察9只小鼠口服高山红景天醇提物后在乏氧条件下的生存时间(min)如下:49.1,60.8,63.3,63.6,63.6,65.6,65.8,68.9,69.0。试求其中位数。本例n=9,为奇数如果n=10例,生存时间为69.6,则中位数为2022/12/1695例2-7某药厂观察9只小鼠口服高山红景天醇提物95
(2)频率表法当例数较多时,先将变量值从小到大编制频率表,并分别计算累计频数和累计频率(见表2-5)。先从累计频率找出M所在的组段,然后按下式计算。
式中L为中位数所在组段的下限,i为该组段的组距,fm为该组段的频数,ΣfL为小于L的各组段累计频数。例2-850例链球菌咽颊炎患者的潜伏期(小时)如表2-5,试计算潜伏期的中位数。2022/12/1696(2)频率表法当例数较多时,先将变量值从小到96表2-5
50例链球菌咽颊炎患者的潜伏期(小时)的频率分布表
本例从累计频率看,M位于48~组段,即L=48,i=12,fm=11,ΣfL=19,(小时)2022/12/1697表2-550例链球菌咽颊炎患者的潜伏期(小时)的频率分97ΣfLMfm2022/12/1698ΣfLMfm2022/12/112998
1.百分位数
百分位数(percentile,P)是一种位置指标,以Px表示。百分位数是将频数等分为一百的分位数。一组观察值从小到大按顺序排列,理论上有x%的变量值比Px小,有(100-x)%的变量值比Px大。故P50分位数也就是中位数,即P50=M。百分位数的计算公式为式中L为Px所在组段的下限,i为该组段的组距,fx为该组段的频数,ΣfL为小于L的各组段累计频数。2022/12/16991.百分位数式中L为Px所在组段的下限,99如试求表2-5资料中百分位数P25、P75
。由表2-5累计频数栏可见P25在“36~”组段,L=36,i=12,fx=11,ΣfL=8,代入公式得(小时)同理可知P75在“72~”组段,L=72,i=12,fx=5,ΣfL=74,代入公式得(小时)
百分位数的使用条件同中位数一样。主要用途为:①描述一组资料在某百分位置上的水平;②用于确定正常值范围;③计算四分位数间距。
2022/12/16100如试求表2-5资料中百分位数P25、P75。(100四、众数(mode)
一组数据中出现次数最多的数值,叫众数。众数在频率分布表中是频数最多的那一组的组中值,有时众数在一组数中有好几个或者没有众数。
例如:1,2,3,3,4的众数是3;1,2,2,3,3,4的众数是2和3;1,2,3,4,5没有众数;表2-5众数为42和54。
2022/12/16101四、众数(mode)2022/12/1132101第三节描述离散趋势的统计指标例2-10是观察三组数据的离散状况。A组:26,28,30,32,34;B组:24,27,30,33,36;C组:26,29,30,31,34。三组均数都是30。
A组.....B组
.....C组
.....
常用的离散指标有:极差、四分位数间距、方差、标准差和变异系数,最常用的指标为标准差。2022/12/16102第三节描述离散趋势的统计指标2022/12/1133102一、极差和四分位数间距
1.极差
极差(range,R)亦称全距,即一组变量值中最大值与最小值之差。R值大,离散度就大;R值小,离散度就小。
A组:R=34-26=8B组:R=36-24=12C组:R=34-26=8
极差的特点是计算简单,但只考虑最大值和最小值,容易受个别极端值的影响,且不能反映组内其他变量值的离散情况。另外,当调查例数增多时,遇到较大或较小变量值的机会就大,极差就可能增大。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024个人借款的合同书范本
- 苏州科技大学天平学院《员工招聘与录用》2022-2023学年第一学期期末试卷
- 苏州科技大学天平学院《外国音乐史与名作赏析》2022-2023学年第一学期期末试卷
- 2024车辆买卖合同样式版
- 制糖业的产业链分析与创新模式考核试卷
- 公共设施管理与环境保护考核试卷
- 《变频器入门课程》课件
- 市场需求与可持续发展策略考核试卷
- 数字医疗的科技应用与创新案例考核试卷
- 企业员工安全生产知识读本讲义考核试卷
- 2024年山东省公务员考试《行测》真题及答案解析
- JGJ/T235-2011建筑外墙防水工程技术规程
- (正式版)HG∕T 21633-2024 玻璃钢管和管件选用规定
- 2024年网上大学智能云服务交付工程师认证考试题库800题(含答案)
- 农产品电子商务智慧树知到期末考试答案章节答案2024年浙江农林大学
- MOOC 电工学(电气工程学概论)-天津大学 中国大学慕课答案
- 特种设备使用单位日管控、周排查、月调度示范表
- 初中语文测试质量分析表(模板)
- 基层领导干部的素质要求之浅见
- 一种昆仑通泰触摸屏的屏幕保护方法
- 华师版八年级上册数学 【说课稿】13.2.4 边边边.doc
评论
0/150
提交评论