医学统计学-第2章-数值变量的描述性统计-课件_第1页
医学统计学-第2章-数值变量的描述性统计-课件_第2页
医学统计学-第2章-数值变量的描述性统计-课件_第3页
医学统计学-第2章-数值变量的描述性统计-课件_第4页
医学统计学-第2章-数值变量的描述性统计-课件_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章数值变量的描述性统计统计图表;统计指标。第一节频数分布一.编制频数表的步骤求极差R=84-57cm=27(次/分)划分组段确定组数:较大样本时,一般取10组左右。确定组距:极差/组数=27/10=2.7≈3(次/分)确定各组段的上下限:上限=下限+组距统计各组段内的数据频数,编制频数表表2.1130名健康成年男子脉搏(次/分)的频数分布表脉搏组段(1)频数(2)频率(%)(3)累计频数(4)累计频率(%)(5)56~59~62~65~68~71~74~77~80~83~85合计251215252619151011301.543.859.2311.5419.2320.0014.6211.547.690.7727193459851041191291301.545.3814.6226.1545.3865.3880.0091.5499.23100.00二.频数表的用途可以揭示资料的分布类型和分布特征,以便于选用相应的统计分析方法。便于进一步计算指标和统计处理。便于发现某些特大或特小的可疑值。第二节集中趋势的描述三种平均数算术均数几何均数中位数。(一)算术均数(x)简称均数,适合于表达呈正态分布资料的平均水平。直接法:

X=X1+···+Xnn=Xn例2-2:X=81+70+66+···+6913=71.69(次/分)加权法X=fXf例:X=572+605+6312+···+841130=71.12(次/分)(二)几何均数(G)适用于原始数据分布不对称,但经对数转换后呈对称分布的资料。G=nX1X2···XnG=lg-1()lgXn

G=lg-1()flgXf例:40名麻疹易感儿童接种麻疹疫苗后一个月,测其血凝抑制抗体滴度,结果如表所示,求几何均数。抗体滴度人数

f滴度倒数

XlgX1:41:81:161:321:641:1281:2561:512145811641481632641282565120.60210.90311.20411.50511.80612.10722.40822.7093G´=lg-1(flgXn)=lg-1(10.6021+40.9031+···+12.7093)40=lg-1(4067.1282)=48G=1:48(三)中位数(M)适合于表达偏态资料、或分布不明的资料的平均水平,尤其适合于表达只知数据的个数、但部分较大或较小数据的具体数值未准确知道的资料的平均水平。对于原始数据和频数分布表资料,分别用下列两式计算中位数。M=(Xn/2+X(n/2+1))/2

(n为偶数)X(n+1)/2(n为奇数)M=LM+iMfM(n2

fL

其中,LM:中位数所在组下限;

iM:中位数所在组的组距;

fM:中位数所在组的频数;fL:中位数所在组前一组的累计频数。2例2-4表2.3107正常人的尿铅含量(g/L)的中位数计算表含量(g/L)(1)频数f(2)累计频数f(3)累计频率%(4)0~4~8~12~16~20~24~28~合计1422291815612107143665839810410510713.0833.6460.7577.5791.5997.2098.13100.00M=8+(107/2-36)=10.41(g/L)429第三节离散程度的描述例:设有三组同年龄、同性别儿童体重(kg)数据如下:甲组2628303234乙组2427303336丙组2629303134描述离散程度的指标:极差、四分位数间距、方差、标准差及变异系数。一.极差(全距,R)为一组同质观察值中最大值与最小值之差。甲组R=34-26=8乙组R=36-24=12甲组数据分布较乙组集中。优点:计算简单缺点:1.没有充分利用样本信息,只考虑最大值与最小值之差异,不能反映组内其它观察值的变异度。2.样本含量越大,抽到较大或较小观察值的可能性越大,则极差可能越大,因此,样本含量悬殊时不宜用极差比较分布的离散度。所以,一般不用极差来反映离散程度。二.四分位数间距(Q)1.分位数的概念分位数是一种位置指标,一个特定的分位数将任何一个频数曲线下的面积分为两部分。第1四分位数记作Q1,第2、第3四分位数,分别记作Q2、Q3;第1百分位数,记作P1。同理,还有第2、第3、

···、第99百分位数,分别记作P2、P3、

···、P99。显然,Q1=P25、Q2=P50=M、Q3=P752.百分位数的计算公式对连续型变量频数表资料,按下式计算第X百分位数PX:PX=LX+iXfX(nX%fL

)其中,LX:第X百分位数所在组下限;

iX:第X百分位数所在组的组距;

fX:第X百分位数所在组的频数;fL

:第X百分位数所在组前一组的累计频数。例某地200例正常成人血铅含量的频数分布如表所示,请计算出血铅含量的95%正常值范围。200例正常成人血铅含量的频数分布表

血铅含量频数累计频数(mol/L)

(1)

(2)0~0.24~0.48~0.72~0.97~1.21~1.45~1.69~1.93~2.17~2.42~2.66~2.90~3.14648433628131444120165497133161174188192196197199199200解:即求P95。nX%=200×95%=190P95=1.69+(190-188)0.244=1.81(mol/L)故某地正常人血铅含量95%的单侧正常值范围的上限为

1.81(mol/L)。

3.四分位数间距(Q)Q=P75-P25Q=QU-QL优缺点:用四分位数间距作为描述数据分布离散程度的指标,比极差稳定,但仍未考虑到每个数据的大小,常用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。例2-10据书中表2.3资料求四分位数间距Q。P25=4+422(10725%14)=6.32(g/L)P75=12+418(10775%65)=15.39(g/L)Q=P75-P25=15.39-6.32=9.07(g/L)三.方差2=(X-)2NS2=(X-X)2n-1

n-1称为自由度四.标准差=(X-)2NS=(X-X)2n-1直接法;s=X2-(X)2/n由于(X-X)2=X2-(X)2/n,所以n-1加权法:s=

fX2-(fX)2/ff-1例2-12求书中表2.2数据的标准差。解f=130fX=9246fX2=662076

S=662076-92462/130130-1=5.89(次/分)五.变异系数(CV)CV=SX100%1.用于比较度量衡单位不同的多组资料的变异度。2.比较均数相差悬殊的多组资料的变异度。六.适用情况第四节正态分布一.正态分布的概念和特征正态分布的图形:正态分布的密度函数:f(X)=12e-(X-)222-<X<+通常用N(,2)表示均数为、方差为2的正态分布。正态分布的特征1.正态曲线在横轴上方均数处最高;2.正态分布以均数为中心,左右对称;3.正态分布有两个参数,即均数与标准差。是位置参数,当固定不变时,越大,曲线沿横轴越向右移动;越小,曲线沿横轴越向左移动。是变异度参数,当固定不变时,越大,曲线越平阔;越小,曲线越尖峭。4.正态曲线下的面积分布有一定的规律。常用的两个区间:±1.96及±2.58的区间面积分别占总面积(或总观察例数)的95%及99%,如下图所示:95%2.5%2.5%-1.96+1.9699%-2.58+2.580.5%0.5%二.标准正态分布令u=X-(u)=12e-u22-<u<+用N(0,1)表示标准正态分布三.正态分布的应用制定医学参考值范围许多统计方法的理论基础参考值范围的制定正态分布法百分位数法%909599双侧X1.64SX1.96SX2.58S单只有下限X-1.28SX-1.64SX-2.33S侧只有上限X+1.28SX+1.64SX+2.33S双侧P5~P95P2.5~P97.5P0.5~P99.5单只有下限P10P5P1侧只有下限

P90P95P99补充题以下是101名30-49岁正常成年男子的血清总胆固醇(mmol/L)测定值的频数表,请据此资料:(1)选择适当的集中趋势指标并计算之;(2)选择适当的离散程度指标并计算之;(3)求该地30-49岁健康男子血清总胆固醇的正常值范围;(4)估计该地30-49岁健康男子血清总胆固醇值小于4.50mmol/L的概率。血清总胆固醇2.5~3.0~3.5~4.0~4.5~5.0~5.5~6.0~6.5~7.0~7.5合计频数f1892325179621101fx2.752633.7597.75118.7589.2551.7537.513.57.25478.25fx27.5684.50126.56415.44564.06468.56297.56234.3891.1352.562342.31datasamp2_1;inputx@@;cards;75767269667257687172697273828082676973647458706460776677646776757571656276727160677575737966697978707270727872677280687061707372718170667571637774766865776977757964797376618064697073696865706966816364807478768466707360768273646573736380687670797764706669737876;例2.1procunivariate;outputout=aamax=maxmin=minmean=mstd=smedian=medq1=p25q3=p75qrange=qmode=moderange=r;procprintdata=aa;datasamp211;setaa;p1=m-1.96*s;p2=m+1.96*s;procprint;varp1p2;datasamp212;setsamp2_1;if56<x<59thenx=56;if59=<x<62thenx=59;if62=<x<65thenx=62;if65=<x<68thenx=65;if68=<x<71thenx=68;if71=<x<74thenx=71;if74=<x<77thenx=74;if77=<x<80thenx=77;if80=<x<83thenx=80;if83=<x<86thenx=83;procfreq;tablex;run;

UnivariateProcedureVariable=XMomentsQuantiles(Def=5)N130SumWgts130100%Max8499%82Mean71.31538Sum927175%Q37695%80StdDev5.801677Variance33.6594550%Med7290%79Skewness-0.13923Kurtosis-0.5417625%Q16710%64USS665507CSS4342.0690%Min575%61CV8.135238StdMean0.5088411%58T:Mean=0140.1527Pr>|T|0.0001Range27Num^=0130Num>0130Q3-Q19M(Sign)65Pr>=|M|0.0001Mode70SgnRank4257.5Pr>=|S|0.0001ExtremesLowestObsHighestObs57(7)81(98)58(22)82(14)60(109)82(16)60(40)82(111)60(25)84(105)

OBSMSMAXP75MEDP25MINRQMODE171.31545.80168847672675727970

OBSP1P2159.944182.6867

CumulativeCumulativeXFrequencyPercentFrequencyPercent------------------------------------------------5621.521.55953.875.462129.21914.6651511.53426.2682519.25945.4712620.08565.4741914.610480.0771511.511991.580107.712999.28310.8130100.0datalx;inputxf@@;cards;2.7513.2583.7594.25234.75255.25175.7596.2566.7527.251;procmeans;varx;freqf;outputout=aamean=mstd=s;datab;setaa;p1=m-1.96*s;p2=m+1.96*s;procprint;varp1p2;run;

AnalysisVariable:XNMeanStdDevMinimumMaximum--------------------------------------------------------------------1014.73514850.88163332.75000007.2500000--------------------------------------------------------------------

OBSP1P213.007156.46315datalx2_2;inputxf@@;y=log10(x);cards;172011402280121608;procmeans;vary;freqf;outputout=outmeanmean=logmean;procprintdata=outmean;datab;setoutmean;g=10**logmean;procprintdata=b;varg;run;AnalysisVariable:YNMeanStdDevMinimumMaximum--------------------------------------------------------------------601.50044480.615212302.2041200--------------------------------------------------------------------

OBS_TYPE__FREQ_LOGMEAN10601.50044

OBSG131.6552datalx2_3;inputxf@@;cards;62610481425186223;procunivariate;varx;freqf;run;UnivariateProcedureVariable=XMomentsQuantiles(Def=5)N108SumWgts108100%Max22

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论