版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
定量资料的统计描述1一二请在这里输入您的主要叙述内容整体概述三请在这里输入您的主要叙述内容请在这里输入您的主要叙述内容2引子:变量统计学
医学统计学
研究方法定性资料定量资料统计描述统计推断随机性现象概率论数理统计3例2-2抽样调查某地120名18~35岁健康男性居民血清铁含量(μmol/L),数据如下:7.428.6523.0221.6121.3121.46
9.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.9918.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.524目的:提取该组男性居民血清铁的分布信息。问题1.该组男性血清铁是怎样分布的?问题2.血清铁主要集中在哪个范围?频数表频数分布图问题4.变异情况?最高?最低?问题3.该组男性血清铁的平均水平?离散趋势集中趋势5统计描述:从数据资料中获取信息最基本的方法把握资料基本的特征为统计分析打下基础频率表与频率分布图描述性统计指标统计表与统计图包括集中趋势的描述离散趋势的描述6第一节频率分布表与频率分布图7频数(frequency):指在一个抽样资料中,某变量值出现的次数。(一)离散型定量变量的频率分布:例2-11998年某山区96名孕妇产前检查次数资料:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,…,4,78频率分布表(frequencydistributiontable):
将当变量值的个数较多时,对各变量出现的频率列表即为频率分布表,简称频率表。频率是表示频数出现机率的指标,可用百分数或小数表示,频率的和为100%或1。
.频数表作用:简化数据,方便阅读;显示数据的分布类型和分布特征。910频率直条图(frequencydistributionfigure)
:根据频数分布表,以变量值为横坐标,频数为纵坐标,绘制的直方图。图2-1某地96名妇女产前检查次数频率分布频率(%)产前检验次数11例2-2抽样调查某地120名18~35岁健康男性居民血清铁含量(μmol/L),数据如下:7.428.6523.0221.6121.3121.46
9.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.9918.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.5212求全距列表划记步骤:写组段定组距137.428.6523.0221.6121.3121.46
9.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.9918.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.52⒈求全距(Range,简记R):是一组资料中最大值(Xmax)与最小值(Xmin)之差,亦称极差。R=Xmax-Xmin=29.64–7.42=22.22(μmol/L
)142.定组距:将全距分为若干段,称为组段。每个组段有其上限和下限,上限和下限之差
为组距,用小写i表示。原则:(1)“组段”数一般为10个左右,;
(2)一般用等距分组;
(3)“组距”一般为R/10取整。本例题:组距(i)=全距/预分组段=22.22
/10=2.22≈2153.写组段:即确定各组段的上、下限。原则:(1)第一组段要包括Xmin,最末组段包括
Xmax;(2)每组段均用下限值加
“~
”表示,最终组段同时注明上下限。
注:各组段连续但不能重叠,每一组段均为半开半闭区间。0164.
列表划记:用划记的方法整理原始资料,清点各组段内的数据频数。组段划记频率(1)(2)6~
18~310~正612~正814~正正1216~正正正正2018~正正正正正2720~正正正1822~正正1224~正826~428~301合计120表2-2120名正常成年男子血清铁含量(μmol/L
)频数17另:用计算各组段的频率、累计频数和累计频率。18频率直方图(frequencydistributionfigure)
:图2-2120例健康成年男子血清铁含量(μmol/L
)的频率分布图791113151719212325272919频率密度图
:以变量值为横坐标,以频率与组距的比值为纵坐标作出的直方图。1.由于该直方图的纵轴表示在每个组段内单位长度所占有的频率,相当于频率密度,因此将此图称为频率密度图。
面积=频率由于频率总和为100%或1,故该曲线下横轴面积为100%或1。
.7
911131517192123252729图2-2120例健康成年男子血清铁含量(μmol/L
)的频率密度分布图20(三)频率分布表/图的用途:1.揭示资料的分布类型7
911131517192123252729图2-2120例健康成年男子血清铁含量(μmol/L
)的频率密度分布图对称分布21频数分布偏峰分布正偏负偏集中部位在中部,两端渐少,左右两侧的基本对称,为对称(正态)分布。
对称分布集中部位偏于较小值一侧(左侧),较大值方向渐减少,为正偏峰分布。集中部位偏于较大值一侧(右侧),较小值方向渐减少,为负偏峰分布。222.描述资料的分布特征离散趋势(tendencyofdispersion)集中趋势与离散趋势结合能全面反映频数的分布特征集中趋势(centraltendency)
7911131517192123252729分布特征234.样本含量足够大时,以频率作为概率的估计值。3.便于发现某些特大或特小的可疑值。5.作为陈述资料的形式。
图3.1某市101名8岁男童身高(cm)的频数分布身高(cm)频数24第二节描述集中趋势的统计指标25算术均数几何均数中位数集中趋势:用于描述一组计量资料的集中位置,说明这种变量值大小的平均水平,常用平均数(average)表示。
注意:1.同质的事物或现象才能求平均数平均数单峰对称分布(正态分布)对数正态分布偏态分布
2.应根据资料分布状态选用适当的均数。26(一)算术平均数(arithmeticmean)●简称:均数(mean)●使用条件:数据分布比较均匀呈正态分布或近似正态分布。●样本均数用符号:X
表示●总体均数用符号:μ表示●计算方法有两种:直接法(小样本)和加权法(大样本)27举例:某地10名18岁健康男大学生身高为(cm):168.7,178.4,170.0,170.4,172.1,167.6,172.4,170.7,177.3,169.7求平均身高?10X)(171.7cm=7169.4178.168.7+++=答:28(1)直接法:方法:将观察值X1、X2、X3、……、Xn直接相加,再除以观察值的个数n。公式:适用范围:小样本资料,n<3029例2-2抽样调查某地120名18~35岁健康男性居民血清铁含量(μmol/L),求平均数:7.428.6523.0221.6121.3121.46
9.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.9918.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.5230(2)频率表法(加权法):计算各组段的组中值xi、fxi和Σfx答:(μmol/L)31频率表法:方法:计算各组段的组中值xi、Σfxi,后除以总频数Σf。公式:适用范围:样本含量较大的数据集。32算术平均数的适用范围:
它适用描述一组性质相同的、单峰、且对称分布的(特别是正态分布的),且观察值之间差异不大的定量资料,此时均数最能反映分布的集中趋势,位于分布的中心。
33练习:求120例正常人血浆125I-T3树脂摄取比值的均数34答:(一)编制频数分布表:全距(R)=Xmax-Xmin=1.24
–0.78=0.461.求全距(R):拟分10组2.定组距(i):组距(i)=全距/预分组段=0.46
/10≈0.053.定组段:0.75组距0.05,故各组段依次为:最末组段包括最大值1.240.90~0.95~1.00~1.05~1.10~1.15~1.20~1.25第一组包括最小值:0.780.80~0.85~353.划表列记:36(二)用加权法计算均值:均值:37举例:设有5份血清样品,滴度分别为:
1:1,1:10,1:100,1:1000,1:10000
求其平均滴度。几何均数38(二)几何均数(geometricmean,G)●
概念:对一组观察值,先进行对数变换,按算术均数计算方法求其对数值的均数,该均数的反对数值即几何均数(G)。●使用条件:用于原始数据分布呈偏态分布,等比资料(倍数变化)或对数正态分布资料的平均数的计算。●表示符号:G●计算方法:直接法和加权法39(1)直接法:方法:将n个观察值(X1,X2,X3,……Xn)直接相乘再开n次方。公式:适用范围:小样本资料用对数形式表示为:40举例:设有5份血清样品,滴度分别为:
1:1,1:10,1:100,1:1000,1:10000
求其平均滴度。答:G=或G=lg-1((lg1+lg10+lg100+lg1000+lg10000)/5)=lg-1((0+1+2+3+4)/5)=lg-12=100即:平均滴度为1:100;较好地代表了观察值的平均水平。
41(2)频率表法:公式:适用范围:大样本含量的分组资料或频数表资料。G=lg-1
(ΣflgX/Σf)42答:即52例慢性肝炎患者的HBsAg滴度的几何均数为1:119.75。例2-652例慢性肝炎患者的HBsAg滴度数据如下表示,试计算滴度的平均数。43计算几何均数(G)注意事项:(1)观察值不能为0;(2)观察值不能同时有正有负;(3)同一组资料求得的几何均数小于算术均数。44练习题:1.有8份血清的抗体效价分别为:
1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640
求平均抗体效价。2.有50人的血清抗体效价,分别为:
5人1:10,9人1:20,20人1:40,10人1:80,6人1:160
求平均抗体效价。45解答:1.有8份血清的抗体效价分别为:
1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640
求平均抗体效价。答:将各抗体效价的倒数代入公式:所以血清的抗体平均为1:56.5746解答:2.有50人的血清抗体效价,分别为:
5人1:10,9人1:20,20人1:40,10人1:80,6人1:160
求平均抗体效价。答:将各抗体效价的倒数代入公式:所以该50人的血清抗体效价为1:41.7047123456789“中位数”的概念48P50=M
050100小大P0
P50P100中位数49(三)中位数(Median,M)●概念:将原始观察值从小到大排序后,位次居中的那个数叫中位数,用M表示。●使用条件:适用于任何分布的定量资料,特别是偏态分布、末端分布有特大特小值或无法确定、甚至分布不清的资料。●表示符号:M●计算方法:直接法和加权法50(1)直接法:由原始数据计算中位数M=X当n为奇数时:当n为偶数时:n+12n2+1M=(X+X
)n212举例:有7个人的血压(收缩压mmHg)测定值为:120,123,125,127,128,130,132求中位数
?
排序后取中间,即M=X=127(mmHg)答:()27+151练习:1.某病患者9名,发病潜伏期分别为顺序
2、3、3、3、4、5、6、9、16d,求中位数。2.某病患者8名,发病潜伏期从小到大排分别为
5、6、8、9、11、11、13、16d,
求平均潜伏期。52答案:53(2)用频数表法计算中位数Px百分位数(Percentile,Px):一个数值,它将原始观察值分成两部分,理论上有x%的值小于Px,另有1-x%的观察值大于Px,故它是一个位置指标。P50=Mx%1-x%54Px
所在组段的组距Px
所在组段的下限Px
所在组段的频数
FL为小于
L
的各组段累计频数百分位数(Px
)计算公式:55例2-8:50例链球菌咽峡炎患者的潜伏期(小时)如下表示,试计算潜伏期的中位数、P5、P95。答:即:该组潜伏期资料的中位数是54.55小时。563.
同样方法,可求P5、P95
:57练习:求238名正常人发汞值的中位数M和百分位数P25、P7558M(P50)=1.1+(238/2-86)=1.32(µg/g)0.460P25=0.7+(238×25%-20)=0.94(µg/g)0.466P75=0.7+(238×75%-146)=1.77(µg/g)0.448答案:59中位数的特点及应用:特点:中位数是一位置指标,它对信息资料的利用率较低,故准确度不算术均数、几何均数。.应用:1.适用于任何分类类型的资料。2.常但更常用于描述:偏峰分布资料分布的一端或两端无确定值的资料分布不清资料
.60例2-11998年某山区96名孕妇产前检查次数资料:众数61(四)众数(Mode)●概念:
总体众数指在总体中出现机会最高的数值。样本众数指在样本中出现次数最多的数值。62偏峰分布正态分布问:算术均数、中位数及众数在以下分布中的大小关系?63第三节描述离散趋势的统计指标64举例:有三组数据A组:26,28,30,32,34B组:24,27,30,33,36C组:26,29,30,31,34
集中C组:A组:B组:RA=8RB=12RC=
8
变异度65
说明集中趋势是数据分布的一个重要特征,但单有集中趋势指标还不能很好地描述数据的分布规律。而且还要看数据的变异程度。观察值的离散趋势离散程度大说明均数代表性差离散程度小说明均数代表性好66离散趋势:用于描述一组数值变量观察值之间参差不齐的程度,即变异程度。包括极差(Range,
R)四分位数间距(Quartile,
Q)方差(Variance,)标准差(Standarddeviation,S2)变异系数(Coefficientofvariation,CV)67(一)极差(Range,简称R)●计算:R=最大值-最小值=Xmax-Xmin
●意义:反映观察值的全范围。●条件:对各种分布类型资料都适用。●优点:计算简单,方便使用。●缺点:只利用最大值和最小值的信息,不能反映其它观察值的变异情况。●建议:与其他离散指标共同使用。682.样本例数越多,抽到极大值和极小值的可能性越大,故样本例数悬殊时不易比较极差。极差的缺点:1.R只考虑最大值和最小值之差,不能反映组内其它观察值的变异度。3.即使样本例数不变,极差的抽样误差亦较大,即不够稳定。乙:甲:69四分位数间距(Quartilerange,用Q表示)小大1255075100P1
P25
P50
P75
P100QLQU下四分位数
上四分位数QU–
QL=四分位数间距70(二)四分位数间距(Quartile,简称Q)●计算:Q=QU-QL=P75-P25●意义:中间一半观察值的极差。●条件:对各种分布类型的资料都适用,但常用于偏峰分布资料。●优点:类似R值但比其稳定。●缺点:仍未考虑资料中每个观察值的变异度。●建议:与其他离散指标共同使用。71例2-8:50例链球菌咽峡炎患者的潜伏期(小时)如下表示,试计算潜伏期的四分位数间距。P25P75四分位数间距Q=QU
–
QL=P75-P25722.求P25、P75
:1.求P25、P75
:Q=P75-P25=73.20-40.91=32.29(小时)73(三)方差(Variance,简称)公式及来源:极差和四分位间距未考虑全部观察值的变异度全面地考虑每个变量值的离散情况为了衡量每个变量值的变异;先选择一个数值作为比较标准;谁合适呢?均数最有代表性。74应考虑总体中每个变量值x与总体均数μ之差;x-μ称为离均差。为解决这个问题,给每项离均差平方后再相加,称离均差平方和,
即∑(x-μ)2,可表示为SS或Lxx。但每个变量值与均数相减所得差值有正有负,有,这样就不能反映变异的大小。75甲:2628303234证明:∑(x-μ)2≠0∑(x-μ)2称为离均差平方和,又可表示为SS或Lxx:Lxx=∑(x-μ)2=∑x2-(∑x)2/N76∑(x-μ)2的大小,除与变异度有关外,还与观察值的个数(N)有关。为在N不等时进行比较,∑(x-μ)2还要除以N,所得值在就称为方差,又称均方差(meansquaredeviation),用Var(X)用σ2表示:总体方差:以样本均数代表μ,用样本例数n代表总体例数N,所得方差称样本方差,用S2表示。nXXSå-=22)(n-1XXSå-=22)(公式调整77
(n-1)称为自由度(degreeoffreedom
),用希腊字母υ[nju:]表示,表示随机变量能够自由取值的个数。
分析:
如有一组四个(n=4)数据的样本,受到X=5的条件限制,在自由确定4、2、5三个数据后,第四个数据只能是9,否则X≠5。因而这里的自由度=n-1=4-1=3。
自由度υ=n-限制条件的个数78
方差:分总体方差,样本方差S2●计算:●意义:克服了R值和Q值的不足,考虑了每个变量值的离散情况并消除了N的影响。●优点:全面地考虑每个变量值的离散情况●缺点:其单位是原度量单位的平方。总体方差样本方差79(四)标准差(Standarddeviation,SD或S)方差的单位是原度量单位的平方,不便使用。将方差公式展开,并开方,即得到另一个重要的离散趋势的指标,即标准差,简写为S。公式来源:总体标准差:1()2--=ånXXs样本标准差:80标准差的计算:利用(a-b)2展开原理⑴直接法:⑵频数表法:81举例分别求A、B、C三组数据的标准差:
A组:26,28,30,32,34B组:24,27,30,33,36C组:26,29,30,31,34答:①先求出ΣX和ΣX2,再代入公式计算:(1)直接法:用于小样本资料最大次之最小82(2)频数表法:用于大样本资料或频数表资料例2-2求120名18~35岁健康男性居民血清铁含量的标准差:答:83
(五)变异系数:简称CV●概念:是同一组资料的标准差与均数之比,又叫变异度或离散系数。●计算:●实际含义:标准差相对于同组均数的百分比。●优点:CV消除了度量衡单位,用于比较1.单位不同的多组资料的变异度。2.均数相差悬殊的多组资料的变异度。84答:通过变异系数的计算身高体重说明其体重的变异度大于身高的,即身高比体重稳定。例2-15:某1985年通过十省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg;身高的均数为72.4cm,标准差3.0cm;试问其体重、身高的哪个指标更稳定些?85例2:试分析下组资料变异程度的变化趋势附表某地不同年龄儿童身高(cm)的变异度分析:1.儿童身高的标准差随着年龄的增大而增大。2.但不同年龄儿童身高的均数相差较大,也在随着年龄的增大而增大。3.从变异系数的角度,6岁以下儿童随年龄增加其身高的变异度逐渐减小。86第四节描述分布形态的统计指标87频数分布偏峰分布正偏负偏集中部位在中部,两端渐少,左右两侧的基本对称,为对称(正态)分布。
对称分布集中部位偏于较小值一侧(左侧),较大值方向渐减少,为正偏峰分布。集中部位偏于较大值一侧(右侧),较小值方向渐减少,为负偏峰分布。88(一)偏度系数(coefficientofskewness,SKEW)意义:SKEW=0时SKEW取正值时SKEW取负值时正偏峰分布对称分布负偏峰分布89(二)峰度系数(coefficientofkurtosis,SURT)意义:SURT=0时SKEW取正值时SKEW取负值时较正态峰尖峭正态分布较正态峰平阔90小结⒈为描述定量变量的分布规律,可将观察值编制频数表,绘制频数分布图,要描述资料的分布特征(集中趋势及离散趋势)和分布类型。常用平均数意义适用资料算术均数平均数量水平对称分布,特别正态分布资料几何均数平均增减倍数①对数正态分布;②等比级数据资料中位数位次居中的观察值水平任何分布的资料,特别适用于①偏峰分布;②分布末端无确定值;③分布不清的资料⒉集中趋势描述的主要指标是平均数。常用平均数及其适用资料913.描述频数分布离散程度的指标有:①极差与四分位数间距,后者较稳定,但均不能综合反映个观察值的变异程度,适用于各种分布类型的资料,但更常用于描述偏峰分布资料。②方差和标准差最常用,对正态分布尤重要。③变异系数,可用于多组资料间单位不同或均数相差较大时,变异度的比较。注意:
变异指标的大小这与平均指标值的大小无关。924.平均指标和变异指标相结合,能对各种分布的资料作很好的描述。5.常用描述资料分布形
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 警械使用课件
- 2023年国家公务员考试《申论》真题(地市卷)及答案解析
- 9.2《永遇乐·京口北固亭怀古》-高一语文上学期同步备课拓展(统编版必修上册)
- 西南林业大学《材料加工工艺与设备》2022-2023学年第一学期期末试卷
- 西京学院《微机原理与接口技术》2023-2024学年期末试卷
- 西京学院《汉语国际教育概论》2023-2024学年第一学期期末试卷
- 幼儿园小班打击乐活动《小鳄鱼之歌》课件
- 西华师范大学《中学思想政治学科教学论》2022-2023学年第一学期期末试卷
- 西华师范大学《舞台剧创作》2023-2024学年第一学期期末试卷
- 房地产金融与投资概论教学课件第六章房地产开发建设融资
- 2024-2030年船用发动机行业市场现状供需分析及投资评估规划分析研究报告
- RFID智能仓库管理系统方案
- DB35T 772-2023 行业用水定额
- 农村自建房接受赠与协议书范文
- 2023年温州瑞安农商银行招聘考试真题
- 手术室护理病历临床病案
- 2023-2024学年江西省萍乡市八年级(上)期末物理试卷
- 房屋与市政工程第三方质量安全巡查标准
- 2024年广东省第一次普通高中学业水平合格性考试历史试卷(解析版)
- 工程项目建设程序及审批部门
- 物体打击事故应急求援措施
评论
0/150
提交评论