版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、定量资料的统计描绘定量资料的统计描绘25/25定量资料的统计描绘第四章定量资料的统计描绘第四章定量资料的统计描绘经过检查或实查收集到资料之后,需要对资料进行统计解析。统计解析包括统计描绘和统计推断两个方面的内容。统计描绘就是对数据包含的信息加以整理、归纳和浓缩,用适合的统计图表和统计指标来表达资料的特点或规律,统计描绘也是统计推断的基础。本章介绍定量资料(quantitativedata)的统计描绘。第一节频数散布表与频数散布图一、频数散布表从医学实践中收集到的大量资料,如果只是简单地罗列一连串的数据,不容易看出其中蕴涵的信息和规律,所以需要进行分组整理,以便能用简洁简要的形式来全面反应资料的
2、特点。分组整理就是根据研究的目的,将数据按照某种标准(标志)区分红不同的组别,统计不同组别内的察看值个数。不同组其他察看值个数就称为频数(frequence),表示察看值在各组出现的频繁程度。将分组的标志和相应的频数列表,即为频数散布表,简称频数表(frequencytable)。不同种类的定量变量能够制作不同分组形式的频数表。(一)离散型定量变量的频数表例4.1某市2005年进行学生体质评论,抽样检查了102名高中男生引体向上达成次数的情况,根据该资料制作频数表。本次检查资料“引体向上达成次数”是离散型定量变量,所以按变量的取值(次数)为单位分组,再列出各组的频数,如表4.1的第(1),(2
3、)栏,就能获得相应的频数表。将各组的频数除以总频数所得的值称为频次,见第(3)栏。某组的累计频数是该组与前面各组频数之和,见第(4)栏。显然,第一组的累计频数等于其频数,最后一组的累计频数等于总例数;累计频数除以总频数所得的值称为累计频次,见第(5)栏。表4.12005年某市102名高中男生引体向上达成次数的频数散布达成次数频数f频次(%)累计频数累计频次(%)(1)(2)(3)(4)(5)232.9432.94376.86109.8041615.692625.4953332.355957.8462423.538381.374-1第四章定量资料的统计描绘71413.739795.10843.9
4、210199.02910.98102100.00共计102100.00(二)连续型定量变量的频数表例4.2在某市2005年进行的小学生体质评论研究中,测定了120名9岁男孩的肺活量(L),资料如下,根据该资料制作频数表。1.7061.3261.6321.8762.1611.6841.5331.1751.8671.6762.0911.8471.2131.2770.9892.2351.6651.2891.7241.5481.6081.8901.7331.7961.2031.7361.4501.6331.5551.3521.8321.4441.7371.4591.4501.7821.5551.634
5、1.5082.3431.5091.7451.9531.7441.6951.7071.9011.8251.5972.3381.7081.7111.8561.6441.7161.9781.5341.9001.5951.6461.9051.6101.6141.4222.3012.1271.3481.3171.0621.8301.9801.5701.4951.8642.1702.0001.7051.8631.4242.0222.0681.5761.8331.6592.2121.3992.1281.5431.5621.3821.2911.7961.6471.4151.8730.9961.9361.526
6、1.4241.5891.6701.0561.9691.4812.4062.1231.9881.5121.0301.8861.9301.7251.3741.6541.6631.4381.6451.2141.1841.735“肺活量”是连续型定量变量,需要按变量的取值范围区分红几个区间,每个区间称为一个组段,用各组段与对应的频数列表,即获得频数表。编制连续型定量变量频数表的过程为:求全距(range):全距又称为极差,是全部数据中最大值与最小值之差,用符号R表示,本例的全距R2.4060.9891.417(L)区分组段确定组数:分组的目的是反应数据散布的特点,因此组数应适中。若组数太多,数据的散布
7、过于分别,难以显示出频数散布的规律性,并有可能出现某些组内频数为0的情况;若组数过少,可能扔掉重要的细节信息,不能充分体现资料的散布特点。组数的多少与察看值的个数n有关,一般当察看值的个数n在50以下时可分5到8组,n在50以上时可分9到15组,实际运用时应根据解析的要求,灵活确定组数。本例n为120,拟分11组。确定组距:等距分组时,组距R/组数,为便于计算,组距可适合取整。本例组距1.417/110.129,故可取0.130为组距。确定各组段的上下限:确定组数和组距后,要使每一个察看值都有组可归,4-2第四章定量资料的统计描绘同时又要使每一个察看值只能归属于某一组,这就要求合理地设置各组段
8、的上下限。每个组段的起点称为该组的下限(lowerlimit),终点称为该组的上限(upperlimit),上限=下限+组距。在确定第一个组段时,其下限可取一个小于最小察看值的数,比方,本例取0.980为第一组下限,加上组距0.130即为第二组下限,依次类推,直到最末一组。为表示各组段均为半开半闭区间(下限为闭区间,上限为开区间),除最末一组外,一般只写出下限。统计各组段频数:采用计算机汇总或用手工划记法,获得各组段内的察看值个数即频数,划记时为防备重复计数,关于恰好等于某一组段上限的观察值要算在下一组段内。将各组段与相应频数列表,如表4.2的第(1)、(2)栏,即获得频数表。表4.22005
9、年某市120名9岁男孩肺活量(L)频数散布组段频数(f)频次(%)累计频数累计频次(%)(1)(2)(3)(4)(5)0.98054.1754.171.11054.17108.331.24075.831714.171.3701411.673125.831.5001915.835041.671.6302924.177965.831.7601512.509478.331.8901210.0010688.332.02065.0011293.332.15043.3311696.672.2802.41043.33120100.00共计120100.00一般采用等距分组,但某些情况下,采用不等距分组更能反
10、应现象的本质和特点。比方,进行人群疾病研究的年纪分组,为客观反应婴儿、幼儿和成年人疾病发生情况的特点,应采用不等距分组,可采取1岁以下按月分组,19岁按岁分组,10岁此后按每5岁或10岁分组等。二、频数散布图用图形的方法能够直观形象地表达频数散布的信息,并可与频数表互为补充。连续型定量变量的频数表可绘制成直方图。一般情况下,画图时以横轴表示察看变量(组距),以纵轴表示频数。用表4.2资料绘制的直方图如图4.1所示。4-3第四章定量资料的统计描绘图4.12005年某市120名9岁男孩肺活量频数散布频数散布表和频数散布图的主要用途是:揭穿频数散布的特点从频数散布表和频数散布图能够看出频数散布的两个
11、重要特点:集中趋势(centraltendency)和离散趋势(dispersiontendency)。集中趋势是指一组数据向某一个地点齐集或集中的倾向,离散程度则反应的是一组数据的分别性或变异度,即各个数据走开集中地点的程度。如从表4.2和图4.1可见120名9岁男孩的肺活量大部分集中在中央部分,即中等肺活量者居多;从中央部分到两侧的频数散布渐渐减少,即少数人拥有较大或较小的肺活量,则表现了肺活量散布的离散趋势。揭穿频数散布的种类根据频数散布的特点能够将资料的散布分红对称型和不对称型两各样类。对称型的散布是指集中地点在中间,左右两侧的频数大概对称的散布,如表4.2和图4.1所示。不对称型的散
12、布是指频数散布不对称,集中地点偏向一侧,有时也称之为偏态散布。若集中地点偏向数值小的一侧(左侧),称为正偏态(positiveskew),如图4.2所示;若集中地点偏向数值大的一侧(右侧),称为负偏态(negativeskew),如图4.3所示。用频数散布表和频数散布图揭穿频数散布的种类和特点,便于采用适合的统计方法。4-4第四章定量资料的统计描绘图4.22004年我国麻疹患者的年纪散布70605040数数频频30201003050709010自评分评分图4.3某市219名乳腺癌患者术后痊愈期生存质量评分的散布第二节集中地点的描绘利用频数散布表和频数散布图,能够使我们对数据的散布有一个直观的认
13、识,为了进一步掌握数据散布的规律,还需要用统计指标从数量上正确地反应数据散布的特点。平均数(average)是描绘定量变量集中为使的特点值,用来说明数据的平均水平,它反应了一组资料的“一般”、“大部分”、“平常”等情况。平均数是一类统计指标的统称,在医学领域中常用的平均数有均数、几何均数和中位数。一、均数均数(mean)是算术均数(arithmeticmean)的简称,用于描绘一组同质定量资料的平均水平。统计学中常用希腊字母表示总体均数,用X表示样本均数。4-5第四章定量资料的统计描绘(一)样本均数的计算直接法将所有的原始察看值直接相加后,再除以察看值的个数n,即X1XnX(4.1)Xnn式中
14、,为求和符号。例4.3利用例4.2的120名9岁男孩的肺活量资料,用直接法计算平均肺活量。X=1.706+2.091+1.735=200.683=1.672(L)120120加权法(weightmethod)当资料中相同察看值较多时,将各相同察看值的个数(即频数f)与该察看值X的乘积相加,以代替原始察看值相加,再除以察看值的总个数,即f1X1fkXkfXfXXfkf(4.2)f1n在式(4.2)中,如果某个察看值的频数愈大,则该察看值对X的影响愈大,因此频数又称为权数,计算出来的均数又称加权均数。如果只有频数表资料,因为不知道组段内的每个实际察看值,能够用组中值作为该组段察看值的代表值,再用加
15、权法求均数,组中值(下限上限)/2。例如,对2005年某市120名9岁男孩的肺活量资料,利用表4.2求均数为:51.04542.345200.800X541.673(L)120结果与直接法计算结果很凑近。频数表资料使用组中值代替实际察看值的条件是假定各组数据在组内是平均取值的,如不吻合此条件,其误差会较大。(二)均数的特性1.各察看值与均数之差(离均差)的总和等于零。即(XX)0。2.各察看值的离均差平方和最小。即(XX)2(Xa)2(aX)。以上两个特性表示均数是一组单峰对称散布察看值最理想的代表值,这些特性在此后将多次用到。(三)均数的应用均数反应一组同质察看值的平均水平,并可作为样本的代
16、表值与其他样本资料进行比较。均数合用于单峰对称散布资料,特别是正态散布或近似正态散布的资料,4-6第四章定量资料的统计描绘但由于均数易受到极端值的影响,故不合用于描绘偏态散布资料的集中地点,这时需要采用几何均数或中位数。均数在描绘正态散布的特点方面有重要意义(见本章第四节)。二、几何均数医学研究中的某些资料如血清抗体滴度、细菌计数、体内某些微量元素含量等,其特点是原始察看值呈正偏态散布,但经过对数变换后呈正态或近似正态散布,或许其察看值数值相差极大甚至达到不同数量级,此时若计算均数则不能正确描绘其集中地点,宜采用几何均数(geometricmean)。(一)几何均数的计算样本几何均数用G表示,
17、其计算方法也有直接法和加权法。直接法用n个察看值的连乘积开n次方,即GnX1X2X3Xn(4.3)这个公式在察看值较多时使用不便,利用对数运算的性质,可表达为原始观察值对数值的算术均数,再取反对数,即G=lg-1(?lgX)(4.4)n例4.42006年某市卫生监察所对33家商场空气中的细菌密度(个/m3)进行了监测,资料如下,试求其平均密度。1090512826451197220285272162287413769459625644830138811063267240164539737155107108780156545982677132574133131122266643541249226
18、29488本资料的大部分察看值集中在较小的数值一端,呈正偏态散布,不宜计算均数。对这些细菌密度察看值进行对数变换整理成频数散布表或频数散布图后,可发现其对数值近似单峰对称散布(读者可自行考证),故采用几何均数描绘其集中趋势。按式(4.4)计算几何均数:Glg1lg1090lg527lg488)lg1114.1770)2883.43(/m3)(3333加权法当相同察看值较多时,如频数表资料,可用下式计算:4-7第四章定量资料的统计描绘G=lg-1(邋flgX)=lg-1(flgX)(4.5)?fn例4.5某医院预防保健科用流脑疫苗为75名儿童进行免疫接种,1个月后测定其抗体滴度如表4.3所示,试
19、求其平均滴度。表4.375名儿童的平均抗体滴度计算表抗体滴度滴度倒数XlgX频数fflgX1:440.602142.40841:880.903198.12791:16161.20412125.28611:32321.50512030.10201:64641.80621221.67441:1281282.1072510.53601:2562562.408249.6328共计75107.7676按式(4.5)计算几何均数:G=lg-1(?flgX)=lg-1(107.7676)=27.35?f7575名儿童进行流脑疫苗免疫接种1个月后,平均抗体滴度为1:27.35。(二)几何均数的应用几何均数常用
20、于变量值间呈倍数关系的偏态散布资料,特别是变量经过对数变换后呈正态散布或近似正态散布的资料。因为0不能取对数,所以数据中若有0则不宜直接使用几何均数,此时可将所有察看值加上一个常数k,使xk0,计算出结果后再复原,即GGk。察看值若同时有正、负值,可将所有察看值加上一个常数k,使xk0,计算出结果后再复原,即GGk。察看值若全是负值,计算时可先将负号去掉,得出结果后再加上负号。三、中位数中位数(median)是一个地点指标,它是将一组察看值按大小次序排列后位次居中的数值,因此,在全部察看值中,大于和小于中位数的察看值个数相等。样本中位数用M表示。(一)中位数的计算1直接法MX(n1),当n为奇
21、数时(4.6)24-8第四章定量资料的统计描绘M(X(n)X(n1)/2,当n为偶数时(4.7)22式中,Xn1、Xn、Xn为有序数列中相应位次上的察看值。()()(1)222例4.6为研究燃煤型砷中毒患者体内砷负荷状况,某医学院对17名燃煤型砷中毒患者进行了发砷含量(g/g)测定,结果为:1.61、1.91、2.24、2.24、2.30、2.60、2.84、3.15、3.33、3.75、3.75、3.75、3.81、4.42、6.42、6.42、14.76,试求其平均含量。为防备数据中极端值的影响,应计算中位数。本例n为奇数,按式(4.6):MX171X93.33(g/g)()2例4.7在前
22、述17名燃煤型砷中毒患者发砷含量的基础上,又测得1名燃煤型砷中毒患者的发砷含量为15.39g/g,求这18名燃煤型砷中毒患者发砷含量的中位数。本例n为偶数,按式(4.7):M(X(18)X(181)/2(X9X10)/2(3.333.75)/23.54(g/g)2频数表法MLMi(n50%fL)(4.8)fM式中,LM为中位数所在组段下限;i为组距;fM为中位数所在组段的频数;fL为中位数所在组段前一组的累计频数。由于中位数的位次居中,故累计频次恰好大于50%的组即为中位数所在组。例4.8为研究乳腺癌患者术后痊愈期生存质量的状况,某医院对219名术后痊愈期乳腺癌患者进行了生存质量测定,结果如表
23、4.4,求平均评分。由表4.4可见资料呈负偏态散布,不宜使用均数,可用中位数求其平均评分。表4.4219名乳腺癌患者痊愈期生存质量评分评分频数累计频数累计频次(%)0220.9130241.83373.204011188.2250304821.92606311150.68706017178.08804-9第四章定量资料的统计描绘9010048219100.00MLMi(n50%fL)7010(21950%48)79.76(分)fM63(二)中位数的应用中位数可用于各样散布的资料,在正态散布资料中,中位数等于均数,在对数正态散布资料中,中位数等于几何均数。中位数不受极端值的影响,因此,实际工作中
24、主要用于不对称散布种类的资料、两头无确实值或散布不明确的资料。第三节离散程度的描绘集中地点只反应了散布的一个特点,各察看值之间的变异程度(离散程度)如何也必须认识,只有将两者联合起来才能全面反应资料的散布规律。例4.9某医学院用自编生存质量量表测得三组同年纪、同性别中年知识分子的躯体功能维度得分,资料如下:甲组88910111212乙组56810121415丙组125101518193组的例数都是7例,均数和中位数都是10分,但凭直观就能够发现三组数据变异的程度是不相同的,这在解析资料时须加以考虑。描绘离散程度的常用指标有极差、四分位数间距、方差、标准差和变异系数。一、极差和四分位数间距(一)
25、极差极差(range)也称全距,即全部数据中最大值与最小值之差,用符号R表示。极差大,说明变异程度大;反之说明变异程度小。例4.10计算例4.9中三组中年知识分子躯体功能维度得分的极差:甲组R1284(分)乙组R1551分0()丙组R1911分8(甲组数据的离散程度最小,丙组数据的离散程度最大,乙组居中。4-10第四章定量资料的统计描绘极差是最简单但又较大概的变异指标,可用于各样散布的资料,但它只波及两个极端值,没有利用全部数据的信息,不能反应组内其他察看值的变异。同时由于样本含量较大时抽到极大值或极小值的可能性较大,R也可能较大,故极差一般常用于描绘单峰对称散布小样本资料的离散程度,或用于初
26、步认识资料的变异程度;当样本含量相差较大时,不宜用极差来比较资料的离散程度。(二)四分位数间距百分位数(percentile)是指将察看值从小到大排列后处于第x百分地点上的数值,用符号表示为Px。百分位数Px将全部数据分红两部分,有x%的数据小于Px,有(100 x)%的数据大于Px,因此百分位数是一个地点指标,其中P50为中位数。百分位数的计算方法有:(1)直接法当nx%xINT(nx%)xINT(nx%)+1(4.9)INT(nx%)时,Px2当nx%INT(nx%)时,PxxINT(nx%)+1(4.10)式中,INT(nx%)为n与x%乘积的整数部分。例4.11根据下列资料求某市102
27、名高中男生引体向上次数的第80%位数P(数据已排序)。80244556677244556678245556678345556678345556678345556679345556673455566734555667345556674455566744556677本例n102,10280%81.6,nx%INT(nx%),按式(4.10)得,P80 x811x826(次)频数表法4-11第四章定量资料的统计描绘Px=Lx+i(nx%-?fL)(4.11)fx式中,Lx为第x百分位数所在组段下限;i为第x百分位数所在组段的组距;fx为第x百分位数所在组段的频数;?fL为第x百分位数所在组段前一组的
28、累计频数。累计频次恰好大于x%的组即为第x百分位数所在组。例4.12用例4.8的资料求219名乳腺癌患者术后痊愈期生存质量评分的第25%位数P25和第75%位数P75。由表4.4的累计频次可见,第25百分位数所在组为“70”组:P257010(21925%48)71.07(分)63由表4.4的累计频次可见,第75百分位数所在组为“80”组:P758010(21975%111)88.88(分)60四分位数间距经过P25,P50,P75这3个点将全部察看值平分为四部分,处于P25和P75分位点上的数值就是四分位数(quartile,简记为Q)。下四分位数即第25百分位数,用QL表示,上四分位数即第
29、75百分位数,用QU表示。四分位数间距(inter-quartilerange)为上、下四分位数之间的差值,即QUQL。例4.13用例4.8的资料求219名乳腺癌患者术后痊愈期生存质量评分的四分位数间距。四分位数间距QUQL88.8871.0717.81(分)四分位数间距是去除两头各四分之一数据后中间一半察看值的改动范围,其数值越大,说明察看值散布的离散程度越大。四分位数间距常用于描绘偏态散布资料、两头无确实值或散布不明确资料的离散程度。二、方差与标准差关于单峰对称散布资料,为了全面反应一组资料中每个察看值的变异情况,需要先寻找一个可供比较的标准,由于均数拥有的优秀性质(见本章第二节),所以选
30、择均数作为一组单峰对称散布察看值的代表值,然后权衡每个察看值相对均数的偏差,结构出综合描绘资料离散程度的指标。(一)方差以离均差(X)表示总体中各察看值的变异,因为?(X-)=0,不能达4-12第四章定量资料的统计描绘到反应总离散程度的目的,所以采用离均差平方和(sumofsquares)即?(X-)2表示总变异程度,如果数据有关于较集中,则?(X-)2较小;如果数据相对于较分别,则?(X-)2较大。显然,察看值越多,?(X-)2可能越大,为除去察看值个数的影响,对离均差平方和求平均值即获得方差(variance)。总体方差用2表示:2=?(X-)2(4.12)N若方差较大,说明总体中察看值变
31、异程度较大;反之,说明总体中察看值变异程度较小。在实际工作中往往采用抽样研究,获得的是样本资料,总体均数未知,可用样本均数X作为的估计值,因此样本方差为:?X2(?X)2?(X-X)2-2=n(4.13)Sn-1n-1式中的(n1)称为自由度(degreeoffreedom),采用自由度作为分母是为了防备用样本方差估计总体方差时偏小。自由度是允许自由取值的变量值的个数,若在统计数据中受k个条件的限制,其自由度即为(nk)。在计算样本方差时,首先要计算离均差、离均差平方和。一个样本有n个数据,就要有n个离均差,但受到?(X-X)=0这一个条件的拘束,n个离均差中只有(n1)个能够自由取值,最后一
32、个离均差受到(X-X)=0的限制,不能自由取值,所以自由度为(n1)。自由度的观点在此后将经常用到。例4.14用例4.2的资料计算某市120名9岁男孩肺活量的样本方差,已知X1.672L,按式(4.13):2(1.7061.672)2(2.0911.672)2(1.7351.672)22)S12010.089(L346.203200.6832或S21200.089(L2)1201(二)标准差方差的单位是察看值单位的平方,在实际工作中使用不方便,为复原单位,4-13第四章定量资料的统计描绘将方差开平方即获得标准差(standarddeviation)。总体标准差用表示,样本标准差用S表示。计算方
33、法有:直接法=?(X-)2(4.14)N?(X-X)2?X2-(?X)2=n(4.15)S=1n-1n-例4.15用例4.2资料计算某市120名9岁男孩肺活量的样本标准差。(1.7061.672)2(2.0911.672)2(1.7351.672)2S12010.298(L)346.203200.6832120或S0.298(L)1120加权法用于频数表资料。?fX2(?fX)2-n(4.16)S=n-1式中,X为各组段的组中值;f为各组段的频数。例4.16用加权法计算2005年某市120名9岁男孩肺活量的标准差,由表4.2资料计算组中值X,可得fX200.800,fX2346.495:346
34、.495200.8002120S0.297(L)1120标准差是描绘单峰对称散布资料离散程度最常用的指标。标准差大,表示观察值之间变异程度大,即一组察看值的散布较分别;标准差小,表示察看值之间变异程度小,即一组察看值的散布较集中。关于经对数变换后呈正态散布或近似正态散布的资料,应将原始察看值取对数值后计算几何标准差。三、变异系数采用不同计量单位的指标,不能直接用标准差比较其离散程度,有时即便计量单位相同,在均数相差很大的情况下,数据散布的集中地点相差很远,标准差的数值大小可能受到平均水平大小的影响,也不宜直接比较。因此,在这些情况4-14第四章定量资料的统计描绘下,应采用变异系数(coeffi
35、cientofvariation)来比较其离散程度。计算方法为:CVS(4.17)100%XCV是一个相对离散指标,由于分子分母单位相同,消掉了单位,同时由于CV是计算有关于X的S的大小,进而除去了平均水平不同的影响。常用于:比较计量单位不同的几组资料的离散程度例4.17某年某市城区120名5岁女孩身高均数为110.10cm,标准差为5.90cm;体重均数为17.71kg,标准差为1.44kg,比较身高与体重的离散程度。身高CV5.90100%5.36%110.10体重CV1.44100%8.13%17.71可见,该市城区5岁女孩体重的变异大于身高的变异。比较均数相差悬殊的几组资料的离散程度例
36、4.18某年某市城区120名5岁女孩体重均数为17.71kg,标准差为1.44kg,同年该地120名5个月女孩体重均数为7.37kg,标准差为0.77kg,比较其离散程度。5岁女孩体重CV1.44100%8.13%17.715个月女孩体重CV0.77100%10.45%7.37可见,该市城区5个月女孩体重的变异大于5岁女孩体重的变异。第四节正态散布及其应用一、正态散布的观点和特点(一)连续型随机变量及其概率散布医学领域中察看或试验的各样可能结果为随机变量,记为X,其特点是每次试验以前,不能预先确定取什么数值,频频大量察看后,能够发现取值又有一定的规律性。要全面认识一个随机变量,除了要知道它的可
37、能取值外,还应当知道它以多大的概率取这些值。随机变量X取各样值的概率的规律称为概率散布规律,简称散布,是研究随机事物的工具和统计解析的理论基础。正态散布(normaldistribution)就是一种重要的连续型随机变量的散布种类。4-15第四章定量资料的统计描绘连续型随机变量的取值充满某一区间,无法一一列出它的每一个可能取值,但在某一区间内随机变量取值的概率可经过计算积分获得,被积函数则称为连续型随机变量的密度函数。如果X为连续型随机变量,其密度函数为f(x),则其散布函数为F(x)xf(x)dx,它表示随机变量X取值小于或等于x的概率,即P(Xx)F(x)。(二)正态散布的图形正态散布曲线
38、呈对称的钟形,在均数处最高,两侧不断降低,渐渐与横轴凑近,但不会与横轴相交,即以横轴为渐近线。在医学卫生领域中,有很多变量的频数散布是中间频数多,两边频数少,且左右对称。比方,对本章例4.2所述9岁男孩的肺活量作图,以横轴表示察看变量,以纵轴表示频次密度(频次密度=频次/组距),即可获得肺活量的频次密度直方图,其形状与前述的频数散布直方图相像,即顶峰位于中部,左右两侧基本对称。察看的9岁男孩人数渐渐增多,组段不断分细,则频次散布图中的直条渐渐变窄,就会渐渐形成一条顶峰位于中央(均数所在处)、两侧渐渐降低且左右对称、不与横轴相交的圆滑曲线,近似于数学上的正态散布曲线。若变量X的频次曲线逼近数学上
39、的正态散布曲线,则称该变量听从正态散布(见图4.4)。度密率频度密率频xx图4.4概率密度曲线示意图(三)正态散布的特点正态散布曲线的密度函数为:(x)2f(x)12x(4.18)e22式中为总体均数,为总体标准差,为圆周率,e为自然对数的底,其中、4-16第四章定量资料的统计描绘是不确定的常数,称为正态散布的参数,、e都是固定常数,仅x为变量。以x为横轴,f(x)为纵轴,当、已知时,按式(4.18)即可绘制出正态分布曲线的图形。正态散布有下列特点:1.正态曲线在横轴上方均数处最高。2.正态散布以均数为中心,左右对称。3.正态散布有两个参数,即地点参数和形态参数。若固定,改变值,曲线沿着X轴平
40、行移动,其形态不变(见图4.5)。若固定,越小,曲线越陡峭;反之,曲线越低平,但中心在X轴的地点不变。)x(f)x(fxX图4.5不同和的正态散布示意图不同的,不同的对应于不同的正态散布曲线,平时用记号N(,2)表示均数为、标准差为的正态散布。比方,某年某市9岁男孩的肺活量X听从均数为1.672L,标准差为0.298L的正态散布,可记为XN(1.672,0.2982)。正态曲线下的面积散布有一定的规律。关于听从正态散布的变量X,只需知道总体均数与标准差,便可用公式x2F(x)x11(x)22(4.19)e2dx2求得曲线下(x1,x2)范围内的面积,不论、取什么值,正态散布曲线下的面积散布有以
41、下规律:正态曲线与横轴间的面积恒等于1或100%;以直线X为对称轴,X与X范围内曲线下的面积相等,各占50%;曲线下,区间(1.96,1.96)内的面积为95.00%,区间(2.58,2.58)内的面积为99.00%,如图4.6所示:4-17第四章定量资料的统计描绘图4.6正态曲线下面积的散布规律二、标准正态散布正态散布是一个散布族,对应于不同的参数和会产生不同地点、不同形状的正态散布,不同正态散布的(x1,x2)范围内的面积也就不同。比方当0,1时,正态曲线下在(-1.96,+1.96)范围内的面积为95%。而当0,1.96时,正态曲线下在(-1.96,+1.96)范围内的面积为68.27%
42、。为了方便应用,进行标准化变换:ZX(4.20)若X听从正态散布N(,2),经此变换后,则Z就听从均数为0,标准差为1的正态散布N(0,1),称为标准正态散布(standardnormaldistribution)或Z分布,其密度函数为:1-z2(z)e2z(4.21)2对上式求积分即可获得标准正态变量Z的散布函数z(z)-1-z2e2dz(4.22)2由于积分计算繁琐,统计学家拟定了标准正态散布曲线下的面积散布表(附表2),查表即可获得正态曲线下(z1,z2)范围内的面积,如图4.7所示。4-18第四章定量资料的统计描绘Z1Z20图4.7查表法求标准正态曲线下面积示意图例4.19已知z11.
43、76,z20.25,求标准正态曲线下(1.76,0.25)范围内的面积。查附表2,得(,1.76)范围内面积(z1)0.0392,(,0.25)范围内面积(z2)0.4013,因此(1.76,0.25)范围内的面积为:D(z2)(z1)0.40130.03920.3621在附表2中仅列出曲线下从-到z(z0)范围内的面积,关于z0时,可利用正态散布的对称性,即(z)1(z)可求得曲线下随意范围内的面积。例4.20已知z11.20,z21.60,求标准正态曲线下(1.20,1.60)范围内的面积。查附表2,得(,1.20)范围内的面积(1.20)0.1151,(,1.60)范围内的面积(1.60
44、)0.0548,据正态散布的对称性,可得:(1.60)1(1.60)10.0548D(1.60)(1.20)0.94520.11510.8301关于听从非标准正态散布N(,2)的变量,求曲线下随意12(x,x)范围内的面积,可先作标准化变换,再借助标准正态曲线下的面积散布表求得。三、正态散布的应用(一)估计总体变量值的频次散布医疗卫生领域中有些变量听从或近似听从正态散布,例忧如性别同年纪正常儿童的身高、同性别健康成人的红细胞数等;其他,还有很多变量虽不听从正态散布,但经变量变换后近似听从正态散布,比方抗体滴度、细菌密度等。关于听从正态散布或对数正态散布的变量,只需求得其均数和标准差,根据正态散
45、布曲线下面积散布的规律,就能估计其频次散布。4-19第四章定量资料的统计描绘例4.21已知120名9岁男孩的肺活量X1.672L,S0.298L,欲估计该市肺活量介于1.2001.500L范围内的9岁男孩的比率。此例属一般正态散布,需先进行标准化变换,由于120例为大样本,可用样本均数X和样本标准差S作为总体均数和总体标准差的估计值,1.2001.672z11.580.2981.5001.672z20.580.298查附表2得:(z1)(1.58)0.,057(z1)2(0.58)0.2810D(z2)(z1)0.28100.05710.223922.39%估计该市肺活量在1.2001.500
46、L范围内的9岁男孩的比率为22.39%。(二)拟定医学参照值范围参照值是拥有明确背景资料的参照人群某项指标的测定值,医学参照值范围(medicalreferencerange)指包括绝大部分正常人的人体形态、功能和代谢产物等各样生理及生化指标察看值的波动范围,一般在临床上用作判断正常和异样的参照标准。随着现代医学的发展,参照值范围在医学各领域中应用宽泛,如卫生标准或有害物质容许浓度的拟定、儿童少年生长发育及营养状况评论、评论环境污染的动向变化或环境保护的效果等。拟定医学参照值范围的步骤和注意事项如下:确定察看对象和抽取足够的察看单位拟定医学参照值范围中的所谓“正常人”不是指机体器官组织和功能都
47、完全健康的人,而是指除去了影响所研究变量的疾病和有关因素的同质人群。比方,某市欲拟定学龄前儿童血铅的参照值范围,察看对象定为:年纪为36岁,在本市居住1年以上;无肝、肾等器质性病变;无铅接触史;无特殊的饮食习惯;测定前3天未进食含铅高的食物。由于医学参照值范围是根据样本散布来确定的,样本散布越凑近总体散布,结果越可靠,因此需要抽取足够的样本含量,一般要求每组应在100例以上,如果影响研究变量的因素较复杂,数据变异度大,还应适合增加样本含量。测定方法应统一、正确应采用获得公认的或权威机构介绍的标准方法,以利于结果的评论和比较。操作人员必须经过统一培训,测准时使用敏捷度较高4-20第四章定量资料的
48、统计描绘的解析仪器,新仪器、新方法一定要校正和考证。必须严格控制误差,样品采集、运输、积蓄和解析中要严格防备污染,实验室内和实验室间经过测定已知浓度的质控样或标准物质来控制解析中的误差。3.决定是否分组拟定参照值范围当察看值在性别、年纪、地域、民族、职业组之间的散布差别较显然,而这一差别拥有实际意义时,应分组拟定参照值范围,如红细胞计数(RBC)应分性别和年纪(成人、儿童)拟定参照值范围,而白细胞计数(WBC)不需分性别,只需按成人和新生儿拟定参照值范围。考察组间差其他简单而有效的方法是用频数散布表(或频数散布图)比较各组的散布范围、趋势、顶峰地点,若差别显然则应分组,也能够经假定查验来比较各
49、组之间的差别是否拥有统计学意义来决定是否分组。4.确定取双侧或单侧参照值范围范围应根据专业知识来确定,比方白细胞计数过高或过低均属异样,则相应的参照值范围既有上限,又有下限,是双侧参照值范围;血铅仅过高属于异样,则相应的参照值范围仅有上限,是单侧参照值范围;肺活量仅过低属于异样,则相应的参照值范围仅有下限,也是单侧参照值范围。5.选定适合的百分界线医学参照值范围中的“绝大部分”能够是90%、95%或99%等,应根据正常人和患者(患有影响研究变量疾病的患者)的数据散布特点来选择适合的百分界线。大部分情况下,正常人和病人的数据散布有交错,以单侧上限为例(见图4.8),若减少假阴性率,假阳性率增加,
50、反之,减少假阳性率,则假阴性率便会增加,因此,二者应兼顾。一般情况下常用95%百分界线;若主要目的在于减少假阳性(如用于确诊),应选99%;如主要目的在于减少假阴性(如用于初筛),可选90%;若正常人与病人的数据散布无交错,则只考虑减少假阳性即可。4-21第四章定量资料的统计描绘图4.8正常人与病人察看值散布重叠示意图选择拟定医学参照值范围的方法经过大量检查证实,人体指标如身高、体温、脉搏、肺活量等吻合正态散布,多半生理生化变量如血红蛋白、红细胞等近似正态散布,按正态散布的原理来拟定医学参照值范围;部分指标听从对数正态散布,对察看值取对数后计算其对数值的均数和标准差,按正态散布法算出医学参照值
51、范围的对数值,然后取反对数求其真数;必要时可用正态性查验方法(见第八章第四节)来查验变量是否听从正态散布,关于听从正态散布的变量用正态散布法拟定医学参照值范围,关于不听从正态散布的变量使用百分位数法拟定医学参照值范围。实际工作中,可参照表4.5利用正态散布法或百分位数法拟定医学参照值范围。表4.5参照值范围的拟定正态散布法百分位数法%双侧单侧双侧单侧只有下限只有上限只有下限只有上限95X1.96SX1.64SX1.64SP2.5P97.5P5P9599X2.58SX2.32SX2.32SP0.5P99.5P1P99例4.22某地检查正常成年男子200人的红细胞数,X55.261012/L,S0.381012/L,试估计该地正常成年男子红细胞数的95%参照值范围。因红细胞数过多或过少均属异样,故按双侧估计该地正常成年男子红细胞数的95%参照值范围为:下限:X1.96S55.261.960.3854.52(1012/L)上限:X1.96S55.261.960.3856.00(1012/L)该地正常成年男子红细胞数的95%参照值范围为54.521012/L56.001012
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度法人代表临时任职及解任合同
- 2025年度车辆借出免责及保险责任合同
- 2025年度快递驿站经营权转让合同模板
- 二零二五年度外国留学生实习项目聘用及支持合同
- 2025年房屋检测评估合同样本
- 2025年抵押权义务债权借款合同
- 2020-2025年中国水地源热泵行业发展趋势预测及投资战略咨询报告
- 2024-2030年中国笔记本行业发展监测及投资战略研究报告
- 2025年中国金华市服装行业发展监测及市场发展潜力预测报告
- 2025年复合钢管项目可行性研究报告
- 洛奇化石复原脚本
- 人教版三年级上册竖式计算练习300题及答案
- 【“凡尔赛”网络流行语的形成及传播研究11000字(论文)】
- 建筑工程施工安全管理思路及措施
- 麻痹性肠梗阻学习课件
- 领导干部的情绪管理教学课件
- 初中英语-Unit2 My dream job(writing)教学课件设计
- 供货方案及时间计划安排
- 唐山动物园景观规划设计方案
- 中国版梅尼埃病诊断指南解读
- 创业投资管理知到章节答案智慧树2023年武汉科技大学
评论
0/150
提交评论