13、布及其应用一、 正态分布的概念和特征根据频数表资料绘制成直方图,可以设想,如果将观察人数逐渐增多,线段不断分细,图中直条将逐渐变窄,其顶端将逐渐接近一条光滑的曲线,这条曲线称为频数曲线或频率曲线,略呈钟型,两头低,中间高,左右对称,近似于数学上的正态分布(normal distribution)。由于频率的总和等于100%或1,故横轴上曲线下的面积等于100%或1。 正态分布是一种横重要的连续型分布,在生物统计学中,占有极其重要的地位。许多生物学现象所产生的数据,都服从正态分布。 1、正态分布的图形 有了正态分布的密度函数f(x),即正态分布的方程,就可给出图形 -s m s 上式中右側m为均
14、数,s为标准差,x为自变量。当x确定后,就可由此式求得其密度函数f(x),也就是相应的纵坐标的高度。所以,已知m和 s , 就能绘出正态曲线的图形。2、正态分布的特征(1) 正态分布以m为中心,左右对称。(2)正态分布有两个参数,即m和s。m是位置参数,当s恒定后,m 越大,则曲线沿横轴越向右移动;m 越小,则曲线沿横轴越向左移动。s是变异参数,当m 恒定时,s越大,表示数据越分散,曲线越“胖”;s越小,表示数据越分散,曲线越“瘦”。(3)正态分布的偏斜度 g1=0,峭度 g2=0为了应用方便,常将上式作如下变换, 也就是将原点移到 m 的位置,使横轴尺度以s为单位,使m=0,s=1,则正态分
15、布变换为标准正态分布。(standard normal distribution) ,u称为标准正态离差(standard normal deviate)标准正态分布的密度函数为: 一般用n(m,s2)表示均方为m,方差为s2的正态分布。于是标准正态分布用n(0,1)表示。 -3 -2 -1 0 1 2 3 68.26% 95.45% 99.74%下列一些值很重要,应予记忆:u= -1 到 u=1 面积=0.6827u= -1.96 到 u=1.96 面积=0.9500u= -2.58 到 u=2.58 面积=0.9900标准正态分布有以下特征:(1) 在u=0时,j(u)达到最大值。(2)
16、当u无论向哪个方向远离0时,j(u)的值都减小。(3) 曲线关于y轴对称,即j(u)=j(-u)。(4) 曲线和横轴所夹的面积等于1。二、标准正态曲线下面积的计算 p(u1 u u2) =j(u2) - j(u1)举例已知高梁品种“三尺三”的株高服从正态分布n(156.2,4.822),求: (1)x161cm 的概率;(3)x在152162cm 间的概率。(1) 依题意:所以,“三尺三”的株高低于161cm的概率为0.84134。(2) 依题意得: (3)依题意得:例题、某地农民3539岁男性胆固醇的测定(毫克%)胆固醇分组频数f累计频数累计频率85105125145165185205225
17、2455202840392410535255393132156166171174 2.8714.3730.4653.4575.8689.6695.4098.28100.00计算 1、总胆固醇水平在110mg150mg之间所占面积。2、总胆固醇水平在130mg190mg之间所占面积。解:计算 三、小结1、正态分布是一种连续性的分布,不少医学现象服从正态分布或近似正态分布(如同性别、同年龄儿童的身高,同性别健康成人的红细胞数、血红蛋白量、脉搏数等,以及实验中的随机误差等);或经变量变换转换为正态分布(如某些病人的潜伏期以及医院病人住院天数等),可按正态分布规律来处理,它也是许多统计方法的理论基础。
18、2、正态分布的特征是:(1) 曲线在横轴上方,均数处最高;(2) 以均数为中心,左右对称;(3) 确定正态分布的两个参数是均数m和标准差s。正态分布用n(m,s2)表示,为了应用的方便,常对变量x作u = (x-m)/s 使 m=0,s=1,则正态分布转换为标准正态分布用n(0,1)表示。3、运用正态曲线下面积的分布规律,可计算医学参考值范围和质量控制等。 总体均数的估计和假设检验医学统计学的最基本问题是研究总体与样本的关系。总体与样本的关系,可从两方面研究:(4) 由已知的总体,研究样本的分布规律,即由总体到样本的研究过程;(5) 由样本如何去推断未知的总体,属于从样本到总体的研究过程。1、
19、 从一个正态总体中抽取的样本统计量分布 生物学中遇到最多的是正态总体。对于正态总体,可以用数学推演的方法,得出严格的样本统计量的抽样分布,有了严格的样本分布规律,就可以由样本来推断总体了。标准差已知时的样本平均数的分布u分布平均数为m,标准差为s的正态总体中,独立随机的抽取含量为n的样本,则:样本平均数是一服从正态分布的随机变量,记为。将平均数标准化,则:其中的分母称为平均数的标准误差(standard error of mean)。如果变量是正态的或近似正态的,则标准化的变量服从或近似地服从n(0,1)分布。1、标准差已知时的样本平均数的分布t分布 (t-distribution)若上式中的
20、s是未知的,可用样本标准差代替总体标准差,此时标准化变量并不服从正态分布,而服从具有n-1自由度的t分布。 t分布也是一种对称分布,它只有一个参数,即自由度(degree of freedom)t 分布与标准正态分布相比有以下特征:(1) 二者都是单峰分布,以0为中心,左右两侧对称。(2) t分布的峰部较矮而尾部翘得较高,说明远側t 值的个数相对较多,即尾部面积(概率p)较大。自由度越小这种情况越明显。n逐渐增大时,t分布逐渐逼近标准正态分布;当 n= 时,t分布就完全成为标准正态分布了。2、统计推断 统计推断是讨论如何通过样本去推断总体。由样本推断总体是以各种样本统计量的抽样分布为基础的。
21、对总体做统计推断(statistical inference ), 可以通过两条途径进行。1. 总体参数估计(estimation of population parameter)通过样本统计量估计总体参数;2. 统计假设检验(statistical test of hypothesis )首先对所估计的总体提出一个假设,如: 假设这个总体的平均数m 等于某个值m 0 ,然后,通过样本均数据去推断这个假设是否可以接受,如果可以接受,样本很可能抽自这个总体;否则很可能不是抽自这个总体。这两种不同的统计分析方法在实际工作中可互相参照使用。1、 总体均数的估计区间估计(internal estima
22、tion)即按一定的概率估计总体均数在哪个范围。可根据资料的条件选用不同的方法。(1)s未知时。一般用t分布的原理作区间估计。不 根据 于是得可信度为1-a 时,计算总体均数可信区间的通式为:习惯上,常取1-a =0.95, 即95%可信区间;或取1-a =0.99, 即99%可信区间。例1、 对某人群随机抽取20人,用某批号的结核菌素作皮试,平均侵润直径为10.9mm,标准差为3.86mm。问这批结核菌素在该人群中使用时,皮试的平均侵润直径的95%可信区间是多少?解:本例n=20、自由度n=n-1=20-1=19、 a=0.05(双側)查附表,得t0.05,19=2.093所以该人群皮试的平
23、均侵润直径的95%可信区间为9.1mm12.7mm 。(2)s已知或样本例数n足够大时,按正态分布原理作区间估计。例2、 由某地成年男子中抽得144人的样本,求得红细胞数的均数为5.381012/ l, 标准差为0.441012/ l, 试估计该地成年男子红细胞均数的95%可信区间。该地成年男子红细胞均数的95%可信区间为(5.31, 5.45) 1012/ l。 可信区间的涵义 可以理解为从总体中作随机抽样,每个样本可以算出一个可信区间,如95%可信区间,意味着100次抽样,算得100个可信区间,平均有95个可信区间包括总体均数(估计正确),只有5个可信区间不包括总体均数(估计错误)。5%是
