随机抽样和抽样分布_第1页
随机抽样和抽样分布_第2页
随机抽样和抽样分布_第3页
随机抽样和抽样分布_第4页
随机抽样和抽样分布_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章 随机抽样和抽样分布在前两章的讨论中,我们知道了随机现象常常通过随机变量及其概率分布和数字特征来描述,然而,在实际问题中,要准确知道概率分布和数字特征,有时是很困难的。例如,我们要以药丸的崩解时间或药片的溶解速度为指标来考察某一批药品的质量。若把这批药品全部进行一下试验,其分布函数及其有关的数字特征都可求出。但是,由于测定这些指标的试验,一般是破坏性的,报废了全部药品即使求出了有关指标也无意义。还有一些检验指标,如蜜丸的重量、体积等,对它们的检验虽不是破坏性的,但要成批逐个检验,无论从人力还是物力上都会受到条件限制。事实上,人们总是通过对部分产品的试验结果作分析,推断出全部产品的情况。这

2、就是数理统计研究的一个主要问题。本章先讨论样本和统计量等基本概念,然后讨论常见的几种抽样分布,为进一步讨论统计推断方法打下必要的理论基础。§3-1 随 机 抽 样3-1.1 总体与样本总体与样本是数理统计中两个主要概念。总体是指研究对象的全体,组成总体的每个单元称为个体。总体可以包含有限个个体,也可以包含无限多个个体。某个总体是有限的,但在个体相当多的情况下,往往把它作为无限总体来对待。在数理统计中,我们不笼统地研究所关心的对象,只考察它的某一种数值指标,例如,考察某批中成药丸的质量时,可以考察崩解时间、溶解速率、丸重等项指标。这里,如果我们只需注意药丸的重量,当然,每一丸都有一个确

3、定的重量如:6g,6.1g,6.01g,5.9g,。我们就把所有这些丸重数值当成丸重的总体;每个丸重值就是一个个体。这样,丸重X实际上是一个随机变量,它的取值的全体是一个总体,每一个可能取值就是它的个体。由于随机变量是用其概率分布F(x)(或密度函数)来刻画,所以若X具有分布函数F(X),则称这一总体为具有分布函数F(X)的总体。为了研究总体,需在总体中抽取若干个个体,这就得出样本的概念。定义1 在一个总体X中抽取n个个体X1,X2,Xn,这n个个体称为总体X的一个容量为n的样本。样本容量n是指样本中含有个体的数目,也称样本的大小。由于X1,X2,Xn是从总体中随机抽出来的,可以看成是n个随机

4、变量。但在一次抽取后,它们都是具体的数值,记作x1,x2,,xn,称为样本值。由于两次各抽取n个个体的抽样,得到的两批样本值一般是不同的,因此,在不至引起混乱的情况下有时也用x1,x2,,xn,表示n个随机变量,以此泛指一次抽取后的结果。这样,每当提到一个容量为n的样本时,常有双重含义:一是指某一次抽样的具体数值x1,x2,xn;有时是泛指一次抽出的可能结果,就表示n个随机变量。3-1.2 随机抽样抽样的目的在于对总体的统计规律进行推断,因而很自然地要研究该怎样从总体中抽取样本,使其尽可能地反映总体的特征。因此在抽样时,既要考虑抽样结果的代表性,又要考虑抽样本身的可行性,简便性。抽样方法很多,

5、对于不同的抽样方法,使用的统计推断方法也将不同,这里主要讨论简单随机抽样。所谓简单随机抽样是指在抽取样本单位时,总体的每一个可能的样本被抽中的概率相同。定义2 样本X1,X2,Xn相互独立且与总体X有相同的分布函数,这样的样本称为简单随机样本。本书主要讨论简单随机样本,以下简称样本。由以上定义可见,简单随机样本是满足下述两点要求的样本:其一,抽样随机,总体中每个个体被抽到的机会均等。例如,在检查药品质量指标时,有意识地选优,就违反了随机性原则,所得指标必然不能反映总体的质量情况,不具代表性;其二,样本X1,X2,Xn具有独立性,即抽取一个个体后,总体成分不变。例如,从一小批产品中,抽样检查合格

6、品,要求有放回地抽样,可满足独立性条件;若无放回地抽样则不满足独立性条件。对于无限总体,由于抽出的一个样品放回与否不改变总体成分,可看作不影响抽样的独立性。但实际应用中,即使总体个数N有限,只要被抽取的个体数n较小,比如不超过总体的5%,也可看作近似满足独立性条件,按无放回抽样,这样做可简化计算。§3-2 样本的数字特征3-2.1 统计量数理统计的主要任务,是以样本的特性去推测总体的特性。为此,需要根据样本构造出某种函数(样本函数)作为推测的基础。如当随机变量的某些总体数字特征未知时,就需要通过样本构造相应的函数。不含任何未知参数的样本函数称为统计量,是统计推断中最常使用的工具。定义

7、1设X1,X2,Xn为总体X的一个样本,g(X1,X2,Xn)为一个样本函数。如果g中不含有任何未知参数,则称g为一个统计量。例 如,设XN(,2),且为已知,2为未知,X1,X2,Xn是X的一个样本,则是一个统计量;而仅是样本函数,不是统计量,因为其中含有未知参数2。3-2.2 样本的数字特征下面我们来构造统计推断中最常使用的几种样本数字特征。它是估计总体数字特征的方法之一。一、 样本均数定义2 设有容量为n的样本X1,X2,Xn,则称(X1+X2+Xn)为样本均数,亦可写为 或 (3-1)明显地,由于容量为n的样本是n个独立同分布的随机变量,所以样本均数也是一个随机变量。样本均数的计算公式

8、表明,它不含任何未知参数,是一个统计量。二、 样本方差、标准差、变异系数定义3 设有容量为n的样本X1,X2,Xn则称或 (3-2)为样本方差;S称为样本标准差:称为样本变异系数。样本方差、标准差、变异系数都是刻画数据离散程度的指标。和样本均数一样,都是随机变量,同时也都是统计量。三、 与S2的运算性质(1) 若样本值与有如下关系: (i=1,2,n)则(2) 若样本值与有如下关系:则其中a,b,c为非零常数。在样本个体数很多、值很大的情况下,利用上述运算性质可使计算简化,节省工作量。四、 标准误样本均数是随机变量,按样本均数、方差的定义、性质我们可以给出样本均数的均数及方差。若总体均数EX与

9、总体方差DX存在,则, (3-3)统计学中称样本均数的标准差为标准误。一般用来表示,因此。在实际抽样研究中,往往未知,这里用样本标准差S来代替,可得标准误,计算公式为 (3-4)五、 其他常用的数字特征医药科研的统计中,还广泛地使用一些样本的数字特征。关于刻画随机变量平均水平的还有:中位数 它是累积概率分布或分布函数等于50%所对应的变量值。换言之,随机变量的取值大于它的概率和小于它的概率恰好相等,在概率意义上它位于正中。众数 它是随机变量的概率函数或概率密度函数最大值所对应的变量值。换言之,当大量独立重复试验时,样本值较多地集中在这个值的附近。关于刻画随机变量分散程度的还有:极差 它等于随机

10、变量有限个样本中最大值与最小值之差。在计算上较标准差方便,因而受到实际工作者的欢迎。但是,它对随机变量的分布情况毕竟只能提供少量信息,因此远不能取代标准差的重要性。例 设某药厂生产的开胸顺气丸,崩解时间XN(,2),其中,2均未知。今随机抽取5丸测得崩解时间如下(单位:分):表3-136129640160032102441168136128636,40,32,41,36计算样本均数和方差解 为运算方便,可列表3-1。,所以=15×185=37§3-3 抽 样 分 布统计量都是随机变量。数理统计中常要知道统计量的分布函数(抽样分布),由此去推断所研究的总体性质。常用的统计量,

11、除上节讨论过的样本均数、方差外,还有,t,F等统计量,这节我们将讨论这些统计量的分布。3-3.1 样本均数的分布我们先不加证明给出正态变量的如下性质:(1) 两个相互独立的随机变量X1N(1,)、X2N(2,)的代数和X=X1±X2仍服从正态分布,且有XN(1±2,+);(2) n个相互独立的随机变量XiN(i,)的和仍服从正态分布,且XN(,),其中i=1,2,,n;(3) 随机变量XN(,)的线性函数Y=aX+b仍服从正态分布,且YN(a+b,),其中a,b均为常数;(4) n个相互独立的随机变量XiN(i,)的线性组合仍服从正态分布,且有XN(,),其中ci是不全为零

12、的常数。下面,我们来讨论样本均数的分布。首先考虑样本来自正态总体时,即XiN(, )。由样本均数的定义,是n个相互独立同分布的随机变量的线性组合,则由正态变量的性质(4)容易推出:即 (3-5)这个结论表明:来自正态总体的样本均数仍旧服从正态分布,该分布的均数等于原总体的均数,方差是原总体方差的倍。由此可见,样本均数这一随机变量所服从的正态分布与总体的正态分布相比较在分散性方面有改善,且n越大,方差就越小,就越接近总体的均数。再考虑样本来自非正态总体时的情况。当抽样为小样本时,问题没有一般的确定解答;当抽样为大样本时,则由2-5.3段的中心极限定理知 (3-6)也就是说,对于大样本,无论总体分

13、布如何,式(3-6)总是成立的。3-3.2 分布定义1 设X1,X2,Xn是相互独立且同服从于N(0,1)分布的随机变量,则称随机变量+ (3-7)服从参数为n的分布,记为 (n)。分布的概率密度函数是 其中参数n称为自由度,它表示式(3-7)中独立变量的个数。“自由度”的含意:式(3-7)中的统计量是n个独立的随机变量Xi的平方和,Xi之间没有约束条件,每个Xi均可自由变动,故称的自由度为n。又如在式(3-2)中有n个变量X1-,X2-,Xn-,它们之间存在着惟一的约束条件。(X1-)+(X2-)+(Xn-) 图3-1=X1+X2+Xn-n=0 因此,n个变量X1-,X2-,Xn-中只有n-

14、1个可以自由变动,所以样本方差S2的自由度为n-1。f(x)的图形如图(3-1)所示,是一条偏向左侧的曲线。自由度越小越偏,自由度相当大时,接近正态分布。(n)分布是p分布在,时的特例。分布具有可加性。设随机变量,且它们互相独立,则这个性质也可推广到多个独立的变量和或差的情形。由此性质还可推出下列结果:若X1,X2,Xn为正态总体N(,2)的一个样本,则有 (3-8)因为在此式中从而可得,再由分布的可加性,即得这个结论表明:是一个服从分布的随机变量,自由度为n-1。3-3.3 t分布定义2 设随机变量UN(0,1),V (n)并且U与V相互独立,则称随机变量服从自由度为n的t分布,记为tt(n

15、)。在不至于弄错的情况下,括号中的自由度可以省略。t分布的概率密度函数为 其中n为自由度。f(t)的图形如图3-2所示。曲线关于t=0对称,形状类似于标准正态概率密度函数的图形。当n时,它的极限分布是标准正态分布。但当n较小时,对于相同的变量值,t分布的尾部比标准正态分布的尾部有着更大的概率,它们差异较大。图3-2t分布是统计学中极为重要的分布,应用最为广泛。其应用的重要依据是下面的定理。定理1 设X1,X2,Xn为正态总体N(,2)的一个样本,则证 因为所以又知并且 与 相互独立,从而由t分布的定义得定理2 设,和,分别是从同方差的总体N(1,2)和N(2,2)中所抽取的样本,它们相互独立,

16、则其中和分别是这两个样本的方差。证 由定理的条件可知由已知两个总体方差相等,则给定条件知,且它们相互独立,由2分布的可加性从而,按t分布的定义得3-3.4 F分布定义3 设随机变量U(n1),V (n2),并且U、V相互独立,则称随机变量服从自由度为(n1,n2)的F分布,记作FF(n1,n2)。F分布的概率密度函数为 F分布有两个自由度,第一自由度n1为组成统计量F分子的随机变量的自由度;第二自由度n2为分母的随机变量的自由度。图3-3f(x)的图形如图3-3所示。不对称的山状曲线,峰向左偏斜,随着n1与n2的同时增大,其均数趋近于1,且f(x)的曲线趋向于对称。再介绍一个常用的服从F分布的

17、随机变量。定理3 设,为总体N(1,)的样本;,为总体N(2,)的样本,且二样本相互独立,样本方差为、,则证 因为所以由F分布的定义,可知最后,读者必须注意:本节中介绍的2分布、t分布、F分布都是对正态总体而言的,就是说,这些样本都是来自正态总体,在以后使用时,必须注意这一前提条件。§3-4 概率纸及其应用通过对样本的实际观测,能够获知一个变量的频率分布情况。如果观测次数足够多,样本频率将接近总体概率,这时该变量的频率分布(统计分布)接近概率分布(理论分布)。为验证一个随机变量的理论分布,可使用概率纸方法。3-4.1 正态概率纸利用正态概率纸可判断一组数据是否取自正态总体。一、 正态

18、概率纸的原理设XN(,2),那么,令u=,则F(x)=(u)。图3-4因为u是x的线性函数,在坐标x-u中,u对x的图形是一条直线(图3-4),通过值表,把纵轴刻度上的u值改写成对应的(u)值,即F(x)值。这样一来,在坐标系x-F(x)中,F(x)对x的图形仍是那一条直线。于是,以普通均匀尺x为横轴,以函数尺-1(F)为纵轴,就构成了正态概率纸,如图3-5。二、 正态概率纸的使用方法(1) 把样本数据x从小到大排队,并计算对应的累积频率F(x);(2) 在正态概率纸上描出点列(x,F(x);(3) 若点列能拟合一条直线,则变量X近似服从正态分布N(,2);图3-5 正态概率纸(4) 由纵轴上

19、的F(x)=0.50,0.16(或0.84),找到横轴上对应的x0.50,x0.16,或(x0.84),则均数和标准差的估计值为=x0.50,=x0.50-x0.16(或=x0.84-x0.50,或=(x0.84-x0.16)。例1 山东中医学院对六味地黄丸进行显微定量研究。为探讨丸剂中熟地的某种特征物(棕色核状物)数目是否服从正态分布,镜检了67组载玻片中熟地的特征物数目,得到累积频率分布如表3-2所示。表3-2 累积频率分布表特征物数频数累积频数累积频率特征物数频数累积频数累积频率56110.0156513400.59757120.030667470.70159240.060674510.

20、76160370.104685560.83661290.134696620.925625140.209702640.955635190.284711650.970648270.403722671.000利用正态概率纸描点,由于散点能拟合一条直线(图3-6)。说明六味地黄丸中熟地所含该种特征物的数目近似服从正态分布。从图上可求出均数和标准差的估计值3-4.2 对数正态概率纸在药剂学、药理学等领域常可遇见一些不服从正态分布的随机变量,如乳剂中油珠直径的分布,剂量-反应曲线等,其一般特征是其概率密度曲线偏向左侧而显出长尾状。这类随机变量的对数服从正态分布,称其服从对数正态分布。判断随机变量是否服从对

21、数正态分布,可以对所得样本资料取对数后借助正态概率纸来完成。为免去取对数的工作,也可将正态概率纸的横轴改为对数坐标,构成对数正态概率纸(图37)。利用这种坐标纸,可方便地直接以样本累积频率F(x)对x作图,若呈直线状就可判断随机变量为对数正态变量。至于均数和标准差的估计,宜分两步进行。首先,从图上查找F(x)=0.50和0.84(或0.16)所对应的横坐标值x0.50和x0.84(或x0.16),注意到横轴为对数坐标,读数为a时应为lga,所以如果将取对数后正态分布的均数和标准差称为对数均数和对数标准差,分别记为和,则类似于图3-6 正态分布的情形。(或,或)然后代入公式和即得对数正态分布本身

22、的均数和标准差的估计值。(此公式的推导过程,读者可参见其他详细的数理统计课本)3-4.3 韦布尔概率纸§2-2中已给出韦布尔分布的概率密度函数为,分布函数为 (3-9)其中有三个参数、和m。对式(3-9)改写后两端取对数,有图3-7 对数正态概率纸变号后,再取对数,ln-ln1-F(x)=mln(x-)-ln作变量代换X=ln(x-),B=-ln,Y=ln-ln1-F(x)则有Y=mX+B可以看出Y与X存在线性关系,于是,以一个随机样本的累积频率代替F(x),以ln-ln1-F(x)对ln(x-)作图,如=0,便以ln-ln1-F(x)对lnx作图。如果所得诸点按直线排布,便可认为该

23、样本来自一个服从韦布尔分布的总体。图3-8 韦布尔概率纸为避免多次查取自然对数,依上述原理制作韦布尔概率纸,如图3-8。图上有两条互相垂直的坐标轴,横向X轴,纵向Y轴。为便于作图,在上、下、左、右四条边框上设有四把刻度尺,上边和右边分别称X尺和Y尺,系普通均匀尺度,以X=lnx的数值刻线,并实际标以X或Y的数值;下边的标x尺,名义上虽然刻以x的数值,实际上却是据lnx刻线;左边的称F(x)尺,同样,名义上虽标以F(x)的数值,实际上却是据刻线。在韦布尔概率纸上,以样本的累积频率代替F(x),利用左边的F(x)尺和下边的x尺,按如下步骤作图估计:(1) 以F(x)对x作图,(2) 若诸点排布接近

24、直线,则适当拟合一直线,尤其注意照顾F(x)在30%至70%范围内的点,使之优先贴近直线。(3) 若诸点排布呈曲线状,则沿曲线趋势延伸,与x轴交点的数值作为的初步估计值,以F(x)对x-作图。如此反复修改,直到选定一个较好的作为位置参数的估计值为止(图3-9)。曲线:F(x)对x作图。直线:F(x)对x-作图。:曲线与横轴交点。(4) 在F(x)对x-所作的图上拟合一直线,由X=1和Y=0的交点(称m点)作平行于该直线的平行线,查出它和Y轴交点在Y尺上投影的读数,不计正负号即得m的估计值(图3-10)。图3-9 图3-10(5) 所拟合的直线与x轴有一交点,在x尺上投影点的读数即为的估计值。(

25、6) 依下式计算均数和标准差的估计值,或查Y尺右侧尺和尺与m估计值对应的数值,它们分别乘以即为、的图估值。习 题 三1. 思考下列问题:(1) 自总体中随机抽取的容量为n的样本,可以看成是n个随机变量,如何理解?(2) t分布与正态分布的区别与联系是什么?2. 计算下列各样本的均数、方差、标准差及变异系数:(1) 5,19,-3,7,1,1;(2) 5,-3,2,0,8,6;(3) 10,15,14,15,16;(4) 0,5,10,-3。3. 从同一批号的阿司匹林片中随机抽出5片,测定其溶解50%的所需时间分别为:5.3,6.6,5.2,3.7,4.9试计算其样本方差,样本均数和变异系数。4. 在总体N(12,4)中随机抽一容量为5的样本Z1,Z2,Z5。(1) 求样本均值与总体均值之差的绝对值大于1的概率;(2) 求概率Pmax(Z1,Z5)15;(3) 求概率Pmin(Z1,Z5)10.5. 设随机变量X和Y相互独立,且都服从N(0,32),而Xi(i=1,2,9)和Yi(i=1,2,9)分别是来自总体X和Y的简单随机样本,求统计量服从的分布。6. 某地101例3039岁健

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论