抽样检验理论分布和抽样分布最全版_第1页
抽样检验理论分布和抽样分布最全版_第2页
抽样检验理论分布和抽样分布最全版_第3页
抽样检验理论分布和抽样分布最全版_第4页
抽样检验理论分布和抽样分布最全版_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、【最新卓越管理方案 您可自由编辑】(抽样检验)理论分布和 抽样分布20XX年XX月室计的企业咨询团问经脸,经过实战骗证可以落地执行的卓越笆理方案,值得您下载插有第四章理论分布和抽样分布在上章样本分布及其特征的基础上本章将讨论总体的分布及其特征。首先介绍间断性变数总体的理论分布,包括二项分布和泊松分布;其次介绍连续性变数总体的理论分布,即正态分布;最后介绍从这俩类理论分布中抽出的样本统计数的分布,即抽样分布。为了说明这些理论分布,必须首先了解概率的基本概念和计算法则。第壹节事件、概率和随机变量壹、事件和事件发生的概率在自然界中壹种事物,常存在几种可能出现的情况,每壹种可能出现的情况称为事件,而每

2、壹个事件出现的可能性称为该事件的概率(probability)。例如种子可能发芽,也可能不发芽,这就是俩种事件,而发芽的可能性和不发芽的可能性就是对应于俩种事件的概率。若某特定事件只是可能发生的几种事件中的壹种,这种事件称为随机事件(randomevent),例如抽取壹粒种子,它可能发芽也可能不发芽,这决定于发芽和不发芽的机会 (概率),发芽和不发芽这俩种可能性均存在,出现的是这俩种可能性中的壹种。事件发生的可能性(概率)是在大量的实验中观察得到的,例如棉田发生盲蜻象为害的情况,且不是所有的棉株都受害,随着观察的次数增多,我们对棉株受害可能性程度大小的把握越准确、越稳定。这里将壹个调查结果列于

3、表4.1。调查5株时,有2株受害,受害株的频率为40% ,调查25株时受害频率为 48%,调查100株时受害频率为33%。能够见出三次调查结果有差异,说明受害频率有波动、不稳定。而当进壹步扩大调查的单株数时,发现频率比较稳定了,调查 500株到2000株的结果是受害棉株稳定在 35%左右。表4.1在相同条件下盲蜻象在某棉田危害程度的调查结果调查株数(n)52550100200500100015002000受害株数(a)212153372177351525704(a/ n)0.400.480.300.330.360.3540.3510.3500.352现以n代表调查株数,以 a代表受害株数,那么

4、能够计算出受害频率p = a/n。从棉株受害情况调查结果见,频率在n取不同的值时,尽管调查田块是相同的,频率p却不同,只有在 n很大时频率才比较稳定壹致。因而,调查株数n较多时的稳定频率才能较好地代表棉株受害的可能性。统计学上用n较大时稳定的p近似代表概率。然而,正如此试验中出现的情况,尽管频率比较稳定,但仍有较小的数值波动,说明观察的频率只是对棉株受害这个事件的概率的估计。统计学上通过大量实验而估计的概率称为实验概率或统计概率,以表示。此处 P代表概率,P(A)代表事件A的概率,P(A)变化的范围为01,即0 & P(A) & 1。随机事件的概率表现了事件的客观统计规律性,它反映了事件在壹次

5、试验中发生可能性的大小,概率大表示事件发生的可能性大,概率小表示事件发生的可能性小。若事件 A发生的概率较小,如小于 0.05或0.01 ,则认为事件 A在壹次试验中不太可能发生,这称为小概率事件实际不可能性原理,简称小概率原理。这里的0.05或0.01称为小概率标准,农业试验研究中通常使用这俩个小概率标准。除了随机事件外,仍有必然事件和不可能事件,它们是随机事件的特例。对于壹类事件来说,如在同壹组条件的实现之下必然要发生的,称为必然事件;例如,水在标准大气压下加热到100 C必然沸腾。相反,如果在同壹组条件的实现之下必然不发生的,称为不可能事件。例如,水在标准大气压下温度低于100 c时,不

6、可能沸腾。必然事件和不可能事件发生的概率为1和0。二、事件间的关系在实际问题中,不只研究壹个随机事件,而是要研究多个随机事件,这些事件之间 又有壹定的联系。例如,在种子发芽试验中,显然“发芽”和“不发芽”之间是有 壹定联系的。为了表述类似上述事件之间的联系,下面说明事件之间的几种主要关 系。(壹)和事件事件A和B至少有壹个发生而构成的新事件称为事件A和B的和事件,记为A+B,读作“或 A发生,或B发生”。例如,有壹批种子,包含有能发芽的和不能发芽的。若A为“取到能发芽种子” ,B为“取到不能发芽种子”,则A+B为“或者 取到能发芽种子或者取到不能发芽种子”。事件间的和事件能够推广到多个事件:事

7、件Ai、A2、An至少有壹发生而构成的新事件称为事件 Ai、A2、An的和事件,记为 A1+A2+An=。(二)积事件事件A和B同时发生所构成的新事件称为事件A和B的积事件,记作 AB ,读作“A和B同时发生或相继发生”。事件间的积事件也能够推广到多个事件:事件Al、A2 、An 同时发生所构成的新事件称为这 n个事件的积事件,记作 A1A2An=。(三)互斥事件事件A和B不可能同时发生,即 AB为不可能事件,记作 A B=V ,称事件 A和B互斥或互不相容。例如,有壹袋种子,按种皮分黄色和白色。 若记A为“取到黄色”,B为“取到白色”,显然A和B不可能同时发生,即壹粒种子不可能既为黄色又为白

8、色,说明事件 A和B互斥。这壹定义也能够推广到n个事件。(四)对立事件事件A和B不可能同时发生,但必发生其壹,即 A+B为必然事件(记为A+B=U),AB为不可能事件(记为A B=V ),则称事件B为事件A的对立事件,且记 B为。例如,上面A为“取到黄色”,B为“取到白色”,A和B不可能同时发生,可是,任 意抽取壹粒种子,其皮色不是黄色就是白色,即A和B必发生其壹,因此,A和B互为对立事件。(五)完全事件系若事件Ai、A2、An俩俩互斥,且每次试验结果必发生其壹,则称 Ai、A2、An为完全事件系。例如,仅有三类花色:黄色、白色和红色,则取壹朵花,“取到黄色”、“取到白色”和“取到红色”就构成

9、完全事件系。(六)事件的独立性若事件A发生和否不影响事件 B发生的可能性,则称事件A和事件B相互独立。例如,事件A为“花的颜色为黄色”,事件B为“产量高”,显然如果花的颜色和产量无关则事件A和事件B相互独立。三、计算事件概率的法则(壹)互斥事件的加法假定俩互斥事件 A和B的概率分别为 P(A)和P(B)O则事件A和B的和事件的概率 等于事件A的概率和事件 B的概率之和,即 P(A+B)= P(A)+ P(B)O加法定理对于多 个俩俩互斥的事件也成立:假定Ai、A2、Ann个事件彼此间均是俩俩互斥的事件,其概率依次为 P(Ai),P(A2),,P(An),则Ai,A2到An和事件的概率 P(Ai

10、+A 2+ +A n)等于 P(Ai), P(A2),,P(An)之和,即 P(Ai+A2+A n)= P(Ai)+P(A2)+ + P(An)。例如,壹捆花中红、黄、白花的概率分别为0.2、0.3、0.5,那么我们随机抽取壹朵非白色花的概率为 0.5(=0.2+0.3 ),这只是由加法定理得到的俩个事件概率之 和。(二)独立事件的乘法假定P(A)和P(B)是俩个独立事件 A和B各自出现的概率,则事件 A和B同时出现 的概率等于俩独立事件出现概率P(A)和P(B)的乘积,即P(AB)= P(A)P(B)乘法定理对于n个相互独立的事件也成立。假定P(Ai), P(A2),,P(An)是n个相互独

11、立事件各自出现的概率,则该n个事件同时出现的概率P(AiA2An)等于各自出现概率之乘积,即P(AiA2An)= P(Ai)P(A2)P(An)。现有4粒种子,其中3粒为黄色、1粒为白色,采用复置抽样。试求下列俩事件的 概率:(A)第壹次抽到黄色、第二次抽到白色;(B)俩次都抽到黄色。由于采用复置抽 样(即每壹次抽出观察结果后又放回再进行下壹次抽样),所以第壹次和第二次的抽样结果间是相互独立的。 采用概率的古典定义,能够求出抽到黄色种子的概率为0.75 ,抽到白色种子的概率为0.25。因此,有P(A)= P(第壹次抽到黄色种子)P(第二次抽到白色种子)=0.25 X0.75=0.1875 尸(

12、B)= P(第壹次黄色种子)P(第二次黄色种子)=0.75 X0.75=0.5625 。(三)对立事件的概率若事件A的概率为P(A),那么其对立事件的概率为:(四)完全事件系的概率例如“从10个数字中随机抽得任何壹个数字都能够”这样壹个事件是完全事件系, 其概率为1。(五)非独立事件的乘法如果事件A和B是非独立的,那么事件A和B同时发生的概率为事件 A的概率P(A) 乘以事件A发生的情况下事件 B发生的概率 P(B|A),即:P(AB)= P(A) P(B|A)四、随机变量随机变量是指随机变数所取的某壹个实数值。用抛硬币试验作例子,硬币落地后只有俩种可能结果:币值面向上和国徽面向上,用数“1”

13、表示“币值面向上”,用数“ 0”表示“国徽面向上”。把0, 1作为变量y的取值。在讨论试验结果时, 就能够简单地把抛硬币试验用取值为0, 1的变量来表示。P(y=1)=0.5 , P(y=0)=0.5同理,用“ 1”表示“能发芽种子”,其概率为p;用“ 0”表示“不能发芽种子”, 其概率为 q 显然 p+q =1 ,则 P(y=1)= p, P(y=0)= q=1- p。用变量y表示水稻产量,若 y大于500kg的概率为0.25 ,大于300kg且等于 小于500kg的概率为0.65 ,等于小于300kg的概率为0.1。则用变量y的取值范 围来表示的试验结果为 P(y 500)=0.25 。对

14、于前俩个例子,当试验只有几个确定的结果,且可壹壹列出,变量 y的取值 可用实数表示,且 y取某壹值时,其概率是确定的,这种类型的变量称为离散型随 机变量。将这种变量的所有可能取值及其对应概率壹壹列出所形成的分布称为离散 型随机变量的概率分布:变量 yiy1y2y3yn概率P1P2P3Pn也可用函数f(y)表述,称为概率函数。对于上面水稻产量的例子, 变量y的取值仅为壹范围, 且y在该范围内取值时,其概率是确定的。此时取 y为壹固定值是无意义的,因为在连续尺度上壹点的概率 几乎为0。这种类型的变量称为连续型随机变量。对于随机变量,若存在非负可积函数f(y)(- y + ),对任意a和b(avb)

15、都有P(a y b)=则称y为连续型随机变量(continuousrandomvariate),f(y)称为y的概率密度函数(probabilitydensityfunction)或分布密度(distributiondensity) 。因此,它的分布由密度函数所确定。若已知密度函数,则通过定积分可求得连续型随机变量在某壹区间的概率。总之,随机变量可能取得的每壹个实数值或某壹范围的实数值是有壹个相应概率的,这就是所要研究和掌握的规律,这规律称为随机变量的概率分布。随机变量完整地描述了壹个随机试验,它不仅告诉我们随机试验的所有可能结果,而且告诉我们随机试验各种结果出现的可能性大小。这样,对随机试验

16、概率分布的研究,就转成了对随机变量的概率分布的研究了。这里须注意事件发生的可能性和试验结果是不同的,前者是指事件可能发生的概率,后者是指特定试验结果,这种结果可能是概率大的事件发生了,也可能概率小的事件发生了。概率分布指明了不同事件发生的可能性。随机变量是用来代表总体的任意数值的,随机变数是随机变量的壹组数据,代表总体的随机样本资料,它可用来估计总体的参数。第二节二项式分布壹、二项总体及二项式分布试验或调查中最常见的壹类随机变数是整个总体的各组或单位能够根据某种性状的出现和否而分为俩组。例如:小麦种子发芽和不发芽,大豆子叶色为黄色和青色,调查棉田盲蜻象为害分为受害株和不受害株等等。这类变数均属

17、间断性随机变数,其总体中包含俩项,即:非此即彼的俩项,它们构成的总体称为二项总体(binarypopulation) 。为便于研究,通常将二项总体中的“此”事件以变量“1”表示,具概率p;将“彼”事件以变量“ 0”表示,具概率 q。因而二项总体又称为 0、1总体,其概率 则显然有:p+ q=1 或 q=1- p如果从二项总体抽取 n个个体,可能得到y个个体属于“此”,而属于“彼”的个体为n-y。由于是随机独立地从总体中抽取个体的,每壹次抽取的个体均有可能属于“此”,也可能属于“彼”,那么得到的y个“此”个体的数目可能为 0、1、2、n个。此处将y作为间断性资料的变量,y共有n+1种取值,这n+

18、1种取值各有其概率,因而由变量及其概率就构成了壹个分布,这个分布叫做二项式概率分布,简称二项式分布或二项分布 (binomialdistribution) 。例如观察施用某种农药后供试5只朗虫的死亡数目,记“死”为 0,记“活”为1 ,观察结果将出现 6种事件,它们是5只全死、4死1活、3死2活、2死3活、1死4活、5只全活,这6种事1分布件构成了壹个完全事件系,但 6个事件的概率不同,将完全事件系的总概率到6个事件中去,就是所谓的概率分布。如果将活的虫数y来代表相应的事件,便得到了关于变量y的概率分布。下面将给出二项分布的概率计算方法。二、二项式分布的概率计算方法已知大豆青子叶色由 2对隐性

19、重叠基因控制,2对基因中任壹显性基因都使子叶表现为黄色。具有壹对基因差异的大豆黄子叶品种和青子叶品种杂交后,Fi代表现黄子叶,其F2代按壹对等位基因分离,黄子叶表现显性,黄和青作3 : 1比例分离。这里讨论杂种后代关于黄子叶的粒数(y)这个变量的概率分布,用来说明二项式分布的概率计算。从遗传学已知,杂种后代 F2代按壹对等位基因分离,出现俩种子叶颜色,出现黄色子叶的概率为 0.75 ,出现青色的概率为 0.25 ,这是二项总体的概率分布。如果从这种总体抽取 n粒,那么得到y粒是黄子叶的概率是多少呢?以二粒荚为例相当于抽取二粒种子,这时全部可能的结果将有四种:俩粒都是黄的(YY);第壹次是青的第

20、二次是黄的 (GY);第壹次是黄的第二次是青的 (YG);以 及俩粒都是青的(GG)。现如不考虑种子位次而仅仅考虑种子颜色,则以黄子叶种子数目作概率分布如下(以Y代黄子叶,以G代青子叶):豆荚内黄子叶种子数目(y)012合计(GG)(YG+GY)(YY)豆荚机会数1214黄子叶种子出现y次的卞率P(y)1/166/169/161豆荚内黄子叶种子数是壹个随机变数,上述黄子叶种子(y)是豆荚内有二粒种子的随机变数的全部可能值,而P(y)则指其相应概率,这样就列出了出现黄子叶种子的概率分布。下面说明怎样计算这壹概率分布的。如果壹个豆荚仅有俩粒种子,这相当于进行俩次重复试验,出现第壹粒种子和出现第二粒

21、种子是互不影响的,因此这俩个事件是独立事件。出现第壹粒种子是青的概率为1/4 ,出现第二粒种子仍是青的概率也是1/4 ,同时俩粒种子都是青的概率应为俩个概率的积,即P(y=0)P(y=0)指俩粒都是青的这壹事件的概率。同样出现俩粒都是黄的概率应为:P(y=2)之上计算概率应用了概率乘法法则。现要知道怎样计算豆荚内壹黄壹青事件的概率呢?这里须考虑出现壹黄壹青的位次问题。已知:P(YG)=P(GY)=因为这俩个事件是互斥的,所以出现壹黄壹青事件的概率应为之上俩个事件概率之和。于是应用概率加法得出P(y=i)出现黄子叶种子数量 0, 1, 2三个事件Ao, Ai, A2构成壹完全事件系,所以P(Ao

22、)+ P(Ai)+ P(A2)同理,假定壹豆荚内有三粒种子,这时黄、青子叶种子位次的组合就有以下8种可能的试验结果:在这8种可能机会可分为四组:(1)完全没有黄子叶种子的(GGG),记为y=0 ,相应概率为: (2)仅有壹粒黄子叶种子的(GGY, GYG, YGG),记为y=1 ,这时有3种不同组合,每种组合的概率均为。由于这三个事件都是相互互斥的,所以三种概率之和应为:(3)具有俩粒黄子叶种子的(YYG, YGY, GYY),记为y=2 ,这里同样有3种组合,它们是相互互斥的,每种事件的概率为,所以三种事件概率之和应为:(4)三粒种子均是黄子叶的(YYY),记为y=3 ,相应概率为:从之上计

23、算,能够了解每壹复合事件的概率必等于该事件出现的组合数目乘以单个事件的概率;而这壹复合事件的可能组合数目则相当于从 n个物体中任取其 y个物体的组合数。数学上的组合公式为:n相当于豆荚内种子数,y相当于黄子叶种子数。因此:(4 1)例如,y=2 , n=3 ,二项式中包含俩项,这俩项的概率为p、q ,且且(p+q)n=1 ,由(4 1)可推知变量y的概率函数为:P(y)=(4 2)这壹分布律也称贝努里 (Bernoulli)分布,且有。例4.1棉田盲蜻象为害的统计概率乃从调查2000株后获得近似值 p=0.35 。现受害株事件为A,其概率为p=0.35 ,未受害株事件为对立事件,其概率q =(

24、1-0.35)=0.65 。这壹试验是能够重复的。假定做了n次试验,即抽出n株为壹个抽样单位,那么,试问出现有y株是受害的,其概率应有多少?假定以n=1 ,即抽出壹株为壹个抽样单位,那么,总体 2000个单位中有多少株受害?多少株未受害?这里已知P(A)=0.35 和=0.65,总体的理论次数分布则以n乘上述概率分布,即 np和n(1- p),所以有2000 X0.35=700 株受害和2000 乂 0.65=1300 株未受害。如调查5株为壹个抽样单位,即 n=5 ,则受害株数y=0 , 1, 2, 3, 4和5的 概率能够计算出来,如表 4.2。棉株受害数乃壹随机变数 (y),能够计算变量

25、 y相应 的概率函数和其累计函数。表4.2调查单位为5株的概率分布表(p=0.35, q = 0.65)概率函数P(y)P(y)F(y)nP(y)P(0)0.11600.116046.40P(1)0.31240.4284124.96P(2)0.33640.7648134.56P(3)0.18110.945972.44P(4)0.04880.994719.52P(5)0.00531.00002.12如果每次抽5个单株,抽n=400次,则理论上我们能够得到y=2的次数应为:理论次数=400 XP(2)=400 X0.3364=134.56(次)对于任意y,其理论次数为:理论次数=nP(y)(4 3

26、)F(y)图4.1和图4.2给出了概率函数图和累积概率函数图。例4.2某种昆虫在某地区的死亡率为40% ,即p=0.4 ,现对这种害虫用壹种新药进行治疗试验,每次抽样10头作为壹组治疗。试问如新药无疗效,则在 10头中死3头、2头、1头,以及全部愈好的概率为多少?按上述二项分布概率函数式计算:7 头愈好,3 头死去概率:P(3)=(0.40) 3(0.60) 7=0.214998 头愈好,2 头死去概率:P(2)=(0.40) 2(0.60) 8=0.12093头愈好,1 头死去概率:P(1)=(0.40) 1(0.60) 9=0.04031头全部愈好的概率:P(0)=(0.40) 0(0.6

27、0) 10 =0.00605若问10头中不超过2头死去的概率为多少?则应该应用累积函数,即=P(0)+ P(1)+ P(2)=0.00605+0.04031+0.12093=0.16729 若计算不超过壹头死去的概率则=P(0)+ P(1)=0.00605+0.04031=0.04636这壹试验结果说明在100次试验中由于偶然原因(即不加新药治疗)只会出现4.6次,即这壹事件(10头中仅死1头及少于1头的事件)的概率在20次中约只有壹次。三、二项式分布的形状和参数f( y)上述棉株受害概率如p=1/2 ,则未受害受害株数(y)图4.3棉株受盲椿害的概率函数 f(y)图(p=0.5 , n =

28、5 株)概率q=(1- p)=1/2 ,这时受害株的概率分布将表现为p= q的形式。如图4.1壹样,可绘于图 4.3以作比较。从图 4.1和4.3可见出,如p=q,二项式分布呈对称形状,如pwq,则表现偏斜形状。但从理论和实践检验, 当n很大时即使pwq,它也接近对称形状。所以这壹理论分布是由n和p俩个参数决定的。凡描述壹个总体分布,平均数和方差(或标准差)俩个参数是重要的。例如抽取5株中受害株数的多少(y)作为统计指标的话,从总体中能够抽取的所有样本均有壹个y,这样所有的y构成了壹个新总体,该总体也属于二项式总体,其平均数、方差和标 准差如下式(4 4)该总体的概率计算方法同于前述的二项式总

29、体,只是由于统计指标的变化,使平均 数和标准差有所不同。例如,上述棉田受害率调查结果,n=5 , p=0.35 ,所以可求得总体参数为:=5X0.35=1.75 株,二株。之上平均数和标准差系指从二项总体抽出n个个体的样本总和数(个数)分布的平均数和标准差。如果n适当大,例如,大于 30, p值又不过于小,例如不靠近0值,且且np及nq均不少于5时,那么,这个二项式分布将趋近于下面即将介绍的正态分布, 具有参数=np和。四、多项式分布若总体内包含几种特性或分类标志,能够将总体中的个体分为几类,例如在给 某壹人群使用壹种新药,可能有的疗效好,有的没有疗效,而另有疗效为副作用的, 象这种将变数资料

30、分为 3类或多类的总体称为多项总体,研究其随机变量的概率分 布可使用多项式分布 (multinomialdistribution) 。设总体中共包含有k项事件,它们的概率分别为p1、p2、p3、pk,显然p1+p2+p3+ pk=1。若从这种总体随机抽取n个个体,那么可能得到这 k项的个数分另1J为y1、y2、y3、yk,显然y+y2+y 3+-+y k= n。那么得到这样壹个事件 的概率应该是什么呢?根据数学推导,这样壹个事件的概率理论上应为: (4 5)这是多项式展开式中任意项 (k项)的概率函数,这壹概率分布称为多项式分布。 如果是3项式的概率分布,那么例4.3某药对病人有效的概率为1/

31、2 ,对病人无效的概率为1/3 ,有副作用的概率为1/6 ,若随机抽取2个使用该药的病人,那么我们的结果可能包括这样几种事件:2个病人有副作用;壹个无效、壹个有副作用;俩个无效;壹个有效、壹个有副作用;壹个有效、壹个无效;俩个均有效。这几种事件的概率分别为多少呢?能够使用上述的概率分布公式来计算,如表 4.3。表4.3多项式分布的概率计算变量概率及其计算(yi、y2、y3)P(yi、y2、y3)(0, 0, 2)(0, 1, 1)(0, 2, 0)(1, 0 , 1)(1 , 1,0)(2 , 0 , 0)五、泊松分布一二项分布的壹种极限分布应用上述(4 2)二项分布时,往往遇到壹个概率p或q

32、是很小的值,例如小于0.1 ,另壹方面n又相当大,这样之上二项分布必将为另壹种分布所接近,或者为壹 种极限分布。这壹种分布称泊松概率分布,简称泊松分布 (Poissondistribution) ,如将np = m,则接近分布如下式:,y=0, 1, 2,,8(4 6)e=2.71828为自然对数的底数。凡在观察次数n(n相当大)中,某壹事件出现的平均次数 m(m是壹个定值)很小,那么,这壹事件出现的次数将符合泊松分布。这壹分布在生物学研究中是经常遇到的,例如,昆虫和植物种类在壹定面积的分布,病菌侵害作物的分布以及原子衰变 的规律等随机变数。泊松分布的平均数、方差和标准差如下式:y图4.4不同

33、m值的泊松分布(4 7)这壹分布包括壹个参数 m ,由m的大小决定 其分布形状如图 4.4。当m值小时分布呈很 偏斜形状,m增大后则逐渐对称,趋近于以 下即将介绍的正态分布。例4.41907年Student氏进行以血球计计数酵母细胞精确度试验。如这种计数技术是有效地合适,则在每壹平方格的细胞数目理论上应作为壹个泊松分布。表4.4是从1mm 2分为400个平方格的结果。总共计数的细胞数为1872个,因之平均数 m=1782 /400=4.68。理论次数须从泊松分布的概率计算,即从(q+p)n的极限为:e-m(1+ m+)其中 y=0 , 1, 2, 3, (4 8)表4.4血球计所计数的每平方格

34、内酵母细胞数酵母细胞数012345678次数2043538670543718理论次数3.7117.3740.6563.4174.1969.4454.1636.2121.18酵母细胞数910111213141516总次数10522400理论次数11.025.162.190.860.310.100.030.01400.00本例 m=4.68 , e-m=(2.71828) -4.68 =0.009275 , 0.009275400=3.713.71是理论次数第壹项, 其他各理论次数均可按(4 8)计算。概率值乘以400得理论 次数。本例标准差估计值为=2.16 。泊松分布有壹特性,即 2个或2个之

35、上的泊松分布之和,也是壹个泊松分布,因此2个或2个之上事件各独立地服从泊松分布时,能够将其合且,且求其平均数 和标准差。第三节正态分布正态分布(normaldistribution),是连续性变数的理论分布。在理论和实践问题上都具有非常重要意义。首先,客观世界确有许多现象的数据是服从正态分布的,因之它能够用来配合这些现象的样本分布从而发现这些现象的理论分布。例如我们在日常生活中发现许多数量指标总是正常范围内有差异,偏离正常,表现过高或过低的情况总是比较少,而且越不正常的可能性越少,这就是所谓的常态或称为“正态”,能够用正态分布的理论及由正态分布衍生出来的方法来研究。壹般作物产量和许多经济性状的

36、数据均表现属正态分布。其次,在适当条件下,它可用来做二项分布及其它间断性或连续性变数分布的似近分布,这样就能用正态分布代替其它分布以计算概率和进行统计推论。第三,虽然有些总体且不做正态分布,但从总体中抽 出的样本平均数及其它壹些统计数的分布,在样本容量适当大时仍然趋近正态分布,因此可用它来研究这些统计数的抽样分布。本节先从前述的二项分布的实例引导出 正态分布,然后述及正态分布的特性,最后介绍概率计算方法。壹、二项分布的极限一正态分布现以二项式分布导出正态分布,因为后者是前者的极限分布。之上述二项分布棉株受害率为例,假定受害概率p=1/2 ,那么,p=q=1/2。现假定每个抽样单位包括20株,这

37、样将有21个组,其受害株的概率函数,于是概率分布计算如下:=0.00000+0.00002+0.00018+0.00002+0.00000现将这概率分布绘于图4.5。从图4.5见出它是对称的,分布的平均数和方差为:=np =20(1/2)=10( 株), 图4.5棉株受害率(0.5+0.5) 20分布图(实线表示二项=npq =20(1/2)(1/2)=5(株)2。式概率分布,虚线表示接近的正态分布曲线)如p= q,不论n值大或小,二项分布的多边形图必形成对称;如p w q ,而n很大时,这多边形仍趋对称。 多边y形是许多直线连接相邻组组中值次数的点形成的,倘 n很大时,组数为(n+1)组,组

38、距变为非常小,连接邻组的各个直线于是变得很短,而多边形的边数也相应加多了。倘n或组数增加到无穷多时(n-8),每个组的直方形都壹壹变为纵轴线,连接的直线也壹壹变为点了。这时多边形的折线就表现为壹个光滑曲线。这个光滑曲线在数学上的意义是壹个二项分布的极限曲线。二项分布的极限曲线属于连续性变数分布曲线。这壹曲线壹般称之为正态分布曲线或正态概率密度曲线。能够推导出正态分布的概率密度函数为:(4 9)fN(y)y是所研究的变数;N(y)是某壹定值y出现的函数值,壹般称概率密度函数,相当于曲线y值的纵轴高度这里N(y)中的N是专指正态曲线而言的;3.14159 e=2.71828;为总体参数,表示所研究

39、总体平均数,不同正态分布能够有不同的, 但某壹定总体的是壹常数。为总体参数,表示所研究总体标准差,不同正态分布能 够有不同的,但某壹定总体的是壹常数。这里y是从负无穷大到正无穷大的数值区间中的壹个点,讨论变量处在这个点的概率是没有意义的,而且从正态总体抽取的变数资料的每壹个观察值均是从具有壹定概率的数值区间中抽取的,所以讨论正态变数在某壹取值区间的概率才有意义,故这里将(4 9)称为概率密度函数,而非概率函数,以示区别于离散型分布的概率函数。(4 9)式的函数图见图4.6。2图4.6正态分布曲线图(平均数为,标准差为)3113图4.7标准正态分布曲线(平均数为0,标准差为1)参数和有如下的数学

40、表述:(4 10)为简化计,壹般以壹个新变数u替彳弋y变数,即将y离其平均数的差数,以为单位进行转换,于是或(y-)。u称为正态离差,由之可将(4 9)式标准化为:(4 11)(4 11)称为标准化正态分布方程,它是参数=0 , 1时的正态分布(图4.7)。记作N(0, 1)。由于它具有最简单形式,各种不同平均数和标准差的正态分布均能够经 过适当转换用标准化分布表示出来。所以下节将用它计算正态曲线的概率。二、正态分布曲线的特性.正态分布曲线是以y=为对称轴,向左右俩侧作对称分布, 所以它是壹个对称曲线。 从所竖立的纵轴fN(y=)是最大值,所以正态分布曲线的算术平均数、中数和众数是 相等的,三

41、者均合壹位于点上。.正态分布曲线以参数和的不同而表现为壹系列曲线,所以它是壹个曲线簇而不仅 是壹个曲线。确定它在横轴上的位置,而确定它的变异度,不同和的正态总体具有 不同的曲线和变异度,所以任何壹个特定正态曲线必须在其和确定后才能确定。图 4.8和4.9表示这个区别。图4.8标准差相同(1)而平均数不同图4.9平均数相同(0)而标准差不同(=0、=1、=2)的三个正态分布曲线(=1、=1.5、=2)的三个正态分布曲线.正态分布资料的次数分布表现为多数次数集中于算术平均数附近,离平均数越远,其相应的次数越少;且在左右相等|范围内具有相等次数;在11A3之上其次数极少。.正态曲线在|=1处有“拐点

42、”。曲线俩尾向左右伸展,永不接触横轴,所以当y 一 OO,分布曲线以y轴为渐近线,因之曲线全距从-OO到+00。.正态曲线和横轴之间的总面积等于1,因此在曲线下横轴的任何定值,例如从y=yi到y=y2之间的面积,等于介于这俩个定值间面积占总面积的成数,或者说等于y落于这个区间内的概率。正态曲线的任何俩个y定值ya和yb之间的面积或概率乃完全以曲线的和而确定的。详细数值见附表2,下面为几对常见的区间和其相对应的面积或概率的数字:区间1面积或概率=0.68272=0.95453=0.99731.960=0.95002.576=0.9900上述关系是正态分布的理论结果,从实际试验数据能够证实这种关系

43、。例如,上章水稻140行产量资料的样本分布表现出接近正态分布,其平均数 ()、标准差(s)以及离均差为1、2和3个标准差的区间所包括的次数列于表4.5。实验的结果和正态分布的理论结果很相近。表4.5140行水稻产量在 1s, 2S, 3S范围内所包括的次数表+ks数值(g)区间(g)次数%+1 s157.9+36.4121.5 194.59970.71+ 2s157.9+72.885.1 230.713495.71+ 3s157.9+109.248.7 267.1140100.00三、计算正态分布曲线区间面积或概率的方法在壹个连续性随机变数中,不能够计算某壹定值的概率,而只能计求某壹区间或范围

44、的概率,例如,计算水稻产量每亩达380公斤之上的概率或从 380500公斤区间的概率等。壹定区间概率的表示方法,壹般采用下述符号:倘壹随机变数y取a和b俩个定值时,而avb,其概率表示为:P(avywb)或简写为 P(a y b)(4 12)在正态分布曲线下,y的定值从y= a到y=b间的概率可用曲线下区间的面积来 表示,或者说,用其定积分的值表示,如图 4.10所示的面积。P(ay b)=(4 13)因为正态分布曲线的全距从 -8到+8,同样能够计算曲线下从 -8到y的面积, 其公式如下:FN(y)=(4 14)这里FN(y)称为正态分布的累积函数,具有平均数和标准差。现如给予变数任何壹定值

45、,例如a,那么,能够计算 ywa的概率为FN(a),即P(ya)= FN(a)(4 15)采用这种方法,如果 a和b(avb)是y的俩个定值,则其区间概率可从下式计算:P(ayb)= FN(b)-FN(a)(4 16)正态分布的密度函数 fN(y)是按y值将累积函数FN(y)求其导数得之。根据(4 14)当y=-oo, Fn(-)=0 ,当y=+Fn(+ )=+1(图4.11)。虽然正态分布曲线是从-8到+ 8,但实际应用上,如 y值从(3)到(3)范围内,即相当于 6个范围内,FN(y)值即能够相当于差不多从0到接近于1。现将y值从(3)到(3)范围内FN(y)的值,以0.01为壹间隔列于附

46、表 2。从该表能够计算出任何从 -8到某壹定值 ya的概率或从y = a至I y= b区间的概率。图4.11正态分布的累积函数FN(y)长度 A=P(ayb)由于不同总体具有不同的和,为了便于计算,可转换为标准化正态分布方程式(4 11),即以u变数替代y变数以计算概率。u变数具有正态分布特性,具=0和=1 。因此凡要计算任何壹个正态分布的概率只须将y转换为u值,然后查附表2便能够决定y落于某壹给定区间的概率。下面举出几例说明计算方法。例4.4假定y是壹随机变数具有正态分布,平均数 =30 ,标准差=5,试计算小于26,小于40的概率,介乎 26和40区间的概率以及大于 40的概率。首先计算:

47、P(y26)= Fn (26)计算Fn(26)必须先将y转换为u值。u=查附表2,当u=-0.8时,Fn(26)=0.2119 ,说明这壹分布从 到26范围内的变量数占全部变量数的21.19% ,或者说,y26概率为0.2119.同样计算:P(y 40)= Fn (40)查附表2,当u=+2.0时,Fn(40)=0.9773 ,这指出从-8到40范围内的变量 数占全部变量数的97.73% ,或者说,y40概率为九0773 。计算:P(26y40)= Fn(40)-Fn(26)=0.9773-0.2119=0.7654,或者写为 P(26y 40)=1 -P(yw 40)=1-0.9773=0.

48、0227之上计算参见图 4.12。fN(y)P(26 y 40) 0.7654 图4.12概率计算图示40) 0.9773P(y例4.5在应用正态分布时,经常要讨论随机变数y离其平均数的差数大于或小于若干个值的概率。例如计算离均差绝对值等于小于和等于大于1的概率为:P( y)=1-0.6827=0.3173相应地,离均差绝对值等于小于2、等于大于2、等于小于3和等于大于3的概率值为:P(|2)= P(WyW)= P(-2 u 2)=1-0.9545=0.0455P(|& 3)= P() y ()= P(-3 u 3)=1-0.9973=0.0027之上结果解释了正态分布曲线的概率特性,可参考图

49、4.13 。图4.13离均差的绝对值0P( 2 u 2) 0.95451,2和1.96的概率值例4.6计算正态分布曲线的中间概率为0.99时,其y或u值应等于多少?因为正态分布是对称的,故在曲线左边从-8到-u的概率和在曲线右边从u到8的概率都应等于1/2(1-0.99)=0.005。查附表 3 , u=-2.58 时,FN(y)=0.00494 ”0.005 o于是知,当土 2.58时,在其范围内包括 99%的变量,仅有1%变量在此范围 之外。上述结果写作:P(|2.58)= P(|u| 2.58)=0.01P(|2.58)= P(|u|1.96)= P(|u| 1.96)=0.05P(|

50、1.96)= P(|u|2.58)= P(y2.58)同理,P(| 1.96)亦可写成:P(|1.96)= P(y1.96)之上俩式等号右侧的前壹项为左尾概率,后壹项为右尾概率,其和概率称为俩 尾概率值。由于俩尾概率值经常应用,为减少计算的麻烦,在附表3列出了俩尾概 率取某壹值时的临界u彳1(正态离差u彳1),可供直接查用。例如,可查得P=0.01时 u=2.5758 , P=0.05 时 u=1.9599 ,即表示:P(|u|2.5758)=0.01 , P(|u| 1.9599)=0.05如果仅计算壹尾,则为壹尾概率值。例如计算P(u 1.6448)= P(|u| 1.6448)=(0.1

51、)=0.05这个0.05称为y值大于1.6448的壹尾概率值。当概率壹定时,俩尾概率的|u|总是大于壹尾概率|u|。例如,俩尾概率为 0.05时,|u|=1.96 ;而壹尾概率为 0.05 时,|u|=1.64。这表明在给定概率为 0.05时,若考虑俩尾,则离均差的绝对值需大 过1.96 ;若考虑壹尾,则离均差的绝对值只需大过1.64。第四节抽样分布统计学的壹个主要任务是研究总体和样本之间的关系。这种关系能够从俩个方 向进行研究。第壹个方向是从总体到样本的方向,其目的是要研究从总体中抽出的所有可能样本统计量的分布及其和原总体的关系。这就是本节所要讨论的抽样分布。第二个方向是从样本到总体的方向,

52、即从总体中随机抽取样本,且用样本对总体作出推论。这就是以后将要讨论的统计推断问题。抽样分布(samplingdistribution)是统计推断的基础。壹、统计数的抽样及其分布参数从总体中随机抽样得到样本,获得样本观察值后能够计算壹些统计数,统计数分布称为抽样分布。这里讨论的是抽样分布的参数和被抽样的已知总体参数间的关系。值得指出的是抽样分为复置抽样和不复置抽样,前者指将抽得的个体放回总体 后再继续抽样的方法,后者指将抽得的个体不放回总体而继续进行抽样的方法。讨 论抽样分布时考虑的是复置抽样方法。(壹)样本平均数的抽样及其分布参数如图4.14从壹个总体进行随机抽样能够得到许多样本,如果总体是无

53、限总体,那么能够得到无限多个随机样本。如果从容量为N的有限总体抽样,若每次抽取容量为n的样本,那么壹共能够得到 Nn个样本(所有可能的样本个数)。抽样所得到的 每壹个样本能够计算壹个平均数,全部可能的样本都被抽取后能够得到许多平均数,如等。这里m代表抽样所可能得到的所有平均数的总个数。如果被抽样的总体是无限总体,显然m代表无穷大的正整数,如果是有限总体那么 m=Nn。如果将抽样所得到的所有可能的样本平均数集合起来便构成壹个新的总体,这个总体是由原总体平均数就成(或称为母总体)抽样得到的,它的变数资料是由所有样本平均数构成的, 为壹个新总体的变量。每壹次随机抽样所得到的平均数可能会有差异,所以由

54、平均 数构成的新总体也应该有其分布,这种分布称为平均数的抽样分布。随机样本的任 何壹种统计数都能够是壹个变量,这种变量的分布称为统计数的抽样分布。除平均 数抽样分布外仍有总和数、方差的抽样分布等。2图4.14总体和样本的关系既然新总体是由母总体中通过随机抽样得到的,那么新总体和母总体间必然有关系。数理统计的推导表明新总体和母总体在特征参数上存在函数关系。以平均数抽样分布为例,这种关系可表示为以下俩个方面。(1)该抽样分布的平均数和母总体的平均数相等。(4 17)(2)该抽样分布的方差和母总体方差间存在如下关系:(4 18)其中n为样本容量。抽样分布的标准差又称为标准误,它能够度量抽样分布的变异

55、。这里抽样分布的参数,即平均数和方差这俩个概念要很好理解,前者是所有样本平均数的平均数,后者是所有样本平均数间方差,它们不同于母总体的和但有如(4 17)、(4 18)的关系。例4.7之上(4 17)和(4 18)的理论关系能够通过抽样实验以验证。设有壹总体 N=3(例2, 4 , 6)。以样本容量n=1、n=2、n=4及n=8 ,从总体中进行复置抽样, 抽出全部样本于表4.6。表4.6各种不同样本容量的样本平均数()的抽样分布n=1n=2n=4n=8yffff2.0012.2582.50362.751122.013.002662.543.25504213.0103.5078421323.51

56、63.75101641434.0194.00110761524.5164.251016615.0104.507845.544.755046.015.002665.251125.50365.7586.00139816561平均数4444方差8/34/32/31/3图4.15各种不同样本容量的分布方柱形图表4.6中列出这些不同样本容量的抽样分布,且在图4.15用方柱形图表示其分布形状。现试见:样本平均数分布的平均数、方差和其母总体平均数、方差的关系。由表中第壹列当N=3 , n=1的总体平均数和方差为:当样本容量依次为 2、4、8时,其相应为4、4、4;其相应为4/3、2/3、1/3 。 即=,。

57、因而验证了 (4 17)和(4 18)的理论关系。(二)样本总和数的抽样及其分布参数样本总和数也有其抽样分布, 根据数理统计的推导, 样本总和数(用代表)的抽样分布参数和母总体间存在如下关系:该抽样分布的平均数和母总体的平均数间的关系为:(4 19)(2)该抽样分布的方差和母总体方差间存在如下关系: (4 20)(三)俩个独立随机样本平均数差数的抽样及其分布参数如果从壹个总体随机地抽取壹个样本容量为ni的样本,同时随机独立地从另壹个总体抽取壹个样本容量为n2的样本,那么能够得到分别属于俩个总体的样本,这俩个样本的平均数用和表示。设这俩个样本所来自的俩个总体的平均数分别为和, 它们的方差分别为和

58、。根据数理统计的推导,俩个独立随机抽取的样本平均数间差 数(-)的抽样分布参数和俩个母总体间存在如下关系:(1)该抽样分布的平均数和母总体的平均数之差相等。(4 21)(2)该抽样分布的方差和母总体方差间的关系为:(4 22)例4.8(4 21)和(4 22)式的理论关系能够通过抽样实验以验证。假定第壹个总体包才3个观察值,2、4和6(N1=3 , n1=2),所有样本数为 Nn=3 2=9个,总体平均 数和方差=4 , =8/3 。第二个总体包括 2个观察值,3和6(N2=2),抽出的样本容量 为3( n2=3),所以所有样本数为 23=8个,总体平均数和方差=4.5 , =2.25 。现将

59、上 述俩个总体的次数分布列于表 4.7 ,且计算出其分布的参数。表4.7从俩个总体抽出的样本平均数的次数分布表ff213132434353526161总和9总和8N1=3 n 1=2N2=2 n2=3=4=4.5=8/3=2.25当下要研究从这俩个总体抽出的样本平均数差数的分布及其参数。由于从第壹总体抽出9个所有样本,从第二总体抽出8个所有样本,所以必须将第壹总体的9个样本平均数和第二总体的8个样本平均数作所有可能的相互比较,这样共有9X8=72个比较或72个差数,这72个差数次数分布列于表 4.8和表4.9。表4.8样本平均数差数的次数分布表2,2,2, 23, 3 , 3,34, 4 ,

60、4,45 ,5, 5 , 56 ,6,6 , 6总和3,4,5 , 63, 4 , 5,63, 4 , 5,63 ,4, 5 , 63 ,4,5 , 6-1 ,-2,-3,-4 0, -1 , -2,-3,1, 0 , -1 ,-22 ,1,0 , -13 ,2,1 , 0f1 ,3,3 , 12, 6 , 6,23, 9 , 9,32 ,6, 6 , 21 ,3,3 , 172表4.9样本平均数差数分布的平均数和方差计算表ff()(+0.5)(+0.5) 2f()2-41-4-3.512.2512.25-35-15-2.56.2531.25-212-24-1.52.2527.00-118-1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论