




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、理论分布和 抽样分布第四章理论分布和抽样分布在上章样本分布及其特征的基础上本章将讨论总体的分布及其特征。首先介绍间断性变数总体的理论分布,包括二项分布和泊松分布;其次介绍连续性变数总体的理论分布,即正态分布;最后介绍从这俩类理论分布中抽出的样本统计数的分布,即抽样分布。为了说明这些理论分布,必须首先了解概率的基本概念和计算法则。第壹节事件、概率和随机变量壹、事件和事件发生的概率在自然界中壹种事物,常存在几种可能出现的情况,每壹种可能出现的情况称为事件,而每壹个事件出现的可能性称为该事件的概率(probability) 。例如种子可能发芽,也可能不发芽,这就是俩种事件,而发芽的可能性和不发芽的可
2、能性就是对应于俩种事件的概率。若某特定事件只是可能发生的几种事件中的壹种,这种事件称为随机事件(randomevent) ,例如抽取壹粒种子,它可能发芽也可能不发芽,这决定于发芽和不发芽的机会(概率), 发芽和不发芽这俩种可能性均存在,出现的是这俩种可能性中的壹种。事件发生的可能性(概率)是在大量的实验中观察得到的,例如棉田发生盲蝽象为害的情况,且不是所有的棉株都受害,随着观察的次数增多,我们对棉株受害可能性程度大小的把握越准确、越稳定。这里将壹个调查结果列于表4.1 。调查 5 株时,有2株受害,受害株的频率为40% , 调查 25 株时受害频率为48% , 调查 100 株时受害频率为 3
3、3% 。能够见出三次调查结果有差异,说明受害频率有波动、不稳定。而当进壹步扩大调查的单株数时,发现频率比较稳定了,调查500 株到 2000 株的结果是受害棉株稳定在35% 左右。表 4.1 在相同条件下盲蝽象在某棉田危害程度的调查结果调查株数(n )52550100200500100015002000受害株数(a)212153372177351525704棉株受害频率(a/n)0.400.480.300.330.360.3540.3510.3500.352现以 n 代表调查株数,以a 代表受害株数,那么能够计算出受害频率p= a/ n。从棉株受害情况调查结果见,频率在n 取不同的值时,尽管调
4、查田块是相同的,频率 p 却不同,只有在n 很大时频率才比较稳定壹致。因而,调查株数n 较多时的稳定频率才能较好地代表棉株受害的可能性。统计学上用n 较大时稳定的p 近似代表概率。然而,正如此试验中出现的情况,尽管频率比较稳定,但仍有较小的数值波动,说明观察的频率只是对棉株受害这个事件的概率的估计。统计学上通过大量实验而估计的概率称为实验概率或统计概率,以表示。此处P代表概率,P(A) 代表事件A 的概率,P(A)变化的范围为0 1,即 0 P(A) 1。随机事件的概率表现了事件的客观统计规律性,它反映了事件在壹次试验中发生可能性的大小,概率大表示事件发生的可能性大,概率小表示事件发生的可能性
5、小。若事件A 发生的概率较小,如小于0.05 或 0.01 ,则认为事件A 在壹次试验中不太可能发生,这称为小概率事件实际不可能性原理,简称小概率原理。这里的 0.05或 0.01 称为小概率标准,农业试验研究中通常使用这俩个小概率标准。除了随机事件外,仍有必然事件和不可能事件,它们是随机事件的特例。对于壹类事件来说,如在同壹组条件的实现之下必然要发生的,称为必然事件;例如,水在标准大气压下加热到100 必然沸腾。相反,如果在同壹组条件的实现之下必然不发生的,称为不可能事件。例如,水在标准大气压下温度低于100 时,不可能沸腾。必然事件和不可能事件发生的概率为1 和 0。二、事件间的关系在实际
6、问题中,不只研究壹个随机事件,而是要研究多个随机事件,这些事件之间又有壹定的联系。例如,在种子发芽试验中,显然“发芽”和“不发芽”之间是有壹定联系的。为了表述类似上述事件之间的联系,下面说明事件之间的几种主要关系。(壹 )和事件事件 A 和 B 至少有壹个发生而构成的新事件称为事件A 和 B 的和事件,记为A+B ,读作“或 A 发生,或B 发生” 。例如,有壹批种子,包含有能发芽的和不能发芽的。若A 为“取到能发芽种子”, B 为“取到不能发芽种子”,则 A+B 为“或者取到能发芽种子或者取到不能发芽种子”。事件间的和事件能够推广到多个事件:事件A1、 A2、 A n至少有壹发生而构成的新事
7、件称为事件A1、 A2、 A n的和事件,记为A1+A 2+ +A n=。(二 )积事件事件 A 和 B 同时发生所构成的新事件称为事件A 和 B 的积事件,记作AB ,读作“ A 和 B 同时发生或相继发生”。事件间的积事件也能够推广到多个事件:事件A1、 A2、 An 同时发生所构成的新事件称为这n 个事件的积事件,记作A1A2 An= 。(三 )互斥事件事件 A 和 B 不可能同时发生,即AB 为不可能事件,记作A ·B=V ,称事件A 和 B互斥或互不相容。例如, 有壹袋种子,按种皮分黄色和白色。若记 A 为 “取到黄色”,B 为“取到白色”,显然 A 和 B 不可能同时发生
8、,即壹粒种子不可能既为黄色又为白色,说明事件A 和 B 互斥。这壹定义也能够推广到n 个事件。(四 )对立事件事件 A 和 B 不可能同时发生,但必发生其壹,即A+B 为必然事件(记为 A+B=U) ,AB 为不可能事件(记为A ·B=V ) ,则称事件B 为事件 A 的对立事件,且记B 为。例如,上面A 为“取到黄色”, B 为“取到白色”, A 和 B 不可能同时发生,可是,任意抽取壹粒种子,其皮色不是黄色就是白色,即A 和 B 必发生其壹,因此,A 和 B互为对立事件。(五 )完全事件系若事件A1、 A2、 An俩俩互斥,且每次试验结果必发生其壹,则称A1、 A2、A n 为完
9、全事件系。例如,仅有三类花色:黄色、白色和红色,则取壹朵花,“取到黄色” 、 “取到白色”和“取到红色”就构成完全事件系。(六 )事件的独立性若事件 A 发生和否不影响事件B 发生的可能性,则称事件A 和事件 B 相互独立。B 为“产量高”例如,事件A 为“花的颜色为黄色”量无关,则事件A 和事件 B 相互独立。三、计算事件概率的法则(壹 )互斥事件的加法假定俩互斥事件A 和 B 的概率分别为P(A) 和P(B)。则事件A 和 B 的和事件的概率等于事件A 的概率和事件B 的概率之和,即P(A+B)= P(A)+ P(B)。加法定理对于多个俩俩互斥的事件也成立:假定A1、 A2、 Ann 个事
10、件彼此间均是俩俩互斥的事件, 其概率依次为P(A1), P(A2), , P(An), 则 A1, A2到 An和事件的概率P(A 1+A 2+A n)等于P(A1), P(A2), P(A n)之和,即P(A1+A2+ +A n)= P(A1 )+ P(A 2)+ + P(An)。例如,壹捆花中红、黄、白花的概率分别为0.2、 0.3、 0.5,那么我们随机抽取壹朵非白色花的概率为0.5(=0.2+0.3 ) ,这只是由加法定理得到的俩个事件概率之和。(二 )独立事件的乘法假定P(A) 和P(B)是俩个独立事件A 和 B 各自出现的概率,则事件A 和 B 同时出现的概率等于俩独立事件出现概率
11、P(A)和P(B)的乘积,即P(AB)= P(A)P(B)乘法定理对于n 个相互独立的事件也成立。假定P(A 1), P(A 2), P(A n)是 n个相互独立事件各自出现的概率,则该n 个事件同时出现的概率P(A 1A 2 An )等于各自出现概率之乘积,即P(A 1A2 An)= P(A1)P(A2) P(An)。现有 4 粒种子,其中3 粒为黄色、1 粒为白色,采用复置抽样。试求下列俩事件的概率:(A) 第壹次抽到黄色、第二次抽到白色;(B)俩次都抽到黄色。由于采用复置抽样 (即每壹次抽出观察结果后又放回再进行下壹次抽样), 所以第壹次和第二次的抽样结果间是相互独立的。采用概率的古典定
12、义,能够求出抽到黄色种子的概率为0.75 ,抽到白色种子的概率为0.25 。 因此, 有P(A)= P(第壹次抽到黄色种子)P(第二次抽到白色种子)=0.25 × 0.75=0.1875 , P(B)= P(第壹次黄色种子)P(第二次黄色种子)=0.75× 0.75=0.5625 。(三 )对立事件的概率若事件 A 的概率为P(A) ,那么其对立事件的概率为:(四 )完全事件系的概率例如“从10 个数字中随机抽得任何壹个数字都能够”这样壹个事件是完全事件系,其概率为1 。(五 )非独立事件的乘法如果事件A 和 B 是非独立的,那么事件A 和 B 同时发生的概率为事件A 的概
13、率P(A)乘以事件A 发生的情况下事件B 发生的概率P(B|A) ,即:P(AB)= P(A) P(B|A)四、随机变量随机变量是指随机变数所取的某壹个实数值。用抛硬币试验作例子,硬币落地后只有俩种可能结果:币值面向上和国徽面向上,用数“1 ”表示“币值面向上”,用数“0”表示“国徽面向上”。把 0, 1 作为变量y 的取值。在讨论试验结果时,就能够简单地把抛硬币试验用取值为0, 1 的变量来表示。P(y=1)=0.5 , P(y=0)=0.5同理,用“1 ”表示“能发芽种子”,其概率为p;用“0”表示“不能发芽种子”,其概率为q。显然 p+q =1 ,则P(y=1)= p, P(y=0)=
14、q=1- p。用变量 y 表示水稻产量,若y 大于 500kg 的概率为0.25 ,大于 300kg 且等于小于 500kg 的概率为0.65 ,等于小于300kg 的概率为0.1 。则用变量y 的取值范围 来 表 示 的 试 验 结 果 为P(y300)=0.10 ,P(300 < y 500)=0.65 , P(y>500)=0.25 。对于前俩个例子,当试验只有几个确定的结果,且可壹壹列出,变量y 的取值可用实数表示,且y 取某壹值时,其概率是确定的,这种类型的变量称为离散型随机变量。将这种变量的所有可能取值及其对应概率壹壹列出所形成的分布称为离散型随机变量的概率分布:变量
15、yiy1y2y3yn概率P1 P2 P3Pn也可用函数f(y)表述,称为概率函数。对于上面水稻产量的例子,变量 y 的取值仅为壹范围,且 y 在该范围内取值时,其概率是确定的。此时取y 为壹固定值是无意义的,因为在连续尺度上壹点的概率 几乎为 0。这种类型的变量称为连续型随机变量。对于随机变量,若存在非负可积函数f(y)(-<y<),对任意a 和b(a< b)都有P(a y< b)=则称 y 为连续型随机变量(continuousrandomvariate) , f(y)称为y 的概率密度函数(probabilitydensityfunction) 或分布密度(dist
16、ributiondensity) 。因此,它的分布由密度函数所确定。若已知密度函数,则通过定积分可求得连续型随机变量在某壹区间的概率。总之, 随机变量可能取得的每壹个实数值或某壹范围的实数值是有壹个相应概率的,这就是所要研究和掌握的规律,这规律称为随机变量的概率分布。随机变量完整地描述了壹个随机试验,它不仅告诉我们随机试验的所有可能结果,而且告诉我们随机试验各种结果出现的可能性大小。这样,对随机试验概率分布的研究,就转成了对随机变量的概率分布的研究了。这里须注意事件发生的可能性和试验结果是不同的,前者是指事件可能发生的概率,后者是指特定试验结果,这种结果可能是概率大的事件发生了,也可能概率小的
17、事件发生了。概率分布指明了不同事件发生的可能性。随机变量是用来代表总体的任意数值的,随机变数是随机变量的壹组数据,代表总体的随机样本资料,它可用来估计总体的参数。第二节二项式分布壹、二项总体及二项式分布试验或调查中最常见的壹类随机变数是整个总体的各组或单位能够根据某种性状的出现和否而分为俩组。例如:小麦种子发芽和不发芽,大豆子叶色为黄色和青色,调查棉田盲蝽象为害分为受害株和不受害株等等。这类变数均属间断性随机变数,其总体中包含俩项,即:非此即彼的俩项,它们构成的总体称为二项总体(binarypopulation) 。为便于研究,通常将二项总体中的“此”事件以变量“1 ”表示,具概率 p;将“彼
18、”事件以变量“0”表示,具概率 q。因而二项总体又称为0、 1 总体,其概率则显然有:p+q=1 或 q=1- p如果从二项总体抽取n 个个体,可能得到y 个个体属于“此”,而属于“彼”的个体为n - y。由于是随机独立地从总体中抽取个体的,每壹次抽取的个体均有可能属于 “此”, 也可能属于 “彼”, 那么得到的y 个 “此” 个体的数目可能为0、 1、 2、 、n 个。 此处将 y 作为间断性资料的变量,y 共有 n+1 种取值,这 n+1 种取值各有其概率,因而由变量及其概率就构成了壹个分布,这个分布叫做二项式概率分布,简称二项式分布或二项分布(binomialdistribution)
19、。例如观察施用某种农药后供试5只蚜虫的死亡数目,记“死”为0,记“活”为1 ,观察结果将出现6 种事件,它们是 5 只全死、4 死 1 活、 3 死 2 活、 2 死 3 活、 1 死 4 活、 5 只全活,这6 种事1 分布件构成了壹个完全事件系,但6 个事件的概率不同,将完全事件系的总概率到 6 个事件中去,就是所谓的概率分布。如果将活的虫数y 来代表相应的事件,便得到了关于变量y 的概率分布。下面将给出二项分布的概率计算方法。二、二项式分布的概率计算方法已知大豆青子叶色由2 对隐性重叠基因控制,2 对基因中任壹显性基因都使子叶表现为黄色。具有壹对基因差异的大豆黄子叶品种和青子叶品种杂交后
20、,F1 代表现黄子叶,其F2 代按壹对等位基因分离,黄子叶表现显性,黄和青作3 1 比例分离。这里讨论杂种后代关于黄子叶的粒数(y)这个变量的概率分布,用来说明二项式分布的概率计算。从遗传学已知,杂种后代F2代按壹对等位基因分离,出现俩种子叶颜色,出现黄色子叶的概率为0.75 ,出现青色的概率为0.25 ,这是二项总体的概率分布。如果从这种总体抽取n 粒,那么得到y 粒是黄子叶的概率是多少呢?以二粒荚为例相当于抽取二粒种子,这时全部可能的结果将有四种:俩粒都是黄的(YY) ;第壹次是青的第二次是黄的(GY);第壹次是黄的第二次是青的(YG);以及俩粒都是青的(GG) 。现如不考虑种子位次而仅仅
21、考虑种子颜色,则以黄子叶种子数目作概率分布如下(以 Y 代黄子叶,以G 代青子叶):豆荚内黄子叶种子数目(y)012合计(GG)(YG+GY)(YY)豆荚机会数1214黄子叶种子出现y 次的概率P(y)1/166/169/161豆荚内黄子叶种子数是壹个随机变数,上述黄子叶种子(y)是豆荚内有二粒种子的随机变数的全部可能值,而P(y)则指其相应概率,这样就列出了出现黄子叶种子的概率分布。下面说明怎样计算这壹概率分布的。如果壹个豆荚仅有俩粒种子,这相当于进行俩次重复试验,出现第壹粒种子和出现第二粒种子是互不影响的,因此这俩个事件是独立事件。出现第壹粒种子是青的概率为1/4 ,出现第二粒种子仍是青的
22、概率也是1/4 ,同时俩粒种子都是青的概率应为俩个概率的积,即P(y=0)P(y=0) 指俩粒都是青的这壹事件的概率。同样出现俩粒都是黄的概率应为:P(y=2)之上计算概率应用了概率乘法法则。现要知道怎样计算豆荚内壹黄壹青事件的概率呢?这里须考虑出现壹黄壹青的位次问题。已知:P(YG)=P(GY)=因为这俩个事件是互斥的,所以出现壹黄壹青事件的概率应为之上俩个事件概率之和。于是应用概率加法得出P(y=1)出现黄子叶种子数量0, 1, 2 三个事件A0, A1, A2构成壹完全事件系,所以P(A0)+P(A1)+P(A2)同理,假定壹豆荚内有三粒种子,这时黄、青子叶种子位次的组合就有以下8种可能
23、的试验结果:在这 8 种可能机会可分为四组:(1) 完全没有黄子叶种子的(GGG) ,记为y=0 ,相应概率为:(2) 仅有壹粒黄子叶种子的(GGY, GYG, YGG),记为y=1 ,这时有3 种不同组合,每种组合的概率均为。由于这三个事件都是相互互斥的,所以三种概率之和应为:(3) 具有俩粒黄子叶种子的(YYG, YGY, GYY),记为y=2 ,这里同样有3 种组合,它们是相互互斥的,每种事件的概率为,所以三种事件概率之和应为:(4) 三粒种子均是黄子叶的(YYY),记为 y=3 ,相应概率为:从之上计算,能够了解每壹复合事件的概率必等于该事件出现的组合数目乘以单个事件的概率;而这壹复合
24、事件的可能组合数目则相当于从n 个物体中任取其y个物体的组合数。数学上的组合公式为:n 相当于豆荚内种子数,y 相当于黄子叶种子数。因此:(4·1)例如,y=2 , n=3 ,二项式中包含俩项,这俩项的概率为p、 q,且且(p+ q)n=1 ,由(4·1)可推知变量 y 的概率函数为:P(y)=(4 ·2)这壹分布律也称贝努里(Bernoulli) 分布,且有。例 4.1棉田盲蝽象为害的统计概率乃从调查2000 株后获得近似值p =0.35 。现受害 株 事 件 为 A, 其 概 率 为 p =0.35 , 未 受 害 株 事 件 为 对 立 事 件 , 其 概
25、率q =(1-0.35)=0.65 。这壹试验是能够重复的。假定做了n 次试验,即抽出n 株为壹个抽样单位,那么,试问出现有y 株是受害的,其概率应有多少?假定以 n=1 ,即抽出壹株为壹个抽样单位,那么,总体2000 个单位中有多少株受害?多少株未受害?这里已知P(A)=0.35 和 =0.65 ,总体的理论次数分布则以n 乘上述概率分布,即np 和 n(1- p),所以有2000 × 0.35=700 株受害和2000 ×0.65=1300 株未受害。如调查 5 株为壹个抽样单位,即n=5 ,则受害株数y=0 , 1, 2, 3, 4 和 5 的概率能够计算出来,如表4
26、.2。棉株受害数乃壹随机变数(y),能够计算变量y 相应的概率函数和其累计函数。表 4.2 调查单位为5 株的概率分布表(p= 0.35 , q= 0.65)受害株数概率函数P(y)P(y)F(y)nP(y)P(0)0.11600.116046.40P(1)0.31240.4284124.96P(2)0.33640.7648134.56P(3)0.18110.945972.44P(4)0.04880.994719.52P(5)0.00531.00002.12如果每次抽5 个单株,抽n =400 次,则理论上我们能够得到y=2的次数应为:理论次数=400 × P(2)=400
27、5; 0.3364=134.56( 次 )对于任意y,其理论次数为:理论次数= nP(y)(4 ·3)F(y)图 4.1 和图 4.2 给出了概率函数图和累积概率函数图。 例 4.2 某种昆虫在某地区的死亡率为40% ,即 p=0.4 ,现对这种害虫用壹种新药进行治疗试验,每次抽样10 头作为壹组治疗。试问如新药无疗效,则在10 头中死3 头、 2 头、 1 头,以及全部愈好的概率为多少?按上述二项分布概率函数式计算:7 头愈好,3 头死去概率:P(3)=(0.40) 3(0.60) 7=0.214998 头愈好,2 头死去概率:P(2)=(0.40) 2(0.60) 8=0.120
28、939 头愈好,1 头死去概率:P(1)=(0.40) 1(0.60) 9=0.0403110 头全部愈好的概率:P(0)=(0.40) 0(0.60) 10 =0.00605若问 10 头中不超过2 头死去的概率为多少?则应该应用累积函数,即= P(0)+ P(1)+ P(2)=0.00605+0.04031+0.12093=0.16729若计算不超过壹头死去的概率则= P(0)+ P(1)=0.00605+0.04031=0.04636这壹试验结果说明在100 次试验中由于偶然原因(即不加新药治疗)只会出现4.6 次, 即这壹事件(10 头中仅死1 头及少于1 头的事件)的概率在20 次中
29、约只有壹次。三、二项式分布的形状和参数f( y)受害株数(y)图 4.3 棉株受盲椿害的概率函数f(y)图(p=0.5, n=5株 )上述棉株受害概率如p=1/2 ,则未受害概率q=(1- p)=1/2 ,这时受害株的概率分布将表现为p= q 的形式。 如图 4.1 壹样,可绘于图4.3 以作比较。从图4.1和 4.3 可见出,如p= q,二项式分布呈对称形状,如p q ,则表现偏斜形状。但从理论和实践检验,当 n 很大时即使p q, 它也接近对称形状。所以这壹理论分布是由 n 和 p 俩个参数决定的。凡描述壹个总体分布,平均数和方差(或标准差)俩个参数是重要的。例如抽取5 株中受害株数的多少
30、(y)作为统计指标的话,从总体中能够抽取的所有样本均有壹个y,这样所有的y 构成了壹个新总体,该总体也属于二项式总体,其平均数、方差和标准差如下式(4·4)该总体的概率计算方法同于前述的二项式总体,只是由于统计指标的变化,使平均数和标准差有所不同。例如,上述棉田受害率调查结果,n=5 , p=0.35 ,所以可求得总体参数为:=5× 0.35=1.75 株, = 株。之上平均数和标准差系指从二项总体抽出n 个个体的样本总和数(个数)分布的平均数和标准差。如果 n 适当大,例如,大于30, p 值又不过于小,例如不靠近0 值,且且np及 nq 均不少于5 时,那么,这个二项式
31、分布将趋近于下面即将介绍的正态分布,具有参数= np 和。四、多项式分布若总体内包含几种特性或分类标志,能够将总体中的个体分为几类,例如在给某壹人群使用壹种新药,可能有的疗效好,有的没有疗效,而另有疗效为副作用的,象这种将变数资料分为3 类或多类的总体称为多项总体,研究其随机变量的概率分布可使用多项式分布(multinomialdistribution) 。设总体中共包含有k 项事件,它们的概率分别为p1、 p2、 p3、 p k,显然p1+ p2+ p3+ + pk=1 。若从这种总体随机抽取n 个个体,那么可能得到这k 项的个数分别为y1、y2、 y3、 y k,显然y1+y2+y3+yk
32、= n。那么得到这样壹个事件的概率应该是什么呢?根据数学推导,这样壹个事件的概率理论上应为:(4·5)这是多项式展开式中任意项(k 项 )的概率函数,这壹概率分布称为多项式分布。如果是 3 项式的概率分布,那么例 4.3某药对病人有效的概率为1/2 ,对病人无效的概率为1/3 ,有副作用的概率为 1/6 ,若随机抽取2 个使用该药的病人,那么我们的结果可能包括这样几种事件: 2 个病人有副作用;壹个无效、壹个有副作用;俩个无效;壹个有效、壹个有副作用;壹个有效、壹个无效;俩个均有效。这几种事件的概率分别为多少呢?能够使用上述的概率分布公式来计算,如表4.3。表 4.3 多项式分布的概
33、率计算变量概率及其计算(y1、y2、y3)P(y1、 y2、y3)(0,0,2)(0,1 ,1)(0,2,0)(1 ,0,1)(1 ,1 ,0)(2,0,0)五、泊松分布二项分布的壹种极限分布应用上述(4 · 2)二项分布时,往往遇到壹个概率p 或 q 是很小的值,例如小于0.1 ,另壹方面n 又相当大,这样之上二项分布必将为另壹种分布所接近,或者为壹种极限分布。这壹种分布称泊松概率分布,简称泊松分布(Poissondistribution) 。如将 np = m ,则接近分布如下式:y=0, 1, 2,(4·6)e=2.71828 为自然对数的底数。凡在观察次数n(n 相
34、当大)中,某壹事件出现的平均次数m(m 是壹个定值)很小,那么,这壹事件出现的次数将符合泊松分布。这壹分布在生物学研究中是经常遇到的,例如,昆虫和植物种类在壹定面积的分布,病菌侵害作物的分布以及原子衰变的规律等随机变数。泊松分布的平均数、方差和标准差如下式:y图 4.4 不同 m 值的泊松分布, , (4 ·7)这壹分布包括壹个参数m , 由 m 的大小决定其分布形状如图4.4。当 m 值小时分布呈很偏斜形状,m 增大后则逐渐对称,趋近于以下即将介绍的正态分布。 例 4.41907 年 Student 氏进行以血球计计数酵母细胞精确度试验。如这种计数技术是有效地合适,则在每壹平方格的
35、细胞数目理论上应作为壹个泊松分布。表 4.4 是从 1mm 2分为 400 个平方格的结果。总共计数的细胞数为1872 个,因之平均数m =1782 400=4.68 。 理论次数须从泊松分布的概率计算,即从(q+ p)n的极限为:e-m(1+ m+)其中y=0 , 1, 2, 3,(4·8)表 4.4 血球计所计数的每平方格内酵母细胞数酵母细胞数012345678次数2043538670543718理论次数3.7117.3740.6563.4174.1969.4454.1636.2121.18酵母细胞数910111213141516总次数10522400理论次数11.025.162
36、.190.860.310.100.030.01400.00本例 m=4.68 , e-m=(2.71828) -4.68 =0.009275 , 0.009275400=3.713.71 是理论次数第壹项,其他各理论次数均可按(4 ·8)计算。概率值乘以400 得理论次数。本例标准差估计值为=2.16 。泊松分布有壹特性,即2 个或 2 个之上的泊松分布之和,也是壹个泊松分布,因此 2 个或 2 个之上事件各独立地服从泊松分布时,能够将其合且,且求其平均数和标准差。第三节正态分布正态分布(normaldistribution) , 是连续性变数的理论分布。在理论和实践问题上都具有非常
37、重要意义。首先,客观世界确有许多现象的数据是服从正态分布的,因之它能够用来配合这些现象的样本分布从而发现这些现象的理论分布。例如我们在日常生活中发现许多数量指标总是正常范围内有差异,偏离正常,表现过高或过低的情况总是比较少,而且越不正常的可能性越少,这就是所谓的常态或称为“正态” , 能够用正态分布的理论及由正态分布衍生出来的方法来研究。壹般作物产量和许多经济性状的数据均表现属正态分布。其次,在适当条件下,它可用来做二项分布及其它间断性或连续性变数分布的似近分布,这样就能用正态分布代替其它分布以计算概率和进行统计推论。第三,虽然有些总体且不做正态分布,但从总体中抽出的样本平均数及其它壹些统计数
38、的分布,在样本容量适当大时仍然趋近正态分布,正态分布,然后述及正态分布的特性,最后介绍概率计算方法。壹、二项分布的极限正态分布现以二项式分布导出正态分布,因为后者是前者的极限分布。之上述二项分布棉株受害率为例,假定受害概率p =1/2 ,那么,p= q=1/2 。现假定每个抽样单位包括 20 株,这样将有21 个组,其受害株的概率函数,于是概率分布计算如下:=0.00000+0.00002+0.00018+ +0.00002+0.00000现将这概率分布绘于图4.5 。从图4.5 见出它是对称的,分布的平均数和方 差 为 := np =20(1/2)=10( 株 ) , 图 4.5 棉株受害率
39、(0.5+0.5) 20分布图(实线表示二项= npq =20(1/2)(1/2)=5( 株 )2。式概率分布,虚线表示接近的正态分布曲线)如p= q,不论n 值大或小,二项分布的多边形图必形成对称;如p q,而 n 很大时, 这多边形仍趋对称。多边y形是许多直线连接相邻组组中值次数的点形成的,倘n 很大时,组数为(n+1) 组,组距变为非常小,连接邻组的各个直线于是变得很短,而多边形的边数也相应加多了。倘 n 或组数增加到无穷多时(n ),每个组的直方形都壹壹变为纵轴线,连接的直线也壹壹变为点了。这时多边形的折线就表现为壹个光滑曲线。这个光滑曲线在数学上的意义是壹个二项分布的极限曲线。二项分
40、布的极限曲线属于连续性变数分布曲线。这壹曲线壹般称之为正态分布曲线或正态概率密度曲线。能够推导出正态分布的概率密度函数为:fN(y)y 是所研究的变数;N(y)是某壹定值y 出现的函数值,壹般称概率密度函数,相当于曲线 y 值的纵轴高度这里N(y)中的N 是专指正态曲线而言的; 3.14159 e=2.71828 ; 为总体参数,表示所研究总体平均数,不同正态分布能够有不同的,但某壹定总体的是壹常数。为总体参数,表示所研究总体标准差,不同正态分布能够有不同的,但某壹定总体的是壹常数。这里 y 是从负无穷大到正无穷大的数值区间中的壹个点,讨论变量处在这个点的概率是没有意义的,而且从正态总体抽取的
41、变数资料的每壹个观察值均是从具有壹定概率的数值区间中抽取的,所以讨论正态变数在某壹取值区间的概率才有意义,故这里将(4 ·9)称为概率密度函数,而非概率函数,以示区别于离散型分布的概率函数。(4·9)式的函数图见图4.6。2图 4.6 正态分布曲线图(平均数为,标准差为)3113图 4.7 标准正态分布曲线(平均数为0,标准差为1)参数和有如下的数学表述:(4·10)为简化计,壹般以壹个新变数u 替代 y 变数,即将y 离其平均数的差数,以为单位进行转换,于是或(y-)。 u 称为正态离差,由之可将(4 ·9)式标准化为:(4·11)(4
42、183; 11)称为标准化正态分布方程,它是参数=0 , 1 时的正态分布(图4.7)。记作N (0 , 1 ) 。由于它具有最简单形式,各种不同平均数和标准差的正态分布均能够经过适当转换用标准化分布表示出来。所以下节将用它计算正态曲线的概率。二、正态分布曲线的特性1 .正态分布曲线是以y =为对称轴,向左右俩侧作对称分布,所以它是壹个对称曲线。从所竖立的纵轴f N(y =) 是最大值,所以正态分布曲线的算术平均数、中数和众数是相等的,三者均合壹位于点上。2 . 正态分布曲线以参数和的不同而表现为壹系列曲线,所以它是壹个曲线簇而不仅是壹个曲线。确定它在横轴上的位置,而确定它的变异度,不同和的正
43、态总体具有不同的曲线和变异度,所以任何壹个特定正态曲线必须在其和确定后才能确定。图3 .8 和 4.9 表示这个区别。图 4.8 标准差相同(1)而平均数不同图4.9 平均数相同(0)而标准差不同11(=0 、 =1 、 =2) 的三个正态分布曲线(=1 、 =1.5 、 =2) 的三个正态分布曲线323. 正态分布资料的次数分布表现为多数次数集中于算术平均数附近,离平均数越远,其相应的次数越少;且在左右相等|范围内具有相等次数;在| 3 之上其次数极少。4. 正态曲线在|=1 处有“拐点”。曲线俩尾向左右伸展,永不接触横轴,所以当y±,分布曲线以 y 轴为渐近线,因之曲线全距从-到
44、+。5. 正态曲线和横轴之间的总面积等于1 , 因此在曲线下横轴的任何定值,例如从 y= y1到 y= y2 之间的面积,等于介于这俩个定值间面积占总面积的成数,或者说等于y落于这个区间内的概率。正态曲线的任何俩个y 定值ya和yb之间的面积或概率乃完全以曲线的和而确定的。详细数值见附表2 ,下面为几对常见的区间和其相对应的面积或概率的数字:区间± 1 面积或概率=0.6827± 2=0.9545± 3=0.9973± 1.960=0.9500± 2.576=0.9900上述关系是正态分布的理论结果,从实际试验数据能够证实这种关系。例如,上章水
45、稻 140 行产量资料的样本分布表现出接近正态分布,其平均数()、标准差(s)以及离均差为1 、 2 和 3 个标准差的区间所包括的次数列于表4.5。 实验的结果和正态分布的理论结果很相近。表 4.5140 行水稻产量在±1s,±2s,±3s范围内所包括的次数表± ks数值 (g)区间 (g)区间内包括的次数次数%± 1s157.9±36.4121.5 194.59970.71±2 s157.9±72.885.1 230.713495.71±3 s157.9±109.248.7 267.1140
46、100.00三、计算正态分布曲线区间面积或概率的方法在壹个连续性随机变数中,不能够计算某壹定值的概率,而只能计求某壹区间或范围的概率,例如,计算水稻产量每亩达380 公斤之上的概率或从380 500 公斤区间的概率等。壹定区间概率的表示方法,壹般采用下述符号:倘壹随机变数y 取 a 和 b 俩个定值时,而a< b,其概率表示为:P(a< y b)或简写为P(a< y< b)(4 ·12)在正态分布曲线下,y 的定值从y= a 到y= b 间的概率可用曲线下区间的面积来表示,或者说,用其定积分的值表示,如图4.10 所示的面积。P(a< y b)=(4 &
47、#183;13)因为正态分布曲线的全距从- 到 + ,同样能够计算曲线下从-到y 的面积,其公式如下:FN(y)=(4 ·14)这里FN(y)称为正态分布的累积函数,具有平均数和标准差。现如给予变数任何壹定值,例如a,那么,能够计算y a 的概率为FN (a),即P(y a)= FN(a)(4·15)采用这种方法,如果a 和b(a< b)是 y 的俩个定值,则其区间概率可从下式计算:P(a< y b)= FN (b)-F N(a)(4 ·16)正态分布的密度函数fN(y)是按y 值将累积函数FN(y)求其导数得之。根据(4·14)当 y=-
48、,FN(- )=0 ,当y=+ ,FN(+ )=+1( 图 4.11) 。虽然正态分布曲线是从-到 + ,但实际应用上,如 y 值从 (3)到 (3)范围内,即相当于6 个范围内,FN(y)值即能够相当于差不多从0 到接近于1 。现将 y 值从 (3)到 (3)范围内FN(y)的值,以0.01 为壹间隔列于附表2。从该表能够计算出任何从- 到某壹定值ya的概率或从y=a 到 y= b 区间的概率。图 4.11 正态分布的累积函数FN(y)长度A= P(a< y b )由于不同总体具有不同的和,为了便于计算,可转换为标准化正态分布方程式(4·11), 即以 u 变数替代y 变数以
49、计算概率。u 变数具有正态分布特性,具 =0 和 =1 。因此凡要计算任何壹个正态分布的概率只须将y 转换为 u 值,然后查附表2 便能够决定 y 落于某壹给定区间的概率。下面举出几例说明计算方法。 例 4.4 假定 y 是壹随机变数具有正态分布,平均数=30 ,标准差=5 ,试计算小于26 ,小于 40 的概率,介乎26 和 40 区间的概率以及大于40 的概率。首先计算:P(y 26)= FN (26)计算 FN(26) 必须先将y 转换为 u 值。u=查附表 2,当 u =-0.8 时,FN(26)=0.2119 ,说明这壹分布从-到26 范围内的变量数占全部变量数的21.19% ,或者
50、说,y 26 概率为 0.2119.P(y 40)= Fn (40)u=查附表 2 ,当 u=+2.0 时,FN(40)=0.9773 ,这指出从-到40 范围内的变量数占全部变量数的97.73% ,或者说,y 40 概率为fN0(.y9)773 。计算:P(26 < y 40)= FN(40)-FN(26)=0.9773-0.2119=0.7654, 或者写为P(26< y 40)= P(-0.8 < u 2.0)=0.9773-0.2119=0.7654。计算:P(y> 40)=1 -P(y 40)=1-0.9773=0.0227之上计算参见图4.12 。fN(y)
51、P(26 y 40) 0.765440) 0.9773图 4.12 概率计算图示 P(y 例 4.5 在应用正态分布时,经常要讨论随机变数y 离其平均数的差数大于或小于若干个值的概率。例如计算离均差绝对值等于小于和等于大于1 的概率为:P( y )=0.84134-0.15866=0.68268,或简写为P(| )=0.6827P(| )=1-0.6827=0.3173相应地,离均差绝对值等于小于2、等于大于2、等于小于3 和等于大于3 的概率值为:P(| 2)= P( y )= P(-2 u +2)=0.9545P(| 2)=1-0.9545=0.0455P(| 3)= P() y ()=
52、P(-3 u +3)=0.9973P(| 3)=1-0.9973=0.0027之上结果解释了正态分布曲线的概率特性,可参考图图 4.13 离均差的绝对值4.13。P( 2 u 2) 0.95451,2 和 1.96 的概率值例 4.6 计算正态分布曲线的中间概率为0.99 时,其 y或 u 值应等于多少?因为正态分布是对称的,故在曲线左边从-到 -u 的概率和在曲线右边从u 到的概率都应等于 1/2(1-0.99)=0.005 。查附表3, u=-2.58 时,FN(y)=0.00494 0.005 。 于是知,当±2.58 时,在其范围内包括99% 的变量,仅有1%变量在此范围之外
53、。上述结果写作:P(| 2.58)= P(|u| 2.58)=0.01P(| 2.58)= P(|u| 2.58)=0.99同理可求得:P(| 1.96)= P(|u| 1.96)=0.05P(| 1.96)= P(|u| 1.96)=0.95之上P(| 2.58) 乃正态曲线下左边壹尾y 从 -到y1=2.58 上的面积和右边壹尾 y 从y2 =2.58 到上的面积之和,亦可写成:P(| 2.58)= P(y 2.58) +P (y 2.58)同理, P(| 1.96) 亦可写成:P(| 1.96)= P(y 1.96) +P (y 1.96)之上俩式等号右侧的前壹项为左尾概率,后壹项为右尾概率,其和概率称为俩尾概率值。由于俩尾概率值经常应用,为减少计算的麻烦,在附表列出了俩尾概率取某壹值时的临界u 值 (正态离差u 值 ),可供直接查用。例如,可查得P=0.01时 u =2.5758 , P=0.05
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业正规合同范本
- 别墅购销合同范本
- 信用担保贷款合同范本
- 制作人合同范本
- 单位房屋租用合同范本
- 中介用代管合同范本
- 农药国际销售合同范本
- 关于工地买卖合同范例
- 制作安装劳务合同范本
- 北京车辆 合同范例
- T-YACX 002-2024 栀子花茶团体标准
- 安全评估报告范文(共10篇)
- 《商业空间设计》教案课程
- 2024-2025学年初中劳动七年级下册人教版教学设计合集
- 口腔科放射防护制度
- 2024年公开招聘事业单位工作人员报名登记表
- 微观经济学:绪论
- 2024年全国高考数学试题及解析答案(新课标Ⅱ卷)
- 2024年中考语文满分作文6篇(含题目)
- 2024年河南郑州航空港经济综合实验区招考高频500题难、易错点模拟试题附带答案详解
- 风动和电动工具市场洞察报告
评论
0/150
提交评论