田间试验与统计方法第四章理论分布和抽样分布_第1页
田间试验与统计方法第四章理论分布和抽样分布_第2页
田间试验与统计方法第四章理论分布和抽样分布_第3页
田间试验与统计方法第四章理论分布和抽样分布_第4页
田间试验与统计方法第四章理论分布和抽样分布_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章 理论分布与抽样分布第一节 事件与概率第二节 概率分布第三节 二项式分布第四节 正态分布第五节 抽样分布一、事件件(一)必必然现象象与随机机现象必然现象象(inevitablephenomena)或确定性现现象(definitephenomena):结果可预预言,确确定的,必然的的,可重重复例,标准准大气压压下,水水加热到到100C必然沸腾腾随机现象象(randomphenomena)或不确定性性现象(indefinite phenomena):结果事前前不可预预言,呈呈偶然性性、不确确定性例,种子子发芽,抛硬币币随机现象象或不确确定性现现象,有有如下特点:(1)在在一定的的条件实实现时

2、,有多种种可能的的结果发发生,事事前人们们不能预预言将出出现哪种种结果;对一次次或少数数几次观观察或试试验而言言,其结结果呈现现偶然性性、不确确定性;(2)但在相同同条件下下进行大大量重复复试验时时,其试试验结果果却呈现现出某种种固有的的特定的的规律性性频率的稳稳定性,通常称称之为随随机现象象的统计计规律性性。(二)随随机试验验与随机机事件1、随机机试验通常我们们把根据据某一研研究目的的 ,在在一定定条件下下对自然然现象所所进行的的观察或或试验统统称为试验(trial)。而一个试试验如果果满足下下述三个个特性,则则称称 其为为一一个随机试验验(random trial),简简称试验:(1)试试

3、验可以以在相同同条件下下多次重复进行;(2)每每次试验验的可能能结果不不止一个个 ,并并且事先先知道会会有哪些些可能的的结果;(3)每每次试试验总是是恰好出出现这些些可能结结果中的的一个,但在在一次试试验之前前却不能能肯定这这次试验验会出现现哪一个个结果。例如小麦麦发芽试试验,抛抛硬币。2、随机机事件随机试验验的每一一种可能能结果,在一定定条件下下可能能 发生生,也可可 能不不发发生,称称为随机事件件(randomevent),简称事事件件(event),通常用A、B、C等来表示示。(1)基本事事件我 们把把不不 能再再分分的事件件称为基本事件件(elementary event) ,也也称称

4、 为样本点(samplepoint)。例如,在在编号为为1、2、3、20的数字中中随机抽抽取1个,有20种不同的的可能结结果:“ 取得得一一 个编编号号 是1”、“ 取得得一个编编号是2”、“取得得一个编编号是10”,这10个事件都都是不可可能再分分的事件件,它们们都是基基本事件件。由若干个个基本事事件组合合而成的的事件称称为复合事件件(compoundevent)。如“取得一一个编号号是2的倍数”是一个个复合事事件,它它由“取取得一个个编号是是2 ”、 “是是4”、“是6、“是8”“是20”10个基本事事件组合合而成。(2)必必然事件件我们把在在一定条条件下必必然会发发生的事事件称为为必然事

5、件件(certainevent),用表表示。其其概率为为1例如,标标准大气气压下,水加热热到100C必然沸腾腾,就是是一个必必然事件件。(3)不不可能事事件我们把在在一定条条件下不不可能发发生的事事件称为为不可能事事件(impossibleevent),用表表示。其其概率为为0例,没有有生活能能力的种种子播种种后会出出苗,就就是一个个不可能能事件。必然事件件与不可可能事件件实际上上是确定定性现象象,即它它们不是是随机事事件,但但是是 为了了方便起起见,我我们把它它们看作作为两个个特殊的的随机事事件。积事件AB和事件A+BABAB互斥事件件对立事件件ABA+B, “或或A发生,或或B发生”。AB

6、, “A和B同时发生生或相继继发生”AB=V,事件A和B互斥或互互不相容容A+B=U,AB=V,事件B为事件A的对立事事件,并并记B为事件间的的关系二 、概概率率研究随机机试验,仅知道道可能发发生哪些些随机事事件是不不够的,还需了了解各种种随机事事件发生生的可能性大小,以以揭示这这些事件件的内在在的统计计规律性性,从而而指导实实践。 这就要求求有一个个能够刻划事件件发生可可能性大大小的数数量指标标,这指标标应该是是事件本本身所固固有的,且不随随人的主主观意志志而改变变,人们们称之为概概率(probability)。事件A的概率记记为P(A)。 (一)概概率的统统计定义义思考:投掷一枚枚硬币,出

7、现正正面的概概率是多多大?(0表示示反面,1表示示正面)反复做做它,那那么所有有出现正正面的结结果平均均值是多多少?英国数学学家皮尔尔逊做24000次抛硬币币试验正面向上上12012次频率=随着试验验次数的的增多,正面朝朝上的频频率越来来越接近近0.5.二、概率率 例,表在相同条条件下盲盲蝽象在在某棉田田危害程程度的调调查结果果调查株数数n较多时的的稳定频频率才能能较好地地代表棉棉株受害害的可能能性统计学上上用n较大时稳稳定的p近似代表表概率。通过大大量实验验而估计计的概率率称为实验概率率或统计计概率,以表表示。此处P代表概率率,P(A)代表事件件A的概率,P(A)变化的范范围为01,即0P(

8、A)1。(二)概概率的的古典定定义概率的统统计定义义是在大大量的试验中以频率的稳稳定性为基础上上提出来来的。不需要做做试验,根据随随机事件件本身的特特性就可以确确定事件件出现的的概率,称为古古典概率率。古典概型型必须满满足以下下条件:随机试验验的全部部可能结结果(基基本事件件数)是是有限的;各基本事事件间是是互不相容容且发生是是等可能的。定义:P(A)m /nm为事件A中所包含含的基本本事件数数n为基本事事件总数数。例,在1、2、3、20这这20个个数字中中随机抽抽取1个个,求下下列事件件的概率率(1)A“抽抽得1个个数字小小于5”(2)B=“抽抽得1个个数字是是2的倍倍数”小概率事事件-随机

9、事事件的概概率表示示随机事事件在试试验中出出现的可可能性大大小。随随机事件件的概率率很小如如,小于于0.05或0.01或0.001小概率原原理-统计学学上,把把小概率率事件在在一次试试验中看看成是实实际不可可能发生生的事件件,称为为小概率率事件实实际不可可能性原原理,简简称小概概率原理理。这里的0.05或0.01称为小概概率标准准,农业业试验研研究中通通常使用用这两个个小概率率标准。小概率事事件实际际不可能能性原理理是统计计学上进进行假设检验验(显著著性检验验)的基基本依据据。(三)小小概率率事件实实际不可可能性原原理概率是事事件在试试验结果果中出现现可能性性大小的的定量计计量。它是度度量随机

10、机事件发发生的可可能性的的统计学学指标。是事件固固有的属属性,有有以下明明显的性性质:随机事件件A的概概率:0P(A)1必然事件件W的概概率为1,即P(W)=1不可能事事件(V)的概概率为0,即P(V)=0概率接近近于0(如P0.05)的的事件称称为小概概率事件件。(四)概概率的的性质第二节概概率率分布(probabilitydistribution)一、随机机变量二、概率率分布一、随机机变量(random variable)随机变量量是指随机机变数所所取的某某一个实实数值。表示随随机现象象结果的的变量,也就是是在随机机试验中中被测定定的量,所取得得的值称称为观察察值。例1:抛抛硬币试试验,两

11、两种结果果:用数“1”表示“币值面面向上”,“0”表示“国徽面面向上”把0,1作为变量量y的取值可以简单单地把抛抛硬币试试验用取取值为0,1的变量来来表示:P(y=1)=0.5,P(y=0)=0.5例2:用用“1”表示“能发芽芽种子”,其概概率为p;用“0”表示“不能发发芽种子子”,其其概率为为q。显然p+q=1,则P(y=1)=p,P(y=0)=q=1p。例3:用用变量y表示水稻稻产量,若y大于500kg的概率为为0.25,大于300kg且等于小小于500kg的概率为为0.65,等于小小于300kg的概率为为0.1。则用变量量y的取值范范围来表表示的试试验结果果为P(y300)=0.10,P

12、(300y500)=0.65,P(y500)=0.25。随机变量离散型连续型(与我们们前面所所讲的连连续型数数据和离离散型数数据的意意义一样样)(一)离散型随随机变量量-当试验验只有几几个确定定的结果果,并可可一一列列出,变变量y的取值可可用实数数表示,且y取某一值值时,其其概率是是确定的的,这种种类型的的变量称称为离散散型随机机变量。将这种变变量的所所有可能能取值及及其对应应概率一一一列出出所形成成的分布布称为离离散型随随机变量量的概率率分布:概率也可用函函数f(y)表述,称称为概率函数数。前面例1、例2中的y就是离散散型随机机变量,将其可可能取值值与对应应概率一一一列出出,即为为:常用概率

13、率分布表表或概率率分布图图表示图离离散型随随机变量量概率分分布图表离离散型型随机变变量的概概率分布布表离散型变变量概率的分分布函数数:离散型型变量概概率的向向上累积积。其公公式为,即随机机变量小小于等于于某一可可能值(x0)的概率率。离散型概概率分布布的例子子例:从100件产品品(其中中合格品品95件件,废品品5件)中任取取10件件,求每次抽抽到废品品数的概概率分布布。概率分布布表累积概率率分布表表(二)连续型随随机变量量(continuousrandomvariate)-对于随机机变量,若存在在非负可可积函数数f(y)(y),对任意意a和b(ab)都有P(ayb)=,则称称y为连续型随随机变

14、量量(continuousrandomvariate),f(y)称为y的概率密度度函数(probabilitydensityfunction)或分布密度度(distribution density)。上述例3中的y就是一个个连续型型随机变变量。概率密度度的图形形f(x),称为分布布曲线。概率是曲曲线下面面积!f(x)Xab概率密度度曲线f(x)与x轴所围成成的面积积为1分布函数数(或称为为累积分分布函数数)是随随机变量量X取得小于于x0的值的概概率概率密度度函数图图和概率率分布函函数图概率密度度函数图图概概率分分布函数数图或或或概率分布布曲线累累积分分布函数数图yp(x)yF(x)x1x2x2

15、x1P(x1xx2)=F(x2)F(x1)连续型随随机变量量概率分分布的性性质:分布密度度函数总总是大于于或等于于0,即即f(x)0;当随机变变量x取某一特特定值时时,其概概率等于于0;即即(c为任意实实数)因而,对对于连续续型随机机变量,仅研究究其在某某一个区区间内取取值的概概率,而而不去讨讨论取某某一个值值的概率率。第三节二二项项式分布布一、二项项总体及及二项式式分布二、二项项式分布布的概率率计算方方法三、二项项式分布布的形状状和参数数四、多项项式分布布一、二项项总体及及二项式式分布二项总体体(binary population),就是非非此即彼彼的两项项构成的的总体例:小麦种子子发芽和和

16、不发芽芽,大豆子叶叶色为黄黄色和青青色,调查棉田田危害分分为受害害株和不不受害株株等等。通常将二二项总体体中的“此”事事件以变变量“1”表示,具具概率p;将“彼”事件以以变量“0”表示,具具概率q。因而二项项总体又又称为0、1总体,其概率率则显然然有:p+q=1如果从二二项总体体进行n次重复抽抽样,设设出现“此”的的次数为为y,那么y的取值可可能为0、1、2、n,共有n+1种可能取取值,这这n+1种取值各各有其概概率,因因而由变变量y及其概率率就构成成了一个个分布,这个分分布叫做做二项式概概率分布布,简称二项分布布( binomial distribution)。B(n,p)二项总体体的抽样样

17、试验具具有重复性和和独立性性重复性是指每次次试验条条件不变变,即在在每次试试验中“此”事事件出现现的概率率皆为p独立性是指任何何一次试试验中“此”事事件的出出现与其其余各次次试验中中出现何何种结果果无关二、二项项式分布布的概率率计算方方法数学上的的组合公公式为:二项式中中包含两两项,这这两项的的概率为为p、q,并且p+q=1,可推知知变量y的概率函函数为:累积函数数F(y):变量小小于等于于y的所所有可能能取值的的概率之和和理论次数数:对于任任意y,理论次次数=nP(y)这一分布布律也称称贝努里( Bernoulli)分布,并有的泰勒展展开式为为:可以看到到,上式式右边的的每一项项即为二二项分

18、布布中变量量y取0、1、2、n时的概率率,又p+q=1,从而(p+q)n=1例4.1棉田盲危危害的统统计概率率乃从调调查2000株后获得得近似值值p=0.35。现受害害株事件件为A,其概率率为p=0.35,未受害害株事件件为对立立事件,其概率率q=(10.35)=0.65。如调查5株为一个个抽样单单位,即即n=5,则受害害株数y=0,1,2,3,4和5的概率可可以计算算出来,如果每次次抽5个单株,抽n=400次,则理理论上我我们能够够得到y=2的次数应应为:理论次数数=400P(2)=4000.3364=134.56(次)和其累计计函数表4.2调查单位位为5株的概率率分布表表(p=0.35,q

19、=0.65)受害株数数(y)受害株数数(y)图4.1棉株受危危害的概概率分布布图(p=0.35,n=5)图4.2棉株受危危害的累累积概率率函数图图(p=0.35,n=5)三、二项项式分布布的形状状和参数数如p=q,二项式式分布呈呈对称形形状,如如pq,则表现现偏斜形形状受害株数数(y)受害株数数(y)图4.1棉株受盲盲蝽象为为害的概概率分布布图(p=0.35,n=5)二项式分分布的参参数平均数、方差和和标准差差如下式式上述棉田田受害率率调查结结果,n=5,p=0.35,可求得得总体参参数为:=50.35=1.75株,株。四、多项项式分布布所谓多项总体体,是指将将变数资资料分为为3类或多类类的总

20、体体。例如在给给某一人人群使用用一种新新药,可可能有的的疗效好好,有的的没有疗疗效,而而另有疗疗效为副副作用的的,就是是三项分分布。多项总体体的随机机变量的的概率分分布即为为多项式分分布(multinomialdistribution)。五、泊松松分布二项分分布的一一种极限限分布( Poissondistribution )二项分布布中往往往会遇到到一个概率p或q是很小的值,例例如小于于0.1,另一方方面n又相当大大,这样的的二项分分布必将将为另一一种分布布所接近近,或者者为一种种极限分分布。这这一种分分布称泊泊松概率率分布,简称泊松分布布。令np=m,则泊松松分布如如下式:y=0,1,2,泊

21、松分布布的平均均数、方差差和和标准差差如如下式:m的大小决决定其分分布形状状。当m值小时分分布呈很很偏斜形形状,m增大后则则逐渐对对称。第四节正正态态分布一、二项项分布的的极限正态分分布二、正态态分布曲曲线的特特性三、计算算正态分分布曲线线区间面面积或概概率的方方法研究正态态分布的的意义:客观世界界的许多多现象的的数据是是服从正正态分布布规律的的。在适当条条件下,正态分分布可以以用来作作二项分分布及其其它间断断性变数数或连续续性变数数分布的的近似分分布。虽然某些些总体不不作正态态分布,但从总总体中随随机抽出出的样本本平均数数及其它它一些统统计数的的分布,在样本本容量适适当大时时仍然趋趋于正态态

22、分布。正态分布布一、二项项分布的的极限正态分分布以上述二二项分布布棉株受受害率为为例,假假定受害害概率p=1/2,那么,p=q=1/2。现假定定每个抽抽样单位位包括20株,这样样将有21个组,其其受害株株的概率率函数为为于是概率率分布计计算如下下:现将这概概率分布布绘于图图4.5。从图4.5看出它是是对称的的,分布布的平均均数和和方方差为为:=npq=20(1/2)(1/2)=5(株)2。=np=20(1/2)=10(株),如p=q,不论n值大或小小,二项项分布的的多边形形图必形形成对称称;如pq,而n很大时,这多边边形仍趋趋对称。可以推导导出正态态分布的的概率密密度函数数为:(49)其中,y

23、是所研究究的变数数;是概率密密度函数数;和为为总总体参数数,表表示所所研究总总体平均均数,表表示所研研究总体体标准差差参数和和有如下的的数学表表述(410)令可可将(49)式标准化化为:(411)上式称为为标准化化正态分分布方程程,它是是参数时的正态态分布(图4.7)。记作作N(0,1)。正态分布布的曲线线图-3-2-10123图4.6正态分布布曲线图图(平均数数为,标准差差为)图4.7标标准正态态分布曲曲线图(平均数数为为0,标准准差为为1)二、正态态分布曲曲线的特特点:曲线以平平均数为为对称轴轴,左右右对称;算术平均均数、中中数、众众数三位位合一;正态分布布曲线是是以平均均数和标标准差的的

24、不同而而表现为为一系列列曲线;正态分布布资料的的次数分分布表现现为多数数次数集集中在算算是平均均数附近近,距之之俞远,次数俞俞少;正态分布布曲线在在离开平平均数一一个标准准差处有有拐点,且曲线线是以x轴为渐进进线;正态分布布曲线与与x轴间的面面积为1,任何两两个x定值间的的面积或或概率由由平均数数和标准准差确定定。正态分布布图4.8标准差相相同(1)而平均数数不同(=0、=1、=2)的三三个正态态分布曲曲线图4.9平均数相相同(0)而标准差差不同(=1、=1.5、=2)的三个正正态分布布曲线例如,上上章水稻稻140行产量资资料的样样本分布布表现出出接近正正态分布布表4.5140行水稻产产量在1

25、s,2s,3s范围内所所包括的的次数表表三、计算算正态分分布曲线线区间面面积或概概率的方方法概率可用用曲线下下区间的的面积来表示,或者说,用其定定积分的的值表示示(413)同样可以以计算曲曲线下从从到y的面积,其公式式如下:(414)这里FN(y)称为正态态分布的的累积函数数,具有平平均数和和标准准差。A=P(ayb)fN(y)图4.10正态分布布密度函函数的积积分说明明图面积积A=P(ayb)现如给予予变数任任何一定定值,例例如a,那么,可以计计算ya的概率为为FN(a),即(415)如果a与b(a30就可以应应用这一一定理。平均数的的标准化化分布是是将上述述平均数数转转换为u变数。(423

26、)例4.9在在江江苏沛县县调查336个m2小地老虎虎虫危害害情况的的结果,=4.73头,=2.63,试问样样本容量量n=30时,由于于随机抽抽样得到到样本平平均数等等于或或小于4.37的概率为为多少?查附表2,P(u0.75)=0.2266,即概率率为22.66% (属属一尾概概率)。(二)两两个个独立样样本平均均数差数数的分布布假定有两两个正态态总体各各具有平平均数和和标准差差为, 和,从从第一个个总体随随机抽取取n1个观察值值,同时时独立地地从第二二个总体体随时机机抽取n2个观察值值。这样样计算出出样本平平均数和和标准差差,s1和,s2。从统计理理论可以以推导出出其样本本平均数数的差数数(

27、)的抽样分分布,具具有以下下特性:(1)如如果两两个总体体各作正正态分布布,则其其样本平平均数差差数()准确地遵遵循正态态分布律律,无论论样本容容量大或或小,都都有N(,)。(2)两两个样样本平均均数差数数分布的的平均数数必等于于两个总总体平均均数的差差数,即即(3)两两个独独立的样样本平均均数差数数分布的的方差等等于两个个总体的的样本平平均数的的方差总总和,即即其差数标标准差为为:(424)这个分布布也可标标准化,获得u值。(425)小结:若两个样样本抽自自于同一一正态总总体,则则其平均均数差数数的抽样样分布不不论容量量大小亦亦作正态态分布具具:若两个样样本抽自自于同一一总体,但并非非正态总总体,则则其平均均数差数数的抽样样分布按按中心极极限定理理在n1和n2相当大时时(大于于30)才逐渐渐接近于于正态分分布。若两个样样本抽自自于两个个非正态态总体,当n1和n2相当大、而与相相差差不太远远时,也也可近似似地

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论