版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章概率分布第三章概率分布1第一节事件与概率一、事件(一)必然事件在一定条件下必然会发生的事件称为必然事件(certainevent),用U表示。例如,在标准大气压下,水加热到100℃必然沸腾;步行条件下必然不可能到达月球等。(二)不可能事件在一定条件下不可能发生的事件称为不可能事件(impossibleevent),用V表示。例如,在满足一定孵化条件下,从石头孵化出雏鸡;种子发芽率不可能超过100%,第一节事件与概率一、事件精品资料精品资料你怎么称呼老师?如果老师最后没有总结一节课的重点的难点,你是否会认为老师的教学方法需要改进?你所经历的课堂,是讲座式还是讨论式?教师的教鞭“不怕太阳晒,也不怕那风雨狂,只怕先生骂我笨,没有学问无颜见爹娘……”“太阳当空照,花儿对我笑,小鸟说早早早……”第三章-概率分布-课件(三)随机事件在一定条件下可能发生,也可能不发生,称为随机事件(randomevent),简称事件(event),通常用A、B、C等来表示。(三)随机事件二、概率在相同条件下进行n次重复试验,如果随机事件A发生的次数为m,那么m/n称为随机事件A的频率(frequency);当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近某一数值p,那么就把p称为随机事件A的概率。在一般情况下,随机事件的概率p是不可能准确得到的。通常以试验次数n充分大时随机事件A的频率作为该随机事件概率的近似值。即P(A)=p≈m/n(n充分大)二、概率在相同条件下进行n次重复试验,如果随机事件A发生的次概率有如下基本性质:1、对于任何事件A,有0≤P(A)≤1;2、必然事件的概率为1,即P(U)=1;3、不可能事件的概率为0,即P(V)=0。概率有如下基本性质:1、对于任何事件A,有0≤P(A)≤1三、概率计算(一)事件的相互关系1、和事件事件A和事件B至少有一件发生而构成的新事件称为事件A和事件B的和事件,以A+B表示。2、积事件事件A和事件B同时发生,以A·B表示三、概率计算(一)事件的相互关系3、互斥事件事件A和事件B不能同时发生,A·B=V如新生儿男为A,女为B4、对立事件A和B必有一个发生,但二者不能同时发生,即A+B=U,A·B=V。B为A对立事件,可表示为A3、互斥事件5、独立事件A的发生与B没有关系如播种玉米时,一穴中播种2粒,第一粒发芽与否与第2位无关系6、完全事件系如果多个事件A1、A2…An两两排斥,每次必然发生其一,A1、A2…An称为完全事件。如随机抽取一位阿拉伯数字,数字0-9构成完全事件。5、独立事件(二)概率计算法则1、加法定理互斥事件A和B的和事件的概率等于事件A和B的概率之和,即P(A+B)=P(A)+P(B)例:调查某玉米田,一穗占67.2%,双穗占30.7%,空穗占2.1%,计算一穗株和双穗株的概率P(A+B)=P(A)+P(B)=0.672+0.307=0.979(二)概率计算法则1、加法定理推理1:A1、A2…An为n个互斥事件,其和事件的概率为:
P(A1+A2+…+An)=P(A1)+P(A2)+…+P(An)推理2:对立事件的A的概率为:P(A)=1-P(A)推理3:完全事件系的和事件的概率=1推理1:A1、A2…An为n个互斥事件,其和事件的概率为:2、乘法定理A和B为独立事件,则A与B同时发生的概率为:P(A·B)=P(A)·P(B)播种玉米时,每穴2粒,种子的发芽率为90%,求两粒种子均发芽和一粒种子发芽的概率。两粒种均发芽:P(A·B)=P(A)·P(B)=0.9×0.9=0.812、乘法定理一粒种子发芽的概率:P(A·B)+P(A·B)=P(A)·P(B)+P(A)·P(B)=0.9×0.1+0.1×0.9=0.18推理:如果A1、A2…An为彼此独立,则:
P(A1·A2·…·An)=P(A1)·P(A2)·…·P(An)一粒种子发芽的概率:四、概率分布(一)离散型变量的概率分布离散型随机变量x的一切可能取值xi(i=1,2,…),及其对应的概率pi,记作P(x=xi)=pi
i=1,2,…四、概率分布(一)离散型变量的概率分布离散型随机变量x的一切(二)连续型变量的概率分布连续型变量,可通过分组整理成频率分布表。如果从总体中抽取样本n相当大,则频率分布就趋于稳定,我们将它近似地看成总体概率分布。(二)连续型变量的概率分布连续型变量,可通过分组整理成频率分图4-1表2-7资料的分布曲线若概率分布密度函数为f(x),则x取值于区间[a,b]的概率为图中阴影部分的面积,即:P(a≤x<b)=图4-1表2-7资料的分布曲线若概率分布密度函数为f(x连续型随机变量概率分布性质:分布密度函数总是大于或等于0,即f(x)≥0;当随机变量x取某一特定值时,其概率等于0;即
(c为任意实数)
在一次试验中随机变量x之取值必在-∞<x<+∞范围内,为一必然事件。所以表示分布密度曲线下、横轴上的全部面积为1。连续型随机变量概率分布性质:分布密度函数总是大于或等于0,即第二节几种常见的理论分布一、二项分布在生物学研究中,我们经常碰到的一类离散型随机变量,如动物雄性还是雌性、种子发芽与不发芽、后代的成活与死亡等。这样的结果只能是非此即彼两种情况,构成对立事件。我们把这种非此即彼事件所构成的总体,称为二项总体,其分布称为二项分布。第二节几种常见的理论分布一、二项分布(一)二项分布的概率函数二项总体,具有的共同特征:(1)每次试验只有两个对立结果,记作A与A,它们出现的概率分别为p与q(q=1-p)(2)试验具有重复性和独立性。重复性是指每次试验条件不变,A出现的概率为p。独立性是指任何一次试验中事件A的出现与其余各次试验中出现的何种结果无关。(一)二项分布的概率函数二项总体,具有的共同特征:以x表示在n次试验中事件A出现的次数。x取的值为零和正整数:0,1,2,…,n,其概率分布函数为:P(X)为x的二项分布,记作B(n,p)。以x表示在n次试验中事件A出现的次数。x取的值为零和正整数:二项分布是因为Cnxpxqn-x恰好等于二项式(p+q)n按牛顿二项式展开含有px的相应各项:Excel二项分布计算方法:=BINOMDIST(x,n,p,false)说明:x为试验成功数;n为观察数或试验次数;p为概率;二项分布是因为Cnxpxqn-x恰好等于二项式(p+q)n按由于(p+q)n=1,上式可写为:由于(p+q)n=1,上式可写为:理论次数则以单位总数N乘以各项概率:理论次数=NP(x)二项分布的概率累积函数可用下式表示:理论次数则以单位总数N乘以各项概率:Excel二项分布的概率累积函数计算方法:=BINOMDIST(x,n,p,true)说明:x为试验成功数;n为观察数或试验次数;p为概率;相当于小于x的累积概率Excel二项分布的概率累积函数计算方法:(二)二项分布概率计算例1豌豆的红花纯合基因型和白花纯合基因型杂交后,在F2代红花与白花植株的比率为3:1,若每次随机观察4株,共观察100次,问得红花为0株、1株、2株、3株和4株的概率各为多少?解:红花概率0.75,白花概率0.25,观察数n=4代入公式(二)二项分布概率计算例1豌豆的红花纯合基因型和白花纯合基第三章-概率分布-课件例2:某批鸡种蛋的孵化率是0.90,今从该批种蛋中每次任选5个进行孵化,试求孵出小鸡的各种可能概率。解:n=5,p=0.9,q=0.1,每次孵化5个种蛋服从二项分布B(5,0.90)。0只小鸡:P(0)=C50p0q5=1×0.900×0.1051只小鸡:P(1)=C51p1q4=5×0.901×0.1042只小鸡:P(2)=C52p2q3=10×0.902×0.1033只小鸡:P(3)=C53p3q2=10×0.903×0.1024只小鸡:P(4)=C54p4q1=5×0.904×0.1015只小鸡:P(5)=C55p5q0=1×0.905×0.100例2:某批鸡种蛋的孵化率是0.90,今从该批种蛋中每次任选5第三章-概率分布-课件例3某小麦品种在田间出现自然变异植株的概率为0.0045,试计算:(1)调查100株,获得2株或以上变异的概率是多少?(2)期望有0.99的概率获得1株或1株以上的变异植株,至少应调查多少株?解:(1)0株:P(0)=C1000p0q100=1×0.00450×0.9955100=0.63701株:P(1)=C1001p1q99=100×0.00451×0.995599=0.28792株以上变异概率为:P(x≥2)=1-P(0)-P(1)=0.0751例3某小麦品种在田间出现自然变异植株的概率为0.0045,(2)应调查的株数满足P(0)=Cn0p0qn=0.010.9955n=0.01nlg0.9955=lg0.01n=lg0.01/lg0.9955=1021因此,期望有0.99概率得到1株或1株以上变异植株,应至少调查1021株。(2)应调查的株数满足P(0)=Cn0p0qn=0.01(二)二项分布的形状和参数1、二项分布的形状由n和p两个参数决定(1)当p值较小且n值不大时,图形是偏倚的。随着n值的增大,分布逐渐趋于对称。(2)当p值趋于0.5时,分布趋于对称。(二)二项分布的形状和参数1、二项分布的形状图4—9n值不同的二项分布比较图4—10p值不同的二项分布比较图4—9n值不同的二项分布比较图4—10p值不同的2、二项分布的参数总体平均数(次数):
μx=np总体标准差(次数):
σx=如例1,n=4,p=0.75,可求红花出现的株数为4×0.75=3株,σ=(4×0.75×0.25)1/2=0.866株二项百分数的平均数μp=p二项百分数的标准差σx=(pq/n)1/22、二项分布的参数二、泊松分布在生物学研究中,有许多事件出现的概率很小,而样本容量或试验次数却很大,即有很小的p值和很大的n值。这时,二项分布变成泊松(poisson)分布。如显微镜视野内染色体有变异的细胞计数、由突变引起的遗传病患的分布、田间小区内出现变异植株数、作物种子内杂草计数、单位容积中的细菌数目分布、家畜产怪胎数等都属于泊松分布。二、泊松分布在生物学研究中,有许多事件出现的概率很小,而样本若随机变量x(x=k)只取零和正整数值0,1,2,…,且其概率分布为:,k=0,1,……其中λ=np>0;e=2.7182…是自然对数的底数,则称x服从参数为λ的波松分布(Poisson‘sdistribution),记为P(λ)。泊松分布平均数μ=方差σ2=λ。利用这一特征,可以初步判断一个离散型随机变量是否服从泊松分布。若随机变量x(x=k)只取零和正整数值0,1,2,…,且其泊松分布的形状由参数λ确定。λ值愈小分布愈偏倚,随着λ的增大,分布趋于对称。当λ=20时分布接近于正态分布;当λ=50时,可以认为波松分布呈正态分布。所以在实际工作中,当λ≥20时就可以用正态分布来近似地处理波松分布的问题。泊松分布的形状由参数λ确定。λ值愈小分布愈偏倚,随着λ的增大不同λ的波松分布不同λ的波松分布泊松分布应用条件:小概率事件p<0.1,np<5。例1:为监测饮用水的污染情况,现检验某社区每毫升饮用水中细菌数,共得400个记录如下试分析饮用水中细菌数的分布是否服从波松分布。若服从,按泊松分布计算每毫升水中细菌数的概率及理论次数并将次数分布与泊松分布作直观比较。泊松分布应用条件:小概率事件p<0.1,np<5。经计算得每毫升水中平均细菌数x=0.500=λ,方差S2=0.496。两者很接近,故可认为每毫升水中细菌数服从波松分布。Excel计算:0次:=poisson(0,0.5,false)1次:=poisson(1,0.5,false)≥3次:1-poisson(2,0.5,true)False:符合条件的泊松概率密度函数True:符合条件的泊松累积分布概率经计算得每毫升水中平均细菌数x=0.500=λ,方差S2理论数=N×各p理论数=N×各p例2:某小麦品种在田间出现自然变异植株的概率为0.0045,试计算:(1)调查100株,获得2株或以上变异的概率是多少?(2)期望有0.99的概率获得1株或1株以上的变异植株,至少应调查多少株?解:λ=np=100×0.0045=0.45P(≥2)=1-poisson(1,0.45,true)=0.0755调查株数:e-λ=e-np=0.01n=-ln0.01/p=-LN(0.01)/0.0045=1023株例2:某小麦品种在田间出现自然变异植株的概率为0.0045,三、正态分布正态分布是一种很重要的连续型随机变量的概率分布。生物现象中有许多变量是服从或近似服从正态分布的,如家畜的体长、体重、产奶量、产毛量、血红蛋白含量、血糖含量等。许多统计分析方法都是以正态分布为基础的。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。因此在统计学中,正态分布无论在理论研究上还是实际应用中,均占有重要的地位。三、正态分布正态分布是一种很重要的连续型随机变量的概率分布。(一)正态分布的定义若连续型随机变量x的概率分布密度函数为其中μ为平均数,σ2为方差,则称随机变量x服从正态分布(normaldistribution),记为x~N(μ,σ2)。相应的概率累积函数为(一)正态分布的定义图4—2正态分布密度曲线图4—2正态分布密度曲线(二)正态分布的特征1、当x=μ时,f(x)值最大,所以正态分布曲线是以平均数μ为中心的分布。2、当x-μ的绝对值相等时,f(x)值也相等,所以正态分布是μ为中心向左右两侧对称分布3、(x-μ)/σ的绝对值越大,f(x)越小,但不会为04、正态分布曲线由μ和σ决定的。μ确定正态分布在x轴上的中心位置,σ确定正态分布的变异度。(二)正态分布的特征1、当x=μ时,f(x)值最大,所以正σ相同而μ不同的三个正态分布μ相同而σ不同的三个正态分布σ相同而μ不同的三个正态分布μ相同而σ不同的三个正态分布5、曲线在x=μ±σ处各有一个拐点,即曲线在(-∞,μ-σ)和(μ+σ,+∞)区间上是下凸的,在[μ-σ,μ+σ]区间内是上凸的;6、分布密度曲线与横轴所夹的面积为15、曲线在x=μ±σ处各有一个拐点,即曲线在(-∞,μ-σ)(三)标准正态分布由上述正态分布的特征可知,正态分布是依赖于参数μ和σ2,正态曲线之位置及形态随μ和σ2的不同而不同。这就给研究具体的正态总体带来困难,需将一般的N(μ,σ2)转换为μ=0,σ2=1的正态分布。我们称μ=0,σ2=1的正态分布为标准正态分布(standardnormaldistribution),记作N(0,1)。(三)标准正态分布由上述正态分布的特征可知,正态分布是依赖于令u=(x-μ)/σ,正态分布概率分布密度函数可标准化为:f(u)=相应的概率累积函数为F(ui)=P(u<ui)i令u=(x-μ)/σ,正态分布概率分布密度函数可标准化为:i对于u在区间[a,b]的概率,有ab对于u在区间[a,b]的概率,有ab(三)正态分布的概率计算正态分布的概率累积函数具有广泛应用,所以统计学家已计算好实际需要的各个F(u)值,列于附表1。在计算一般正态分布的概率时,只需将服从正态分布的随机变量x取值区间的上、下限,按u=(x-μ)/σ转换,并查附表1即可。附表1,左侧纵列表示a,上侧橫行表示b(三)正态分布的概率计算正态分布的概率累积函数具有广泛应用,如果手头没有附表1,可在Excel中输入“=NORMSDIST(数据)”即可查出。注意p(u)是指-∞到u例1,设u服从正态分布N(0,1),试求P(u<1),P(u>1),
P(-2.0<u≤1.5),P(|u|>2.58)。解:P(u<1)=F(1)=0.8413;P(u>1)=1-
P(u<1)=0.1587P(-2.0<u≤1.5)=F(1.5)-F(-2.0)=0.9104P(|u|>2.58)=P(u>2.58)+P(u<-2.58)
=1-F(2.58)+F(-2.58)=0.00988如果手头没有附表1,可在Excel中输入“=NORMSDIS例2,试计算概率值(1)P(μ-σ<x≤μ+σ)解:u1=(x-μ)/σ=-1u2==(x-μ)/σ=1P(μ-σ<x≤μ+σ)=P(-1<x≤1)(2)P(μ-2σ<x≤μ+2σ)(3)P(μ-3σ<x≤μ+3σ)(4)P(μ-1.96σ<x≤μ+1.96σ)(5)P(|x|>μ+1.96σ)(6)P(|x|>μ+2.58σ)例2,试计算概率值从上述计算可知,|u|>2.58概率是0.01,|u|>1.96是0.05,也就是说μ±1.96σ和μ±2.58σ范围内已分别包含了95%和99%的变量。例3,随机抽取20株小麦,其株高(cm)分别为82 79 85 84 86 84 83 82 83 83 84 81 80 81 82 81 82 82 82 80计算(1)小麦株高的95%正常值范围(2)株高≥85cm的概率从上述计算可知,|u|>2.58概率是0.01,|u|>1第三节抽样分布研究总体与从中抽取的样本之间的关系是统计学的中心内容。对这种关系的研究可从两方面着手,一是从总体到样本,这就是研究抽样分布(samplingdistribution)的问题;二是从样本到总体,这就是统计推断(statisticalinference)问题。统计推断是以总体分布和样本抽样分布的理论关系为基础的。为了能正确地利用样本去推断总体,并能正确地理解统计推断的结论,须对样本的抽样分布有所了解。第三节抽样分布研究总体与从中抽取的样本之间的关系是统计学一、样本平均数抽样分布由总体随机抽样(randomsampling)的方法可分为有返置抽样和不返置抽样两种。前者指每次抽出一个个体后,这个个体应返置回原总体;后者指每次抽出的个体不返置回原总体。对于无限总体,返置与否都可保证各个体被抽到的机会相等。对于有限总体,就应该采取返置抽样,否则各个体被抽到的机会就不相等。一、样本平均数抽样分布由总体随机抽样(randomsamp(一)样本平均数的分布设有一个总体,总体平均数为μ,方差为σ2,总体中各变数为x,将此总体称为原总体。现从这个总体中随机抽取含量为n的样本,样本平均数记为x。可以设想,从原总体中可抽出很多甚至无穷多个含量为n的样本。由这些样本算得的平均数有大有小,不尽相同,与原总体平均数μ相比往往表现出不同程度的差异。这种差异是由随机抽样造成的,称为抽样误差(samplingerror)。(一)样本平均数的分布设有一个总体,总体平均数为μ,方差为σ显然,样本平均数也是一个随机变量,其概率分布叫做样本平均数的抽样分布。由样本平均数x构成的总体称为样本平均数的抽样总体,其平均数和标准差分别记为μx和σx
。σx是样本平均数抽样总体的标准差,简称标准误(standarderror),它表示平均数抽样误差的大小。由抽样试验及统计学证明,样本平均数有以下性质:(1)样本平均数分布的平均数等于总体平均数,即μx=μ显然,样本平均数也是一个随机变量,其概率分布叫做样本平均数的(2)样本平均数分布的方差等于总体方差除以样本容量:样本平均数的标准误差:(3)如果从正态总体N(μ,σ2)进行抽样,其样本平均数x是一具有平均数μ、方差σ2/n的正态分布,记作N(μ,σ2/n)(4)若被抽样总体不是正态分布,但具有平均数μ、方差σ2,当样本容量n不断增大,样本平均数x的分布也越来越接近正态分布,且具有平均数μ、方差σ2/n,这叫做中心极限定理。这个性质对连续型变量或非连续型变量都适用。(2)样本平均数分布的方差等于总体方差除以样本容量:不论总体为何分布,只要样本容量n≥30,就可应用中心极限定理,认为样本平均数x的分布是正态分布。在计算样本平均数出现的概率时,样品平均数x可按下式进行标准化:不论总体为何分布,只要样本容量n≥30,就可应用中心极限定(二)样本平均数差数的分布设两个相互独立的正态总体,N1和N2,分别抽样,样本平均数差数分布的基本性质有:(1)样本平均数的平均数等于总体平均数的差数,即:μx1-x2=μ1-μ2(2)样本平均数差数的方差等于两样本平均数方差除以各自样本容量之和,即(二)样本平均数差数的分布设两个相互独立的正态总体,N1和N样本平均数差数的标准误:(3)从两个独立正态总体中抽出的样本平均数差数的分布,也是正态分布,并具有平均数μ1-μ2,方差,记作(μ1-μ2,)样本平均数差数的标准误:二、t分布前面在计算样本平均数分布和样本平均数差数分布的概率时,需要总体方差σ2为已知,或者σ2未知但样本容量较大(n≥30),用样本方差s2估计σ2。但在实际研究中,经常遇到总体方差σ2未知且样本容量不大(n<30)的情况,如果仍用s2估计σ2,这时标准差就不呈正态分布了,而是服从自由度df=n-1的t分布了,即:二、t分布前面在计算样本平均数分布和样本平均数差数分布的概率式中,Sx为样本平均数的标准误,是σx的估计值,即:t分布的概率密度函数为:第三章-概率分布-课件t分布的平均数μt=0(df>1)t分布的方差σt=df/(df-2)(df>2)t分布特征(1)t分布曲线是左右对称的,围绕平均数μt=0向两侧递降。(2)t分布受自由度df=n-1的制约,每个df都有一条t分布曲线(3)与正态分布相比,t分布的顶部偏低,尾部偏高,当n>30时,t分布与标准正态分布的区别很小;n>100时,t分布基本与标准正态分布相同;n→∞时,t分布与标准正态分布完全一致。t分布的平均数μt=0(df>1)图4-13不同自由度的t分布密度曲线图4-13不同自由度的t分布密度曲线对于不同自由度下t分布的两尾概率及其对应的临界t值已编制成附表3,即t分布表。该表第一列为自由度df,表头为两尾概率值,表中数字即为临界t值。例如,当df=15时,查附表3得两尾概率等于0.05的临界t值为=2.131,其意义是:P(-∞<t<-2.131)=P(2.131<t<+∞)=0.025;P(-∞<t<-2.131)+P(2.131<t<+∞)=0.05。对于不同自由度下t分布的两尾概率及其对应的临界t值已编制成附Excel计算t值公式为:=tinv(probability,df)如双尾概率0.05,df为10的t值为=tinv(0.05,10)=2.228单尾概率0.05,df为10的t值为=tinv(0.1,10)=1.812。将概率乘以2后,再用公式。当已知t时,用=tdist(t,自由度,1或2)1表示单尾概率,2表示双尾概率如t=2.571,df=5时=tdist(2.571,5,1)=0.025=tdist(2.571,5,2)=0.05Excel计算t值公式为:三、X2分布设有一平均数为μ、方差为σ2
的正态总体。现从此总体中独立随机抽取n个随机变量:x1、x2、…、xn,并求出其标准正态离差:记这n个相互独立的标准正态离差的平方和为X2:df=n-1三、X2分布设有一平均数为μ、方差为σ2的正态总体。现从χ2≥0,即取值范围是[0,+∞;分布密度曲线是随自由度不同而改变的一组曲线。随自由度的增大,曲线由偏斜渐趋于对称;χ2≥0,即取值范围是[0,+∞;图7-1几个自由度的概率分布密度曲线图7-1几个自由度的概率分布密度曲线附表4列出了各种自由度下的X2分布的一尾(右尾)概率,可供查找,如df=2时,X20.05=5.99,X20.01=9.21Excel计算X2公式为:=CHIINV(probability,df)=chiinv(0.05,2)=5.99当已知X2时,计算概率时可用=chidist(卡方值,自由度),如X2=0.05,df=2其概率为=chidist(0.05,2)=0.975309912附表4列出了各种自由度下的X2分布的一尾(右尾)概率,可供查四、F分布设从正态总体N(μ,σ2)中随机抽取样本含量为n
1和n2两个独立样本,其样本方差为s21和s22,则定义比值为F:
F=s21
/s22>1此F值具有df1=n1-1,df2=n2-1如果对一正态总体在特定的df1和df2进行一系列随机独立抽样,则所有可能的F值构成一个F分布。四、F分布设从正态总体N(μ,σ2)中随机抽取样本含量为nF分布下一定区间的概率列于附表5,可供查找。如df1=4,df2=10时,F0.05=3.48,F0.01=5.99,表示所得F值大于3.48的概率仅有5%,大于5.99的概率仅有1%。在Excel计算公式为:=finv(probability,degrees_freedom1,degrees_freedom2)Probability概率,degrees_freedom1分子自由度,degrees_freedom2分母自由度F0.05=FINV(0.05,4,10)=3.478F分布下一定区间的概率列于附表5,可供查找。如df1=4,d当F值已知时,求概率可用=Fdist(F,degrees_freedom1,degrees_freedom2)如已知F=3.71,df1=4,df2=10,求P(3.71)=?=FDIST(3.71,4,10)=0.042160047当F值已知时,求概率可用=Fdist(F,degrees_第三章概率分布第三章概率分布77第一节事件与概率一、事件(一)必然事件在一定条件下必然会发生的事件称为必然事件(certainevent),用U表示。例如,在标准大气压下,水加热到100℃必然沸腾;步行条件下必然不可能到达月球等。(二)不可能事件在一定条件下不可能发生的事件称为不可能事件(impossibleevent),用V表示。例如,在满足一定孵化条件下,从石头孵化出雏鸡;种子发芽率不可能超过100%,第一节事件与概率一、事件精品资料精品资料你怎么称呼老师?如果老师最后没有总结一节课的重点的难点,你是否会认为老师的教学方法需要改进?你所经历的课堂,是讲座式还是讨论式?教师的教鞭“不怕太阳晒,也不怕那风雨狂,只怕先生骂我笨,没有学问无颜见爹娘……”“太阳当空照,花儿对我笑,小鸟说早早早……”第三章-概率分布-课件(三)随机事件在一定条件下可能发生,也可能不发生,称为随机事件(randomevent),简称事件(event),通常用A、B、C等来表示。(三)随机事件二、概率在相同条件下进行n次重复试验,如果随机事件A发生的次数为m,那么m/n称为随机事件A的频率(frequency);当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近某一数值p,那么就把p称为随机事件A的概率。在一般情况下,随机事件的概率p是不可能准确得到的。通常以试验次数n充分大时随机事件A的频率作为该随机事件概率的近似值。即P(A)=p≈m/n(n充分大)二、概率在相同条件下进行n次重复试验,如果随机事件A发生的次概率有如下基本性质:1、对于任何事件A,有0≤P(A)≤1;2、必然事件的概率为1,即P(U)=1;3、不可能事件的概率为0,即P(V)=0。概率有如下基本性质:1、对于任何事件A,有0≤P(A)≤1三、概率计算(一)事件的相互关系1、和事件事件A和事件B至少有一件发生而构成的新事件称为事件A和事件B的和事件,以A+B表示。2、积事件事件A和事件B同时发生,以A·B表示三、概率计算(一)事件的相互关系3、互斥事件事件A和事件B不能同时发生,A·B=V如新生儿男为A,女为B4、对立事件A和B必有一个发生,但二者不能同时发生,即A+B=U,A·B=V。B为A对立事件,可表示为A3、互斥事件5、独立事件A的发生与B没有关系如播种玉米时,一穴中播种2粒,第一粒发芽与否与第2位无关系6、完全事件系如果多个事件A1、A2…An两两排斥,每次必然发生其一,A1、A2…An称为完全事件。如随机抽取一位阿拉伯数字,数字0-9构成完全事件。5、独立事件(二)概率计算法则1、加法定理互斥事件A和B的和事件的概率等于事件A和B的概率之和,即P(A+B)=P(A)+P(B)例:调查某玉米田,一穗占67.2%,双穗占30.7%,空穗占2.1%,计算一穗株和双穗株的概率P(A+B)=P(A)+P(B)=0.672+0.307=0.979(二)概率计算法则1、加法定理推理1:A1、A2…An为n个互斥事件,其和事件的概率为:
P(A1+A2+…+An)=P(A1)+P(A2)+…+P(An)推理2:对立事件的A的概率为:P(A)=1-P(A)推理3:完全事件系的和事件的概率=1推理1:A1、A2…An为n个互斥事件,其和事件的概率为:2、乘法定理A和B为独立事件,则A与B同时发生的概率为:P(A·B)=P(A)·P(B)播种玉米时,每穴2粒,种子的发芽率为90%,求两粒种子均发芽和一粒种子发芽的概率。两粒种均发芽:P(A·B)=P(A)·P(B)=0.9×0.9=0.812、乘法定理一粒种子发芽的概率:P(A·B)+P(A·B)=P(A)·P(B)+P(A)·P(B)=0.9×0.1+0.1×0.9=0.18推理:如果A1、A2…An为彼此独立,则:
P(A1·A2·…·An)=P(A1)·P(A2)·…·P(An)一粒种子发芽的概率:四、概率分布(一)离散型变量的概率分布离散型随机变量x的一切可能取值xi(i=1,2,…),及其对应的概率pi,记作P(x=xi)=pi
i=1,2,…四、概率分布(一)离散型变量的概率分布离散型随机变量x的一切(二)连续型变量的概率分布连续型变量,可通过分组整理成频率分布表。如果从总体中抽取样本n相当大,则频率分布就趋于稳定,我们将它近似地看成总体概率分布。(二)连续型变量的概率分布连续型变量,可通过分组整理成频率分图4-1表2-7资料的分布曲线若概率分布密度函数为f(x),则x取值于区间[a,b]的概率为图中阴影部分的面积,即:P(a≤x<b)=图4-1表2-7资料的分布曲线若概率分布密度函数为f(x连续型随机变量概率分布性质:分布密度函数总是大于或等于0,即f(x)≥0;当随机变量x取某一特定值时,其概率等于0;即
(c为任意实数)
在一次试验中随机变量x之取值必在-∞<x<+∞范围内,为一必然事件。所以表示分布密度曲线下、横轴上的全部面积为1。连续型随机变量概率分布性质:分布密度函数总是大于或等于0,即第二节几种常见的理论分布一、二项分布在生物学研究中,我们经常碰到的一类离散型随机变量,如动物雄性还是雌性、种子发芽与不发芽、后代的成活与死亡等。这样的结果只能是非此即彼两种情况,构成对立事件。我们把这种非此即彼事件所构成的总体,称为二项总体,其分布称为二项分布。第二节几种常见的理论分布一、二项分布(一)二项分布的概率函数二项总体,具有的共同特征:(1)每次试验只有两个对立结果,记作A与A,它们出现的概率分别为p与q(q=1-p)(2)试验具有重复性和独立性。重复性是指每次试验条件不变,A出现的概率为p。独立性是指任何一次试验中事件A的出现与其余各次试验中出现的何种结果无关。(一)二项分布的概率函数二项总体,具有的共同特征:以x表示在n次试验中事件A出现的次数。x取的值为零和正整数:0,1,2,…,n,其概率分布函数为:P(X)为x的二项分布,记作B(n,p)。以x表示在n次试验中事件A出现的次数。x取的值为零和正整数:二项分布是因为Cnxpxqn-x恰好等于二项式(p+q)n按牛顿二项式展开含有px的相应各项:Excel二项分布计算方法:=BINOMDIST(x,n,p,false)说明:x为试验成功数;n为观察数或试验次数;p为概率;二项分布是因为Cnxpxqn-x恰好等于二项式(p+q)n按由于(p+q)n=1,上式可写为:由于(p+q)n=1,上式可写为:理论次数则以单位总数N乘以各项概率:理论次数=NP(x)二项分布的概率累积函数可用下式表示:理论次数则以单位总数N乘以各项概率:Excel二项分布的概率累积函数计算方法:=BINOMDIST(x,n,p,true)说明:x为试验成功数;n为观察数或试验次数;p为概率;相当于小于x的累积概率Excel二项分布的概率累积函数计算方法:(二)二项分布概率计算例1豌豆的红花纯合基因型和白花纯合基因型杂交后,在F2代红花与白花植株的比率为3:1,若每次随机观察4株,共观察100次,问得红花为0株、1株、2株、3株和4株的概率各为多少?解:红花概率0.75,白花概率0.25,观察数n=4代入公式(二)二项分布概率计算例1豌豆的红花纯合基因型和白花纯合基第三章-概率分布-课件例2:某批鸡种蛋的孵化率是0.90,今从该批种蛋中每次任选5个进行孵化,试求孵出小鸡的各种可能概率。解:n=5,p=0.9,q=0.1,每次孵化5个种蛋服从二项分布B(5,0.90)。0只小鸡:P(0)=C50p0q5=1×0.900×0.1051只小鸡:P(1)=C51p1q4=5×0.901×0.1042只小鸡:P(2)=C52p2q3=10×0.902×0.1033只小鸡:P(3)=C53p3q2=10×0.903×0.1024只小鸡:P(4)=C54p4q1=5×0.904×0.1015只小鸡:P(5)=C55p5q0=1×0.905×0.100例2:某批鸡种蛋的孵化率是0.90,今从该批种蛋中每次任选5第三章-概率分布-课件例3某小麦品种在田间出现自然变异植株的概率为0.0045,试计算:(1)调查100株,获得2株或以上变异的概率是多少?(2)期望有0.99的概率获得1株或1株以上的变异植株,至少应调查多少株?解:(1)0株:P(0)=C1000p0q100=1×0.00450×0.9955100=0.63701株:P(1)=C1001p1q99=100×0.00451×0.995599=0.28792株以上变异概率为:P(x≥2)=1-P(0)-P(1)=0.0751例3某小麦品种在田间出现自然变异植株的概率为0.0045,(2)应调查的株数满足P(0)=Cn0p0qn=0.010.9955n=0.01nlg0.9955=lg0.01n=lg0.01/lg0.9955=1021因此,期望有0.99概率得到1株或1株以上变异植株,应至少调查1021株。(2)应调查的株数满足P(0)=Cn0p0qn=0.01(二)二项分布的形状和参数1、二项分布的形状由n和p两个参数决定(1)当p值较小且n值不大时,图形是偏倚的。随着n值的增大,分布逐渐趋于对称。(2)当p值趋于0.5时,分布趋于对称。(二)二项分布的形状和参数1、二项分布的形状图4—9n值不同的二项分布比较图4—10p值不同的二项分布比较图4—9n值不同的二项分布比较图4—10p值不同的2、二项分布的参数总体平均数(次数):
μx=np总体标准差(次数):
σx=如例1,n=4,p=0.75,可求红花出现的株数为4×0.75=3株,σ=(4×0.75×0.25)1/2=0.866株二项百分数的平均数μp=p二项百分数的标准差σx=(pq/n)1/22、二项分布的参数二、泊松分布在生物学研究中,有许多事件出现的概率很小,而样本容量或试验次数却很大,即有很小的p值和很大的n值。这时,二项分布变成泊松(poisson)分布。如显微镜视野内染色体有变异的细胞计数、由突变引起的遗传病患的分布、田间小区内出现变异植株数、作物种子内杂草计数、单位容积中的细菌数目分布、家畜产怪胎数等都属于泊松分布。二、泊松分布在生物学研究中,有许多事件出现的概率很小,而样本若随机变量x(x=k)只取零和正整数值0,1,2,…,且其概率分布为:,k=0,1,……其中λ=np>0;e=2.7182…是自然对数的底数,则称x服从参数为λ的波松分布(Poisson‘sdistribution),记为P(λ)。泊松分布平均数μ=方差σ2=λ。利用这一特征,可以初步判断一个离散型随机变量是否服从泊松分布。若随机变量x(x=k)只取零和正整数值0,1,2,…,且其泊松分布的形状由参数λ确定。λ值愈小分布愈偏倚,随着λ的增大,分布趋于对称。当λ=20时分布接近于正态分布;当λ=50时,可以认为波松分布呈正态分布。所以在实际工作中,当λ≥20时就可以用正态分布来近似地处理波松分布的问题。泊松分布的形状由参数λ确定。λ值愈小分布愈偏倚,随着λ的增大不同λ的波松分布不同λ的波松分布泊松分布应用条件:小概率事件p<0.1,np<5。例1:为监测饮用水的污染情况,现检验某社区每毫升饮用水中细菌数,共得400个记录如下试分析饮用水中细菌数的分布是否服从波松分布。若服从,按泊松分布计算每毫升水中细菌数的概率及理论次数并将次数分布与泊松分布作直观比较。泊松分布应用条件:小概率事件p<0.1,np<5。经计算得每毫升水中平均细菌数x=0.500=λ,方差S2=0.496。两者很接近,故可认为每毫升水中细菌数服从波松分布。Excel计算:0次:=poisson(0,0.5,false)1次:=poisson(1,0.5,false)≥3次:1-poisson(2,0.5,true)False:符合条件的泊松概率密度函数True:符合条件的泊松累积分布概率经计算得每毫升水中平均细菌数x=0.500=λ,方差S2理论数=N×各p理论数=N×各p例2:某小麦品种在田间出现自然变异植株的概率为0.0045,试计算:(1)调查100株,获得2株或以上变异的概率是多少?(2)期望有0.99的概率获得1株或1株以上的变异植株,至少应调查多少株?解:λ=np=100×0.0045=0.45P(≥2)=1-poisson(1,0.45,true)=0.0755调查株数:e-λ=e-np=0.01n=-ln0.01/p=-LN(0.01)/0.0045=1023株例2:某小麦品种在田间出现自然变异植株的概率为0.0045,三、正态分布正态分布是一种很重要的连续型随机变量的概率分布。生物现象中有许多变量是服从或近似服从正态分布的,如家畜的体长、体重、产奶量、产毛量、血红蛋白含量、血糖含量等。许多统计分析方法都是以正态分布为基础的。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。因此在统计学中,正态分布无论在理论研究上还是实际应用中,均占有重要的地位。三、正态分布正态分布是一种很重要的连续型随机变量的概率分布。(一)正态分布的定义若连续型随机变量x的概率分布密度函数为其中μ为平均数,σ2为方差,则称随机变量x服从正态分布(normaldistribution),记为x~N(μ,σ2)。相应的概率累积函数为(一)正态分布的定义图4—2正态分布密度曲线图4—2正态分布密度曲线(二)正态分布的特征1、当x=μ时,f(x)值最大,所以正态分布曲线是以平均数μ为中心的分布。2、当x-μ的绝对值相等时,f(x)值也相等,所以正态分布是μ为中心向左右两侧对称分布3、(x-μ)/σ的绝对值越大,f(x)越小,但不会为04、正态分布曲线由μ和σ决定的。μ确定正态分布在x轴上的中心位置,σ确定正态分布的变异度。(二)正态分布的特征1、当x=μ时,f(x)值最大,所以正σ相同而μ不同的三个正态分布μ相同而σ不同的三个正态分布σ相同而μ不同的三个正态分布μ相同而σ不同的三个正态分布5、曲线在x=μ±σ处各有一个拐点,即曲线在(-∞,μ-σ)和(μ+σ,+∞)区间上是下凸的,在[μ-σ,μ+σ]区间内是上凸的;6、分布密度曲线与横轴所夹的面积为15、曲线在x=μ±σ处各有一个拐点,即曲线在(-∞,μ-σ)(三)标准正态分布由上述正态分布的特征可知,正态分布是依赖于参数μ和σ2,正态曲线之位置及形态随μ和σ2的不同而不同。这就给研究具体的正态总体带来困难,需将一般的N(μ,σ2)转换为μ=0,σ2=1的正态分布。我们称μ=0,σ2=1的正态分布为标准正态分布(standardnormaldistribution),记作N(0,1)。(三)标准正态分布由上述正态分布的特征可知,正态分布是依赖于令u=(x-μ)/σ,正态分布概率分布密度函数可标准化为:f(u)=相应的概率累积函数为F(ui)=P(u<ui)i令u=(x-μ)/σ,正态分布概率分布密度函数可标准化为:i对于u在区间[a,b]的概率,有ab对于u在区间[a,b]的概率,有ab(三)正态分布的概率计算正态分布的概率累积函数具有广泛应用,所以统计学家已计算好实际需要的各个F(u)值,列于附表1。在计算一般正态分布的概率时,只需将服从正态分布的随机变量x取值区间的上、下限,按u=(x-μ)/σ转换,并查附表1即可。附表1,左侧纵列表示a,上侧橫行表示b(三)正态分布的概率计算正态分布的概率累积函数具有广泛应用,如果手头没有附表1,可在Excel中输入“=NORMSDIST(数据)”即可查出。注意p(u)是指-∞到u例1,设u服从正态分布N(0,1),试求P(u<1),P(u>1),
P(-2.0<u≤1.5),P(|u|>2.58)。解:P(u<1)=F(1)=0.8413;P(u>1)=1-
P(u<1)=0.1587P(-2.0<u≤1.5)=F(1.5)-F(-2.0)=0.9104P(|u|>2.58)=P(u>2.58)+P(u<-2.58)
=1-F(2.58)+F(-2.58)=0.00988如果手头没有附表1,可在Excel中输入“=NORMSDIS例2,试计算概率值(1)P(μ-σ<x≤μ+σ)解:u1=(x-μ)/σ=-1u2==(x-μ)/σ=1P(μ-σ<x≤μ+σ)=P(-1<x≤1)(2)P(μ-2σ<x≤μ+2σ)(3)P(μ-3σ<x≤μ+3σ)(4)P(μ-1.96σ<x≤μ+1.96σ)(5)P(|x|>μ+1.96σ)(6)P(|x|>μ+2.58σ)例2,试计算概率值从上述计算可知,|u|>2.58概率是0.01,|u|>1.96是0.05,也就是说μ±1.96σ和μ±2.58σ范围内已分别包含了95%和99%的变量。例3,随机抽取20株小麦,其株高(cm)分别为82 79 85 84 86 84 83 82 83 83 84 81 80 81 82 81 82 82 82 80计算(1)小麦株高的95%正常值范围(2)株高≥85cm的概率从上述计算可知,|u|>2.58概率是0.01,|u|>1第三节抽样分布研究总体与从中抽取的样本之间的关系是统计学的中心内容。对这种关系的研究可从两方面着手,一是从总体到样本,这就是研究抽样分布(samplingdistribution)的问题;二是从样本到总体,这就是统计推断(statisticalinference)问题。统计推断是以总体分布和样本抽样分布的理论关系为基础的。为了能正确地利用样本去推断总体,并能正确地理解统计推断的结论,须对样本的抽样分布有所了解。第三节抽样分布研究总体与从中抽取的样本之间的关系是统计学一、样本平均数抽样分布由总体随机抽样(randomsampling)的方法可分为有返置抽样和不返置抽样两种。前者指每次抽出一个个体后,这个个体应返置回原总体;后者指每次抽出的个体不返置回原总体。对于无限总体,返置与否都可保证各个体被抽到的机会相等。对于有限总体,就应该采取返置抽样,否则各个体被抽到的机会就不相等。一、样本平均数抽样分布由总体随机抽样(randomsamp(一)样本平均数的分布设有一个总体,总体平均数为μ,方差为σ2,总体中各变数为x,将此总体称为原总体。现从这个总体中随机抽取含量为n的样本,样本平均数记为x。可以设想,从原总体中可抽出很多甚至无穷多个含量为n的样本。由这些样本算得的平均数有大有小,不尽相同,与原总体平均数μ相比往往表现出不同程度的差异。这种差异是由随机抽样造成的,称为抽样误差(samplingerror)。(一)样本平均数的分布设有一个总体,总体平均数为μ,方差为σ显然,样本平均数也是一个随机变量,其概率分布叫做样本平均数的抽样分布。由样本平均数x构成的总体称为样本平均数的抽样总体,其平均数和标准差分别记为μx和σx
。σx是样本平均数抽样总体的标准差,简称标准误(standarderror),它表示平均数抽样误差的大小。由抽样试验及统计学证明,样本平均数有以下性质:(1)样本平均数分布的平均数等于总体平均数,即μx=μ显然,样本平均数也是一个随机变量,其概率分布叫做样本平均数的(2)样本平均数分布的方差等于总体方差除以样本容量:样本平均数的标准误差:(3)如果从正态总体N(μ,σ2)进行抽样,其样本平均数x是一具有平均数μ、方差σ2/n的正态分布,记作N(μ,σ2/n)(4)若被抽样总体不是正态分布,但具有平均数μ、方差σ2,当样本容量n不断增大,样本平均数x的分布也越来越接近正态分布,且具有平均数μ、方差σ2/n,这叫做中心极限定理。这个性质对连续型变量或非连续型变量都适用。(2)样本平均数分布的方差等于总体方差除以样本容量:不论总体为何分布,只要样本容量n≥30,就可应用中心极限定理,认为样本平均数x的分布是正态分布。在计算样本平均数出现的概率时,样品平均数x可按下式进行标准化:不论总体为何分布,只要样本容量n≥30,就可应用中心极限定(二)样本平均数差数的分布设两个相互独立的正态总体,N1和N2,分别抽样,样本平均数差数分布的基本性质有:(1)样本平均数的平均数等于总体平均数的差数,即:μx1-x2=μ1-μ2(2)样本平均数差数的方差等于两样本平均数方差除以各自样本容量之和,即(二)样本平均数差数的分布设两个相互独立的正态总体,N1和N样本平均数差数的标准误:(3)从两个独立正态总体中抽出的样本平均数差数的分布,也是正态分布,并具有平均数μ1-μ2,方差
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2022年大学化工与制药专业大学物理二月考试题D卷-含答案
- 石河子大学《运动营养学》2022-2023学年第一学期期末试卷
- 模范党支部申报材料(3篇)
- 石河子大学《土力学》2021-2022学年第一学期期末试卷
- 石河子大学《荷载与结构设计方法》2023-2024学年第一学期期末试卷
- 石河子大学《大数据组织与管理》2023-2024学年期末试卷
- 沈阳理工大学《娱乐空间设计》2021-2022学年第一学期期末试卷
- 沈阳理工大学《无线通信系统》2023-2024学年第一学期期末试卷
- 沈阳理工大学《汽车产品运营与组织管理》2023-2024学年第一学期期末试卷
- 沈阳理工大学《工程爆破》2022-2023学年第一学期期末试卷
- 《建筑施工技术》课后习题答案(大学期末复习资料)
- 公司环境行政处罚事件处置预案
- 广东开放大学风险投资(本2022春)-练习4答案
- DB65∕T 3253-2020 建筑消防设施质量检测评定规程
- 二年级苏教版数学上册《7的乘法口诀》教案(公开课三稿)
- (完整PPT)半导体物理与器件物理课件
- ASTM B366 B366M-20 工厂制造的变形镍和镍合金配件标准规范
- JIS G4304-2021 热轧不锈钢板材、薄板材和带材
- 2022年中级经济师-人力资源管理专业押题模拟试卷3套及答案解析
- 小学综合实践活动《认识校园植物》优秀PPT课件
- XRD在薄膜材料研究中应用
评论
0/150
提交评论