




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章概率与理论分布第二章概率与理论分布1第二节、理论分布2.2.1二项式分布2.2.1.1二项总体及二项式分布
二项总体(binarypopulation):间断性随机变数的总体包含两项,即非此即彼的两项,它们构成的总体称为二项总体。如小麦种子的发芽与不发芽,大豆子叶为黄色和绿色,调查荔枝蒂蛀虫为害分为受害株和不受害株等等。通常将二项总体中的“此”事件以变量“1”表示,具概率p;将“彼”事件以变量“0”表示,具概率q。因而二项总体又称为0、1总体,其概率则有p+q=1或者q=p-1。第二节、理论分布2.2.1二项式分布2第二节、理论分布2.2.1二项式分布2.2.1.1二项总体及二项式分布
二项式分布(binomialdistribution):从二项总体中抽取n个个体,则间断性变量y就有n+1种取值,这n+1种取值各有其概率,因而由变量及其概率就构成了一个分布,这个分布就是二项式分布(又称二项分布或者二项式概率分布。
第二节、理论分布2.2.1二项式分布3第二节、理论分布2.2.1二项式分布2.2.1.1二项总体及二项式分布
如观察使用某种农药后供试5只蚜虫的死亡数目,记“死”为“0”,记“活”为“1”,观察结果将出现6个事件:5只全死,4死1活,3死2活,2死3活,1死4活,5只全活,这6个事件就构成一个完全事件系,但6个事件的概率不同,将完全事件系的总概率1分布到6个事件中去,就是所谓的概率分布。如果将活的虫数y来代表相应的事件,便得到了关于变量y的概率分布。第二节、理论分布2.2.1二项式分布42.2.1.2二项分布的概率计算方法
大豆子叶的颜色受一对等位基因控制,黄色(Y)对绿色(G)为显性,则F2代按3:1比例分离,黄色子叶的概率为0.75(3/4),绿色子叶的概率为0.25(1/4),这是二项总体的概率分布。若从总体中抽取n粒,那么y粒是黄子叶的概率是多少呢?2.2.1.2二项分布的概率计算方法大豆子叶的颜51.以二粒荚为例:出现黄色子叶种子数(y)可能就有2+1种取值,即为0、1或2个。①出现0个y的概率:P(y=0)=②出现一黄一绿的概率:P(YG)=P(GY)=这两个为互斥事件所以P(y=1)为3/16+3/16=6/16③出现2个Y的概率:P(y=2)=故,出现黄子叶种子数0,1,2三个事件A0.A1.A2构成一完全事件系。P(A0)+P(A1)+P(A2)=黄子叶数(y)012黄子叶出现y次的概率1/166/169/16合计为11.以二粒荚为例:出现黄色子叶种子数(y)可能就有2+1种取62.以三粒为例:出现黄色子叶的种子数(y)可能为0.1.2或3个。①出现0个y的概率:P(y=0)=②出现1个y的概率:P(GGY)=,P(GYG)=P(YGG)=,故P(y=1)=③出现2个Y的概率:P(YYG)=,P(YGY)=P(GYY)=,故P(y=2)=④出现3个Y的概率:P(GGG)=P(y=3)=所以完全事件系P(A0)+P(A1)+P(A2)+P(A3)=2.以三粒为例:出现黄色子叶的种子数(y)可能为0.1.2或7从以上可看出,每一复合事件的概率必等于该事出现的组合数乘以单个事件的概率。组合数公式为:n相当于豆荚内的种子总数,y相当于黄色的种子数,所以:P(y)=例如:n=3,y=2P(y=2)=从以上可看出,每一复合事件的概率必等于该8二项式中包括两项,这两项的概率为p、q,则变量y的概率函数为:这一分布律也称为贝努里(Bernoulli)分布,且有二项分布的概率之和等于1。二项式中包括两项,这两项的概率为p、q,则变量y的概率函数为92.2.1.3二项式分布概率的计算例1、棉田盲椿象危害的统计概率是从调查2000株后获得的近似值p=0.35,现受害株事件为A,其概率为p(A)=0.35,未受害株事件为对立事件,其概率为q=1-p=0.65。这一试验是可以重复的。假定作了多次试验,即抽出n株为一个抽样单位,那么,试问出现有y株是受害的,其概率应为多少?n=1受害株树y=0,1n=5受害株树y=0,1,2,3,4,5P(y=k)=
2.2.1.3二项式分布概率的计算102.2.1.3二项式分布概率的计算例1、n=1时,由于已知P(A)=0.35,P()=1-0.35=0.65总体的理论分布则以n乘上述概率分布,即np和n(1-p),所以有2000*0.35=700株受害和2000*0.65=1300株未受害。n=5时,受害株数y=0,1,2,3,4,5,变量y相应的概率函数P(y=i)=,其累积函数F(y)就如P54页的公式。调查单位为5株的概率分布表就如P55的表4.2。2.2.1.3二项式分布概率的计算例1、n=1时,11例2、某种昆虫在某地区的死亡率为40%,即p=0.4,现对这种害虫用一种新药进行治虫试验,每次抽样10头作为一组治疗。试问新药无疗效,在10头中死3头、2头、1头,以及全部愈好的概率为多少?10头中不超过两头死亡的概率各为多少?n=10p=0.4q=0.6求P(y=3)p(y=2)p(y=1)p(y=0)P(y=3)=p(y=2)=p(y=1)=p(y=0)==0.21499=0.12093=0.04031=0.00605例2、某种昆虫在某地区的死亡率为40%,即p=0.4,现对这12F(2)==p(y=0)+p(y=1)+p(y=2)=0.00605+0.04031+0.12093=0.16729如果问超过两头死去的概率是多少?=P(y=3)+P(y=4)+P(y=5)+P(y=6)+P(y=7)+P(y=8)+P(y=9)+P(y=10)如用对立事件来解则容易的多:1-F(2)=1-=1-0.16729=0.83271F(2)==p(y=0)+p(y=1)+p(y=2)=0132.2.1.4二项分布的形状及参数二项分布定义如下:设随机变量y所有可能取的值为零或正整数:0,1,2,…,n,且有Pn(y=k)=k=0,1,2…,n其中p>0,q>0,p+q=1,则称随机变量y服从参数为n和p的二项分布(binomialdistribution),记为y~B(n,p)。2.2.1.4二项分布的形状及参数二项分布定义如下:14二项分布是一种离散型随机变量的概率分布。参数n称为离散参数,只能取正整数;p是连续参数,它能取0与1之间的任何数值,q由p确定,故不是另一个独立参数。二项分布由n和p两个参数决定:1、当p值较小且n不大时,分布是偏倚的。但随着n的增大,分布逐渐趋于对称,如图4—2所示;二项分布是一种离散型随机变量的概率分布。参数n15图4—2n值不同的二项分布比较
图4—3p值不同的二项分布比较图4—2n值不同的二项分布比较图4—3p值不同的二162、当p值趋于0.5时,分布趋于对称,如图4—3所示;3、对于固定的n及p,当k增加时,Pn(k)先随之增加并达到其极大值,以后又下降。此外,在n较大,np、nq较接近时,二项分布接近于正态分布;当n→∞时,二项分布的极限分布是正态分布。2、当p值趋于0.5时,分布趋于对称,如17二项分布的平均数与标准差统计学证明,服从二项分布B(n,p)的随机变量y平均数μ、标准差σ与参数n、p有如下关系:μ=np
σ=σ2=npq如果n适当大,如大于30,而p值又不太小,并且np及nq均不小于5时,那么这个二项分布趋近于即将介绍的正态分布二项分布的平均数与标准差182.2.1.4多项式分布
多项总体:若总体中包含几种特性或者分类标志,可将总体中的个体分为几类。这种将变数资料分为3类或者多类的总体称为多项总体。例如某种农药在防治某种病害的效果时可能有的效果好,有的无效果,有的有副作用,这些构成的总体就是多项总体。研究多项总体的随机变量的概率分布可使用多项式分布(multinomialdistribution)。2.2.1.4多项式分布192.2.1.4多项式分布
设总体中共包含有k项事件,它们的概率分别为p1、p2、p3、p4…pk,且p1+p2+p3+…+pk=1。若从这种总体中随机抽取n个个体,那么可能得到这k项的个数分别为y1、y2、y3…yk,显然y1+y2+y3+…+yk=n。这样一个事件的概率应该是:P(y1、y2、y3…yk)=这一概率分布称为多项式分布。2.2.1.4多项式分布202.2.1.4多项式分布
例3、某药对病人有效的概率为1/2,对病人无效的概率为1/3,有副作用的概率为1/6,若随机抽取2个试验该药的病人,那么我们抽取的结果包括这样几个事件:2个病人有副作用;1个无效,1个有副作用;2个无效;1个有效,1个有副作用;1个有效,1个无效;2个均有效。这几个事件的概率可用以上公式计算。如P57页2.2.1.4多项式分布212.2.1.5泊松分布—二项分布的一种极限分布泊松分布(Poissondistribution)
在二项分布中,当某事件出现的概率p或q值比较小(如小于0.1),而样本容量又很大,二项分布就接近泊松分布了。主要描述大量实验中随机稀疏现象。如将np=m(n比较大,而m比较小时),其概率密度函数为:P(y)=e=2.71828…,y=0,1,2…2.2.1.5泊松分布—二项分布的一种极限分布泊松分布(P22其参数为:即:平均数、方差与标准差如下:μ=m,σ2=m,σ=不同m值的分布及例子如书本第58页图4.4和例4.4。m的大小决定其分布形状,当m值很小时分布呈很偏斜形状,m增大后则逐渐对称,趋向于后面要介绍的正态分布。
泊松分布有一特性:即两个或两个以上的泊松分布之和,也是一个泊松分布。其参数为:232.2.2正态分布
正态分布(normaldistribution)是一种很重要的连续型随机变量的概率分布。生物现象中有许多变量是服从或近似服从正态分布的。许多统计分析方法都是以正态分布为基础的。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。因此在统计学中,正态分布无论在理论研究上还是实际应用中,均占有重要的地位。2.2.2正态分布正态分布(normald242.2.2.1二项分布的极限—正态分布
以二项分布棉株受害率为例,假定受害率p=0.5,q=p=0.5,现假定每个抽样单位包括20株,这样y有21种取值,其受害株的概率p(y)=于是概率分布计算如下:
将这些概率绘于图。此图是对称的。如p=q,不论n值大或小,二项分布的多边形图必形成对称;如p≠q,而n很大时,多边形图仍趋对称。n增加到无穷多时,每组的直方形都一一变为纵轴线,此时的多边形边变为一光滑曲线。此光滑曲线是二项分布的极限曲线。此极限曲线属于连续性变数分布曲线。这一曲线一般称之为正态分布曲线或正态概率密度曲线。如图4-4
2.2.2.1二项分布的极限—正态分布以二项分布棉株受害25图4—4正态分布密度曲线图4—4正态分布密度曲线262.2.2.2正态分布的定义及其特征(一)正态分布的定义若连续型随机变量y的概率分布密度函数为(4-6)其中μ为平均数,σ2为方差,则称随机变量y服从正态分布(normaldistribution),记为y~N(μ,σ2)。相应的概率分布函数为(4-7)2.2.2.2正态分布的定义及其特征27分布密度曲线如图4—4所示。
(二)正态分布的特征
1、正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为y=μ;算术平均数、中数和众数是相等的;2、f(y)在y=μ处达到极大,极大值;3、f(y)是非负函数,以y轴为渐近线,分布从-∞至+∞;分布密度曲线如图4—4所示。284、曲线在y=μ±σ处各有一个拐点,即曲线在(-∞,μ-σ)和(μ+σ,+∞)区间上是下凸的,在[μ-σ,μ+σ]区间内是上凸的,曲线两尾向左右延伸,永不接触横轴;5、正态分布有两个参数,即平均数μ和标准差σ,在μ±3σ范围内包括了绝大多数频率。μ是位置参数,如图4—5所示。当σ恒定时,μ愈大,则曲线沿y轴愈向右移动;反之,μ愈小,曲线沿y轴愈向左移动。σ是变异度参数,如图4—6所示。当μ恒定时,σ愈大,表示y的取值愈分散,曲线愈“胖”;σ愈小,y的取值愈集中在μ附近,曲线愈“瘦”。4、曲线在y=μ±σ处各有一个拐点,即曲线在(-29图4—5σ相同而μ不同的三个正态分布图4—6μ相同而σ不同的三个正态分布012图4—5σ相同而μ不同的三个正态分布图4—6μ相同而σ不30
6、分布密度曲线与横轴所夹的面积为1,即:
区间μ±1σ面积或概率=0.6827μ±2σ=0.9545μ±3σ=0.9973μ±1.960σ=0.9500μ±2.576σ=0.9900
312.2.2.2标准正态分布
由上述正态分布的特征可知,正态分布是依赖于参数μ和σ2(或σ)的一簇分布,正态曲线之位置及形态随μ和σ2的不同而不同。这就给研究具体的正态总体带来困难,如以新变量u来代替μ,令u=,则将一般的N(μ,σ2)转换为μ=0,σ2=1的正态分布,u称为正态离差。2.2.2.2标准正态分布32
我们称μ=0,σ2=1的正态分布为标准正态分布(standardnormaldistribution)。标准正态分布的概率密度函数及分布函数分别记作ψ(u)和Φ(u),由(4-6)及(4-7)式得:(4-8)(4-9)随机变量u服从标准正态分布,记作u~N(0,1),分布密度曲线如图4—7所示。我们称μ=0,σ2=1的正态分布为标准正态分布(s33图4—7标准正态分布密度曲线图4—7标准正态分布密度曲线34
对于任何一个服从正态分布N(μ,σ2)的随机变量y,都可以通过标准化变换:u=(y-μ)/σ(4-10)将y其变换为服从标准正态分布的随机变量u。
u称为标准正态变量或标准正态离差(standardnormaldeviate)。
352.2.2.3正态分布的概率计算(一)标准正态分布的概率计算
设u服从标准正态分布,则u在[u1,u2)内取值的概率为:=Φ(u2)-Φ(u1)(4-11)而Φ(u1)与Φ(u2)可由附表2累积正态分布FN(y)值表查得。2.2.2.3正态分布的概率计算36例如,u=1.75,1.7放在第一列0.05放在第一行。在附表2累积正态分布FN(y)值中,1.7所在行与0.05所在列相交处的数值为0.95994,即Φ(1.75)=0.95994有时会遇到给定Φ(u)值,例如Φ(u)=0.284,反过来查u值。这只要在附表2累积正态分布FN(y)值中找到与0.284最接近的值0.2843,对应行的第一列数-0.5,对应列的第一行数值0.07,即相应的u值为u=-0.57,即Φ(-0.57)=0.284如果要求更精确的u值,可用线性插值法计算。例如,u=1.75,1.7放在第一列0.05放37
由(4-11)式及正态分布的对称性可推出下列关系式,再借助附表2累积正态分布FN(y)值,便能很方便地计算有关概率(有时要利用分布曲线的对称性来解题):P(0≤u<u1)=Φ(u1)-0.5
P(u≥u1)=Φ(-u1)
P(|u|≥u1)=2Φ(-u1)(4-12)
P(|u|<u1)=1-2Φ(-u1)
P(u1≤u<u2)=Φ(u2)-Φ(u1)
38【例4.6】已知u~N(0,1),试求:(1)P(u<-1.64)=?(2)P(u≥2.58)=?(3)P(|u|≥2.56)=?(4)P(0.34≤u<1.53)=?【例4.6】已知u~N(0,1),试求:39利用(4-12)式,查附表2累积正态分布FN(y)值得:(1)P(u<-1.64)=0.05050(2)P(u≥2.58)=Φ(-2.58)=0.024940(3)P(|u|≥2.56)=2Φ(-2.56)=2×0.005234=0.010468(4)P(0.34≤u<1.53)=Φ(1.53)-Φ(0.34)=0.93669-0.6331=0.30389利用(4-12)式,查附表2累积正态分布FN(y)值得:40关于标准正态分布,以下几种概率应当熟记:P(-1≤u<1)=0.6826P(-2≤u<2)=0.9545
P(-3≤u<3)=0.9973P(-1.96≤u<1.96)=0.95P(-2.58≤u<2.58)=0.99
图4—8标准正态分布的三个常用概率关于标准正态分布,以下几种概率应当熟记:41图4—8标准正态分布的三个常用概率
图4—8标准正态分布的三个常用概率42u变量在上述区间以外取值的概率分别为:P(|u|≥1)=2Φ(-1)=1-P(-1≤u<1)=1-0.6826=0.3174P(|u|≥2)=2Φ(-2)=1-P(-2≤u<2)=1-0.9545=0.0455P(|u|≥3)=1-0.9973=0.0027P(|u|≥1.96)=1-0.95=0.05P(|u|≥2.58)=1-0.99=0.01u变量在上述区间以外取值的概率分别为:43
(二)一般正态分布的概率计算
正态分布密度曲线和横轴围成的一个区域,其面积为1,这实际上表明了“随机变量y取值在-∞与+∞之间”是一个必然事件,其概率为1。若随机变量y服从正态分布N(μ,σ2),则y的取值落在任意区间[y1,y2)的概率,记作P(y1≤y<y2),等于图4—9中阴影部分曲边梯形面积。即:(二)一般正态分布的概率计算44图4—9正态分布的概率图4—9正态分布的概率45(4-13)
对(4-13)式作变换u=(y-μ)/σ,得dy=σdu,故有其中,
46这表明服从正态分布N(μ,σ2)的随机变量y在[y1,y2)内取值的概率,等于服从标准正态分布的随机变量u在[(y1-μ)/σ,(y2-μ)/σ)内取值的概率。因此,计算一般正态分布的概率时,只要将区间的上下限作适当变换(标准化),就可用查标准正态分布的概率表的方法求得概率了。这表明服从正态分布N(μ,σ2)的随机变量y在47【例4.7】设y服从μ=30.26,σ2=5.102的正态分布,试求P(21.64≤y<32.98)。令则u服从标准正态分布,故=P(-1.69≤u<0.53)=Φ(0.53)-Φ(-1.69)=0.7019-0.04551=0.6564
【例4.7】设y服从μ=30.26,σ2=5.48关于一般正态分布,以下几个概率(即随机变量y落在μ加减不同倍数σ区间的概率)是经常用到的。
P(μ-σ≤y<μ+σ)=0.6826P(μ-2σ≤y<μ+2σ)=0.9545P(μ-3σ≤y<μ+3σ)=0.9973P(μ-1.96σ≤y<μ+1.96σ)=0.95P(μ-2.58σ≤y<μ+2.58σ)=0.99关于一般正态分布,以下几个概率(即随机变量y落在49
上述关于正态分布的结论,可用一实例来印证。例如上章水稻140行产量资料的样本分布表现出接近正态分布,其平均数=157.9(g),标准差S=36.4(g),算出平均数加减不同倍数标准差区间内所包括的次数与频率,列于表4—2。
上述关于正态分布的结论,可用一实例来印证。50
表4—2140行水稻产量在±kS
区间内所包括的次数与频率
±kS数值区间区间内包括的次数次数%±1S157.9±36.4121.5~194.39970.71±2S157.9±72.885.1~230.713495.71±3S157.9±109.248.7~267.1140100
表4—2140行水稻产量在±kS
51由表4—2可见,实际频率与理论概率相当接近,说明140行水稻产量资料的频率分布接近正态分布,从而可推断水稻产量这一随机变量很可能是服从正态分布的。生物统计中,不仅注意随机变量y落在平均数加减不同倍数标准差区间(μ-kσ,μ+kσ)之内的概率而且也很关心y落在此区间之外的概率。我们把随机变量y落在平均数μ加减不同倍数标准差σ区间之外的概率称为双侧概率(两尾概率),记作α。由表4—2可见,实际频率与理论概率相当接近,说明52对应于双侧概率可以求得随机变量y小于μ-kσ或大于μ+kσ的概率,称为单侧概率(一尾概率),记作α/2。例如,y落在(μ-1.96σ,μ+1.96σ)之外的双侧概率为0.05,而单侧概率为0.025。即P(y<μ-1.96σ)=P(y>μ+1.96σ)=0.025双侧概率或单侧概率如图4—10所示。y落在(μ-2.58σ,μ+2.58σ)之外的双侧概率为0.01,而单侧概率P(y<μ-2.58σ)=P(y>μ+2.58σ)=0.005对应于双侧概率可以求得随机变量y小于μ-kσ或大53图4—10双侧概率与单侧概率图4—10双侧概率与单侧概率54附表3给出了满足P(|u|>)=α的双侧分位的数值。因此,只要已知双侧概率α的值,由附表3就可直接查出对应的双侧分位数,查法与附表2相同。例如,已知u~N(0,1)试求:(1)P(u<-)+P(u≥)=0.10的(2)P(-≤u<﹚=0.86的因为附表3中的α值是:附表3给出了满足P(|u|>)=α55所以(1)P(u<-)+P(u≥)=1-P(-≤u<﹚=0.10=α由附表3查得:=1.644854(2)P(-≤u<)=0.86,α=1-P(-≤u<)=1-0.86=0.14由附表3查得:=1.475791对于y~N(μ,σ2),只要将其转换为u~N(0,1),即可求得相应的双侧分位数。所以(1)P(u<-)+P(u≥56
[例4.4]假定y是一随机变数具有正态分布,平均数
=30,标准差=5,试计算小于26,小于40的概率,介乎26和40区间的概率以及大于40的概率。
首先计算:先将y转换为u值
p63[例4.4]假定y是一随机变数具有正态57同理可得:
FN(40)=0.9773
所以:P(26<y≤40)=FN(40)-FN(26)=0.9773-0.2119=0.7654
P(y>40)=1-P(y≤40)=1-0.9773=0.0227查附表2,当u=-0.8时,FN(26)=0.2119,说明这一分布从-∞到26范围内的变量数占全部变量数的21.19%,或者说,y≤26概率为0.2119.同理可得:FN(40)=0.9773所以:P(26<58图4.12概率计算图示图4.12概率计算图示59p63[例4.5]在应用正态分布时,经常要讨论随机变数y离其平均数的差数大于或小于若干个值的概率。例如计算离均差绝对值等于小于和等于大于1的概率为:也可以简写为
p63[例4.5]在应用正态分布时,经常要讨论随机60相应地,离均差绝对值等于小于2、等于大于2、等于小于3和等于大于3的概率值为:以上结果解释了正态分布曲线的概率特性,可参考图4.13。相应地,离均差绝对值等于小于2、等于大于261图4.13离均差的绝对值≤1,2和1.96的概率值图4.13离均差的绝对值≤1,2和1.962
p64[例4.6]计算正态分布曲线的中间概率为0.99时,其y或u值应等于多少?
因为正态分布是对称的,故在曲线左边从-∞到-
u的概率和在曲线右边从u到∞的概率都应等于1/2(1-0.99)=0.005。查表,u=-2.58时,fN(y)
=0.00494≈0.005。于是知,当±2.58时,在其范围内包括99%的变量,仅有1%变量在此范围之外。上述结果写作:p64[例4.6]计算正态分布曲线的中间概率为063同理可求得:以上
乃正态曲线下左边一尾y从-∞到
上的面积和右边一尾y从到∞上的面积之和,亦可写成:同理,亦可写成:同理可求得:以上64以上两式等号右侧的前一项为左尾概率,后一项为右尾概率,其和概率称为两尾概率值。在附表3列出了两尾概率取某一值时的临界u值(正态离差u值),可供直接查用。例如,可查得P=0.01时u=2.5758,P=0.05时u=1.9599,即表示:
P(|u|≥2.5758)=0.01,P(|u|≥1.9599)=0.05如果仅计算一尾,则为一尾概率值。例如计算
P(u≥1.6448)=P(|u|≥1.6448)=(0.1)=0.05这个0.05称为y值大于的一尾概率值。当概率一定时,两尾概率的|u|总是大于一尾概率|u|。以上两式等号右侧的前一项为左尾概率,后一项为右65第二章概率与理论分布第二章概率与理论分布66第二节、理论分布2.2.1二项式分布2.2.1.1二项总体及二项式分布
二项总体(binarypopulation):间断性随机变数的总体包含两项,即非此即彼的两项,它们构成的总体称为二项总体。如小麦种子的发芽与不发芽,大豆子叶为黄色和绿色,调查荔枝蒂蛀虫为害分为受害株和不受害株等等。通常将二项总体中的“此”事件以变量“1”表示,具概率p;将“彼”事件以变量“0”表示,具概率q。因而二项总体又称为0、1总体,其概率则有p+q=1或者q=p-1。第二节、理论分布2.2.1二项式分布67第二节、理论分布2.2.1二项式分布2.2.1.1二项总体及二项式分布
二项式分布(binomialdistribution):从二项总体中抽取n个个体,则间断性变量y就有n+1种取值,这n+1种取值各有其概率,因而由变量及其概率就构成了一个分布,这个分布就是二项式分布(又称二项分布或者二项式概率分布。
第二节、理论分布2.2.1二项式分布68第二节、理论分布2.2.1二项式分布2.2.1.1二项总体及二项式分布
如观察使用某种农药后供试5只蚜虫的死亡数目,记“死”为“0”,记“活”为“1”,观察结果将出现6个事件:5只全死,4死1活,3死2活,2死3活,1死4活,5只全活,这6个事件就构成一个完全事件系,但6个事件的概率不同,将完全事件系的总概率1分布到6个事件中去,就是所谓的概率分布。如果将活的虫数y来代表相应的事件,便得到了关于变量y的概率分布。第二节、理论分布2.2.1二项式分布692.2.1.2二项分布的概率计算方法
大豆子叶的颜色受一对等位基因控制,黄色(Y)对绿色(G)为显性,则F2代按3:1比例分离,黄色子叶的概率为0.75(3/4),绿色子叶的概率为0.25(1/4),这是二项总体的概率分布。若从总体中抽取n粒,那么y粒是黄子叶的概率是多少呢?2.2.1.2二项分布的概率计算方法大豆子叶的颜701.以二粒荚为例:出现黄色子叶种子数(y)可能就有2+1种取值,即为0、1或2个。①出现0个y的概率:P(y=0)=②出现一黄一绿的概率:P(YG)=P(GY)=这两个为互斥事件所以P(y=1)为3/16+3/16=6/16③出现2个Y的概率:P(y=2)=故,出现黄子叶种子数0,1,2三个事件A0.A1.A2构成一完全事件系。P(A0)+P(A1)+P(A2)=黄子叶数(y)012黄子叶出现y次的概率1/166/169/16合计为11.以二粒荚为例:出现黄色子叶种子数(y)可能就有2+1种取712.以三粒为例:出现黄色子叶的种子数(y)可能为0.1.2或3个。①出现0个y的概率:P(y=0)=②出现1个y的概率:P(GGY)=,P(GYG)=P(YGG)=,故P(y=1)=③出现2个Y的概率:P(YYG)=,P(YGY)=P(GYY)=,故P(y=2)=④出现3个Y的概率:P(GGG)=P(y=3)=所以完全事件系P(A0)+P(A1)+P(A2)+P(A3)=2.以三粒为例:出现黄色子叶的种子数(y)可能为0.1.2或72从以上可看出,每一复合事件的概率必等于该事出现的组合数乘以单个事件的概率。组合数公式为:n相当于豆荚内的种子总数,y相当于黄色的种子数,所以:P(y)=例如:n=3,y=2P(y=2)=从以上可看出,每一复合事件的概率必等于该73二项式中包括两项,这两项的概率为p、q,则变量y的概率函数为:这一分布律也称为贝努里(Bernoulli)分布,且有二项分布的概率之和等于1。二项式中包括两项,这两项的概率为p、q,则变量y的概率函数为742.2.1.3二项式分布概率的计算例1、棉田盲椿象危害的统计概率是从调查2000株后获得的近似值p=0.35,现受害株事件为A,其概率为p(A)=0.35,未受害株事件为对立事件,其概率为q=1-p=0.65。这一试验是可以重复的。假定作了多次试验,即抽出n株为一个抽样单位,那么,试问出现有y株是受害的,其概率应为多少?n=1受害株树y=0,1n=5受害株树y=0,1,2,3,4,5P(y=k)=
2.2.1.3二项式分布概率的计算752.2.1.3二项式分布概率的计算例1、n=1时,由于已知P(A)=0.35,P()=1-0.35=0.65总体的理论分布则以n乘上述概率分布,即np和n(1-p),所以有2000*0.35=700株受害和2000*0.65=1300株未受害。n=5时,受害株数y=0,1,2,3,4,5,变量y相应的概率函数P(y=i)=,其累积函数F(y)就如P54页的公式。调查单位为5株的概率分布表就如P55的表4.2。2.2.1.3二项式分布概率的计算例1、n=1时,76例2、某种昆虫在某地区的死亡率为40%,即p=0.4,现对这种害虫用一种新药进行治虫试验,每次抽样10头作为一组治疗。试问新药无疗效,在10头中死3头、2头、1头,以及全部愈好的概率为多少?10头中不超过两头死亡的概率各为多少?n=10p=0.4q=0.6求P(y=3)p(y=2)p(y=1)p(y=0)P(y=3)=p(y=2)=p(y=1)=p(y=0)==0.21499=0.12093=0.04031=0.00605例2、某种昆虫在某地区的死亡率为40%,即p=0.4,现对这77F(2)==p(y=0)+p(y=1)+p(y=2)=0.00605+0.04031+0.12093=0.16729如果问超过两头死去的概率是多少?=P(y=3)+P(y=4)+P(y=5)+P(y=6)+P(y=7)+P(y=8)+P(y=9)+P(y=10)如用对立事件来解则容易的多:1-F(2)=1-=1-0.16729=0.83271F(2)==p(y=0)+p(y=1)+p(y=2)=0782.2.1.4二项分布的形状及参数二项分布定义如下:设随机变量y所有可能取的值为零或正整数:0,1,2,…,n,且有Pn(y=k)=k=0,1,2…,n其中p>0,q>0,p+q=1,则称随机变量y服从参数为n和p的二项分布(binomialdistribution),记为y~B(n,p)。2.2.1.4二项分布的形状及参数二项分布定义如下:79二项分布是一种离散型随机变量的概率分布。参数n称为离散参数,只能取正整数;p是连续参数,它能取0与1之间的任何数值,q由p确定,故不是另一个独立参数。二项分布由n和p两个参数决定:1、当p值较小且n不大时,分布是偏倚的。但随着n的增大,分布逐渐趋于对称,如图4—2所示;二项分布是一种离散型随机变量的概率分布。参数n80图4—2n值不同的二项分布比较
图4—3p值不同的二项分布比较图4—2n值不同的二项分布比较图4—3p值不同的二812、当p值趋于0.5时,分布趋于对称,如图4—3所示;3、对于固定的n及p,当k增加时,Pn(k)先随之增加并达到其极大值,以后又下降。此外,在n较大,np、nq较接近时,二项分布接近于正态分布;当n→∞时,二项分布的极限分布是正态分布。2、当p值趋于0.5时,分布趋于对称,如82二项分布的平均数与标准差统计学证明,服从二项分布B(n,p)的随机变量y平均数μ、标准差σ与参数n、p有如下关系:μ=np
σ=σ2=npq如果n适当大,如大于30,而p值又不太小,并且np及nq均不小于5时,那么这个二项分布趋近于即将介绍的正态分布二项分布的平均数与标准差832.2.1.4多项式分布
多项总体:若总体中包含几种特性或者分类标志,可将总体中的个体分为几类。这种将变数资料分为3类或者多类的总体称为多项总体。例如某种农药在防治某种病害的效果时可能有的效果好,有的无效果,有的有副作用,这些构成的总体就是多项总体。研究多项总体的随机变量的概率分布可使用多项式分布(multinomialdistribution)。2.2.1.4多项式分布842.2.1.4多项式分布
设总体中共包含有k项事件,它们的概率分别为p1、p2、p3、p4…pk,且p1+p2+p3+…+pk=1。若从这种总体中随机抽取n个个体,那么可能得到这k项的个数分别为y1、y2、y3…yk,显然y1+y2+y3+…+yk=n。这样一个事件的概率应该是:P(y1、y2、y3…yk)=这一概率分布称为多项式分布。2.2.1.4多项式分布852.2.1.4多项式分布
例3、某药对病人有效的概率为1/2,对病人无效的概率为1/3,有副作用的概率为1/6,若随机抽取2个试验该药的病人,那么我们抽取的结果包括这样几个事件:2个病人有副作用;1个无效,1个有副作用;2个无效;1个有效,1个有副作用;1个有效,1个无效;2个均有效。这几个事件的概率可用以上公式计算。如P57页2.2.1.4多项式分布862.2.1.5泊松分布—二项分布的一种极限分布泊松分布(Poissondistribution)
在二项分布中,当某事件出现的概率p或q值比较小(如小于0.1),而样本容量又很大,二项分布就接近泊松分布了。主要描述大量实验中随机稀疏现象。如将np=m(n比较大,而m比较小时),其概率密度函数为:P(y)=e=2.71828…,y=0,1,2…2.2.1.5泊松分布—二项分布的一种极限分布泊松分布(P87其参数为:即:平均数、方差与标准差如下:μ=m,σ2=m,σ=不同m值的分布及例子如书本第58页图4.4和例4.4。m的大小决定其分布形状,当m值很小时分布呈很偏斜形状,m增大后则逐渐对称,趋向于后面要介绍的正态分布。
泊松分布有一特性:即两个或两个以上的泊松分布之和,也是一个泊松分布。其参数为:882.2.2正态分布
正态分布(normaldistribution)是一种很重要的连续型随机变量的概率分布。生物现象中有许多变量是服从或近似服从正态分布的。许多统计分析方法都是以正态分布为基础的。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。因此在统计学中,正态分布无论在理论研究上还是实际应用中,均占有重要的地位。2.2.2正态分布正态分布(normald892.2.2.1二项分布的极限—正态分布
以二项分布棉株受害率为例,假定受害率p=0.5,q=p=0.5,现假定每个抽样单位包括20株,这样y有21种取值,其受害株的概率p(y)=于是概率分布计算如下:
将这些概率绘于图。此图是对称的。如p=q,不论n值大或小,二项分布的多边形图必形成对称;如p≠q,而n很大时,多边形图仍趋对称。n增加到无穷多时,每组的直方形都一一变为纵轴线,此时的多边形边变为一光滑曲线。此光滑曲线是二项分布的极限曲线。此极限曲线属于连续性变数分布曲线。这一曲线一般称之为正态分布曲线或正态概率密度曲线。如图4-4
2.2.2.1二项分布的极限—正态分布以二项分布棉株受害90图4—4正态分布密度曲线图4—4正态分布密度曲线912.2.2.2正态分布的定义及其特征(一)正态分布的定义若连续型随机变量y的概率分布密度函数为(4-6)其中μ为平均数,σ2为方差,则称随机变量y服从正态分布(normaldistribution),记为y~N(μ,σ2)。相应的概率分布函数为(4-7)2.2.2.2正态分布的定义及其特征92分布密度曲线如图4—4所示。
(二)正态分布的特征
1、正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为y=μ;算术平均数、中数和众数是相等的;2、f(y)在y=μ处达到极大,极大值;3、f(y)是非负函数,以y轴为渐近线,分布从-∞至+∞;分布密度曲线如图4—4所示。934、曲线在y=μ±σ处各有一个拐点,即曲线在(-∞,μ-σ)和(μ+σ,+∞)区间上是下凸的,在[μ-σ,μ+σ]区间内是上凸的,曲线两尾向左右延伸,永不接触横轴;5、正态分布有两个参数,即平均数μ和标准差σ,在μ±3σ范围内包括了绝大多数频率。μ是位置参数,如图4—5所示。当σ恒定时,μ愈大,则曲线沿y轴愈向右移动;反之,μ愈小,曲线沿y轴愈向左移动。σ是变异度参数,如图4—6所示。当μ恒定时,σ愈大,表示y的取值愈分散,曲线愈“胖”;σ愈小,y的取值愈集中在μ附近,曲线愈“瘦”。4、曲线在y=μ±σ处各有一个拐点,即曲线在(-94图4—5σ相同而μ不同的三个正态分布图4—6μ相同而σ不同的三个正态分布012图4—5σ相同而μ不同的三个正态分布图4—6μ相同而σ不95
6、分布密度曲线与横轴所夹的面积为1,即:
区间μ±1σ面积或概率=0.6827μ±2σ=0.9545μ±3σ=0.9973μ±1.960σ=0.9500μ±2.576σ=0.9900
962.2.2.2标准正态分布
由上述正态分布的特征可知,正态分布是依赖于参数μ和σ2(或σ)的一簇分布,正态曲线之位置及形态随μ和σ2的不同而不同。这就给研究具体的正态总体带来困难,如以新变量u来代替μ,令u=,则将一般的N(μ,σ2)转换为μ=0,σ2=1的正态分布,u称为正态离差。2.2.2.2标准正态分布97
我们称μ=0,σ2=1的正态分布为标准正态分布(standardnormaldistribution)。标准正态分布的概率密度函数及分布函数分别记作ψ(u)和Φ(u),由(4-6)及(4-7)式得:(4-8)(4-9)随机变量u服从标准正态分布,记作u~N(0,1),分布密度曲线如图4—7所示。我们称μ=0,σ2=1的正态分布为标准正态分布(s98图4—7标准正态分布密度曲线图4—7标准正态分布密度曲线99
对于任何一个服从正态分布N(μ,σ2)的随机变量y,都可以通过标准化变换:u=(y-μ)/σ(4-10)将y其变换为服从标准正态分布的随机变量u。
u称为标准正态变量或标准正态离差(standardnormaldeviate)。
1002.2.2.3正态分布的概率计算(一)标准正态分布的概率计算
设u服从标准正态分布,则u在[u1,u2)内取值的概率为:=Φ(u2)-Φ(u1)(4-11)而Φ(u1)与Φ(u2)可由附表2累积正态分布FN(y)值表查得。2.2.2.3正态分布的概率计算101例如,u=1.75,1.7放在第一列0.05放在第一行。在附表2累积正态分布FN(y)值中,1.7所在行与0.05所在列相交处的数值为0.95994,即Φ(1.75)=0.95994有时会遇到给定Φ(u)值,例如Φ(u)=0.284,反过来查u值。这只要在附表2累积正态分布FN(y)值中找到与0.284最接近的值0.2843,对应行的第一列数-0.5,对应列的第一行数值0.07,即相应的u值为u=-0.57,即Φ(-0.57)=0.284如果要求更精确的u值,可用线性插值法计算。例如,u=1.75,1.7放在第一列0.05放102
由(4-11)式及正态分布的对称性可推出下列关系式,再借助附表2累积正态分布FN(y)值,便能很方便地计算有关概率(有时要利用分布曲线的对称性来解题):P(0≤u<u1)=Φ(u1)-0.5
P(u≥u1)=Φ(-u1)
P(|u|≥u1)=2Φ(-u1)(4-12)
P(|u|<u1)=1-2Φ(-u1)
P(u1≤u<u2)=Φ(u2)-Φ(u1)
103【例4.6】已知u~N(0,1),试求:(1)P(u<-1.64)=?(2)P(u≥2.58)=?(3)P(|u|≥2.56)=?(4)P(0.34≤u<1.53)=?【例4.6】已知u~N(0,1),试求:104利用(4-12)式,查附表2累积正态分布FN(y)值得:(1)P(u<-1.64)=0.05050(2)P(u≥2.58)=Φ(-2.58)=0.024940(3)P(|u|≥2.56)=2Φ(-2.56)=2×0.005234=0.010468(4)P(0.34≤u<1.53)=Φ(1.53)-Φ(0.34)=0.93669-0.6331=0.30389利用(4-12)式,查附表2累积正态分布FN(y)值得:105关于标准正态分布,以下几种概率应当熟记:P(-1≤u<1)=0.6826P(-2≤u<2)=0.9545
P(-3≤u<3)=0.9973P(-1.96≤u<1.96)=0.95P(-2.58≤u<2.58)=0.99
图4—8标准正态分布的三个常用概率关于标准正态分布,以下几种概率应当熟记:106图4—8标准正态分布的三个常用概率
图4—8标准正态分布的三个常用概率107u变量在上述区间以外取值的概率分别为:P(|u|≥1)=2Φ(-1)=1-P(-1≤u<1)=1-0.6826=0.3174P(|u|≥2)=2Φ(-2)=1-P(-2≤u<2)=1-0.9545=0.0455P(|u|≥3)=1-0.9973=0.0027P(|u|≥1.96)=1-0.95=0.05P(|u|≥2.58)=1-0.99=0.01u变量在上述区间以外取值的概率分别为:108
(二)一般正态分布的概率计算
正态分布密度曲线和横轴围成的一个区域,其面积为1,这实际上表明了“随机变量y取值在-∞与+∞之间”是一个必然事件,其概率为1。若随机变量y服从正态分布N(μ,σ2),则y的取值落在任意区间[y1,y2)的概率,记作P(y1≤y<y2),等于图4—9中阴影部分曲边梯形面积。即:(二)一般正态分布的概率计算109图4—9正态分布的概率图4—9正态分布的概率110(4-13)
对(4-13)式作变换u=(y-μ)/σ,得dy=σdu,故有其中,
111这表明服从正态分布N(μ,σ2)的随机变量y在[y1,y2)内取值的概率,等于服从标准正态分布的随机变量u在[(y1-μ)/σ,(y2-μ)/σ)内取值的概率。因此,计算一般正态分布的概率时,只要将区间的上下限作适当变换(标准化),就可用查标准正态分布的概率表的方法求得概率了。这表明服从正态分布N(μ,σ2)的随机变量y在112【例4.7】设y服从μ=30.26,σ2=5.102的正态分布,试求P(21.64≤y<32.98)。令则u服从标准正态分布,故=P(-1.69≤u<0.53)=Φ(0.53)-Φ(-1.69)=0.7019-0.04551=0.6564
【例4.7】设y服从μ=30.26,σ2=5.113关于一般正态分布,以下几个概率(即随机变量y落在μ加减不同倍数σ区间的概率)是经常用到的。
P(μ-σ≤y<μ+σ)=0.6826P(μ-2σ≤y<μ+2σ)=0.9545P(μ-3σ≤y<μ+3σ)=0.9973P(μ-1.96σ≤y<μ+1.96σ)=0.95P(μ-2.58σ≤y<μ+2.58σ)=0.99关于一般正态分布,以下几个概率(即随机变量y落在114
上述关于正态分布的结论,可用一实例来印证。例如上章水稻140行产量资料的样本分布表现出接近正态分布,其平均数=157.9(g),标准差S=36.4(g),算出平均数加减不同倍数标准差区间内所包括的次数与频率,列于表4—2。
上述关于正态分布的结论,可用一实例来印证。115
表4—2140行水稻产量在±kS
区间内所包括的次数与频率
±kS数值区间区间内包括的次数次数%±1S157.9±36.4121.5~194.39970.71±2S157.9±72.885.1~230.713495.71±3S157.9±109.248.7~267.1140100
表4—2140行水稻产量在±kS
116由表4—2可见,实际频率与理论概率
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 1+X母婴(初级)试题与答案
- 防溺水知识培训
- 防溺水安全教育班会
- 中级银行管理-2025中级银行从业资格考试《银行管理》押题密卷3
- 数学(理科)-高考理科数学章节练习
- 小学科学副校长聘用协议书范文
- 防范和打击非法传销知识
- 阻燃电缆标准培训
- 皮革鞣制过程中浆体处理
- 医疗行业智慧医院建设与医疗服务优化方案
- 精神科进修出科小结
- 国家形象的内涵及其功能
- 2023年学校红十字会工作计划(三篇)
- 2024年七年级语文下册读读写写汇编(注音+解释)
- 世界是我们的课堂
- 佛教僧尼寺院管理制度
- 供应链管理居间协议书
- 采购谈判技巧培训课件
- 常见危急值及处理流程课件
- 环境、社会和公司治理ESG的作业管理
- 第14课 明清时期的经济、科技与文化
评论
0/150
提交评论