《理论分布正式》PPT课件.ppt_第1页
《理论分布正式》PPT课件.ppt_第2页
《理论分布正式》PPT课件.ppt_第3页
《理论分布正式》PPT课件.ppt_第4页
《理论分布正式》PPT课件.ppt_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章 概率与理论分布,第二节、理论分布,2.2.1二项式分布 2.2.1.1二项总体及二项式分布 二项总体(binary population):间断性随机变数的总体包含两项,即非此即彼的两项,它们构成的总体称为二项总体。 如小麦种子的发芽与不发芽,大豆子叶为黄色和绿色,调查荔枝蒂蛀虫为害分为受害株和不受害株等等。 通常将二项总体中的“此”事件以变量“1”表示,具概率p;将“彼”事件以变量“0”表示,具概率q。因而二项总体又称为0、1总体,其概率则有p+q=1或者q=p-1。,第二节、理论分布,2.2.1二项式分布 2.2.1.1二项总体及二项式分布 二项式分布(binomial distribution):从二项总体中抽取n个个体,则间断性变量y就有n+1种取值,这n+1种取值各有其概率,因而由变量及其概率就构成了一个分布,这个分布就是二项式分布(又称二项分布或者二项式概率分布。,第二节、理论分布,2.2.1二项式分布 2.2.1.1二项总体及二项式分布 如观察使用某种农药后供试5只蚜虫的死亡数目,记 “死”为“0”,记 “活”为“1”,观察结果将出现6个事件:5只全死,4死1活,3死2活,2死3活,1死4活,5只全活,这6个事件就构成一个完全事件系,但6个事件的概率不同,将完全事件系的总概率1分布到6个事件中去,就是所谓的概率分布。如果将活的虫数y来代表相应的事件,便得到了关于变量y的概率分布。,2.2.1.2二项分布的概率计算方法,大豆子叶的颜色受一对等位基因控制,黄色(Y)对绿色(G)为显性,则F2代按3:1比例分离,黄色子叶的概率为0.75(3/4),绿色子叶的概率为0.25(1/4),这是二项总体的概率分布。若从总体中抽取n粒,那么y粒是黄子叶的概率是多少呢?,1以二粒荚为例:出现黄色子叶种子数(y)可能就有2+1种取值,即为0、1或2个。 出现0个y的概率:P(y=0)= 出现一黄一绿的概率:P(YG)= P(GY)= 这两个为互斥事件 所以P(y=1)为3/16+3/16=6/16 出现2个Y的概率:P(y=2)= 故,出现黄子叶种子数0,1,2三个事件A0.A1.A2构成一完全事件系。 P(A0)+P(A1)+P(A2)=黄子叶数(y) 0 1 2 黄子叶出现y次的概率 1/16 6/16 9/16 合计为1,2以三粒为例:出现黄色子叶的种子数(y)可能为0.1.2或3个。 出现0个y的概率:P(y=0)= 出现1个y的概率:P(GGY)= , P(GYG)= P(YGG)= ,故 P(y=1)= 出现2个Y的概率:P(YYG)= , P(YGY)= P(GYY)= , 故P(y=2)= 出现3个Y的概率:P(GGG)= P(y=3)= 所以完全事件系P(A0)+P(A1)+P(A2)+ P(A3)=,从以上可看出,每一复合事件的概率必等于该 事出现的组合数乘以单个事件的概率。 组合数公式为: n相当于豆荚内的种子总数,y相当于黄色的种子数,所以: P(y)= 例如:n=3,y=2 P(y=2)=,二项式中包括两项,这两项的概率为p、q,则变量y的概率函数为: 这一分布律也称为贝努里(Bernoulli)分 布,且有二项分布的概率之和等于1。,2.2.1.3二项式分布概率的计算,例1、棉田盲椿象危害的统计概率是从调查2000株后获得的近似值p=0.35,现受害株事件为A,其概率为p(A)=0.35,未受害株事件为对立事件,其概率为q=1-p=0.65。这一试验是可以重复的。假定作了多次试验,即抽出n株为一个抽样单位,那么,试问出现有y株是受害的,其概率应为多少? n=1受害株树y=0,1 n=5受害株树y=0,1,2,3,4,5 P(y=k)=,2.2.1.3二项式分布概率的计算,例1、n=1时, 由于已知 P(A)=0.35,P( )=1-0.35=0.65 总体的理论分布则以n乘上述概率分布,即np和n(1-p),所以有2000*0.35=700株受害和2000*0.65=1300株未受害。 n=5 时,受害株数 y=0,1,2,3,4,5 ,变量y相应的概率函数 P(y=i)= ,其累积函数F(y)就如P54页的公式。 调查单位为5株的概率分布表就如P55的表4.2。,例2、某种昆虫在某地区的死亡率为40%,即p=0.4,现对这种害虫用一种新药进行治虫试验,每次抽样10头作为一组治疗。试问新药无疗效,在10头中死3头、2头、1头,以及全部愈好的概率为多少?10头中不超过两头死亡的概率各为多少? n=10 p=0.4 q=0.6 求 P(y=3) p(y=2) p(y=1) p(y=0) P(y=3)= p(y=2)= p(y=1)= p(y=0)=,=0.21499,=0.12093,=0.04031,=0.00605,F(2) =,=p(y=0)+p(y=1)+p(y=2),= 0.00605 + 0.04031 +0.12093,= 0.16729,如果问超过两头死去的概率是多少? = P(y=3)+ P(y=4)+ P(y=5)+ P(y=6)+ P(y=7)+ P(y=8)+ P(y=9)+ P(y=10) 如用对立事件来解则容易的多: 1-,F(2) =1-,=1-0.16729=0.83271,2.2.1.4二项分布的形状及参数,二项分布定义如下: 设随机变量y所有可能取的值为零或正整数:0,1,2,,n,且有 Pn(y=k) = k=0,1,2,n 其中p0,q0,p+q=1,则称随机变量y服从参数为n 和p的二项分布(binomial distribution),记为 yB(n,p)。,二项分布是一种离散型随机变量的概率分布。参数n 称为离散参数 , 只能取正整数; p 是连续参数,它 能取0与1之间的任何数值,q由p确定,故不是另一个 独立参数。 二项分布由n和p两个参数决定: 1、当p值较小且n不大时 ,分 布 是偏倚的。但随着n的增大 ,分布逐渐趋于对称,如图42 所示;,2、当 p 值 趋 于 0.5 时 ,分 布 趋于对称, 如图43所示; 3、对于固定的n及p,当k增加时,Pn(k)先随之增加并达到其极大值,以后又下降。 此外 ,在n较大,np、nq 较接近时 ,二项分布接近于正态分布;当n时,二项分布的极限分布是正态分布。,二项分布的平均数与标准差 统计学证明,服从二项分布B(n,p)的随机变量y平均数、标准差与参数n、p有如下关系: =np = 2=npq 如果n适当大,如大于30,而 p值又不太小,并且np及nq 均不小于5时,那么这个二项分布趋近于即将介绍的正 态分布,2.2.1.4多项式分布,多项总体: 若总体中包含几种特性或者分类标志,可将总体中的个体分为几类。这种将变数资料分为3类或者多类的总体称为多项总体。 例如某种农药在防治某种病害的效果时可能有的效果好,有的无效果,有的有副作用,这些构成的总体就是多项总体。 研究多项总体的随机变量的概率分布可使用多项式分布(multinomial distribution)。,2.2.1.4多项式分布,设总体中共包含有k项事件,它们的概率分别为p1、p2、p3、p4pk,且 p1+p2+p3+pk=1。若从这种总体中随机抽取n个个体,那么可能 得到这k项的个数分别为y1、y2、y3yk,显然y1+y2+y3+yk=n。 这样一个事件的概率应该是: P(y1、y2、y3yk) = 这一概率分布称为多项式分布。,2.2.1.4多项式分布,例3、某药对病人有效的概率为1/2,对病人无效的概率为1/3,有副作用的概率为1/6,若随机抽取2个试验该药的病人,那么我们抽取的结果包括这样几个事件:2个病人有副作用;1个无效,1个有副作用;2个无效;1个有效,1个有副作用;1个有效,1个无效;2个均有效。这几个事件的概率可用以上公式计算。如P57页,2.2.1.5泊松分布二项分布的一种极限分布,泊松分布 (Poisson distribution) 在二项分布中,当某事件出现的概率 p或q 值比较 小 (如小于 0.1 ), 而样本容量又很大,二项分布就接近 泊松分布了。主要描述大量实验中随机稀疏现象。如 将np=m(n比较大,而m比较小时),其概率密度函数为: P(y) = e=2.71828, y=0,1,2,其参数为: 即:平均数、方差与标准差如下: =m, 2 =m,= 不同m值的分布及例子如书本第58页图4.4和例4.4。 m的大小决定其分布形状,当m值很小时分布呈很偏斜形状,m增大后则逐渐对称,趋向于后面要介绍的正态分布。 泊松分布有一特性:即两个或两个以上的 泊松分布之和,也是一个泊松分布。,2.2.2正态分布,正态分布(normal distribution)是一种很重要的连续型随机变量的概率分布。生物现象中有许多变量是服从或近似服从正态分布的。许多统计分析方法都是以正态分布为基础的。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。因此在统计学中,正态分布无论在理论研究上还是实际应用中 , 均占有重要的地位。,2.2.2.1二项分布的极限正态分布,以二项分布棉株受害率为例,假定受害率p=0.5,q=p=0.5,现假定每个抽样单位包括20株,这样y有21种取值,其受害株的概率 p(y)= 于是概率分布计算如下: 将这些概率绘于图。此图是对称的。 如p=q,不论n值大或小,二项分布的多边形图必形成对称;如pq,而 n很大时,多边形图仍趋对称。n 增加到无穷多时,每组的直方形都一一变 为纵轴线,此时的多边形边变为一光滑曲线。此光滑曲线是二项分布的极 限曲线。此极限曲线属于连续性变数分布曲线。这一曲线一般称之为正态 分布曲线或正态概率密度曲线。如图4-4,图44 正态分布密度曲线,2.2.2.2正态分布的定义及其特征 (一) 正态分布的定义 若连续型随机变量y的概率分布密度函数为 (4-6) 其中为平均数,2为方差,则称随机变量y服从正态分布(normal distribution), 记为yN(,2)。相应的概率分布函数为 (4-7),分布密度曲线如图44所示。 (二) 正态分布的特征 1、正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为y=;算术平均数、中数和众数是相等的; 2、f(y) 在 y = 处达 到 极 大 , 极大值 ; 3、f(y)是非负函数,以y轴为渐近线,分布从-至+;,4、曲线在y=处各有一个拐点,即曲线在(-,-)和(+,+) 区间上是下凸的,在-,+区间内是上凸的,曲线两尾向左右延伸,永不接触横轴; 5、正态分布有两个参数,即平均数和标准差,在3 范围内包括了绝大多数频率 。 是位置参数,如图45所示。 当恒定时,愈大,则曲线沿y轴愈向右移动;反之,愈小,曲线沿y轴愈向左移动。 是变异度参数, 如图46所示 。 当恒定时, 愈大,表示 y 的取值愈分散, 曲线愈“胖”;愈小,y的取值愈集中在附近,曲线愈“瘦”。,0,1,2,6、分布密度曲线与横轴所夹的面积为1,即: 区间1 面积或概率= 0.6827 2 = 0.9545 3 = 0.9973 1.960 = 0.9500 2.576 = 0.9900,2.2.2.2标准正态分布 由上述正态分布的特征可知 ,正态分布是依赖于参数和2 (或) 的一簇 分布 , 正态曲线之位置及形态随和2的不同而不同 。 这就给研究具体的正态总体带来困难, 如以新变量u来代替,令 u= ,则将一般的N(,2) 转 换为 = 0,2=1的正态分布, u 称为正态离差。,我们称=0,2=1的正态分布为标准正态分布(standard normal distribution)。 标准正态分布的概率密度函数及分布函数分别记作(u)和(u),由 (4-6)及(4-7) 式得: (4-8) (4-9) 随机变量u服从标准正态分布,记作uN(0,1),分布密度曲线如图47所示。,图47 标准正态分布密度曲线,对于任何一个服从正态分布N(,2)的随机变量y,都可以通过标准化变换: u=(y-) (4-10) 将 y其变换为服从标准正态分布的随机变量u。 u 称 为 标 准 正 态变量或标准正态离差(standard normal deviate)。,2.2.2.3正态分布的概率计算 (一)标准正态分布的概率计算 设u服从标准正态分布,则 u 在u1,u2 )内取值的概率为: (u2)(u1) (4-11) 而(u1)与(u2)可由附表2累积正态分布FN(y)值表查得。,例如,u=1.75 ,1.7放在第一列0.05放在第一行 。 在附表2累积正态分布FN(y)值中 , 1.7所在行与 0.05 所在列相交处的数值为0.95994,即 (1.75)=0.95994 有 时 会 遇 到 给 定 (u) 值 , 例 如 (u)=0.284, 反过来查u值。这只要在附表2累积正态分布FN(y)值中找到与 0.284 最接近的值0.2843,对应行的第一列数 -0.5, 对应列的第一行数 值 0.07 ,即相应的u值为 u = - 0.57,即 (-0.57)=0.284 如果要求更精确的u值,可用线性插值法计算。,由(4-11) 式及正态分布的对称性可推出下列关系式, 再借助附表2累积正态分布FN(y)值, 便能很方便地计算有关概率(有时要利用分布曲线的对称性来解题): P(0uu1)(u1)-0.5 P(uu1) =(-u1) P(uu1)=2(-u1) (4-12) P(uu1)1-2(-u1) P(u1uu2)(u2)-(u1),【例4.6】 已知uN(0,1),试求: (1) P(u-1.64)? (2) P (u2.58)=? (3) P (u2.56)=? (4) P(0.34u1.53) =?,利用(4-12)式,查附表2累积正态分布FN(y)值得: (1) P(u-1.64)=0.05050 (2) P (u2.58)=(-2.58)=0.024940 (3) P (u2.56) =2(-2.56)=20.005234 =0.010468 (4) P (0.34u1.53) =(1.53)-(0.34) =0.93669-0.6331=0.30389,关于标准正态分布,以下几种概率应当熟记: P(-1u1)=0.6826 P(-2u2)=0.9545 P(-3u3)=0.9973 P(-1.96u1.96)=0.95 P (-2.58u2.58)=0.99 图48 标准正态分布的三个常用概率,图48 标准正态分布的三个常用概率,u变量在上述区间以外取值的概率分别为: P(u1)=2(-1)=1- P(-1u1) =1-0.6826=0.3174 P(u2)=2(-2) =1- P(-2u2) =1-0.9545=0.0455 P(u3)=1-0.9973=0.0027 P(u1.96)=1-0.95=0.05 P(u2.58)=1-0.99=0.01,(二)一般正态分布的概率计算 正 态 分 布 密度曲线和横轴围成的一个区域,其面积为1,这实际上表明了“随机变量y取值在-与+之间”是一个必然事件,其概率为1。 若随机变量 y服从正态分布N(,2),则y的取值落在任意区间 y1, y2) 的概率 ,记作P(y1 y y2),等于图49 中阴影部分曲边梯形面积。即:,图49 正态分布的概率,(4-13) 对 (4-13)式作变换u=(y-),得dy=du,故有 其中,,这表明服从正态分布N(,2)的随机变量y 在 y1 ,y2 )内取值的概率 , 等 于服 从 标 准 正 态 分 布 的 随 机 变 量 u 在 (y1-)/, (y2-)/)内取值的概率 。 因此,计算一般正态分布的概率时, 只要将区间的上下限作适当变换(标准化), 就可用查标准正态分布的概率表的方法求得概率了。,【例4.7】 设y服从=30.26,2=5.102的正态分布,试求P(21.64y32.98)。 令 则u服从标准正态分布,故 =P(-1.69u0.53) =(0.53)-(-1.69) =0.7019-0.04551 =0.6564,关于一般正态分布,以下几个概率(即随机变量y落在加减不同倍数区间的概率)是经常用到的。,P(-y+)=0.6826 P(-2y+2) =0.9545 P (-3y+3) =0.9973 P (-1.96y+1.96) =0.95 P (-2.58y+2.58)=0.99,上述关于正态分布的结论,可用一实例来印证。 例如上章水稻140行产量资料的样本分布表现出接近正态分布 ,其 平均数 =157.9 (g) ,标 准 差S=36.4(g) ,算出平均数加减不同倍数标准差区间内 所包括的次数与频率 ,列于表42。,表42 140行水稻产量在 kS 区间内所包括的次数与频率,kS 数值 区间 区间内包括的次数 次数 % 1S 157.9 36.4 121.5194.3 99 70.71 2S 157.9 72.8 85.1 230.7 134 95.71 3S 157.9 109.2 48.7 267.1 140 100,由表42可见,实际频率与理论概率相当接近,说明140行水稻产量资料的频率分布接近正态分布 ,从而可推断水稻产量这一随机变量很可能是服从正态分布的。 生物统计中,不仅注意随机变量y落在平均数加减不同倍数标准差区间(-k,+k)之内的概率而且 也很 关心 y落在此区间之外的概率。 我们把随机变量y落在平均数加减不同倍数标准差区间之外的概率称为双侧概率(两尾概率),记作。,对应于双侧概率可以求得随机变量y小于-k或大于+k的概率,称为单侧概率(一尾概率),记作2。 例如,y落在(-1.96,+1.96)之外的双侧概率为0.05,而单侧概率为0.025。即 P(y-1.96)= P(y+1.96)=0.025 双侧概率或单侧概率如图410所示。 y落在(-2.58,+2.58)之外的双侧概率为0.01,而单侧概率 P(y-2.58)= P(y+2.58)=0.005,图410 双侧概率与单侧概率,附表3给出了满足P (u )=的双侧分位 的数值。因此, 只要已知双侧概率的值,由附表3就可直接查出对应的双侧分位数 ,查法与附表2相同。 例如,已知uN(0,1)试求: (1) P(u- )+P(u )=0.10的 (2) P(- u =0.86的 因为附表3中的值是:,所以 (1) P(u- )+ P(u ) =1- P(- u =0.10= 由附表3查得: =1.644854 (2) P (- u ) =0.86 , =1- P (- u )=1-0.86=0.14 由附表3查得: =1.475791 对于yN(,2),只要将其转换为uN(0,1),即可求得相应的双侧分位数。,例4.4 假定y是一随机变数具有正态分布,平均数 =30,标准差 =5,试计算小于26,小于40的概率,介乎26和40区间的概率以及大于40的概率。,首先

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论