生物统计学:第三章随机变量与概率分布_第1页
生物统计学:第三章随机变量与概率分布_第2页
生物统计学:第三章随机变量与概率分布_第3页
生物统计学:第三章随机变量与概率分布_第4页
生物统计学:第三章随机变量与概率分布_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

概率的基本知识1概率的基本概念1.1确定性现象和非确定性现象(随机现象)确定性现象非确定性现象(随机现象)研究偶然现象本身规律性的科学——概率论利用概率论得出的规律,揭示偶然性中所寄寓的必然性的科学——统计学

如,20岁男子的身高;鱼的性比1.2事件及事件间的关系随机试验:第一次观测时,并不能准确得知下一次结果。每一个试验结果称基本事件,这些基本事件的集合称为事件。事件的几种基本运算:和(并)运算:二者至少发生一交运算:,简记AB

二者同时发生互不容(互斥)运算:不能在同一时间发生的两个事件性别

血型维恩图ABAB例1:A=(每网捕鱼10~15kg),B=(每网捕鱼8~13kg)例2:A=(有男孩的家庭),B=(有女孩的家庭),C=(独生子的家庭),D=(独生女的家庭)事件的几种关系对立事件:事件A和事件B必有一个发生,但二者不能同时发生。例:一个箱内有红、黄、蓝、绿四种颜色的球,现随机抽取一个球。A=(抽到红球),B=(抽到黄球),C=(抽到蓝球),D=(抽到绿球)对立事件:互斥事件:A与B∪C∪D,B与A∪C∪D,C与A∪B∪DA、B、C、D两两互斥独立事件:事件A的发生与事件B的发生毫无关系,反之,事件B的发生也与事件A的发生毫无关系。完全事件系:如果多个事件A1、A2、……、An两两相斥,且每次试验结果必然发生其一,则称事件A1、A2、……、An为完全事件系。概率的统计定义思考:投掷一枚硬币,出现正面的概率是多大?(0表示反面,1表示正面)反复做它,那么所有出现正面的结果平均值是多少?

英国数学家皮尔逊做24000次抛硬币试验正面向上12012

频率=随着试验次数的增多,正面朝上的频率越来越接近0.5.

反面向上11988次

频率=设K次随机试验,事件A出现L次,则称L/K是K次随机试验中成功的频率。频率是由样本数据计算得到的。由于样本分布的不均衡性,不同的随机试验,事件A的出现频率也不一样,有一定的波动。随着K的增大,频率L/K将围绕着某一确定的常数P做平均幅度愈来愈小的变动,这就是所谓频率的稳定性,其中P即为事件A的概率。简单的说概率就是频率的稳定值。在试验次数较多时,可以用频率作为概率的近似值。概率的统计定义概率是事件在试验结果中出现可能性大小的定量计量。它是度量非确定(随机)事件发生的可能性的统计学指标,是事件固有的属性,有以下明显的性质:随机事件A的概率:0<P(A)<1必然事件W的概率为1,即P(W)=1不可能事件(V)的概率为0,即P(V)=0概率接近于0(如P<0.05)的事件称为小概率事件。概率的古典定义概率的统计定义是在大量的试验中,以频率的稳定性为基础上提出来的。而不需要做试验就可以确定事件出现的概率,称为古典概率。古典概型必须满足以下条件:随机试验的全部可能结果(基本事件数)是有限的;各基本事件间是互不相容且等可能的。定义:P(A)=m/n其中,m为事件A中所包含的基本事件数,n为基本事件总数。例:试计算在厦门搏饼时从一秀到状元各种出现的概率概率的一般运算1)

概率的加法法则

两事件和的概率:P(A∪B)=P(A)+P(B)-P(A∩B)例:P(A)为某种水产养殖动物遭受弧菌病的概率,P(B)为其遭受寄生虫侵害的概率,则P(A∪B)为该种动物遭受弧菌和寄生虫病害的概率。事件A的概率和它的对立事件(即事件A以外的全部基本事件的集合)的概率有以下关系:P(A)=1-P(A)若两事件是不相容:P(A∪B)=P(A)+P(B)例:红花豌豆与白花豌豆杂交后,其子二代会出现三种颜色的花,P(A)为出现红花的概率,P(B)为出现粉花的概率,P(C)为出现白花的概率。若几个事件互不相容:P(A1∪A2∪…∪An)=P(A1)+P(A2)+…+P(An)2)条件概率已知事件B发生的条件下,事件A发生的概率称为条件概率,记为P(A︱B)P(A∣B)=P(AB)/P(B)P(B∣A)=P(AB)/P(A)设A表示预报有雨的事件,B表示实际下雨的事件有P(在预报有雨的条件下,实际也下雨)即,P(BA)=就是事件A已经发生的前提下,事件B发生的概率.

周日日一二三四五六预报晴阴雨雨雨晴雨实际晴雨阴雨雨晴晴例:一周的天气情况如下:P(AB)=P(A)P(B∣A)3)概率乘法法则两事件交的概率,等于其中一事件(其概率必须不为0)的概率乘以另一事件在已知前一事件发生条件下的条件概率。P(AB)=P(B)P(A∣B)P(AB)=P(A)P(B∣A)例:在分别标有0、1、2、……、9的10张卡片中,每次任取一张,取后不放回,求两次都取到奇数的概率。解:以A1和A2分别表示第1、2次取到奇数的事件,则所求为P(A1∩A2)∵P(A1)=5/10,P(A2∣A1)=4/9∴P(A1∩A2)=P(A1)·P(A2∣A1)=(5/10)×(4/9)=2/94)独立事件前面已经介绍了独立事件,在这里我们从概率的角度来定义。若事件A的发生并不影响事件B发生的概率,即:P(B︱A)=P(B)或P(A︱B)=P(A)则A与B是独立事件。对于独立事件,概率乘法公式为:P(AB)=P(A)P(B)类型聋(A)非聋合计色盲(B)非色盲合计0.00040.00460.00500.07960.91540.99500.08000.92001.0000P(A)=0.0050,P(B)=0.0800P(AB)=0.0004P(A)P(B)=0.0050×0.0800=0.0004=P(AB)在生物学问题中,还可以根据实验条件及生物学知识判断事件之间的独立性。例:根据统计资料,患色盲与耳聋的概率如下表第三章

随机变量与概率分布3.1随机变量及其分类随机变量(randomvariable)在一定范围内随机取值的变量以一定的概率分布取值的变量随机变量离散型discrete连续型continuous(与我们前面所讲的连续型数据和离散型数据的意义一样)3.2概率分布描述概率的分布主要有三种函数:概率函数(probabilityfunction)随机变量取某一特定值的概率函数(离散型随机变量)概率密度函数(probabilitydensityfunction)随机变量取某一特定值的密度函数(连续型随机变量)概率分布函数(probabilitydistributionfunction)随机变量取值小于或等于某特定值的概率的函数3.2.1离散型变量的概率分布随机变量取得的数值为有限个,或为无穷个孤立的值。将随机变量X所取得值x的概率P(X=x)写成x的函数p(x),称为随机变量X的概率函数p(x)=P(X=x)。将X的一切可能值x1,x2,x3,…,xn,…,以及取得这些值的概率p(x1),p(x2),…,p(xn),…,排列起来,构成了离散型随机变量的概率分布。常用概率分布表或概率分布图表示(如,p28表与p29图3-1)。例3.1

掷一次骰子所得点数的概率函数概率分布列(1)概率函数设X是某离散性随机变量,其概率函数可表示为:f(x)=P(X=x)概率函数应满足的条件:例3.2

掷二次骰子所得点数之和的概率分布(2)离散型变量的概率分布函数离散型随机变量X的概率分布函数:

表示随机变量小于等于某一可能值(x)的概率。离散型概率分布的例子例:从100件产品(其中合格品95件,废品5件)。任取10件,求每次抽到废品数的概率分布。xp(x)0123450.5837523670.3393909110.0702188090.0063835280.0002510380.000003347xF(x)0123450.5837523670.9231432780.9933620770.9997456050.9999966531.000000000概率分布表累积概率分布表离散型随机变量概率分布的特点列出随机变量所有可能值的[x,f(x)]组合x=随机变量值(取值)f(x)=x的值对应的概率互斥性(不相交/无重复)0

p(x)1

p(x)=1(3)随机变量的期望随机变量的期望(expectation)-总体平均数对于例1:期望的性质(期望的法则):其中,a为常数,X和Y是两个随机独立变量。E(a)=aE(aX)=aE(X)E(X+a)=E(X)+aE(X+Y)=E(X)+E(Y)E(XY)=E(X)E(Y)设Y=g(X)是离散型随机变量X的一个函数,f(x)为X的概率函数,则Y的期望为:随机变量的函数的期望例:Y=X2对于例1:(4)随机变量的方差(variance)-总体方差度量随机变量取值的变异程度的指标,其定义式:对于例1:方差的性质设a是常量,X与Y独立。Var(a)=0Var(X+a)=Var(X)Var(aX)=a2

Var(X)Var(X+Y)=Var(X)+Var(Y)Var(XY)≠Var(X)Var(Y)例:用复合饲料饲养动物,每天增重的kg数及其相应的概率如下:

每天增重xi/kg概率

0.50.10

1.00.20

1.50.50

2.00.20

问每天增重的数学期望和方差是多少?解:μ=E(X)=1.40

E(X2

)

=2.15var=σ2

=E(X2

)–μ2=2.15-1.42=0.193.2.2连续型概率分布连续型随机变量可以取某一区间内的任何值,这些数值构成不可数的无穷集合。任何值的概率都趋向等于0。因而,连续型随机变量的概率分布不能用分布列来表示,我们改用随机变量x在某个区间内取值的概率P(a≤x<b)来表示。在实际中无限提高测定的精确度也无意义。随机变量X的值落在区间(x,x+△x)内的概率为P(x<X<x+△x)其中△x为区间长度。当△x趋于零时,此时区间概率称为密度函数:概率密度的图形y=f(x),称为分布曲线。

概率是曲线下面积!f(x)Xab概率密度曲线f(x)与x轴所围成的面积为1分布函数(或称为累积分布函数)是随机变量X取得小于x0的值的概率概率密度函数图和累积分布函数图概率密度函数图累积分布函数图y=p(x)y=F(x)x1x2x2x1P(x1<x<x2)=F(x2)-F(x1)连续型随机变量概率分布的性质:分布密度函数总是大于或等于0,即f(x)≥0;当随机变量x取某一特定值时,其概率等于0;即,(c为任意实数)

因而,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某一个值的概率。随机变量x在最大取值范围内的概率为1。连续性随机变量的数学期望和方差总体特征数包括随机变量的数学期望(理论平均值),方差和各阶距,可以用类似求样本特征数方法求得。

μ=E(X)=

σ2=E[(X-μ)2]=已知E(X)=2,σ2=4,求E(0.5X+2)与var(0.5X+2)解:E(0.5X+2)=0.5E(X)

+2=3var(0.5X+2)=0.52var(X)=13.2.3概率分布与频率分布的关系由样本数据得到的频率分布称为统计分布或经验分布,描述总体的概率分布称为理论分布或总体分布。频率分布可出现各种类型→理论分布(随机变量变化规律的理想化数学模型)如果从总体中取出的样本很大,我们就可以把这个样本的分布近似的作为总体的分布。几种常见的概率分布律3.3正态分布

在生物统计学中,正态分布占有极其重要的地位。许多生物学现象所产生的数据,都服从正态分布。3.3.1正态分布(x—N(μ,σ2))的密度函数与分布函数正态曲线正态分布的规律是数据分布集中在平均数附近,并且在平均数的两侧成对称分布。正态分布密度函数的图像,称为正态曲线。密度函数:分布函数:正态分布密度曲线特点:曲线只有一个峰,峰值位于x=μ处;曲线关于x=μ直线对称,因而算术平均数=中位数=众数;x=μ+σ和x=μ-σ所确定的点为曲线的两个“拐点”;曲线向左、向右无限延伸,以x轴为渐近线;σ的大小,决定曲线的形状(展开程度);σ

固定时,μ值决定曲线的位置。平均数的影响3.3.2标准正态分布(standardnormaldistribution)

令Z服从正态分布标准正态分布对于标准化标准正态分布的密度函数:分布函数:标准正态分布有以下特性:u=0时,概率密度值最大;概率密度曲线向左、向右无限延伸,以x轴为渐近线;概率密度曲线以纵轴为对称轴左右对称;u=1和u=-1是概率分布曲线的两个拐点;曲线与横坐标轴所夹的图形面积为1;累积分布函数曲线从-∞到0平稳上升,围绕点(0,0.5)对称;标准正态分布的偏斜度和峭度均为零。3.3.3标准正态分布的概率计算附录3-附表1标准正态分布函数表(p.297)(1)P(Z

u)或P(Z-u)(u>0)直接查表(2)P(Z

-u)或P(Z

u)

查表(3)P(a

Z

b)或例:设Z~N(0,1),求

(1)P(Z

0.64)(2)P(Z1.53)(3)P(-2.12Z-0.53)(4)P(-0.54Z0.84)

以下一些特征值经常用到:90%95%1.645

1.96

2.58

-2.58

-1.96

-1.64599%xμ=5σ=109.2正态分布uμ=0σ=10.42标准正态分布对于一般正态分布,要先进行标准化,再查表;

标准化的公式为:例

已知某高粱品种的株高X服从正态分布N(156.2,4.822),求:(1)X<161cm的概率;

(2)X>164cm的概率;

(3)152<X<162的概率。对于给定的两尾概率求标准正态分布在x轴上的分位点附表2(p.299)/2/2用2查附表2,可得单尾概率为时的分位点u对于给定的单尾概率求标准正态分布在x轴上的分位点3.4二项分布3.4.1贝努利试验(Bernoullitrial)

我们把只有两种可能观测值(每次试验只可能是两个对立事件之一)的随机试验统称为贝努利试验。这种试验在实际中广泛存在,如观察某一实验动物的卵孵化与否、某一实验动物是雌性还是雄性、实验反应是阴性还是阳性等。3.4.2二项分布(binomialdistribution)定义n次独立地贝努利试验称为n重贝努利试验,其试验结果的分布(一种结果出现x次的概率是多少的分布)即为二项分布,表示为X~B(n,p)。应用二项分布的重要条件是:每一种试验结果在每次试验中都有恒定的概率,各试验之间是重复独立的。例:p39例3.6注意:1)放回式抽样适用于二项分布,非放回式适用于超几何分布;2)通式为:3)展开式(杨辉三角)例3.6一头母猪一窝产了10头仔猪,分别求其中有2头公猪和6头公猪的概率?包括3只及3只以下的概率是多少?即求P(X=2),P(X=6)和P(X≤3)该例符合二项分布的条件。规定以下一组符号:

n=试验次数;

x=在n次试验中事件A出现的次数

φ=事件A发生的概率(每次试验都是恒定的)1-φ=事件发生的概率

p(x)=X的概率函数=P(X=x);F(x)=P(X≤x)上例中:n=10,x=2,φ=0.5,求p(2),p(6)和F(3)。则,对于任意n和x有通式:(此式即为二项分布的概率函数)将x=0,1,2,3代入该通式,可得到出现0,1,2,3只雄性动物的概率。

P(0)=0.0009766P(1)=0.0097656

P(2)=0.0439453P(3)=0.1171876所以,抽到3只和3只以下雄性动物的概率为:

F(3)=P(0)+P(1)+P(2)+P(3)=0.1718751杨辉三角(贾宪三角)n系数01111212131331414641515101051......3.4.3服从二项分布的随机变量的特征数平均数:μ=nφ

方差:偏斜度:峭度:

从以上公式可以看出二项分布决定于两个参考数:试验次数n和概率φ,因此其图形变化趋势与这两个参数有关。二项分布的平均数证明二项分布的方差证明γ1=3.11γ2=9.50γ1=0γ2=0γ1=0γ2=-0.02γ1=0γ2=-0.20γ1=0.12γ2=0.01γ1=0.27γ2=0.05γ1=0.44γ2=0.19γ1=0.98γ2=0.95γ1=0.84γ2=0.51二项分布应用实例例3.7例:用棕色正常毛(bbRR)的家兔和黑色短毛(BBrr)兔杂交,F1代为黑色正常毛长的家兔(BbRr),F1代自交,F2代表型比为:9/16B_R_:3/16B_rr:3/16bbR_:1/16bbrr。问最少需要多少F2代家兔,才能以99%的概率得到至少一个棕色短毛兔(bbrr)?解:设φ为棕色短毛兔出现的概率,则1-φ就为非棕色短毛兔出现的概率。在[φ+(1-φ)]n的展开式中只有最后一项(1-φ)n无棕色短毛兔出现,因此n值可由(1-φ)n=1-0.99求出。

(1-φ)n

=(15/16)n

=0.01

n(lg15-lg16)=lg0.01-0.02803n=-2.00000

n=71.4二项分布的应用条件有三:(1)各观察单位只具有互相对立的一种结果,如阳性或阴性,生存或死亡等,属于二项分类资料;(2)已知发生某一结果(如死亡)的概率为p,其对立结果的概率则为1-p=q,实际中要求p

是从大量观察中获得的比较稳定的数值;(3)n个观察单位的观察结果互相独立,即每个观察单位的观察结果不会影响到其它观察单位的观察结果。3.5Poisson分布在生物学研究中,有许多事件出现的概率很小,而样本容量或试验次数却往往很大,即有很小的φ值和很大的n值。这时二项分布就变成另外一种特殊的分布,即Poisson分布。如,显微镜视野内染色体有变异的细胞计数、单位容积的水中细菌数目的分布、作物种子内杂草的分布以及样方内少见植物的个体数等都属于泊松分布。其概率函数可由二项分布的概率函数推导。3.5.1Poisson分布概率函数的推导(将系数的分子分母同乘以nx)(当n→∞时,系数的极限为1,且nφ

=μ)平均数:μ=μ方差:σ2

=μ偏斜度:峭度:概率函数内的μ,不但是它的平均数,而且是它的方差。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论