第三章概率及概率分布_第1页
第三章概率及概率分布_第2页
第三章概率及概率分布_第3页
第三章概率及概率分布_第4页
第三章概率及概率分布_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章概率及概率分布第一页,共六十九页,编辑于2023年,星期四第一节概率基础知识

一、概念事件event:每种可能出现的情况称为事件。它是指事物发生某种情况或试验中获得某种结果。频率:事件A在n次重复试验中发生了m次,其比值m/n称为事件A在n次试验中出现的频率.记为W(A)=m/n特点:频率是介于0和1之间的一个数,即:W(A)大于0而小于1第二页,共六十九页,编辑于2023年,星期四二、事件之间的关系必然事件:客观事物中,有些现象或试验结果在一定条件下一定发生的事件。不可能事件:客观事物中,有些现象或试验结果在一定条件下一定不发生的事件。随机事件或偶然事件:客观事件中,有些现象或试验结果在一定条件下可能发生也可能不发生的事件。

第三页,共六十九页,编辑于2023年,星期四概率概率probability:就是用来度量每一事件出现的可能性大小的数字特征。记为P(A)=p当n充分大时,事件A发生的频率作为事件A发生的概率p的近似值为P(A)=p≈m/n概率的基本性质:任何事件的概率都在0和1之间必然事件的概率等于1不可能事件的概率等于0第四页,共六十九页,编辑于2023年,星期四

频率和概率是不相同的,只有当试验次数无限增大时,任一事件的频率趋于稳定,这时频率又称统计概率.这时的频率和概率才是一样的.调查株数(n)52550100200500100015002000受害株数(a)212153372177351525704植株受害频率(a/n)0.400.480.300.330.360.3540.3510.3500.352第五页,共六十九页,编辑于2023年,星期四1和事件:事件A与事件B至少有一个发生,这一新事件称为事件A与事件B的和,记作“A+B”。2积事件:事件A与事件B同时发生,这一新事件称为事件A与事件B的积,记作“AB”。3互斥事件如果事件A与事件B不能同时发生,则称事件A和事件B为互斥事件或不相容事件。第六页,共六十九页,编辑于2023年,星期四4对立事件:如果事件A和事件B必发生其一,但又不能同时发生,则事件A和事件B为对立事件。即“A+B”是必然事件,“AB”是互斥事件。5独立事件:若事件A发生与否不影响事件B发生的可能性,事件B发生与否也不影响事件A发生的可能性,则二者为独立事件。第七页,共六十九页,编辑于2023年,星期四例一,在掷一次骰子的试验中,有如下的一些可能发生的事件:基本事件有6个:{1},{2},{3},{4},{5},{6}其它的事件有:事件A=得到一个奇数={1,3,5}事件D=得到一个不小于2的数={2,3,4,5,6}事件B=得到一个偶数={2,4,6}事件C=得到最大的数={6}事件E=得到数字0=Φ第八页,共六十九页,编辑于2023年,星期四2.事件的运算事件的和(并)事件A和事件B的和,记为AUB,包含A和B里的一切基本事件或元素,其意义是“A,B两事件至少发生一个”。例如:A={随机抽取一名患者,测得红血球含量是1~15个单位}B={随机抽取一名患者,测得红血球含量是10~30个单位}事件AUB={随机抽取一名患者,测得红血球含量是1~30个单位}第九页,共六十九页,编辑于2023年,星期四事件的积事件A和事件B的交,记为A∩B,简记为AB,包含A和B共同拥有的基本事件或元素,其意义是“A,B两事件同时发生”。例如:A={随机抽取一名患者,测得红血球含量是1~15个单位}B={随机抽取一名患者,测得红血球含量是10~30个单位}事件A∩B={随机抽取一名患者,测得红血球含量是10~15个单位}第十页,共六十九页,编辑于2023年,星期四互不相容事件如果A和B两事件的交是不可能事件,即A∩B=Φ,则A和B称为互不相容。例如:在例一中, A=掷骰子掷得一个奇数, B=掷骰子掷得一个偶数, 则A∩B=Φ,即A和B两事件互不相容。第十一页,共六十九页,编辑于2023年,星期四问题1:投掷一次均质的骰子所得点数为一随机变量,求该随机变量的概率函数概率函数:描述随机变量取各个可能值的概率的函数。设X是某个随机变量,其概率函数可表示为:f(x)=P(X=x)式中x为X的某个可能取值,P(X=x)表示X取值为x的概率。第十二页,共六十九页,编辑于2023年,星期四解题思路投掷一次骰子所得点数有种可能,即点数为,由于骰子是均质的,每种结果出现的概率是相同的,即都为,因而该随机变量的概率函数为:f(x)=1/6x=1,2,3,4,5,6这个函数用表的形式来表示为:这样的表称为概率分布列61~61/6x123456f(x)1/61/61/61/61/61/6第十三页,共六十九页,编辑于2023年,星期四问题2:独立投掷2次均质的骰子,所得点数之和为一随机变量,求该随机变量的概率函数第十四页,共六十九页,编辑于2023年,星期四解题思路投掷2次骰子所得点数有种组合,即点数之和为,由于骰子是均质的,每种组合出现的概率是相同的,即都为,因而该随机变量的概率函数为:f(x)=P(x1+x2=x)=nx/36x=2~12式中:x1和x2分别为第一次投掷和第二次所投掷的点数;nx为2次投掷点数之和为x的组合数362~121/36第十五页,共六十九页,编辑于2023年,星期四该概率函数的概率分布列为:x234567f(x)1/362/363/364/365/366/36x89101112f(x)5/364/363/362/361/36第十六页,共六十九页,编辑于2023年,星期四三.概率的计算一个事件A的概率,记为P(A),是事件A发生的可能性的定量计量。概率的三个性质: (1)任何事件概率均满足0≤P(A)≤1 (2)必然事件的概率为1 (3)不可能事件的概率为0,即P(Φ)=0注意:计算概率时,结果为5或-0.3时肯定是错误的。第十七页,共六十九页,编辑于2023年,星期四四、计算概率的法则法则1:互斥事件的加法:假定两互斥事件的概率分别为P(A)和P(B)。则事件A与B的和事件的概率等于事件A的概率与事件B的概率之和,即P(A+B)=P(A)+P(B)。加法定理对于多个两两互斥的事件也成立。P(A+B+…+N)=P(A)+P(B)+…P(N)。推理1:完全事件系的概率:完全事件系的和事件概率等于1。P(A+B+…N)=P(A)+P(B)+…P(N)=1。推理2:对立事件的概率:对立事件的概率互补。若事件A的概率为P(A),那么其对立事件的概率为

因为第十八页,共六十九页,编辑于2023年,星期四法则2:独立事件的乘法:假定P(A)和P(B)是两个独立事件A与B各自出现的概率,则事件A与B同时出现的概率就等于两独立事件出现概率的乘积,即,乘法定理对于n个相互独立的事件也成立,即推理1:若n个事件A、B、…N彼此独立,且当P(A)=P(B)=…P(N)时,则P(AB…N)=[P(A)]n。推理2:非独立事件的乘法:如果事件A和B是非独立的,那么事件A与B同时发生的概率为事件A的概率P(A)乘以事件A发生的情况下事件B发生的概率P(B/A),即P(AB)=P(A)P(B/A)

第十九页,共六十九页,编辑于2023年,星期四概率的求法两种途径:(1)统计方法(适用于进行了大量试验时):假设试验共进行k次,事件A出现了l次,则事件A发生的频率是l/k。随着k的增大,频率l/k趋于一个常数p,那么p就是事件A发生的概率。例如:如何求一个人某年中被闪电击中的概率?中国1.1×109人中,在2005年被闪电击中的人数为3300人,则某人被闪电击中的概率为3300/1.1×109=3×10-6。第二十页,共六十九页,编辑于2023年,星期四(2)理论方法(适用于可以进行数学推算,在试验的每个基本事件等可能时):例如:A=掷骰子得到一个奇数={1,3,5}的概率为 P(A)=m/n=3/6=1/2第二十一页,共六十九页,编辑于2023年,星期四5.概率的一般运算法则概率的一般运算法则可以帮助我们计算一些复杂事件,或称为复合事件的概率。所谓复合事件就是由几个事件形成的。例如AUB,AUBUC,A∩BUC等等。加法法则P(AUB)=P(A)+P(B)-P(A∩B)第二十二页,共六十九页,编辑于2023年,星期四如果A,B不相容,则有P(AUB)=P(A)+P(B)条件概率法则条件概率P(A|B)指的是在已知事件B已发生的条件下,事件A发生的概率乘法法则第二十三页,共六十九页,编辑于2023年,星期四例二,一个袋子里放有10个男人和15个女人的姓名纸条。法官从袋子里依次抽出两个姓名。有两种可能的抽样方法:(1)非放回式抽样,(2)放回式抽样。求每种方法下两个姓名均为男性的概率解:(1)非放回式抽样:任何东西抽出后就不再被放回去第二十四页,共六十九页,编辑于2023年,星期四

(2)放回式抽样:任何东西被抽出后,在实行下一次的抽取前被放回去第二十五页,共六十九页,编辑于2023年,星期四独立事件若事件A的发生,并不影响事件B发生的概率,即P(B|A)=P(B)或P(A|B)=P(A),我们称A和B互相独立性质:如果A和B互相独立,那么 P(A∩B)=P(A)P(B)第二十六页,共六十九页,编辑于2023年,星期四(2)概率分布表:列出变量的每个值及其概率。譬如,掷一次骰子的概率分布表为xP(x)11/621/631/641/651/661/6第二十七页,共六十九页,编辑于2023年,星期四二频率与概率对于随机事件,在一次试验中其发生与否带有很大的偶然性,要研究其发生的规律性,就必须进行大量的重复观察或试验。若随机事件A在n次试验中发生了m次,则比值m/n为n次试验中随机事件A发生的频率。概率的定义:在相似条件下,重复进行同一类试验,事件A发生的频率m/n,随着试验总次数n的逐渐增加,愈来愈稳定于一个定值p,这个定值p称事件A的概率,记为:P(A)=p≈m/n概率是描述随机事件发生可能性大小的数量指标,对随机事件,有0<P(A)<1。第二十八页,共六十九页,编辑于2023年,星期四第二节概率分布1.随机变量随机变量:就是随机试验中被测的量。例如:(1)测量一定条件下生长的小麦的株高。小麦株高是随机变量(2)从1000只动物(雌雄各半)的群体,放回式抽样,每次抽取10只,记录其中雄性的个数。设10只动物中雄性的个数为X,则X就是一个随机变量。随机变量的取值有随机性。随机变量所有可能值的分布规律称为概率分布。第二十九页,共六十九页,编辑于2023年,星期四随机变量能帮助我们深入理解总体和样本的概念,使总体和样本的关系更加明确。随机变量的引入使统计学的深入研究成为可能。随机变量与总体和样本的关系总体:随机变量可能取值的全体样本:随机变量的n个独立观察值例如在研究一定条件下生长的小麦的株高时,总体是所有在这种条件下生长的小麦的株高的全体,也就是小麦株高这个随机变量的所有可能的取值。假如获得了200株小麦株高数据的样本,样本也就是小麦株高这个随机变量的200次独立观测值。第三十页,共六十九页,编辑于2023年,星期四随机变量一般用大写字母来表示,如X,Y,U等。变量的观测值一般用小写字母来表示,如xi,yi,ui等表示随机变量X,Y,U的第i次观测值。注意:在第一章里,我们已经使用了这样的符号,样本表示为x1,x2,…,xn第三十一页,共六十九页,编辑于2023年,星期四变量的类型(1)离散型变量:取值有限个或可数无穷个孤立的数值。譬如:a,掷一次骰子得到的数 b,一只母鸡一周里下的蛋数(2)连续型变量:可能取值为某范围(或某区间)内的任何值。可能取的值间不存在间隙。譬如:a,小麦株高 b,奶牛产奶量第三十二页,共六十九页,编辑于2023年,星期四2.概率分布变量的概率分布描述该变量的所有值的分布的规律,也就是变量对应的总体的分布。概率分布总体的值的分布频数分布样本的值的分布第三十三页,共六十九页,编辑于2023年,星期四2.1离散型概率分布离散型概率分布也就是一个函数或表,它定义了这个离散变量的所有值对应的概率:第三十四页,共六十九页,编辑于2023年,星期四(2)概率分布表:列出变量的每个值及其概率。譬如,掷一次骰子的概率分布表为xP(x)11/621/631/641/651/661/6第三十五页,共六十九页,编辑于2023年,星期四2.2连续型概率分布连续型变量的一个特征是取的值非常多(不可数),无法象离散型变量那样对每一个值赋予一个概率。所以,在研究连续型变量时,我们不研究它取每个值的概率,即P(X=x),而是研究x在一个区间[x1,x2]内的概率即为图3-2中阴影部分的面积,这一面积可表示为函数f(x)的积分。具体来说,有三种形式:P(x1<X<x2)P(X<x1)P(X>x2)第三十六页,共六十九页,编辑于2023年,星期四在研究连续型变量概率时,“>”,“<”均可相应换成“≥”,“≤”,而概率数值不变。P(x1<X<x2)=P(x1≤X≤x2)P(X<x1)=P(X≤x1)P(X>x2)=P(X≥x2)问题:怎样求这三种概率?答:借助于密度函数f(x)曲线(或称概率分布密度曲线)第三十七页,共六十九页,编辑于2023年,星期四每个连续型变量都有它自己的密度函数曲线。f(x)的图形密度函数曲线总在x轴的上方,且曲线下的总面积等于1。第三十八页,共六十九页,编辑于2023年,星期四第三十九页,共六十九页,编辑于2023年,星期四一个术语:分布函数或称累积分布函数,是随机变量X取得小于x0的值的概率。F(x0)第四十页,共六十九页,编辑于2023年,星期四在分布函数已知的情况下,概率也可以通过分布函数来求。第四十一页,共六十九页,编辑于2023年,星期四三小概率事件实际不可能性原理概率表示随机事件在一次试验中发生的可能性大小。若事件A发生的概率很小,如小于0.05或0.01,则称事件A为小概率事件。小概率事件不是不可能事件,但在一次试验中发生的可能性很小,以至于人们看作是不可能事件,这种把小概率事件在一次试验中人为地看作是不可能事件,称为“小概率事件实际不可能性原理”。该原理是统计假设测验的基本原理。第四十二页,共六十九页,编辑于2023年,星期四第二节几种常见的理论分布一二项分布(一)二项分布的含义二项总体:这种非此即彼事件所构成的总体称为二项总体。在二项总体中,若“此事件”的概率记为p,则“彼事件”的概率记为1-p。第四十三页,共六十九页,编辑于2023年,星期四解:事件A=孩子性别为两男={男男} 所有可能的基本事件有:{男男}{男女}{女男}{女女} 所以P(A)=m/n=1/4两个孩子的家庭里,孩子性别为两男的概率是多少?同理,孩子性别为一男一女的概率是2/4=1/2注意:在生物统计学里,我们着重于讨论理论方法。第四十四页,共六十九页,编辑于2023年,星期四从二项总体中随机抽取n个个体,若属于“此事件”的个体为x个,则属于“彼事件”的个体为n-x个。在每一次抽样中,随机变数x的取值范围为0,1,2,…,n,共n+1种,x的这n+1种取值各有其概率,这些概率的分布称为二项分布。在生物科学试验中,存在着大量的非此即彼的事件,其规律性多数都可以用二项分布来描述,所以二项分布是最常见的离散性随机变量的概率分布。第四十五页,共六十九页,编辑于2023年,星期四要描述一个总体,其本平均数和标准差(或方差)是最重要的参数。对二项总体,其平均数μ=np,方差σ2=npq,标准差。第四十六页,共六十九页,编辑于2023年,星期四(二)二项分布的概率函数及计算在二项总体中,如果在一次试验中事件A发生的概率为p,那么在n次独立重复试验中事件A恰好发生x次的概率为:

这是二项分布的概率密度函数式,式中:为n次试验中事件A发生x次的概率;x=0,1,2,…,n;第四十七页,共六十九页,编辑于2023年,星期四问题:播种玉米时,每穴播种两粒种子,已知玉米种子的发芽率为0.9,试求:

1、两粒种子都发芽的概率;

2、一粒种子发芽的概率;

3、两粒种子都不发芽的概率;

4、至少有一粒种子发芽的概率

5、至多有一粒种子发芽的概率第四十八页,共六十九页,编辑于2023年,星期四解题思路种子发芽与不发芽互为独立事件,可用概率的加法、乘法定理直接计算或用二项分布函数公式进行计算设种子发芽为事件A,不发芽为事件A,则有p=0.9,q=1-0.9=0.1第四十九页,共六十九页,编辑于2023年,星期四参考答案1、0.812、0.183、0.014、0.995、0.19第五十页,共六十九页,编辑于2023年,星期四二正态分布正态分布是连续性变数的一种理论分布,许多生物学领域的随机变量都服从正态分布,因此,它是生物统计的重要基础。与二项分布一样,正态分布也有其概率密度函数:正态分布概率密度函数的图像称作正态分布曲线开正态概率曲线。第五十一页,共六十九页,编辑于2023年,星期四(一)正态分布曲线的特征由正态分布曲线图可以看出它有以下特征:(1)正态分布曲线是中间高、两边低,而且对称的光滑曲线,曲线最高峰在平均数处,越是接近平均数的组变量分布的次数越多,离平均数越远,分布的次数越少。(2)正态分布曲线因总体平均数和标准差的不同呈现为不同的曲线,所以它不是一条曲线,而是一个曲线系统。正态分布可用符号N(μ,σ)表示,不同的μ和σ,则有不同的曲线,因此正态分布曲线是一系列的曲线。第五十二页,共六十九页,编辑于2023年,星期四(二)正态分布的标准化正态分布的标准化,是将观测值x的离均差(x-μ)以标准差σ为单位进行度量,所得的随机变数称为u,即:随机变数u也服从正态分布,且平均数μ=0,标准差σ=1。统计学上把μ=0,σ=1的正态分布称为标准正态分布,记作N(0,1)。标准正态分布只有一条曲线。第五十三页,共六十九页,编辑于2023年,星期四(三)正态分布的概率计算1利用计算机软件:Excel2利用标准正态分布累积函数值表例6-3:(教材P70)例6-4:(教材P70)例6-5:(教材P71)第五十四页,共六十九页,编辑于2023年,星期四习题现有一变量x服从N(30,25),试计算P(x<26)P(x<40)P(26<x<40)P(x>40)第五十五页,共六十九页,编辑于2023年,星期四解题思路已知该正态分布的平均数μ=30,方差σ2=25,得标准差σ=5.首先将该正态分布标准化U26=(26-30)/5=-0.8U40=(40-30)/5=2第五十六页,共六十九页,编辑于2023年,星期四查F(u)值表P(x<26)=P(u<-0.8)=F(u=-0.8)=0.2119P(x<40)=P(u<2)=F(u=2)=0.97725P(26<x<40)=P(-0.8<u<2)=F(u=2)-F(u=-0.8)=0.97725-0.2119=0.76535P(x>40)=P(u>2)=1-F(u=2)=1-0.97725=0.02275第五十七页,共六十九页,编辑于2023年,星期四复习正态分布N(μ,σ2)的标准化转化N(0,1):在北方某一地区调查果园桃小冬茧情况,以1m2为单位,调查了2000m2,得μ=4.5(头),σ=2.4(头)。现随机抽取该地区一块果园,问平均每平方米少于4.2头的概率是多少?(P(x<4.2))尽管总体分布不明确,但n≥30,便可视其服从正态分布,则进行标准化转化:U4.2=(4.2-4.5)/2.4=-0.13查附表得F(-0.13)=0.4483,即P(x≤4.2)=0.4483

,也就是说,随机抽取该地区一块果园,平均每平方米少于4.2头的概率是0.4483

(即44.83

%)。第五十八页,共六十九页,编辑于2023年,星期四例题:在北方某一地区调查果园桃小冬茧情况,以1m2为单位,调查了2000m2,得μ=4.5(头),σ=2.4(头)。现随机抽取该地区一块果园36m2,问平均每平方米少于4.2头的概率是多少?尽管总体分布不明确,但n≥30,便可视其服从正态分布,则:查附表得FN(-0.75)=0.2266,即P(x≤4.2)=0.2266,也就是说,随机抽取该地区一块果园36m2,平均每平方米少于4.2头的概率是0.2266(即22.66%)。第五十九页,共六十九页,编辑于2023年,星期四第三节抽样分布在统计学中,最主要的问题就是研究总体与从总体中抽出的样本两者的相互关系。总体与样本的关系可以从两个方向来研究,一个方向是从总体到样本,主要研究从总体中抽出的随机样本统计数以千计的概率分布及其与原总体的关系,即抽样分布问题。另一个方向是从样本到总体,主要研究从一个样本或一系列样本所得的统计数去推断总体的参数,即统计推断问题。抽样分布是统计推断的基础。第六十页,共六十九页,编辑于2023年,星期四值得指出的是抽样分为复置抽样和不复置抽样,前者指在每次抽样时将抽得的个体放回总体后再抽样的方法,后者指在每次抽样时抽得的个体不放回总体而再抽样的方法。讨论抽样分布时考虑的是复置抽样方法。第六十一页,共六十九页,编辑于2023年,星期四一样本平均数的抽样分布假定有一总体,其总体平均数为μ,总体标准差为σ。从这一总体中以相同的样本容量n无数次抽样,可得到无数个样本,分别计算出各样本的平均数:、、……。由于存在抽样误差,样本平均数是随机变数,各样本平均数将表现出不同程度的差异,无数个样本平均数又构成一个总体,称为样本平均数总体,样本平均数的分布称为样本平均数的抽样分布。

第六十二页,共六十九页,编辑于2023年,星期四根据统计理论和实例证明,样本平均数的分布具有以下特性:1样本平均数的总体平均数与原总体平均数相等。2样本平均数的总体方差等于原总体方差除以样本容量。同理,样本平均数的总体标准差等于原总体标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论