




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章理论分布和抽样分布第一节:概率及其计算概率论:研究随机现象规律性的科学。统计学:基于实际观测结果,利用概率论得出的规律,解释偶然性中所寄寓的必然性。第三章理论分布和抽样分布第一节:概率及其计算1两者都是研究随机现象,概率论是统计学的基础,统计学是概率论得出规律在各领域中的实际应用。第三章理论分布和抽样分布课件2一、事件与概率事件是指某一事物的每一个现象,或某项试验的每一结果。(试验中所发生的现象)。分类:1、必然事件:在一定条件组下,必然要发生的事件。例:在标准大气压下,水加热到100℃这一组条件实现,则水沸腾是必然事件。
一、事件与概率32、不可能事件:在一定条件组下,一定不能发生的事件。例:在以上条件实现,水结冰这一事件,就是不可能事件。3、随机事件:在一定条件组实现下,可能发生也可能不发生的事件。例:一粒种子播种后发芽与否。红花豌豆与白花豌豆杂交,F2是红花。2、不可能事件:在一定条件组下,一定不能发生的事件。4概率的统计定义:假定在相似条件下,重复进行同一类试验,事件A发生的次数a与总试验次数n的比数称为频率a/n,在试验总次数n逐渐增大时,事件A的频率愈来愈稳定地接近定值p,于是定义事件A的概率为p,并记为P(A)=p概率的统计定义:5一个总体的概率值在理论上是存在的,但在一般情况下,无法得到这个数值,只有通过样本的频率来推断总体概率。因此便以n在充分大时事件A的频率作为该事件概率p的近似值,即
P(A)=p~(a/n)一个总体的概率值在理论上是存在的,但在一般情况下,无法得到这6概率的表示:%小数分数0≤p(A)≤1P(A)=1时为必然事件P(A)=0时为不可能事件概率的表示:7二、事件间的关系基本事件:就是不可能再分的事件。复合事件:由若干个基本事件组合而成的事件。
二、事件间的关系8以“事件”一词代表随机事件,并以字母A,B,C......等表示,以U表示必然事件,以V代表不可能事件。1.事件A与事件B至少有一件发生而构成的新事件称为事件A与事件B的和事件。记作:A+B读作“或A发生,或B发生”
以“事件”一词代表随机事件,并以字母A,B,C.....9
和事件可以推广到N个事件:A+B+C+......+N表示N个事件至少有一个发生。和事件可以推广到N个事件:A+B+C+......+N表示10
2.两个事件A与B同时发生而构成的新事件称为事件A与事件B的积事件。记作:A.B,读作“AB同时发生”2.两个事件A与B同时发生而构成的新事件称为事件A与事件B11积事件可以推广到多个事件的情形:A.B.C.......N表示N个事件同时发生。积事件可以推广到多个事件的情形:12
3.两个事件A与B如果不能同时发生,即A.B=V,那么称A和B是互斥事件。例:任一玉米株高2.5m以上(A)任一玉米株高2.0-2.5m(B)A.B:任一玉米株高既高于2.5m又在2.0-2.5m之间。抛硬币:A:正面朝上B:反面朝上3.两个事件A与B如果不能同时发生,即A.B=V,那么称A13
4.如果事件A与事件B必发生其一,但又不可能同时发生,即:A+B=u,A.B=V,那么B是A的对立事件,可用表示。
4.如果事件A与事件B必发生其一,但又不可能同时发生,即:14
5.如果事件A1、A2......An两两互斥,且每次试验必发生其一,则称A1、A2......An为完全事件系。例:袋中有红、黄、黑、白四种颜色的球,每次取一个,“取到红球”、“取到黄球”、“取到黑球”、“取到白球”构成完全事件系。5.如果事件A1、A2......An两两互斥,且每次试验15
6、如果事件A的发生与否不影响事件B的发生,则称其相互独立。例:A:第一粒种子发芽B:第二粒种子发芽6、如果事件A的发生与否不影响事件B的发生,则称其相互独立16三、计算概率的法则法则一:对立事件的概率:若事件A的概率为P(A),那么其对立事件的概率为P()=1-P(A)例:小麦播种后发芽的概率为0.9,那么,不发芽的概率为(1-0.9)=0.1三、计算概率的法则17法则二:互斥事件概率的加法:
若事件A与事件B是互斥的,概率各为P(A)和P(B),那么“A+B”事件的概率为P(A+B)=P(A)+P(B)
法则二:互斥事件概率的加法:
若事件A与事件B是18法则三:独立事件概率的乘法:
若确定事件A的概率时不受到事件B的影响,反之亦然,那么,这两个事件是互相独立,称独立事件。对于这类事件,同时出现这一新事件的概率必为每个事件概率的积。
P(A.B)=p(A).P(B)
法则三:独立事件概率的乘法:
若确定事件A的概率时不19法则四:完全事件系的概率若A1,A2......An是完全事件系,则这n个事件的概率之和为1,即P(A1+A2+A3+...+An)=P(A1)+P(A2)+....+P(An)=1如果n个事件出现的概率是相等的,那么P(Ai)=1/n法则四:完全事件系的概率20第二节总体分布一、二项分布(binomialdistribution)(一)二项分布的概率函数二项总体:有非此即彼事件组成的总体。二项分布:以容量n从二项总体中抽样,共有n+1种可能的结果,每种结果都有一个固定的概率,这种变量取值及其概率构成的分布称为二项分布.第二节总体分布21种子发芽试验:一粒种子:发芽概率p、不发芽概率q概率相加得(p+q)两粒种子:甲乙均发芽:概率为p2甲发乙不发:概率为p(1-p)]=pq乙发甲不发:qp甲乙均不发:q2概率相加得p2+pq+qp+q2=(p+q)2种子发芽试验:22依此类推,独立地对n粒种子进行实验,一种结果出现x次的概率是:称为二项分布律或二项概率函数,是(p+q)n展开后含有p(x)的一项.这一分布律也称为贝努里分布.依此类推,独立地对n粒种子进行实验,一种结果出现x次的概率是23其中,x=0,1,2,……,n,为某事件出现次数。n为样本含量,即事件发生总数.其中,x=0,1,2,……,n,为某事件出现次数。24二项分布是说明结果只有两种情况的n次独立实验中发生某种结果为x次的概率分布。二项分布是说明结果只有两种情况的n次独立实验中发生某种结果25因为(p+q)=1,所以因为(p+q)=1,所以26二项分布的累积函数:
二项分布中某结果最多发生k次的概率为发生0次、1次、...、直至k次的概率之和:二项分布的累积函数:27(二)二项分布的应用条件:(1)每次实验只有两类对立的结果;(2)n次事件相互独立;(3)每次实验某类结果的发生的概率是一个常数。
(二)二项分布的应用条件:28(三)
二项分布的参数二项分布总体的平均数和标准差为:(三)
二项分布的参数29二项分布常表示为:B(n,p)即:二项分布是由n和p两个参数据定的。二项分布常表示为:B(n,p)30(四)二项分布的形状二项分布的形状有如下特征:(1)二项分布图形的形状取决于P和n的大小;(2)当P=0.5时,无论n的大小,均为对称分布;(3)当p≠0.5
,n较小时为偏态分布,n较大时逼近正态分布。
(四)二项分布的形状31一般来说,当n大于30,而p或q又不过小(例如不接近于0),且np及nq不小于5时,可将其看作正态分布,可用正态公式求其概率。一般来说,当n大于30,而p或q又不过小(例如不接近于0),32(五)二项分布的应用实例1、一批种子的发芽率为0.8,现每穴播5粒,问每穴出三棵苗的概率?平均每穴出苗几棵?本例中,每穴出苗数为随机变量X,它服从B(5,0.8),故:(五)二项分布的应用实例33若计算每穴出苗数低于4棵的概率,则计算累积概率:P(X≤3)=P(X=0)+P(X=1)+P(X=2)+P(X=3)平均每穴出苗数:μ=np=5×0.8=4若计算每穴出苗数低于4棵的概率,则计算累积概率:342、两个纯合亲本杂交(RR×rr),F1自交,F2的基因型分离比。F2中,R基因出现的概率p=0.5,r基因出现的概率q=0.5第三章理论分布和抽样分布课件35一对因子:一对因子:36两对因子:YYRR×yyrrF2中4显:3显:2显:1显:0显两对因子:YYRR×yyrr373、两对基因分离:bbRR×BBrrF1BbRrF29B-R-:3B-rr:3bbR-:1bbrr问:样本容量多大时,才能以99%的概率至少得到一个bbrr个体?3、两对基因分离:38解:bbrr的概率q=1/16,非bbrr出现概率p=15/16。得到bbrr的概率99%,则非bbrr为1%,所以:pn=(15/16)n=0.01n(lg15-lg16)=lg0.01n=71.4因此:要以99%的可能获得一个bbrr个体,样本容量只少为72。解:bbrr的概率q=1/16,非bbrr出现概率p=15/39二、Poisson分布1.Poisson分布的概念:
二项分布n很大而P很小时的特殊形式。其概率函数
x=0,1,2...n,其中e为自然对数的底,µ为总体均数,x为事件发生的次数。二、Poisson分布40主要描述大量实验中随机稀疏现象,如:单位面积内的昆虫数、病斑数、植物种类、细胞计数、田间杂草分布等。主要描述大量实验中随机稀疏现象,如:单位面积内的昆虫数、病斑412.Poisson分布的应用条件:(1)两类结果要相互对立;(2)n次试验相互独立;(3)n应很大,P应很小。2.Poisson分布的应用条件:423.Poisson分布的参数方差与平均数相等,只有一个参数。3.Poisson分布的参数434.Poisson分布的性质:(1)均数与方差相等;(2)均数µ较小时呈偏态,µ≥20时近似正态;(3)n很大,p很小,np=µ为常数时二项分布趋近于Poisson分布;(4)n个独立的Poisson分布相加仍符合Poisson分布4.Poisson分布的性质:445、形状由μ决定:μ很小时分布很偏,μ增大后逐渐对称,趋近于正态分布
5、形状45三、正态分布(normaldistribution)(一)正态分布的密度函数和分布函数是连续性变数的一种理论分布。许多生物学产生的数据都服从正态分布。正态分布是生物统计学的重要基础三、正态分布(normaldistribution)46对于平均数为μ,标准差为σ的正态分布,其概率密度函数为:
-∞≤x≤∞σ>0对于平均数为μ,标准差为σ的正态分布,其概率密度函数为:47其中:μ-平均数,是曲线最高值的横坐标,曲线以其为对称;σ-标准差,表示曲线展开程度,σ越大,曲线展开度越大,数据越分散;越小,曲线展开度越小,数据越集中;有了μ和σ,曲线形状就可以确定下来。其中:48μ=0,标准差为σ=1的正态分布称为标准正态分布(standardnormaldistribution)。以N(μ,σ2)表示平均数为μ,标准差为σ的正态分布;以N(0,1)表示标准正态分布。μ=0,标准差为σ=1的正态分布称为标准正态分布(stand49第三章理论分布和抽样分布课件50累积分布函数:累积分布函数:51(二)正态分布曲线的特性1、以μ为原点左右对称;2、x=μ处f(x)具有最大值,且算术平均数、中数、众数合于这一点;3、是一个曲线簇,由μ和σ确定:μ确定在x轴上的位置,σ确定其变异度;(二)正态分布曲线的特性52以平均数和标准差不同的正态分布系列曲线以平均数和标准差不同的正态分布系列曲线534、在x=μ±1σ有拐点;5、x取值范围是[-∞,+∞],但多数集中在μ附近,离其越远,次数越少;且在x-μ相等处具有相等次数。6、曲线的总面积等于1。曲线下任何定值之间的面积等于这两个定值间面积占总面积的成数,或者说变量落入这个区间内的概率。4、在x=μ±1σ有拐点;54几个常用区间与其相应的面积或概率区间面积或概率μ±σ0.6827μ±2σ0.9545μ±3σ0.9973μ±1.960σ0.9500μ±2.576σ0.9900几个常用区间与其相应的面积或概率55第三章理论分布和抽样分布课件56区间面积或概率μ±1δ0.6827μ±2δ0.9545μ±3δ0.9973μ±1.960δ0.9500μ±2.576δ0.9900正态分布区间面积或概率μ±1δ0.6827μ±2δ0.9545μ±357(三)标准正态分布将x离其平均数的差数以σ为单位进行转换,于是:u为正态离差。可将一般方程转为标准正态分布方程。(三)标准正态分布58概率密度函数:-∞<u<∞
概率密度函数:59(四)正态分布区间概率的计算方法随机变量落在某区间(a,b)内的概率,可以从标准正态分布累积分布函数表中查出。对于一般的正态分布,先将其化为标准正态分布再查表.(四)正态分布区间概率的计算方法60例1:u=-0.82,Φ(-0.82)=0.2061u=1.15Φ(u)=0.8749例2:随机变量U服从N(0,1),求其落在0,1.21间的概率:P(0<U<1.21)=Φ(1.21)-Φ(0)=0.8869-0.5000=0.3869落在-1.96和1.96之间的概率:P(|U|<u)=1-2Φ(-u)=1-2Φ(-1.96)=1-0.0500=0.9500例1:u=-0.82,Φ(-0.82)=0.206161正态分布正态分布62例3:变量X服从N(156.2,4.822),求:(1)X<161;(2)X>164;(3)152<X<162的概率例3:变量X服从N(156.2,4.822),求:(1)X63(1)
=(161-156.2)/4.82=1P(X<161)=Φ(u)=Φ(1)=0.8413(2)u=(164-156.2)/4.82=1.62P(X>164)=1-P(X<164)=1-Φ(u)=1-Φ(1.62)=1-0.9474=0.0526或者:P(X>164)=P(X<-164)=Φ(-u)=Φ(-1.62)=0.0526
第三章理论分布和抽样分布课件64(3)u1=(152-156.2)/4.82=-0.87u2=(162-156.2)/4.82=1.2P(152<P<162)=Φ(u2)-Φ(u1)=Φ(1.2)-Φ(-0.87)=0.8849-0.1921=0.6928(3)u1=(152-156.2)/4.82=-0.8765(五)正态分布的单侧分位数/临界值上面介绍了正态分布区间概率的计算方法。即对于给定的u,通过正态分布累积函数表查U<u的曲线下的面积。反过来,若要求曲线右侧尾区一定面积(α)下,所对应的u值uα,则可以利用正态离差uα值表查出。
(五)正态分布的单侧分位数/临界值66该表有单、双尾之分:对于单尾,给出了满足P(U>uα)=α时的uα值。uα称为α的上侧分位数。对于左侧尾区,满足:P(U<uα)=α时的-uα称为α下侧分位数。若将一定曲线下的面积α平分到两尾,则每尾区下的面积只有α/2,满足P(|U|>uα/2)=α时的uα/2称为α的双侧分位数。该表有单、双尾之分:对于单尾,给出了满足P(U>uα)=α67第三章理论分布和抽样分布课件68对于单尾表(上侧分位):对于双尾表:
对于单尾表(上侧分位):69第三节抽样分布(samplingdistribution)
可从两个方向研究总体与样本的关系:一是总体到样本,即由已知的总体研究样本的分布规律;二是从样本到总体的方向,即由样本推断未知的总体。抽样分布是研究第一个方向的问题,是统计推断的基础。第三节抽样分布(samplingdistribution70第三章理论分布和抽样分布课件71从一个总体进行随机抽样:从无限总体中可抽取无限多个随机样本。从容量为N的有限总体:样本容量为n,有Nn个所有可能样本。每个样本可得一平均数:,构成一新的总体,平均数为新总体的变量。每一平均数会有差异,所以平均数新总体也有其分布,称为平均数的抽样分布。从一个总体进行随机抽样:72(一)从一个正态总体抽出的随机样本的平均数分布1、总体标准差已知时的平均数分布-u分布从一个正态总体抽出的随机样本,无论样本容量大小,其样本平均数的抽样分布必呈正态分布(一)从一个正态总体抽出的随机样本的平均数分布73若总体不是正态分布,但具有一定量的μ和σ2,只要样本容量n足够大(一般n>30),从总体抽出的样本平均数也近似地服从正态分布N(μ,σ2/n),称为中心极限定理。若总体不是正态分布,但具有一定量的μ和σ2,只要样本容量n足74(1)该抽样分布的平均数与母总体的平均数相等(2)该抽样分布的方差与母总体方差间存在如下关系:
即:(1)该抽样分布的平均数与母总体的平均数相等75第三章理论分布和抽样分布课件76标准化:其中,n为样本容量,是样本平均数分布的标准差,称为标准误(差),可以度量抽样分布的变异
标准化:77例:从N=3(2,4,6),以n=1,2,4,8复置抽样例:从N=3(2,4,6),以n=1,2,4,8复置抽样78n=1n=2n=4n=8
ffff2122122.0122.00122.258182.54102.5036902.751123083263.010303.002667983.2550416383.516563.5078427443.751016381041443124.019764.00110744284.25101643184.516724.5078435284.75504239452105.010505.0026613305.251125885.54225.50361985.758466166166.0166.00166总和31293681324656126244均数12/3=(4)36/9=(4)324/81=(4)26244/6561=(4)方差8/34/32/31/3n=1n=2n=4n=8ffff2122122.012792、总体标准差未知(或虽然总体标准差已知,但总体不呈正态,且n较小)时的平均数分布-t分布总体σ2未知,可以用样本标准差代替总体标准差,标准化变量不服从正态分布,而是服从自由度为n-1的t分布2、总体标准差未知(或虽然总体标准差已知,但总体不呈正态,且80其中,为标准误。第三章理论分布和抽样分布课件81t分布也是一组对称密度函数曲线分布,它只有一个参数-自由度确定其分布。与正态曲线相比,t分布曲线稍微扁平,峰顶略低,尾部稍高。理论上,随着自由度的增大,t分布趋于正态分布:υ>30时接近正态曲线,υ=∞时,与正态曲线合一。t分布也是一组对称密度函数曲线分布,它只有一个参数-自由度确82第三章理论分布和抽样分布课件83。。正态分布t分布ν=40。。正态分布t分布ν=4000.10.20.30.4123-3-2-1正态分布曲线与t分布曲线的比较。。正态分布t分布ν=40。。正态分布t分布ν=4000.184概率密度函数:t分布的平均数和标准差:概率密度函数:85t分布的累积函数:t分布的累积函数:86t分布的概率累积函数也分为一尾表和两尾表,一尾表是t到∞的面积,两尾表是-t到-∞的面积和t到∞的面积之和。单尾表表头上的各概率(α)是t大于表中所列t值时的概率。例如从表中查出df=9,α=0.05的t单侧分位数t0.05=1.8331,表示t≥1.8331时,曲线下面积(或概率)为0.05t分布的概率累积函数也分为一尾表和两尾表,一尾表是t到∞的面87由于曲线的对称性,对于单侧分位数可以表示为:P(t≥tα)=P(t≤-tα)=α由于曲线的对称性,对于单侧分位数可以表示为:88两尾时,每一尾的面积只有给出概率的1/2。例如df=9,α=0.05的t双侧分位数,就要查α/2=0.025时的单侧分位数:t0.025,9=2.2622,由于对称性,另一侧-t0.025,9=-2.2622即:t≥2.2622和-t≤-2.2622(相当于|t|≥2.2622)两尾面积之和为0.05。两尾时,每一尾的面积只有给出概率的1/2。例如df=9,89(二)样本总和数的抽样分布样本总和数(以Σx表示)的抽样分布参数与母总体间存在如下关系:(1)抽样分布的平均数是母总体平均数的n倍.μΣx=nμ(2)抽样分布的方差是母总体方差的n倍.σΣx2=nσ2(二)样本总和数的抽样分布90(三)从两个正态总体抽出的随机样本的平均数差数的分布总体1~N(μ1,σ12),以n1抽样:,s1;总体2~N(μ2,σ22),以n2抽样:,s2;(三)从两个正态总体抽出的随机样本的平均数差数的分布911、标准差σ1、σ2已知:两者抽样相互独立,则两个独立随机抽取的样本平均数间差数()的抽样分布参数与两个母总体间存在如下关系:1、标准差σ1、σ2已知:92第三章理论分布和抽样分布课件93标准化:
标准化:942、标准差σ1、σ2未知:若σ1、σ2未知,但两个总体相互独立而且都是正态分布,同时σ1=σ2=σ,则差数分布服从df1+df2的t分布,其中df1=n1-1,df2=n2-1;2、标准差σ1、σ2未知:95第三章理论分布和抽样分布课件963近似t分布:当两个总体标准差σ1和σ2未知,且σ1≠σ2,符合近似t检验因为σ1≠σ2,差数标准误需用两个样本的S1、S2均方分别估计σ1、σ23近似t分布:97具有自由度具有自由度98二、二项总体的抽样分布(一)样本平均数(成数)的分布从二项总体进行抽样得到样本,样本平均数(成数)的分布为二项分布:平均数:方差:
标准误:二、二项总体的抽样分布99(二)样本总和数(次数)的抽样分布从二项总体进行抽样得到样本,样本总和数(次数)的分布为二项分布(二)样本总和数(次数)的抽样分布100三、样本方差的抽样分布(一)卡方分布从方差为σ2的正态总体中,随机抽取容量为n的样本,计算出样本方差s2,将其标准化,得到一个不带任何单位的纯数,然后讨论其分布。标准化的方法为:三、样本方差的抽样分布101称为具有n-1自由度的卡方,分布是概率曲线随自由度df而改变的一类分布(如图),它的密度函数为:称为具有n-1自由度的卡方,分布是概率曲线随自由度102第三章理论分布和抽样分布课件103分布的平均数和标准差为:分布的平均数和标准差为:104(二)F分布从平均数和方差为(μ,σ2)一个正态总体中独立地抽出含量分别为n1、n2的样本,并分别求其方差s12和s22。则:F=s12/s22此F值具有自由度ν1和ν2,(二)F分布105如果按给定的自由度ν1和ν2进行一系列的抽样,就可以得到一系列F值而成一个F分布。F分布的形状决定于ν1和ν2,在ν1=1或和ν1=2时为反向J型,ν1大于等于3时转为偏态。如果按给定的自由度ν1和ν2进行一系列的抽样,就可以得到一系106第三章理论分布和抽样分布课件107F分布下一定区间的概率可以从已制成的统计表查出。如:ν1=3,ν2=12时,F0.05=3.49;F0.01=5.95,表示以n1=4,n2=13在一个正态总体中连续抽样,则所的F值大于3.49的概率仅有5%,而大于5.95的概率仅有1%。F分布下一定区间的概率可以从已制成的统计表查出。108从两个正态总体中抽样时,F值为标准化的样本方差之比:从两个正态总体中抽样时,F值为标准化的样本方差之比:109F表专为测验σ12是否显著大于σ22而设计的,当F≥Fα值时,应否定HO:σ12≤σ22在方差分析体系中,F测验可用于检测某项变异因素的效应或方差是否真实存在。F表专为测验σ12是否显著大于σ22而设计的,当F≥Fα值时110F测验需具备:1、变数x服从N(μ,σ2);2、s12s22彼此独立。不符合这些条件时,需作适当转换。F测验需具备:111第三章理论分布和抽样分布第一节:概率及其计算概率论:研究随机现象规律性的科学。统计学:基于实际观测结果,利用概率论得出的规律,解释偶然性中所寄寓的必然性。第三章理论分布和抽样分布第一节:概率及其计算112两者都是研究随机现象,概率论是统计学的基础,统计学是概率论得出规律在各领域中的实际应用。第三章理论分布和抽样分布课件113一、事件与概率事件是指某一事物的每一个现象,或某项试验的每一结果。(试验中所发生的现象)。分类:1、必然事件:在一定条件组下,必然要发生的事件。例:在标准大气压下,水加热到100℃这一组条件实现,则水沸腾是必然事件。
一、事件与概率1142、不可能事件:在一定条件组下,一定不能发生的事件。例:在以上条件实现,水结冰这一事件,就是不可能事件。3、随机事件:在一定条件组实现下,可能发生也可能不发生的事件。例:一粒种子播种后发芽与否。红花豌豆与白花豌豆杂交,F2是红花。2、不可能事件:在一定条件组下,一定不能发生的事件。115概率的统计定义:假定在相似条件下,重复进行同一类试验,事件A发生的次数a与总试验次数n的比数称为频率a/n,在试验总次数n逐渐增大时,事件A的频率愈来愈稳定地接近定值p,于是定义事件A的概率为p,并记为P(A)=p概率的统计定义:116一个总体的概率值在理论上是存在的,但在一般情况下,无法得到这个数值,只有通过样本的频率来推断总体概率。因此便以n在充分大时事件A的频率作为该事件概率p的近似值,即
P(A)=p~(a/n)一个总体的概率值在理论上是存在的,但在一般情况下,无法得到这117概率的表示:%小数分数0≤p(A)≤1P(A)=1时为必然事件P(A)=0时为不可能事件概率的表示:118二、事件间的关系基本事件:就是不可能再分的事件。复合事件:由若干个基本事件组合而成的事件。
二、事件间的关系119以“事件”一词代表随机事件,并以字母A,B,C......等表示,以U表示必然事件,以V代表不可能事件。1.事件A与事件B至少有一件发生而构成的新事件称为事件A与事件B的和事件。记作:A+B读作“或A发生,或B发生”
以“事件”一词代表随机事件,并以字母A,B,C.....120
和事件可以推广到N个事件:A+B+C+......+N表示N个事件至少有一个发生。和事件可以推广到N个事件:A+B+C+......+N表示121
2.两个事件A与B同时发生而构成的新事件称为事件A与事件B的积事件。记作:A.B,读作“AB同时发生”2.两个事件A与B同时发生而构成的新事件称为事件A与事件B122积事件可以推广到多个事件的情形:A.B.C.......N表示N个事件同时发生。积事件可以推广到多个事件的情形:123
3.两个事件A与B如果不能同时发生,即A.B=V,那么称A和B是互斥事件。例:任一玉米株高2.5m以上(A)任一玉米株高2.0-2.5m(B)A.B:任一玉米株高既高于2.5m又在2.0-2.5m之间。抛硬币:A:正面朝上B:反面朝上3.两个事件A与B如果不能同时发生,即A.B=V,那么称A124
4.如果事件A与事件B必发生其一,但又不可能同时发生,即:A+B=u,A.B=V,那么B是A的对立事件,可用表示。
4.如果事件A与事件B必发生其一,但又不可能同时发生,即:125
5.如果事件A1、A2......An两两互斥,且每次试验必发生其一,则称A1、A2......An为完全事件系。例:袋中有红、黄、黑、白四种颜色的球,每次取一个,“取到红球”、“取到黄球”、“取到黑球”、“取到白球”构成完全事件系。5.如果事件A1、A2......An两两互斥,且每次试验126
6、如果事件A的发生与否不影响事件B的发生,则称其相互独立。例:A:第一粒种子发芽B:第二粒种子发芽6、如果事件A的发生与否不影响事件B的发生,则称其相互独立127三、计算概率的法则法则一:对立事件的概率:若事件A的概率为P(A),那么其对立事件的概率为P()=1-P(A)例:小麦播种后发芽的概率为0.9,那么,不发芽的概率为(1-0.9)=0.1三、计算概率的法则128法则二:互斥事件概率的加法:
若事件A与事件B是互斥的,概率各为P(A)和P(B),那么“A+B”事件的概率为P(A+B)=P(A)+P(B)
法则二:互斥事件概率的加法:
若事件A与事件B是129法则三:独立事件概率的乘法:
若确定事件A的概率时不受到事件B的影响,反之亦然,那么,这两个事件是互相独立,称独立事件。对于这类事件,同时出现这一新事件的概率必为每个事件概率的积。
P(A.B)=p(A).P(B)
法则三:独立事件概率的乘法:
若确定事件A的概率时不130法则四:完全事件系的概率若A1,A2......An是完全事件系,则这n个事件的概率之和为1,即P(A1+A2+A3+...+An)=P(A1)+P(A2)+....+P(An)=1如果n个事件出现的概率是相等的,那么P(Ai)=1/n法则四:完全事件系的概率131第二节总体分布一、二项分布(binomialdistribution)(一)二项分布的概率函数二项总体:有非此即彼事件组成的总体。二项分布:以容量n从二项总体中抽样,共有n+1种可能的结果,每种结果都有一个固定的概率,这种变量取值及其概率构成的分布称为二项分布.第二节总体分布132种子发芽试验:一粒种子:发芽概率p、不发芽概率q概率相加得(p+q)两粒种子:甲乙均发芽:概率为p2甲发乙不发:概率为p(1-p)]=pq乙发甲不发:qp甲乙均不发:q2概率相加得p2+pq+qp+q2=(p+q)2种子发芽试验:133依此类推,独立地对n粒种子进行实验,一种结果出现x次的概率是:称为二项分布律或二项概率函数,是(p+q)n展开后含有p(x)的一项.这一分布律也称为贝努里分布.依此类推,独立地对n粒种子进行实验,一种结果出现x次的概率是134其中,x=0,1,2,……,n,为某事件出现次数。n为样本含量,即事件发生总数.其中,x=0,1,2,……,n,为某事件出现次数。135二项分布是说明结果只有两种情况的n次独立实验中发生某种结果为x次的概率分布。二项分布是说明结果只有两种情况的n次独立实验中发生某种结果136因为(p+q)=1,所以因为(p+q)=1,所以137二项分布的累积函数:
二项分布中某结果最多发生k次的概率为发生0次、1次、...、直至k次的概率之和:二项分布的累积函数:138(二)二项分布的应用条件:(1)每次实验只有两类对立的结果;(2)n次事件相互独立;(3)每次实验某类结果的发生的概率是一个常数。
(二)二项分布的应用条件:139(三)
二项分布的参数二项分布总体的平均数和标准差为:(三)
二项分布的参数140二项分布常表示为:B(n,p)即:二项分布是由n和p两个参数据定的。二项分布常表示为:B(n,p)141(四)二项分布的形状二项分布的形状有如下特征:(1)二项分布图形的形状取决于P和n的大小;(2)当P=0.5时,无论n的大小,均为对称分布;(3)当p≠0.5
,n较小时为偏态分布,n较大时逼近正态分布。
(四)二项分布的形状142一般来说,当n大于30,而p或q又不过小(例如不接近于0),且np及nq不小于5时,可将其看作正态分布,可用正态公式求其概率。一般来说,当n大于30,而p或q又不过小(例如不接近于0),143(五)二项分布的应用实例1、一批种子的发芽率为0.8,现每穴播5粒,问每穴出三棵苗的概率?平均每穴出苗几棵?本例中,每穴出苗数为随机变量X,它服从B(5,0.8),故:(五)二项分布的应用实例144若计算每穴出苗数低于4棵的概率,则计算累积概率:P(X≤3)=P(X=0)+P(X=1)+P(X=2)+P(X=3)平均每穴出苗数:μ=np=5×0.8=4若计算每穴出苗数低于4棵的概率,则计算累积概率:1452、两个纯合亲本杂交(RR×rr),F1自交,F2的基因型分离比。F2中,R基因出现的概率p=0.5,r基因出现的概率q=0.5第三章理论分布和抽样分布课件146一对因子:一对因子:147两对因子:YYRR×yyrrF2中4显:3显:2显:1显:0显两对因子:YYRR×yyrr1483、两对基因分离:bbRR×BBrrF1BbRrF29B-R-:3B-rr:3bbR-:1bbrr问:样本容量多大时,才能以99%的概率至少得到一个bbrr个体?3、两对基因分离:149解:bbrr的概率q=1/16,非bbrr出现概率p=15/16。得到bbrr的概率99%,则非bbrr为1%,所以:pn=(15/16)n=0.01n(lg15-lg16)=lg0.01n=71.4因此:要以99%的可能获得一个bbrr个体,样本容量只少为72。解:bbrr的概率q=1/16,非bbrr出现概率p=15/150二、Poisson分布1.Poisson分布的概念:
二项分布n很大而P很小时的特殊形式。其概率函数
x=0,1,2...n,其中e为自然对数的底,µ为总体均数,x为事件发生的次数。二、Poisson分布151主要描述大量实验中随机稀疏现象,如:单位面积内的昆虫数、病斑数、植物种类、细胞计数、田间杂草分布等。主要描述大量实验中随机稀疏现象,如:单位面积内的昆虫数、病斑1522.Poisson分布的应用条件:(1)两类结果要相互对立;(2)n次试验相互独立;(3)n应很大,P应很小。2.Poisson分布的应用条件:1533.Poisson分布的参数方差与平均数相等,只有一个参数。3.Poisson分布的参数1544.Poisson分布的性质:(1)均数与方差相等;(2)均数µ较小时呈偏态,µ≥20时近似正态;(3)n很大,p很小,np=µ为常数时二项分布趋近于Poisson分布;(4)n个独立的Poisson分布相加仍符合Poisson分布4.Poisson分布的性质:1555、形状由μ决定:μ很小时分布很偏,μ增大后逐渐对称,趋近于正态分布
5、形状156三、正态分布(normaldistribution)(一)正态分布的密度函数和分布函数是连续性变数的一种理论分布。许多生物学产生的数据都服从正态分布。正态分布是生物统计学的重要基础三、正态分布(normaldistribution)157对于平均数为μ,标准差为σ的正态分布,其概率密度函数为:
-∞≤x≤∞σ>0对于平均数为μ,标准差为σ的正态分布,其概率密度函数为:158其中:μ-平均数,是曲线最高值的横坐标,曲线以其为对称;σ-标准差,表示曲线展开程度,σ越大,曲线展开度越大,数据越分散;越小,曲线展开度越小,数据越集中;有了μ和σ,曲线形状就可以确定下来。其中:159μ=0,标准差为σ=1的正态分布称为标准正态分布(standardnormaldistribution)。以N(μ,σ2)表示平均数为μ,标准差为σ的正态分布;以N(0,1)表示标准正态分布。μ=0,标准差为σ=1的正态分布称为标准正态分布(stand160第三章理论分布和抽样分布课件161累积分布函数:累积分布函数:162(二)正态分布曲线的特性1、以μ为原点左右对称;2、x=μ处f(x)具有最大值,且算术平均数、中数、众数合于这一点;3、是一个曲线簇,由μ和σ确定:μ确定在x轴上的位置,σ确定其变异度;(二)正态分布曲线的特性163以平均数和标准差不同的正态分布系列曲线以平均数和标准差不同的正态分布系列曲线1644、在x=μ±1σ有拐点;5、x取值范围是[-∞,+∞],但多数集中在μ附近,离其越远,次数越少;且在x-μ相等处具有相等次数。6、曲线的总面积等于1。曲线下任何定值之间的面积等于这两个定值间面积占总面积的成数,或者说变量落入这个区间内的概率。4、在x=μ±1σ有拐点;165几个常用区间与其相应的面积或概率区间面积或概率μ±σ0.6827μ±2σ0.9545μ±3σ0.9973μ±1.960σ0.9500μ±2.576σ0.9900几个常用区间与其相应的面积或概率166第三章理论分布和抽样分布课件167区间面积或概率μ±1δ0.6827μ±2δ0.9545μ±3δ0.9973μ±1.960δ0.9500μ±2.576δ0.9900正态分布区间面积或概率μ±1δ0.6827μ±2δ0.9545μ±3168(三)标准正态分布将x离其平均数的差数以σ为单位进行转换,于是:u为正态离差。可将一般方程转为标准正态分布方程。(三)标准正态分布169概率密度函数:-∞<u<∞
概率密度函数:170(四)正态分布区间概率的计算方法随机变量落在某区间(a,b)内的概率,可以从标准正态分布累积分布函数表中查出。对于一般的正态分布,先将其化为标准正态分布再查表.(四)正态分布区间概率的计算方法171例1:u=-0.82,Φ(-0.82)=0.2061u=1.15Φ(u)=0.8749例2:随机变量U服从N(0,1),求其落在0,1.21间的概率:P(0<U<1.21)=Φ(1.21)-Φ(0)=0.8869-0.5000=0.3869落在-1.96和1.96之间的概率:P(|U|<u)=1-2Φ(-u)=1-2Φ(-1.96)=1-0.0500=0.9500例1:u=-0.82,Φ(-0.82)=0.2061172正态分布正态分布173例3:变量X服从N(156.2,4.822),求:(1)X<161;(2)X>164;(3)152<X<162的概率例3:变量X服从N(156.2,4.822),求:(1)X174(1)
=(161-156.2)/4.82=1P(X<161)=Φ(u)=Φ(1)=0.8413(2)u=(164-156.2)/4.82=1.62P(X>164)=1-P(X<164)=1-Φ(u)=1-Φ(1.62)=1-0.9474=0.0526或者:P(X>164)=P(X<-164)=Φ(-u)=Φ(-1.62)=0.0526
第三章理论分布和抽样分布课件175(3)u1=(152-156.2)/4.82=-0.87u2=(162-156.2)/4.82=1.2P(152<P<162)=Φ(u2)-Φ(u1)=Φ(1.2)-Φ(-0.87)=0.8849-0.1921=0.6928(3)u1=(152-156.2)/4.82=-0.87176(五)正态分布的单侧分位数/临界值上面介绍了正态分布区间概率的计算方法。即对于给定的u,通过正态分布累积函数表查U<u的曲线下的面积。反过来,若要求曲线右侧尾区一定面积(α)下,所对应的u值uα,则可以利用正态离差uα值表查出。
(五)正态分布的单侧分位数/临界值177该表有单、双尾之分:对于单尾,给出了满足P(U>uα)=α时的uα值。uα称为α的上侧分位数。对于左侧尾区,满足:P(U<uα)=α时的-uα称为α下侧分位数。若将一定曲线下的面积α平分到两尾,则每尾区下的面积只有α/2,满足P(|U|>uα/2)=α时的uα/2称为α的双侧分位数。该表有单、双尾之分:对于单尾,给出了满足P(U>uα)=α178第三章理论分布和抽样分布课件179对于单尾表(上侧分位):对于双尾表:
对于单尾表(上侧分位):180第三节抽样分布(samplingdistribution)
可从两个方向研究总体与样本的关系:一是总体到样本,即由已知的总体研究样本的分布规律;二是从样本到总体的方向,即由样本推断未知的总体。抽样分布是研究第一个方向的问题,是统计推断的基础。第三节抽样分布(samplingdistribution181第三章理论分布和抽样分布课件182从一个总体进行随机抽样:从无限总体中可抽取无限多个随机样本。从容量为N的有限总体:样本容量为n,有Nn个所有可能样本。每个样本可得一平均数:,构成一新的总体,平均数为新总体的变量。每一平均数会有差异,所以平均数新总体也有其分布,称为平均数的抽样分布。从一个总体进行随机抽样:183(一)从一个正态总体抽出的随机样本的平均数分布1、总体标准差已知时的平均数分布-u分布从一个正态总体抽出的随机样本,无论样本容量大小,其样本平均数的抽样分布必呈正态分布(一)从一个正态总体抽出的随机样本的平均数分布184若总体不是正态分布,但具有一定量的μ和σ2,只要样本容量n足够大(一般n>30),从总体抽出的样本平均数也近似地服从正态分布N(μ,σ2/n),称为中心极限定理。若总体不是正态分布,但具有一定量的μ和σ2,只要样本容量n足185(1)该抽样分布的平均数与母总体的平均数相等(2)该抽样分布的方差与母总体方差间存在如下关系:
即:(1)该抽样分布的平均数与母总体的平均数相等186第三章理论分布和抽样分布课件187标准化:其中,n为样本容量,是样本平均数分布的标准差,称为标准误(差),可以度量抽样分布的变异
标准化:188例:从N=3(2,4,6),以n=1,2,4,8复置抽样例:从N=3(2,4,6),以n=1,2,4,8复置抽样189n=1n=2n=4n=8
ffff2122122.0122.00122.258182.54102.5036902.751123083263.010303.002667983.2550416383.516563.5078427443.751016381041443124.019764.00110744284.25101643184.516724.5078435284.75504239452105.010505.0026613305.251125885.54225.50361985.758466166166.0166.00166总和31293681324656126244均数12/3=(4)36/9=(4)324/81=(4)26244/6561=(4)方差8/34/32/31/3n=1n=2n=4n=8ffff2122122.0121902、总体标准差未知(或虽然总体标准差已知,但总体不呈正态,且n较小)时的平均数分布-t分布总体σ2未知,可以用样本标准差代替总体标准差,标准化变量不服从正态分布,而是服从自由度为n-1的t分布2、总体标准差未知(或虽然总体标准差已知,但总体不呈正态,且191其中,为标准误。第三章理论分布和抽样分布课件192t分布也是一组对称密度函数曲线分布,它只有一个参数-自由度确定其分布。与正态曲线相比,t分布曲线稍微扁平,峰顶略低,尾部稍高。理论上,随着自由度的增大,t分布趋于正态分布:υ>30时接近正态曲线,υ=∞时,与正态曲线合一。t分布也是一组对称密度函数曲线分布,它只有一个参数-自由度确193第三章理论分布和抽样分布课件194。。正态分布t分布ν=40。。正态分布t分布ν=4000.10.20.30.4123-3-2-1正态分布曲线与t分布曲线的比较。。正态分布t分布ν=40。。正态分布t分布ν=4000.1195概率密度函数:t分布的平均数和标准差:概率密度函数:196t分布的累积函数:t分布的累积函数:197t分布的概率
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中东地理多元文化课件
- 企业单位劳动合同协议书模板
- 酒店员工的聘用合同
- 股权众筹合作框架合同
- 山西医科大学《食品营养与健康》2023-2024学年第二学期期末试卷
- 新疆石河子职业技术学院《美术(三)》2023-2024学年第二学期期末试卷
- 版个人机械设备租赁协议书模板
- 江西冶金职业技术学院《三维动画设计》2023-2024学年第一学期期末试卷
- 内蒙古丰州职业学院《主项提高课田径》2023-2024学年第一学期期末试卷
- 天津滨海职业学院《行为矫正》2023-2024学年第二学期期末试卷
- 《电力设备典型消防规程》知识培训
- 2025年天津市河东区中考一模英语试题(原卷版+解析版)
- 2025届浙江省君兮协作联盟高三下学期4月教学质量检测英语试题(含解析)
- 注册会计师(综合阶段)题库完美版带答案分析2025
- 四川省成都东部新区龙云学校2024-2025学年五年级下册半期测试题(含答案)
- 新课标解读丨《义务教育道德与法治课程标准(2022年版)》解读
- 儿童支气管哮喘诊断与防治指南(2025版)解读课件
- 2024年中国海洋大学招聘辅导员笔试真题
- 红蓝黄光治疗皮肤病临床应用专家共识解读
- 氧气管道施工方案
- 建筑施工现场突发事件应急预案及要求措施
评论
0/150
提交评论