版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二概率与概率分布演示文稿当前1页,总共61页。(优选)第二概率与概率分布当前2页,总共61页。频率是由样本数据计算得到的。由于样本分布的不均衡性,不同的随机试验,一个事件的出现频率也不一样,有一定的波动。随着试验次数的增大,频率将围绕着某一确定的常数P做平均幅度愈来愈小的变动,这就是所谓频率的稳定性,其中P即为概率(表2-1)。简单的说概率就是频率的稳定值。在试验次数较多时,可以用频率作为概率的近似值。当前3页,总共61页。当前4页,总共61页。概率是事件在试验结果中出现可能性大小的定量计量。概率是事件固有的属性,有以下明显的性质:随机事件A的概率:0<P(A)<1必然事件W的概率为1,即P(W)=1不可能事件(V)的概率为0,即P(V)=0概率接近于0(如P<0.05)的事件称为小概率事件。当前5页,总共61页。2.2概率分布一、随机变量随机变量表示随机现象结果的变量,也就是在随机试验中被测定的量,所取得的值称为观察值。随机变量离散型连续型(与我们前面所讲的连续型数据和离散型数据的意义一样)当前6页,总共61页。二、离散型变量的概率分布随机变量取得的数值为有限个,或为无穷个孤立的值。将随机变量X所取得值x的概率P(X=xi)写成x的函数pi,称为随机变量X的概率函数pi=P(X=xi)。将X的一切可能值x1,x2,x3,…,xn,…,以及取得这些值的概率p1,p2,…,pn,…,排列起来,构成了离散型随机变量的概率分布。常用概率分布表或概率分布图表示(如,p27表2-2图2-1)。概率函数应满足的条件:当前7页,总共61页。图2-1离散型随机变量概率分布图
X
x1
x2
x3
……
xn
……Pi
p1
p2
p3
……
pn
……表2-2离散型随机变量的概率分布表当前8页,总共61页。离散型变量概率的累积分布函数:离散型变量概率的向上累积。其公式为,即随机变量小于等于某一可能值(x0)的概率。当前9页,总共61页。离散型概率分布的例子例:从100件产品(其中合格品95件,废品5件)。任意抽取10件,求每次抽到废品数的概率分布。xp(x)0123450.5837523670.3393909110.0702188090.0063835280.0002510380.000003347累积分布函数图00.20.40.60.81012345xF(x)0123450.5837523670.9231432780.9933620770.9997456050.9999966531.000000000概率分布表累积概率分布表当前10页,总共61页。离散型随机变量概率分布的特点列出随机变量所有可能值的[xi,pi]组合xi
=随机变量值(取值)pi
为xi
的值对应的概率互斥性(不相交/无重复)0≤p(xi)≤1Σp(xi)=1对于离散型随机变量的任何值,都可以求出它的概率。当前11页,总共61页。三、连续型概率分布连续型随机变量(如体长、体重、卵重)则不同,连续型随机变量任何值的概率都为0。连续型随机变量,仅研究某一区间内取值的概率。例如,某品种小麦的高度为100cm~120cm。我们可以说该品种的任何一株小麦的高度准确地等于某一标准高度(如105cm)的概率等于0。我们只能确定它高度的范围在某一固定的区间内,在实际中无限提高测定的精确度也无意义。连续型随机变量的概率分布不能用分布列来表示,改用随机变量x在某个区间内取值的概率P(a≤x<b)来表示。随机变量X的值落在区间(x,x+Δx)内的概率为P(x<X<x+Δx)其中Δx为区间长度。当前12页,总共61页。当Δx趋于零时,此时区间概率称为密度函数:概率密度的图形y=f(x),称为分布曲线。
概率是曲线下面积!f(x)Xab概率密度曲线f(x)与x轴所围成的面积为1
分布函数(或称为累积分布函数)是随机变量X取得小于x0的值的概率当前13页,总共61页。概率密度函数图和概率分布函数图概率密度函数图概率分布函数图y=p(x)y=F(x)x1x2x2x1P(x1<x<x2)=F(x2)-F(x1)当前14页,总共61页。连续型随机变量概率分布的性质:分布密度函数总是大于或等于0,即f(x)≥0;当随机变量x取某一特定值时,其概率等于0;即
(c为任意实数)
因而,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某一个值的概率。当前15页,总共61页。2.3离散型概率分布二项分布(binomialdistribution)泊松分布(poissondistribution)超几何分布(hypergeometricprobabilitydistritution)负二项分布(Negativebinomialdistribution)当前16页,总共61页。贝努利试验(Bernoullitrial):我们把只有两种可能观测值(每次试验只可能是两个对立事件之一)的随机试验统称为贝努利试验。这种试验在实际中广泛存在,如观察某一实验动物的卵孵化与否、某一实验动物是雌性还是雄性、实验反应是阴性还是阳性等。n次独立地贝努利试验称为n重贝努利试验,其试验结果的分布(一种结果出现x次的概率是多少的分布)即为二项分布。应用二项分布的重要条件是:每一种试验结果在每次试验中都有恒定的概率,各试验之间是重复独立的。一、二项分布B(n,p)当前17页,总共61页。例:例3.1注意:1)放回式抽样适用于二项分布,非放回式抽样适用于超几何分布;2)通式为:n=试验次数;
x=在n次试验中事件A出现的次数p=事件A发生的概率(每次试验都是恒定的)1-p=事件发生的概率P(x)=X的概率函数为P(X=x);
F(x)=P(X≤x)xnxxnppcxP--=)1()(当前18页,总共61页。例3.1从雌雄各半的100只动物中抽样(放回式抽样),抽样共进行10次,问其中包括3只雄性动物的概率是多少?包括3只及3只以下的概率是多少?即求P(X=3)和P(X≤3)此例中:n=10,x=3,p=0.5,求P(3)和F(3)。则,将x=0,1,2,3代入通式,可得到出现0,1,2,3只雄性动物的概率。
P(0)=0.0009766P(1)=0.0097656
P(2)=0.0439453P(3)=0.1171876所以,抽到3只和3只以下雄性动物的概率为:
F(3)=P(0)+P(1)+P(2)+P(3)=0.1718751当前19页,总共61页。服从二项分布的随机变量的特征数总体平均数:μ=np
,μ=p
(用比率表示时)
总体方差:(用比率表示时)
偏斜度:峭度:
从以上公式可以看出二项分布决定于两个参考数:试验次数n和概率P,因此其图形变化趋势与这两个参数有关。当前20页,总共61页。γ1=3.11γ2=9.50γ1=0γ2=0γ1=0γ2=-0.02γ1=0γ2=-0.20γ1=0.12γ2=0.01γ1=0.27γ2=0.05γ1=0.44γ2=0.19γ1=0.98γ2=0.95γ1=0.84γ2=0.51n=10,p=0.0100.20.40.60.810246810n=100,p=0.0100.10.20.30.40.50255075100n=500,p=0.0100.10.20.30.40.50100200300400500n=10,p=0.1000.10.20.30.40.50246810n=100,p=0.1000.050.10.150.20255075100n=500,p=0.1000.020.040.060.080.10100200300400500n=10,p=0.5000.10.20.30246810n=100,p=0.5000.020.040.060.080.10255075100n=500,p=0.5000.010.020.030.040.050100200300400500当前21页,总共61页。例3.2用棕色正常毛(bbRR)的家兔和黑色短毛(BBrr)兔杂交,F1代为黑色正常毛长的家兔(BbRr),F1代自交,F2代表型比为:9/16B_R_:3/16B_rr:3/16bbR_:1/16bbrr。问最少需要多少F2代家兔,才能以99%的概率得到一个棕色短毛兔(bbrr)?解:设p为非棕色短毛兔出现的概率,则1-p就为棕色短毛兔出现的概率。在[p+(1-p)]n的展开式中只有第一项pn无棕色短毛兔出现,因此n值可由pn=1-0.99求出。
pn
=(15/16)n
=0.01
n(lg15-lg16)=lg0.01-0.02803n=-2.00000
n=71.42、二项分布应用实例当前22页,总共61页。二项分布的应用条件有三:(1)各观察单位只具有互相对立的一种结果,如阳性或阴性,生存或死亡等,属于二项分类资料;(2)已知发生某一结果(如死亡)的概率为p,其对立结果的概率则为1-p=q,实际中要求p
是从大量观察中获得的比较稳定的数值;(3)n个观察单位的观察结果互相独立,即每个观察单位的观察结果不会影响到其它观察单位的观察结果。当前23页,总共61页。二、泊松分布P(λ)在生物学研究中,有许多事件出现的概率很小,而样本容量或试验次数却往往很大,即有很小的p值和很大的n值。这时二项分布就变成另外一种特殊的分布,即泊松分布。如,显微镜视野内染色体有变异的细胞计数、单位容积的水中细菌数目的分布、作物种子内杂草的分布以及样方内少见植物的个体数等都属于泊松分布。其概率函数可由二项分布的概率函数推导。当前24页,总共61页。1、泊松分布概率函数的推导(将系数的分子分母同乘以nx)(当n→∞时,系数的极限为1,且nφ
=μ)当前25页,总共61页。平均数:μ=λ方差:σ2=λ偏斜度:峭度:概率函数内的λ
,不但是它的平均数,而且是它的方差。
λ很大时,γ1和γ2则接近于0,这时的泊松分布近似于正态分布。
2、服从泊松分布的随机变量的特征数当前26页,总共61页。3、泊松分布应用实例例3.5在麦田中,平均每10m2有一株杂草,问每100m2麦田中,有0株、1株、2株、…杂草的概率是多少?解:先求出每100m2麦田中,平均杂草数μ
μ=100/10=10株将μ代入泊松分布的概率密度函数中,
p(x)=10x/(x!e10),(e=2.71828)即可求出x=0,1,2,…
时所相应的概率。当前27页,总共61页。例:为监测饮用水的污染情况,现检验某社区每毫升饮用水中细菌数,共得400个记录如下:试分析饮用水中细菌数的分布是否服从泊松分布,计算每毫升水中细菌数的概率及理论次数并将頻率分布与泊松分布作直观比较。解:经计算得每毫升水中平均细菌数为0.500,x=0.5,s2=0.496,两者相接近,可认为服从泊松分布代入泊松分布公式1ml水中细菌数0123合计次数f243120316400当前28页,总共61页。注意,二项分布的应用条件也是泊松分布的应用条件。要求n
次试验是相互独立的。然而一些具有传染性的罕见疾病的发病数,因为首例发生之后可成为传染源,会影响到后续病例的发生,所以不符合泊松分布的应用条件。1ml水中细菌数0123合计实际次数f243120316400频率0.60750.30000.07750.01501.00概率0.60650.30330.07580.01441.00理论频数242.60121.3230.325.76400当前29页,总共61页。2.4主要的连续型随机变量的概率分布——正态分布
在生物统计学中,正态分布占有极其重要的地位。许多生物学现象所产生的数据,都服从正态分布。一、正态分布(x—N(μ,σ2))的密度函数与分布函数正态曲线正态分布的规律是数据分布集中在平均数附近,并且在平均数的两侧成对称分布。正态分布密度函数的图像,称为正态曲线。密度函数:分布(累积)函数:当前30页,总共61页。正态分布密度曲线特点:密度曲线以x=μ直线为对称;x=σ和x=-σ所确定的点为曲线的两个“拐点”;曲线向左、向右无限延伸,以x轴为渐近线;x=μ
时,f(x)具有最大值,其值为;σ的大小,决定曲线的“胖”、“瘦”程度(展开程度),σ越小,曲线越“瘦”,数据越集中,σ越大,曲线越“胖”,数据越分散。σ
固定时,μ值决定曲线的位置,当μ增大时曲线向右平移,当μ减少时曲线向左平移,但曲线形状不变。当前31页,总共61页。二、标准正态分布(x~N(0,1))μ=0,σ=1时的正态分布称为标准正态分布。密度函数:分布(累积)函数:当前32页,总共61页。标准正态分布有以下特性:μ=0时,概率密度值最大;概率密度曲线向左、向右无限延伸,以x轴为渐近线;左右对称u=1和u=-1是概率分布曲线的两个拐点;曲线与横坐标轴所夹的图形面积为1;累积分布函数曲线从-∞到0平稳上升,围绕点(0,0.5)对称;标准正态分布的偏斜度γ1和峭度γ2均为零。当前33页,总共61页。以下一些特征值很重要:68.27%95.45%99.73%1
2
3
-3
-2
-1
P(-1≤u<1)=0.6826P(-2≤u<2)=0.9545P(-3≤u<3)=0.9973当前34页,总共61页。以下一些特征值很重要:90%95%1.645
1.962.58
-2.58
-1.96
-1.64599%
P(-1.96≤u<1.96)=0.95P(-2.58≤u<2.58)=0.99当前35页,总共61页。三、标准正态分布表的查法对于标准正态分布,其累积分布函数值F(u)可直接查表(书p315附表1)得到,其值等于标准正态曲线与横坐标轴从-∞到u所夹的面积,该曲线下的面积即表示随机变量U落入区间(-∞,u)的概率;标准正态分布查表常用的几个关系式:P(0<U<u1)=F(u1)-0.5P(U>u1)=F(-u1)=1-F(u1)P(∣U∣>u1)=2F(-u1)P(∣U∣<u1)=1-2F(-u1)P(u1<U<u2)=F(u2)-F(u1)
u当前36页,总共61页。xμ=5σ=109.2正态分布uμ=0σ=10.42标准正态分布对于一般正态分布,要先进行标准化,再查表;
标准化的公式为:当前37页,总共61页。例3.7查标准正态分布u=-0.82及u=1.15时的F(u)的值
例3.8随机变量u服从正态分布N(0,1),问随机变量u的值落在(0,1.21)区间的概率?
例3.9已知随机变量u服从正态分布N(0,1),问随机变量u的值落在(-1.96,1.96)区间的概率是多少?
例3.10已知某高粱品种的株高X服从正态分布N(156.2,4.822),求:(1)X<161cm的概率;
(2)X>164cm的概率;
(3)152<X<162的概率。利用公式P(0<U<u)=F(u)-0.5利用公式P(∣U∣<u)=1-2F(-u)
或P(u1<U<u2)=F(u2)-F(u1)当前38页,总共61页。四、正态分布的单侧分位数和双侧分位数上侧分位数:P(u>ua)=α时的ua值;下侧分位数:P(u<-ua)=α时的ua值;双侧分位数:
P(∣u∣>ua/2)=α时的ua值(从附表2中以α/2查出的ua即可);当前39页,总共61页。大数定律与中心极限定理的应用样本容量越大,样本统计数与总体参数之差越小。对于容量大于30的样本,样本均值的分布可以较好地用一个正态分布近似(其中均值为μ,即,样本均值的平均值,标准差为,即样本均值的标准差)样本容量越大,近似的效果越好。如果原始总体就是正态分布,则对于任意样本容量n,样本均值都将是正态分布的。当前40页,总共61页。EXCEL在本章内容的应用EXCEL电子表格提供的粘帖函数BINOMDIST计算二项式分布的概率值NORMDIST 计算正态分布的累积函数NORMINV 计算正态分布累积函数的逆函数NORMSDIST 计算标准正态分布的累积函数NORMSINV 计算标准正态分布累积函数的逆函数POISSON 计算泊松分布的概率当前41页,总共61页。AVERAGE 计算算术平均值GEOMEAN 计算几何平均数MAX 计算最大值MEDIAN 计算一组给定数字的中位数STDEV 计算样本标准差STDEVP 计算样本总体的标准差VAR 计算样本的方差VARP 计算样本总体的方差当前42页,总共61页。各种分布函数计算1、二项分布工具平均数、方差和标准差二项分布的概率函数为当前43页,总共61页。二项分布函数的概率及累积概率的计算实例已知某种猪病的死亡率为30%,现有10头病猪,如不给予治疗,问死亡4头及死亡4头和4头以下的概率为多少?解:死亡4头的概率计算公式为:死亡4头和4头以下累积概率的计算公式为:当前44页,总共61页。用粘帖函数BINOMDIST计算死亡4头的概率计算本计算在编缉栏中为BINOMDIST(4,10,0.30,FALSE)当前45页,总共61页。死亡4头和4头以下概率的计算本计算在编缉栏中为BINOMDIST(4,10,0.30,TRUE)当前46页,总共61页。利用BINOMDIST函数和填充柄计算当前47页,总共61页。当前48页,总共61页。2、泊松分布工具泊松分布的概率函数为常数,它等于平均数等于方差
==2
当前49页,总共61页。泊松分布概率的计算实例已知某一地区,出现怪胎的事件服从泊松分布P(2),请计算该地区出现3次怪胎的概率,及出现3次和3次以下怪胎的概
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高考物理总复习专题一直线运动第3讲运动学图像练习含答案
- 蔬菜采购合同的签订证明
- 电子地磅工岗位职责
- 江苏省江阴市七年级体育与健康上册《蹲踞式跳远》教案
- 2024-2025学年高中政治 第4单元 第9课 第1框 建设社会主义文化强国教案 新人教版必修3
- 2023一年级数学上册 5 6~10的认识和加减法第1课时 6和7的认识教案 新人教版
- 2024六年级语文下册 第五单元 14 文言文二则说课稿 新人教版
- 2024-2025学年高中生物 第7章 第2节 现代生物进化理论的主要内容1教案 新人教版必修2
- 2023二年级语文下册 第三单元 识字2 传统节日说课稿 新人教版
- 高考地理一轮复习第十一章交通运输布局与区域发展第一节区域发展对交通运输布局的影响课件
- 幼儿园三年发展规划(2024年-2026年)
- 2024-2030年中国即时配送行业未来发展与前景应用领域规模研究报告
- 2024-2030年中国重症监护监护系统行业市场发展趋势与前景展望战略分析报告
- 2024年艾滋病知识题库
- 2024年安徽龙亢控股集团限公司公开招聘人员13人(高频重点提升专题训练)共500题附带答案详解
- 湖南美术出版社六年级上册《书法练习指导》表格教案
- 投标项目进度计划
- 中医脑病科缺血性中风(脑梗死恢复期)中医诊疗方案临床疗效分析总结
- 部编版语文二年级上册《语文园地三我喜欢的玩具》(教案)
- 俱乐部陪玩方案
- 中国成人心肌炎临床诊断与治疗指南2024解读
评论
0/150
提交评论