生物统计概率和概率分布省公开课金奖全国赛课一等奖微课获奖课件_第1页
生物统计概率和概率分布省公开课金奖全国赛课一等奖微课获奖课件_第2页
生物统计概率和概率分布省公开课金奖全国赛课一等奖微课获奖课件_第3页
生物统计概率和概率分布省公开课金奖全国赛课一等奖微课获奖课件_第4页
生物统计概率和概率分布省公开课金奖全国赛课一等奖微课获奖课件_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章概率和概率分布2.1概率基本概念2.2概率分布2.3总体特征数2.4几个常见概率分布律2024/4/131/49第二章概率和概率分布2.1概率基本概念自然现象:确定性现象和非确定性现象(随机现象)从随机现象中做大量研究,能从其偶然性中揭示内在规律统计学所研究是非确定性现象,2024/4/132/49概率统计定义是在大量试验中,以频率稳定性为基础上提出来。设k次随机试验,成功事件A出现l次,则称l/k是K次随机试验中成功频率。频率是由样本数据计算得到。因为样本分布不恒定性,不一样随机试验,事件A出现频率也不一样,伴随K改变,频率也有一定波动。伴随K增大,频率l/k将围绕着某一确定常数P做平均幅度愈来愈小变动,这就是所谓频率稳定性,其中P即为事件A概率。简单说概率就是频率稳定值。在试验次数较多时,能够用频率作为概率近似值。(P23表2-1)2.1.1概率统计定义2024/4/133/49

概率是事件在试验结果中出现可能性大小定量计算,是事件固有属性,有以下显著性质:任何事件A概率均满足:0≤P(A)≤1必定事件W概率为1,即P(W)=1不可能事件(V)概率为0,即P(V)=02.1.1

概率统计定义(续)2024/4/134/49概率统计定义是在大量试验中,以频率稳定性为基础上提出来。不需要做试验就能够确定事件出现概率,称为古典概率,含有以下特点:随机试验全部可能结果(基本事件数)是有限;各基本事件间是互不相容且等可能。缺点:要求各基本事件是等概率且有限。2.1.2概率古典定义2024/4/135/49随机变量随机变量就是在随机试验中被测定量,所取得值称为观察值。可分为离散型随机变量和连续型随机变量。离散型随机变量:可能取得数值为有限个或可数无穷个孤立数值。连续型随机变量:可取某一(有限或无限)区间内任何数值。2.2概率分布2024/4/136/49将随机变量X所取得值x概率P(X=x)写成x函数p(x),称为随机变量X概率函数公式为p(x)=P(X=x)。概率函数应满足:

p(x)0p(x)=12.2.1离散型随机变量概率分布2024/4/137/49将X一切可能值x1,x2,x3……,xn,……,以及取得这些值概率P(x1),P(x2),…..,p(xn),…..排列起来,组成了离散型随机变量概率分布。惯用概率分布表或概率分布图表示。2.2.1离散型随机变量概率分布(续)离散型随机变量概率分布表x1x2…xn…p(x1)p(x2)…p(xn)…2024/4/138/49离散型随机变量概率分布图2024/4/139/49离散型变量概率分布函数:离散型变量概率累积。其公式为2.2.1离散型随机变量概率分布(续)指随机变量等于或小于某一可能值(x0)概率。2024/4/1310/49对于离散型随机变量任何值,都能够求出它概率。而连续型随机变量则不一样,因为试验中能够取某一区间内任何值,这些数值组成不可数无穷集合。任何值概率都等于0,这并不是说这种事件不会出现,只是因为技术上限制,在测量时不可能无限提升准确度。在研究连续型随机变量时,实际观察值只能是落在一定区间内,其概率能够不为0,当然这种区间能够很小。2.2.2连续型随机变量概率分布2024/4/1311/49

随机变量X值落在区间(x,x+△x)内概率为P(x<X<x+△x),其中△x为区间长度。当△x趋于零时,此时区间概率称为密度函数:概率密度图形y=f(x)称为分布曲线。2.2.2连续型随机变量概率分布(续)2024/4/1312/49

分布函数(或称为累积分布函数)是随机变量X取得小于X0值概率对于任意两点a和b(a<b),下式成立:

P(X≤a)+P(a<X≤b)=P(X≤b)或P(a<X≤b)=F(b)-F(a)2.2.2连续型随机变量概率分布(续)2024/4/1313/49经过样本数据得到频率分布称为统计分布或经验分布,描述总体概率分布称为理论分布或总体分布。频率分布可出现各种类型:两侧对称,不对称,但对于不一样频率分布都有对应理论分布,即随机变量改变规律理想化数学模型。即使极难与实际情况完全一致,但近似得非常好,所以能够用建立在概率分布基础上统计规律来处理实际问题。假如我们从总体中取出了一个很大样本,可把这个样本分布近似作为总体分布。2.2.3概率分布与频率分布关系2024/4/1314/49样本特征数是描述频率分布特征:统计量总体特征数是描述概率分布特征:参数总体特征数包含随机变量数学期望(理论平均数),方差和各阶矩,能够用类似求样本特征数方法求得。2.3总体特征数2024/4/1315/49总体特征数:描述概率分布特征数字,包含数学期望、方差和各阶矩。所谓X或X函数数学期望,即它们理论平均数。样本平均数:2.3.1随机变量数学期望和方差伴随n充分增加,平均数稳定于总体平均数2024/4/1316/49频数资料样本方差和标准差2.3.1随机变量数学期望和方差(续)总体方差和标准差2024/4/1317/49

X或X函数数学期望可用通式表示2.3.1随机变量数学期望和方差(续)随机变量数学期望就是这个随机变量全部可能值,以其对应概率为权加权平均数。2024/4/1318/49

连续型随机变量数学期望定义为2.3.1随机变量数学期望和方差(续)连续型随机变量方差定义为2024/4/1319/492.3.2数学期望和方差运算2024/4/1320/492.4几个常见概率分布律2.4.1二项分布二项分布在生物学中应用很广,其特征以下:每次试验只有两个对立结果(A和Ā);N次试验是重复,独立。回放式抽样适合于二项分布;非回放式抽样适合于超几何分布。二项分布概率函数2024/4/1321/492.4.1二项分布(续)服从二项分布随机变量特征数(用比率表示时)平均数方差偏斜度峭度(用比率表示时)2024/4/1322/49二项分布决定于两个参考数:试验次数和概率,所以其图形改变趋势与这两个参数相关随试验次数增大图形分布趋于对称;而且当概率趋于0.5时分布趋于对称偏斜度和峭度是与试验次数和概率相关。当相同时,随样本含量增加,γ1和γ2逐步靠近于0(正态分布);或样本含量相同时,愈靠近于0.5,γ1和γ2愈靠近于0。表3-1P37二项式分布应用实例

2.4.1二项分布(续)2024/4/1323/49

在生物统计学中,正态分布占有极其主要地位。许多生物学现象所产生数据,都服从正态分布。正态分布密度函数图像称为正态曲线正态分布密度函数图像,称为正态曲线。2.4.2正态分布2024/4/1324/49平均数为μ,标准差为

正态分布,其密度函数:累积分布函数:正态曲线2024/4/1325/49正态分布规律是数据分布两头少,中间多,两侧对称。密度曲线以X=μ直线为对称;X=

-

和X=

+

所确定点为曲线两个“拐点”;曲线向左、向右无限延伸,以x轴为渐近线;x越趋向于μ,f(x)取值越大;X=μ时,f(x)含有最大值,其值为:正态曲线特点2024/4/1326/49

σ大小,决定曲线“胖”、“瘦”程度,σ越小,曲线越“瘦”,数据越集中,σ越大,曲线越“胖”,数据越分散。σ固定时,μ值决定曲线位置,当μ增大时曲线向右平移,当μ降低时曲线向左平移,但曲线形状不变。正态曲线特点(续)2024/4/1327/49

标准正态分布μ=0,σ=1时正态分布称为标准正态分布N(0,1)

。其密度函数和累积分布函数分别为:2024/4/1328/49在u=0时,

(u)到达最大值,概率密度值最大;当u远离0时,e

指数变得愈大,所以(u)值愈小;曲线两侧对称,即

(u)=

(-u);曲线在u=1和u=-1处有两个拐点;曲线下面积为等于1;累积分布函数

(u)值可查表;累积分布函数

(u)曲线从-∞到0平稳上升,围绕点(0,0.5)对称;标准正态分布有以下特征2024/4/1329/49u=-1

到u=1

面积为0.6827u=-2

到u=2

面积为0.9543u=-3

到u=3

面积为0.9973u=-1.960

到u=1.960面积为0.9500u=-2.576

到u=2.576

面积为0.9900正态分布偏斜度和峭度都为0。主要特征值:2024/4/1330/49正态分布表惯用几个关系式P(0≤u<u1)=Φ(u1)-0.5P(u≥u1)=Φ(-u1)P(|u|≥u1)=2Φ(-u1)P(|u|<u1)==1-2Φ(-u1)P(u1≤u<u2)=Φ(u2)-Φ(u1)正态分布表正态分布表(附表2)查法2024/4/1331/49对于标准正态分布,其累积分布函数值可直接查表(附表2)得到;例查u=-0.82及u=1.15时Φ(u)值。u=-0.82时,Φ(u)=0.20611u=1.15时,Φ(u)=0.87493在分布曲线上画出Φ(u)所代表面积。正态分布表(附表2)查法2024/4/1332/49对于普通正态分布,要先将进行标准化:再查标准正态分布表也很轻易得到。令代入概率密度函数因为所以正态分布表(附表2)查法(续)2024/4/1333/49例3.10:已知高粱品种“三尺三”株高服从正态分布N(156.2,4.822),求(1)X<161cm概率:(2)X>164cm概率;(3)X在152-162cm概率。(1)P(X<161)=?(2)P(X>164)=?(3)P(152<X<162)=?正态分布表查法(续)2024/4/1334/49正态分布单侧分位数和双侧分位数(附表3)上侧分位数:P(U>uα)=

时u

值;下侧分位数:P(U<uα)=

时u

值;双侧分位数:P(lUl>u

/2)=

时u

/2值(从附表3中以

/2查出u

/2即可。附表3与附表2查法恰好相反。2024/4/1335/49正态分布单侧分位数和双侧分位数(附表3)2024/4/1336/49在生物界中,把一个随机变量看作许多影响微小而又相互独立随机变量之和。当这些独立随机变量数量很大时,每一随机变量对总和影响则相对变小。为了研究数量很大时随机变量和所含有规律性,应使用极限原理和方法。已证实在上述情况下,随机变量和分布趋于正态分布。研究随机变量和极限分布是正态分布一类定理,称为中心极限定理。中心极限定理2024/4/1337/49

假设被研究随机变量X,能够表示为许多相互独立随机变量Xi和。那么,假如Xi数量很大,而且每一个别Xi对于X所起作用很小,则能够被认为X服从或近似地服从正态分布。中心极限定理含义2024/4/1338/49若已知总体平均数为μ,标准差为σ,那么不论该总体是否为正态分布,对于从该总体所抽取含量为N样本,当样本含量充分大时,其平均数渐近服从正态分布N(μ,σ2/n)(见公式)。中心极限定理在生物统计学占有极其主要地位。有了这个定理,才能从单个样本n个数据所得到统计量对总体进行预计。中心极限定理推论2024/4/1339/49从一个包含两种不一样类型个体有限总体做非放回式抽样,抽中某种类型个体数服从超几何分布。概率函数2.4.3超几何分布N:总体中个数K:两种类型中某一个类型个体数n:非放回式抽样次数x:在n次抽样中某一个类型个体数2024/4/1340/492.4.3超几何分布(续)服从超几何分布随机变量总体特征数:例:野生动物考查时,常需要了解野生动物群体大小.一个方法是先捕捉一定数目标动物,做上标识,把他们放回到群体中.然后再捕捉第二个样本,计算其中有标识动物数.依据以上资料预计群体大小.捕捉第二个样本时,捉到有标识动物数,是一个随从超几何分布随机变量.方差平均数2024/4/1341/49结束2.14X为垂钓者在1h内钓上鱼数,其概率分布以下表:作业:P32x0123456p(x)0.0010.0100.0600.1850.3240.3020.118问(1)期望1h内钓到鱼数?(2)它们方差?2024/4/1342/49结束3.4依据以往经验,用普通疗法治疗某种疾病,其死亡率为40%,治愈率为60%。今用一个新药治疗染上该病5名患者,这5人均治愈了,问该新药是否显著优于普通疗法?作业:P512024/4/1343/49结束3.14.已知习题1.2中,250株小麦高度分布服从正态分布N(63.33,2.882),问:(1)株高在60cm以下概率?(2)株高在69cm以上概率?(3)株高在62-6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论