生统材料实用生物统计_第1页
生统材料实用生物统计_第2页
生统材料实用生物统计_第3页
生统材料实用生物统计_第4页
生统材料实用生物统计_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生统材料实用生物统计第1页/共62页

第二章

随机变量及其特征第2页/共62页

2.1随机变量和分布函数统计学中如何利用概率解决实际问题例2-1某地区青少年白血病死亡率过高,怀疑与工业垃圾有关。据报告该地区12例白血病发生,如果已知该地区白血病的正常发病率,请问能否推断该地区白血病过多?例2-2由调查表得到的北大生科院2009级部分男生的体重数据,如何描述这些数据?第3页/共62页

2.1随机变量和分布函数例:联系出国除GPA外还需成绩排名:Top1%、Top5%orTop10%等——成绩分布中的位置GPA——随机变量Topxx%——随机变量的分布分布重要性:飞机什么部位需要特别加固?第4页/共62页随机变量定义:在试验中所得到的取值有随机性的量,就称为随机变量,多用X、Y、Z表示

例2-2根据男生体重数据可得体重分布情况:以X表示体重(单位kg),则有

45.0≤X≤90.0例2-3用X表示28名男生中血型为”B”的人数:

X

={0,1,2,3,4,…,28}

第5页/共62页随机变量类型:离散型:只有有限或可列个可能取值例:例2-3血型X=0,1,…,28连续型:取值在某个区间中连续变化例:例2-2体重45.0≤X≤90.0随机现象结果非数量性质时可进行数值化:例2-4学生是否对“生统”感兴趣。

X=0:不感兴趣X=1:一般

X=3:较感兴趣X=4:很感兴趣随机变量第6页/共62页离散型随机变量及其概率分布表

已知离散随机变量取每个值的概率,表示如下:

称为随机变量X的概率分布表或分布列P为X的概率分布,并记为:

P(X=xi)=p(xi),i=1,2,3,……{p(xi),i=1,2,3,……}第7页/共62页离散型随机变量概率函数应满足:对任意可能结果xi,有

0≤p(xi)≤1非负性且规范性注意:求和是对一切可能的结果进行的P:大写,概率分布p:小写,某一事件的概率值X:大写,随机变量x:小写,随机变量的某个取值离散型随机变量的概率函数第8页/共62页例2-5中耳炎是儿童常见病之一。设X代表儿童在两岁之内犯中耳炎的次数,经调查其分布表如下:x0123456P(x)0.1290.2640.2710.1850.0950.0390.017解:X的概率分布及分布列表示如下离散型随机变量及其概率分布表第9页/共62页连续型随机变量取值可以是某个区间的一切值问题:随机变量取值不可列,其概率及其分布如何表示?例2-6考察35~44岁男性舒张压DBP的分布注意:实际情况中DBP的取值是离散的,但若无仪器测量精度限制,DBP可取连续性的一切可能取值第10页/共62页连续型随机变量特性:任一具体血压值如117.3出现的概率为0将注意力从P(X=xi)

转为P(Xxi)

取代离散变量概率分布列的方法考察血压落在某个范围的概率P(90≤X<100)=15%:轻度高血压

P(100≤X<110)=5%:中度高血压

P(X≥110)=1%:重度高血压问题:P(X≥110)与P(X>110)有区别否?第11页/共62页采用类似微分的概念,定义如下:对于随机变量X,如存在非负可积函数f(x),

称f(x)为随机变量X的概率密度函数含义:概率密度与概率的关系密度与质量、点与线的长度、线与面积的关系连续型随机变量的概率密度函数第12页/共62页概率密度函数的性质概率密度函数只是给出了连续性随机变量某一特定值的函数值f(x)—不是真正意义上的取值概率:0≤f(x)

非负性

求和,规范性

X落在区间[a,b)的概率f(x)xo曲线下总面积为1ab阴影面积:P(aXb)概率密度函数的几何意义第13页/共62页概率分布函数定义:设X为一随机变量,称函数

F(x)=P(X<x)(-∞<x<+∞)

为X的概率分布函数

F(x)—

X

取小于x的诸值xi

的概率之和概率密度函数的区间累积——同时适用于离散型随机变量及连续型随机变量离散型随机变量的分布函数:

F(x)=P(X<x)=(i=1,2,3,…)第14页/共62页离散型随机变量F(x):阶梯函数,间断点为x=xi

设x1

、x2

、x3的取值概率分别为p1

、p2

、p3

:当x≤x1时,F(x)=0当x1

<

x≤x2时,F(x)=P(Xx)=P(X=x1)=p1当x2

<

x≤x3时,

F(x)=P(Xx)=P(X=x1)+P(X=x2)=p1+p2F(x)x1x2x3p1p2p3离散型随机变量概率分布函数第15页/共62页连续型随机变量F(x):概率密度函数的积分

——概率密度曲线下的面积分布函数在x处的取值,就是随机变量x的取值落在区间(-,x)上的概率注意:f(y)dy中不能用x0xY=f(x)F(x)yx连续型随机变量概率分布函数第16页/共62页随机变量X落入任意区间[a,b)的概率为:f(x)xoabF(b)

F(a)

连续型随机变量概率分布函数概率分布函数的几何意义第17页/共62页例2-7如果两个白化病基因(常染色体隐性遗传方式)携带者结婚,则他们的每个孩子患白化病的概率为1/4。解:定义X为:X=0,孩子非白化病患者

X=1,孩子为白化病患者则P(X=0)=0.75,P(X=1)=0.25

X的概率分布为离散型概率分布—两点分布第18页/共62页两点分布:如果随机变量X的概率分布列为:(0

p

1,q=1

p)则X服从两点分布

概率模型:进行一次随机试验,成功的概率为p,失败概率为q=1-p,令X为成功次数,则X服从两点分布最简单的分布,又称为伯努利分布(BernoulliDistribution)

离散型概率分布—两点分布第19页/共62页设在一次试验E中只考虑两个互逆的结果:A

或,如:掷骰子:“掷出4点”,“未掷出4点”抽验产品:“是正品”,“是次品”这样的试验E称为伯努利试验例:某个新生儿的性别;一个人是否患某种疾病;一粒种子是否发芽等伯努利试验第20页/共62页例2-8如果两个白化病基因携带者结婚并有三个孩子,求三个孩子患白化病的概率分布。解:设X为患白化病的孩子个数:n次独立试验,每次只有两个结果:成功或失败,且每次试验成功的概率p相同,失败概率q=1–p离散型概率分布—二项分布第21页/共62页二项分布:

如果随机变量X的概率分布如下:

(i=

0,1,2,…,n,0

p

1,q=1

p)则称X服从二项分布,记为b(n,p)概率模型:

n次独立试验,每次试验都只有两种互不相容的结果,事件A发生的概率为p,不发生的概率为q,则n次试验中A成功的次数X服从二项分布离散型概率分布—二项分布第22页/共62页例2-9

某药对某种病的治愈率为0.8,若5人服用此药,求治愈人数的概率分布,至少有2人治愈的概率是多少?解:设5人中的治愈人数为X,则X~b(5,0.8)

则X的概率分布为:

(i=0,1,2,3,4,5)

试验总数固定,成功次数为自变量离散型概率分布—二项分布第23页/共62页n=10时,不同p值对应的二项分布离散型概率分布—二项分布第24页/共62页二项分布的应用:二者必居其一的事物的概率生物学现象:反应有无、动物生死、雌雄出现、某生物在某地区是否存在等医学领域:许多疾病的记数资料(传染病和遗传病除外)应用二项分布的重要条件概率恒定及相互独立若各次试验之间不相互独立,即不放回抽样超几何分布离散型概率分布—二项分布第25页/共62页离散型概率分布—几何分布例2-10某种昆虫的死亡概率为0.6,求这种昆虫幼虫存活天数的概率分布。解:设昆虫幼虫的存活天数为X,p=0.6,与二项分布不同的是,X为第一次成功的试验次数,则X的概率分布为:

P(X=i)=0.4i-1*0.6(i=1,2,3,4,5)X服从几何分布

第26页/共62页几何分布(GeometricDistribution):如果随机变量X的概率分布如下:

P(X=i)=qi-1p(

i=1,2,3…)

则称X服从几何分布,记为g(i,p)概率模型:连续进行独立试验,以X记首次成功时的实验次

数,则X是个随机变量,其概率分布为几何分布与二项式分布类似,只是成功次数固定为1,试验总数为自变量离散型概率分布—几何分布第27页/共62页例2-11电视台将送出演唱会门票给第8个答对演唱者生日的听众,每个打进电话的人答对的概率为0.65且互相独立,求送出门票所需接听的电话数的概率分布。另请问在第10个电话送出门票的概率是多少?解:设X为送出门票所需接听的电话数,与例2-12不同之处在于,成功次数确定(8次),求第i次成功的概率,则X的概率分布:

其中:i=10,p=0.65离散型概率分布—几何分布第28页/共62页负二项分布(帕斯卡Pascal分布):如果随机变量X的概率分布如下:则称X服从负二项分布:f(i;k,p)概率模型:连续进行独立实验,以X记第k次成功时总的实验次数,则X服从负二项分布注意:X取值范围与二项分布的不同若令k=1,则变为几何分布与二项式分布类似,只是成功次数固定但不为1,试验总数为自变量离散型概率分布—负二项分布第29页/共62页例2-12已知100粒种子中有5粒不能发芽,从100粒中任意取出50粒进行发芽试验,求50粒中不发芽种子数的概率分布。解:设50粒中不发芽种子数为X,与前几个分布不同,总体有限(100粒),样本量固定(50粒),求第i次成功的概率,则X的概率分布:(i=0,1,2,3,4,5)离散型概率分布—负二项分布第30页/共62页离散型概率分布—超几何分布超几何分布(HypergeometricDistribution):如果随机变量X的概率分布如下:

(0≤i≤n≤N,i≤M)

则称X服从超几何分布概率模型:一批产品共N件,其中有M件次品(0MN),从中进行不放回抽样检查,则在n件产品中的次品数X的分布是超几何分布有限总体的不放回抽样第31页/共62页超几何分布的应用主要用于小批量的抽样检验标志重捕法:调查野生动物群体数量时,先捕捉一定数量的动物,做上标记,把它们放回到群体中,一段时间后,再捕捉第二批动物,数出有标记的动物数——符合超几何分布的随机变量,利用最大似然估计方法,可估计出群体的大小计算比较麻烦,实际应用时,只要N>=10n,可用二项分布近似

离散型概率分布—超几何分布第32页/共62页离散型概率分布—泊松分布一段时间内的稀有事件例2-13考察在一段时间(如一年)内因伤寒死亡的人数符合什么概率分布。解决方案:一年任何一天内因伤寒死亡的人数是很少的,且不同天内死亡人数之间彼此独立,在这种情况下,一年内伤寒死亡人数的随机变量符合泊松分布第33页/共62页离散型概率分布—泊松分布一块面积(体积)内的稀有事件例2-14考察100mm2的琼脂培养皿上发现细菌群体数的概率分布。

解决方案:在任何一个小面积上发现细菌群体的概率很小,且不同小面积之间细菌群体数相互独立,则整个培养皿上细菌群体数符合泊松分布第34页/共62页离散型概率分布—泊松分布泊松(Poisson)分布在二项分布中,当事件出现概率特别小(p→0),而实验次数又非常多(n→∞),使np→λ(常数)时,二项分布就趋近于泊松分布:λ—每单位长度或面积、体积内事件发生的平均次数

(x=0,1,2,……)第35页/共62页离散型概率分布—泊松分布以伤寒病人死亡数为例,若随机现象具有以下的三个性质则服从泊松分布:平稳性:在(t0,t0+Δt)中死亡人数只与时间间隔Δt的长短有关,而与起点t0无关独立增量性(无后效性):在(t0,t0+Δt)中的死亡人数与t0以前的事件独立,不同时间内过程的进行是相互独立的普通性:在充分小的时间间隔内观察到超过1个死亡数的概率基本为0第36页/共62页离散型概率分布—泊松分布例2-15设一年内伤寒死亡人数符合λ

=4.6的泊松分布,求3个月内死亡人数的概率分布。解:设X=3个月内死亡人数,则X服从以下泊松分布:

λ

=4.6/4=1.15

(i=0,1,2,……)第37页/共62页离散型概率分布—泊松分布泊松分布的应用生物研究中的小概率事件(p<

0.1甚至0.01):如水中细菌数;从远处飘来的花粉、孢子数;荒地上某种植物初生幼苗数等医学领域:很多稀有疾病如肿瘤等资料当二项分布p0.1和np

5时可用泊松分布近似二项分布、泊松分布——最常用、最重要的离散型分布第38页/共62页二项分布与泊松分布的关系二项分布的泊松逼近泊松逼近定理:设X服从二项分布b(n,p),则当n充分大时有下面的近似等式:其中第39页/共62页

泊松分布总体均数不同时的抽样分布第40页/共62页

离散分布小结掷硬币试验掷一次硬币:两点分布连续掷n次硬币,正面朝上的次数—二项分布连续掷硬币,第一次正面朝上的次数—几何分布连续掷硬币,第k次正面朝上的次数—负二项分布超几何分布:不放回抽样泊松分布:稀有事件第41页/共62页Excel中与离散分布有关的函数插入函数→统计二项分布:BINOMDIST负二项分布:NEGBINOMDIST超几何分布:HYPGEOMDIST泊松分布:POISSON第42页/共62页连续型概率分布—均匀分布均匀分布(UniformDistribution)

若a,b为有限数,由下列密度函数定义的分布称为[a,b]上的均匀分布:X落在任一小区间的概率只与区间长度成正比

与该区间位置无关b0axf(x)f(x)密度函数无变化第43页/共62页

均匀分布的分布函数:F(x)b0axF(x)1连续型概率分布—均匀分布第44页/共62页连续型随机变量概率分布-均匀分布均匀分布的应用:农药剂量在田间的分布,人工种植的植物,如农作物、果树等的分布,皆为均匀分布公交线路上两辆公共汽车前后通过某汽车停车站的时间,即乘客的候车时间等例:用X表示四舍五入小数点后第一位小数引起的误差,则随机变量X在[-0.5,0.5]区间上服从均匀分布连续型概率分布—均匀分布第45页/共62页连续型概率分布—指数分布指数分布(ExponentialDistribution):指数分布的密度函数:(λ>0,常数)指数分布的密度函数曲线第46页/共62页连续型随机变量概率分布-均匀分布指数分布的分布函数:(λ>0,常数)指数分布的分布函数曲线连续型概率分布—指数分布第47页/共62页指数分布的应用:常作为各种“寿命”分布的近似:如动物的寿命,电子元件寿命电话的通话时间,随机服务系统中的服务时间等都常假定服从指数分布无记忆性:已知寿命大于s年,则再活t年的概率与s

无关—“永远年轻”的分布(书p41)连续型概率分布—指数分布第48页/共62页正态分布(NormalDistribution,高斯分布):问题:63位女生身高符合什么分布?连续型概率分布—正态分布第49页/共62页连续型概率分布—正态分布正态分布的密度函数:其中σ>0,μ与σ均为常数,记为X~N(μ,σ2)第50页/共62页正态分布密度函数曲线的特点钟形曲线:在x=μ

处达到最大关于直线x=μ对称:形状完全由μ与σ决定σ越大曲线越平,σ越小曲线越尖相同的σ和不同的μ的正态分布比较相同的μ和不同的σ的正态分布比较连续型概率分布—正态分布第51页/共62页正态分布的分布函数:最重要的概率分布,整个统计学理论的核心

连续型概率分布—正态分布第52页/共62页标准正态分布曲线:实际中更常使用标准正态分布:μ=0,σ=1,记为N(0,1)

密度函数和分布函数分别用(x)和Ф(x)表示表C.2a:p416表C.2b:p419连续型概率分布—正态分布第53页/共62页x=0(x)达到最大:取0邻近的值的概率大x值离原点越远(x)值越小:取离0越远的值概率越小关于y轴对称:(x)=(-x)曲线与x轴间所夹面积为1曲线

在+1与-1之间的面积约为68%

在+2与-2之间的面积约为95%

在+2.5与-2.5之间的面积约为99%标准正态分布密度函数(x)的曲线特征:连续型概率分布—正态分布第54页/共62页x的取值几乎全部集中在[-3,3]区间内,超出这个范围的可能性仅占不到0.3%——“3法则”P(-1.00<X<1.00)=0.68P(-1.96<X<1.96)=0.95P(-2.58<X<2.58)=0.99连续型概率分布—正态分布第55页/共62页标准正态分布密度函数及分布函数表格(x)及Φ(x):书后表C.2a及C.2b表中给的是x>0

时(x)及Φ(x)的值查表时常用关系式:牢记!连续型概率分布—正态分布第56页/共62页对于服从一般正态分布的随机变量X,需转换为标准化正态分布——标准化:设X~N(μ,σ2),令则U~N(0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论