二项分布与泊松分布_第1页
二项分布与泊松分布_第2页
二项分布与泊松分布_第3页
二项分布与泊松分布_第4页
二项分布与泊松分布_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

常用离散型变量概率分布

及应用二项分布和泊松分布张合喜公共卫生学院

本文档共60页;当前第1页;编辑于星期五\22点14分第一节二项分布和总体率的估计一、二项分布(一)二项分布的概念

在生命科学研究中,经常会遇到一些事物,其结果可分为两个彼此对立的类型,如一个病人的死亡与存活、动物的雌与雄、微生物培养的阳性与阴性等,这些都可以根据某种性状的出现与否而分为非此即彼的对立事件。这种非此即彼事件构成的总体,就称为二项总体(binomialpopulation)。本文档共60页;当前第2页;编辑于星期五\22点14分第一节二项分布和总体率的估计二项分布(binomialdistribution)就是对这种只具有两种互斥结果的离散型随机变量的规律性进行描述的一种概率分布。由于这一种分布规律是由瑞士学者贝努里(Bernoulli)首先发现的,又称贝努里分布。

本文档共60页;当前第3页;编辑于星期五\22点14分二项分布有两个基本假设:

1.各事件是相互独立的,即任一事件的发生与否,不影响其它事件的发生概率;

2.各个随机事件只能产生相互排斥的两种结果。

本文档共60页;当前第4页;编辑于星期五\22点14分定理:几个相互独立事件同时发生的概率等于各独立事件的概率之积。定理:在几个互不相容的事件中,任一事件发生的概率等于这几个事件的概率之和。抓中两黑一白的概率:P(2)=3×0.125=0.375抓中三个黑球的概率:P(3)=0.5×0.5×0.5=0.125本文档共60页;当前第5页;编辑于星期五\22点14分本文档共60页;当前第6页;编辑于星期五\22点14分本文档共60页;当前第7页;编辑于星期五\22点14分

各种可能发生的结果对应的概率相当于展开后的各项数值,即:

前例:π=0.8,1-π=0.2,n=3本文档共60页;当前第8页;编辑于星期五\22点14分二项分布的概率公式

如果一个事件A,在n次独立试验中,每次试验都具有概率π

,那么,这一事件A将在n次试验中出现x次的概率为:

式中:称二项系数。本文档共60页;当前第9页;编辑于星期五\22点14分(二)二项分布的应用条件

1.各观察单位只能具有互相对立的一种结果,属于二项分类资料;

2.已知发生某一结果的概率为π,其对立结果的概率则为1-π

。实际工作中要求π是从大量观察中获得的比较稳定的数值;3.n个观察单位的观察结果互相独立,即每个观察单位的观察结果不会影响到其它观察单位的结果。

本文档共60页;当前第10页;编辑于星期五\22点14分(三)二项分布的性质

1.二项分布的均数和标准差二项分布的平均数:μ=nπ

上式的意义:做n次独立试验,某事件平均出现的次数为nπ次,这一结果较为符合人们的直观想法。如果,生男孩这一事件的概率是1/2,则100个新生儿中可期望有nπ=100×1/2=50个是男孩。当用率表示时,µ=π

本文档共60页;当前第11页;编辑于星期五\22点14分(三)二项分布的性质二项分布的标准差:标准差表示x取值的离散度或变异的大小。如n=5,π=5/6,1-π=1-5/6,则:本文档共60页;当前第12页;编辑于星期五\22点14分(三)二项分布的性质二项分布的标准误

若以比值或百分数表示,则标准误为

:

σp被称为率的标准误(standarderrorofrate),用来反映随机抽样获得的样本率p与总体π之间的抽样误差大小。

本文档共60页;当前第13页;编辑于星期五\22点14分(三)二项分布的性质二项分布的标准误

若以比值或百分数表示,则标准误为

:实际工作中常用p作为π

的估计值,得:本文档共60页;当前第14页;编辑于星期五\22点14分(三)二项分布的性质

2.二项分布的累计概率常用的有左侧累计和右侧累计2种方法。从阳性率为π

的总体中随机抽取n个个体,则(1)最多有k例阳性的概率P(x≤k)=P(0)+P(1)+……+P(k)(2)最少有k例阳性的概率P(x≥k)=P(k)+P(k+1)+……+P(n)=1-P(x≤k-1)本文档共60页;当前第15页;编辑于星期五\22点14分(三)二项分布的性质

3.二项分布的图形二项分布的图形,取决于两个方面,其一为事件发生的概率π

,其二为样本含量n。当π

=1-π

=1/2时,二项分布的图形是对称的;当π

<1/2时,二项分布的图形呈左偏态;当π

>1/2时,二项分布的图形呈右偏态;当π与1-π不变时,即使π

≠1-π

,但随着n的增大,二项分布的的偏态程度会逐渐降低而趋于对称。

本文档共60页;当前第16页;编辑于星期五\22点14分二项分布总体不同样本例数时的抽样分布

本文档共60页;当前第17页;编辑于星期五\22点14分二、二项分布的应用

(一)、总体率的估计

有点值估计和区间估计。1查表法:当n较小,如n≤50时,特别是p很接近于0或1时,可由附表6百分率的置信区间表直接查出。P709orp817例:某地对13名输卵管结扎的育龄妇女经壶腹部吻合术后,观察其受孕情况,发现有6人受孕,据此估计该吻合术妇女的受孕的95%可信区间此例:n=13,x=6

查表得95%CI为:19%~75%。本文档共60页;当前第18页;编辑于星期五\22点14分二、二项分布的应用

(一)、总体率的估计

1查表法:附表6百分率的置信区间表直接列出了X≤n/2的部分。其余部分可以查n-x的阴性部分的QL~QU再相减得PLand

pUPL=1-QL1-QU例:某地调查50名儿童蛔虫感染情况,发现有10人大便中有蛔虫卵,问儿童蛔虫感染率的95%置信区间是多少?此例:n=50,x=10

查表得95%CI为:10%~34%。本文档共60页;当前第19页;编辑于星期五\22点14分二项分布的应用

2正态近似法:应用条件:np及n(1−p)均≥5p±uαsp

例:在某地随机抽取329人,做HBsAg检验,得阳性率为8.81%,求阳性率95%置信区间。已知:p=8.81%,n=329,故:

95%CI:8.81±1.96×1.56;即5.75%~11.87%。本文档共60页;当前第20页;编辑于星期五\22点14分二项分布下表是用P±Uasp时要求的P值与N的大小参考数字。PnnP0.530150.450200.380240.2200400.1600600.05140070本文档共60页;当前第21页;编辑于星期五\22点14分二项分布的应用(二)差异的显著性检验1直接法例某医院用甲药治疗某病,其治愈率为70%,今用乙药治疗该病10人,治愈9人,问甲乙两药疗效有无差别?已知:π=0.7,1-π=0.3,假设两药疗效无差别,则治愈与非治愈的概率应符合二项分布,即:

本文档共60页;当前第22页;编辑于星期五\22点14分如果甲乙两药疗效无差别,按甲药的治愈率(70%)用乙药治疗10人应治愈7人,实际治愈9人,相差2人。双侧检验,计算相差±2人及2人以上的总概率,即x≥9和x≤5的概率之和:ΣP=0.000006+0.000138+0.001447+0.009002+0.036757+0.102919+0.121061+0.028248=0.299577或:ΣP=1-(0.200121+0.266828+0.233474)=0.299577本文档共60页;当前第23页;编辑于星期五\22点14分

P=0.299577>0.05,差异无统计学意义,尚不能认为乙药疗效优于甲药。

本例如采用单侧检验,即要求判断乙药疗效优于甲药?此时只需计算相差2人及以上的总概率:ΣP=P(9)+P(10)=0.121061+0.028248=0.149309P>0.05,差异无统计学意义,尚不能认为乙药疗效优于甲药。本文档共60页;当前第24页;编辑于星期五\22点14分3.研究疾病的家族聚集性

例某单位发生乙肝暴发流行,经调查4口之家共288户,其中无病例的167户,发生1例的51户,2例的50户,3例的17户,全家发病的3户,问乙肝的发病是否具有家族集聚性?

π=214/1152=0.1858,1-π=0.8142

计算发病数x=0,1,2,3,4时的理论概率和理论户数。列表,比较实际户数与理论户数差别有无显著性意义。

本文档共60页;当前第25页;编辑于星期五\22点14分二项分布展开计算表发病人数展开式概率理论户数实际户数xCxnπ

x(1-π)n-xPT=P×288A0C04

(0.1858)0(0.8142)40.4395126.571671C14

(0.1858)1(0.8142)30.4011115.52

512C24

(0.1858)2(0.8142)20.1373

39.54

503C34

(0.1858)3(0.8142)10.0209

6.02

174C44

(0.1858)4(0.8142)00.0012

0.35

3本文档共60页;当前第26页;编辑于星期五\22点14分二项分布拟合优度的χ2检验发病人数实际户数理论户数(A-T)2(A-T)2xATT0167126.571634.5812.911

51115.524162.8336.042

50

39.54

109.41

2.773

17

6.02

120.5620.034

3

0.35

7.0220.06χ2=91.81,按ν=组数-2=5-2=3查χ2界值表得:χ20.01(3)=11.345,故P<0.01,说明该疾病的家庭分布不符合二项分布,可以认为该病有家族集聚性。本文档共60页;当前第27页;编辑于星期五\22点14分(五)群检验用于混合样本分析:常见于阳性率很低或检出率低的分析样本根据二项分布的原理:1份混合样本中含有k份阳性的概率为P(k)=本文档共60页;当前第28页;编辑于星期五\22点14分当k=0时P(0)是说混合样品中没有1阳性样品的原始概率,反映的是混合样品阴性的概率本文档共60页;当前第29页;编辑于星期五\22点14分(五)群检验当收集的样本数量很大时,全部检验费时费力可以用群检验的方法进行解决,若每个标本的阳性概率为π,则其阴性概率为Q=1-πQm便是某个群m个标本均为阴性的概率,一个群为阴性的群的概率,而1-Qm就为一个群阳性的概率。假设受检的n个群中有X个阳性群,用x/n作为阳性群概率的估计值本文档共60页;当前第30页;编辑于星期五\22点14分(五)群检验

1-Qm=X/n从而Q=√P=1-Q本文档共60页;当前第31页;编辑于星期五\22点14分第四节泊松分布(Poissondistribution)

一、Poisson分布

(一)泊松分布的概念泊松分布(旧译普哇松分布)是离散型随机变量的另一重要分布,最早由于1837年提出。

定义:若离散型随机变量x的取值为非负整数,且相应的概率函数为:

则称随机变量X服从泊松分布。本文档共60页;当前第32页;编辑于星期五\22点14分泊松分布(Poissondistribution)

泊松分布的数学表达式:在n个取样单位内,出现X=0,1,2,…,n个阳性事件的理论概率分别为下列公式的展开各项:

式中:P(X)为出现阳性事件例数为X的理论概率。实际应用时,可以用样本均数作为总体均数μ的估计值。本文档共60页;当前第33页;编辑于星期五\22点14分(二)Poisson分布的应用条件

在二项分布中,如果π很小,而试验次数n很大,nπ趋向于一个常数μ时,则可以用参数为μ的泊松分布近似地表示。泊松分布还有其独特的意义,它对于描述随机现象在大面积(时间、空间)上的分布情况很有用。例如在单位面积的水中的细菌数的分布,计数室中细菌数的分布,放射性物质在单位时间内放射次数的分布等都属于泊松分布。本文档共60页;当前第34页;编辑于星期五\22点14分泊松分布(Poissondistribution)

服从泊松分布的条件与二项分布一样,其中之一是各事件相互独立。例如,某一昆虫是否落入,某人是否患某病与他人是否患病无关等。如果不符合这一条件就不呈泊松分布。因此,也可以用泊松分布来研究某些疾病是否有家族聚集性、传染性等。本文档共60页;当前第35页;编辑于星期五\22点14分(三)Poisson分布的性质

1.Poisson分布是一种单参数的离散型分布,其参数为μ,它表示单位时间或空间内某事件平均发生的次数,又称强度参数。

本文档共60页;当前第36页;编辑于星期五\22点14分(三)Poisson分布的性质

2.Poisson分布的均数和方差相等对于符合泊松分布的资料,其n很大,而π很小,因此,泊松分布的平均数为:μ=nπ

当π→0,(1-π)→1时,泊松分布的标准差为:也就是说,泊松分布的平均数与它的方差相等:μ=σ2本文档共60页;当前第37页;编辑于星期五\22点14分(三)分布的性质

3.Poisson分布的累计概率常用的有左侧累计和右侧累计2种方法。累计概率为单位时间或空间内某事件发生的次数。(1)最多有k例阳性的概率P(x≤k)=P(0)+P(1)+……+P(k)(2)最少有k例阳性的概率P(x≥k)=P(k)+P(k+1)+……+P(n)=1-P(x≤k-1)本文档共60页;当前第38页;编辑于星期五\22点14分(三)分布的性质

4.Poisson分布的图形泊松分布的图形是由平均数μ来确定的,当μ较小时,泊松分布不对称的程度较为显著,通常呈左偏分布;随着μ值逐渐增大,泊松分布逐渐趋向对称,而且,和二项分布一样,也逐渐趋向正态分布。一般说来,当平均数μ>50时(有人认为当μ>20),泊松分布就近似于正态分布。本文档共60页;当前第39页;编辑于星期五\22点14分Poisson分布总体均数不同时的抽样分布

本文档共60页;当前第40页;编辑于星期五\22点14分(三)Poisson分布的性质当n很大,p很小,np=μ为一常数时,二项分布近似于泊松分布。p愈小,近似程度愈好。

例:据以往经验,新生儿染色体异常率为1%,试分别用二项分布和泊松分布原理,求100名新生儿中发生x例(x=1,2,3......)染色体异常的概率。

本文档共60页;当前第41页;编辑于星期五\22点14分二项分布与泊松分布的比较

由上表可见,二者计算结果非常接近,当n愈大其接近程度愈好,但泊松分布的P(X)计算较为简便。

XP(X)

二项分布

泊松分布

0123456780.33600.36970.18490.06100.01490.00290.00050.00010.00000.36790.36790.18390.06130.01530.00310.00050.00010.0000合计1.0000

1.0000

本文档共60页;当前第42页;编辑于星期五\22点14分

5.Poisson分布的可加性如果相互独立的k个随机变量都服从泊松分布,则它们之和仍服从泊松分布,且其均数为k个随机变量的均数之和。此称为泊松分布的可加性。本文档共60页;当前第43页;编辑于星期五\22点14分

例:已知某放射性物质每10分钟放射脉冲数呈泊松分布,5次测量的结果分别为35、34、36、38、34次,那么,50分钟总计的脉冲数177次,亦呈泊松分布。因此,泊松分布资料可利用可加性原理使μ>20,这样就可以用正态近似法处理。

本文档共60页;当前第44页;编辑于星期五\22点14分Poisson分布的应用

置信区间的估计对于小样本资料的泊松分布置信区间估计,可以查附表7。p448

例由一份混合好的自来水中取1ml水样,培养得细菌5个,请估计原水中每ml细菌数95%的置信区间。查附表7:样本计数X=5,95%CI:1.6~11.7。本文档共60页;当前第45页;编辑于星期五\22点14分Poisson分布的应用

置信区间的估计对于大样本资料(X>50)的置信区间估计,可以近似地运用正态分布法进行,即:95%置信区间为:99%置信区间为:例同一份样品分别用10个平皿进行培养,共数得菌落数1460个,试估计该样品菌落数95%置信区间。本例:X=1460/10=146(个)95%CI:,即122.32~169.68。

本文档共60页;当前第46页;编辑于星期五\22点14分Poisson分布的应用泊松分布的配合

例:将培养皿中的细菌稀释液置于血球计上,数出小方格中的细菌数,共计128个方格,计数结果见下表。问此分布是否符合泊松分布?

表×

细菌在计数小方格中的分布

每小格细菌数(X)

观察的方格数(f)

01234264038177本文档共60页;当前第47页;编辑于星期五\22点14分Poisson分布的应用计算过程:求出样本均数以代替μ,按照泊松分布的概率公式求出X=0,1,2,3,4时的概率P(X)。本例μ=1.5234,代入公式得:

P(0)=e-μμx/x!=e-1.5234(1.5234)0/0!=0.2180P(1)=e-1.5234(1.5234)1/1!=0.3321P(2)=e-1.5234(1.5234)2/2!=0.2529P(3)=e-1.5234(1.5234)3/3!=0.1284P(3)=e-1.5234(1.5234)4/4!=0.0489本文档共60页;当前第48页;编辑于星期五\22点14分也可按下面的递推公式计算:本文档共60页;当前第49页;编辑于星期五\22点14分

验算:P(0)+P(1)+P(2)+……+P(n)=1

本例:0.2180+0.3321+0.2529+0.1284+0.0489=0.9803

以各组的概率P(X)乘以n即为X=0,1,2,3,4按泊松分布的理论频数。

将理论频数与实际频数比较(χ2-test),判断此分布是否符合泊松分布。

本文档共60页;当前第50页;编辑于星期五\22点14分Poisson分布拟合优度检验计算表

χ2=Σ(A-T)2/T=1.3606

因拟合泊松分布时用了n和μ,故ν=组数-2=5-2=3。查χ2界值表得χ20.05(3)=7.81,故P>0.05

结论:实际分布与理论分布差别无统计学意义,可认为符合泊松分布。

xATA-T(A-T)2(A-T)2T0123426403817727.9042.5032.3716.446.26-1.90-2.505.630.560.743.61046.265131.64580.31380.54600.12940.14740.97750.01910.1872本文档共60页;当前第51页;编辑于星期五\22点14分Poisson分布资料的差异显著性检验例:某种生物制剂的异常反应发生率一般在1/万左右,今试用该生物制剂新制品,在受试者100人中发现1人有异常反应,问该生物制剂的异常反应率是否高于一般?假设新制品反应率与一般反应率相同,则100人中反应的平均数为:H0:π=π0μ=100×1/10000=0.01本例π=0.0001,很小,n=100,很大,可用泊松分布作近似计算,100人中1例异常反应也不出现的概率为:

本文档共60页;当前第52页;编辑于星期五\22点14分Poisson分布资料的差异显著性检验100人中1例异常反应也不出现的概率为:

出现1例及1例以上的概率:P(x≥1)=1-P(0)=1-0.990050=0.009950

P<0.01,差异有高度显著性意义,说明新制品的异常反应率高于一般。

本文档共60页;当前第53页;编辑于星期五\22点14分Poisson分布资料的差异显著性检验例:用甲乙两种培养基对水样进行细菌培养,在相同的条件下,用甲培养基的菌落为100,用乙培养基的菌落为150,问两培养基菌落数的差别有无显著性?本例平均数μ>50,可用正态近似法进行泊松分布的检验。

H0:两种培养基的菌落数相同,

H1:两种培养基的菌落数不同。

α=0.05。

本文档共60页;当前第54页;编辑于星期五\22点14分Poisson分布资料的差异显著性检验在对泊松分布资料进行显著性检验时,如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论