第10章 二项分布和Poisson分布及其应用_第1页
第10章 二项分布和Poisson分布及其应用_第2页
第10章 二项分布和Poisson分布及其应用_第3页
第10章 二项分布和Poisson分布及其应用_第4页
第10章 二项分布和Poisson分布及其应用_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第10章

二项分布和Poisson分布

及其应用陈卫中副教授公共卫生系流行病与卫生统计学教研室06二月2023统计分析统计描述:用统计图、表、指标等描述变量在群体中的分布特征统计推断:在抽样研究中,在概率基础上,用观察得到的样本信息推断未知总体特征定性变量定性变量:变量值为定性描述按该变量的特征表现为若干穷尽,且互斥的类别—分类变量从群体角度出发,考察该变量各类别的观察对象数—计数变量定性变量的描述指标从群体的角度,描述定性变量的分布特征的指标绝对数:群体中发生某事件(某类别)的频数相对数:率或构成比抽样研究中,亦为样本统计量离散型变量及其分布频数:数值只能用自然数或整数单位表达——离散型变量(discretevariable)常见描述离散型变量取值及其概率的分布形式0-1分布(0-1distribution)二项分布(Binomialdistribution)泊松分布(Poissondistribution)超几何分布(Hypergeometricdistribution)例10.1对某化学制品的毒性进行鉴定设某化学制品对小鼠的致死率为60%对符合实验要求的3只小鼠注射规定剂量的该化学制品观察指标:是否死亡,即死亡或未死亡计算在本次毒性试验中2只小鼠死亡的概率P(2)分析该化学制品的毒性试验—利用3只小鼠重复试验该化学制品的毒性每次观察(每只小鼠)只有两种可能结果—死亡或未死亡每次观察(每只小鼠)死亡的概率P(死亡)=,且保持不变每次观察(每只小鼠)结果间彼此保持独立Bernoulli试验(伯努利试验)瑞士数学家JakobBernoulli所发展每一次试验只有两个结果,一个记为“发生”,一个记为“未发生”,P(发生)=,P(未发生)=1-发生的概率在每次试验中保持不变各次试验之间相互独立0-1分布(Bernoullidistribution)一次Bernoulli试验中,事件的发生次数Y取值为0或1则Y的概率分布形式为:称Y服从参数为的两点分布,记作X~B(1,)Y10P(Y)1-n次(重)Bernoulli试验事件的发生次数X的分布服从参数为n、的二项分布(binomialdistribution),记作X~B(n,)本例:X~B(3,0.6)Y 1101010…1n发生次数Y X发生次数的概率分布3只小鼠注射规定剂量的该化学制品,该化学制品对小鼠的致死率为60%“死亡数”X事先不能确定,0,1,2,3都有可能发生在n重伯努利试验中,发生次数为变量记为X,X=0,1,2,…,k,…,n“死亡数”的发生概率可能的死亡数排列方式甲

丙每种排列概率每种组合概率0生

生0.4×0.4×0.40.431死

生0.6×0.4×0.40.6×0.42生

生0.4×0.6×0.40.6×0.42生

死0.4×0.4×0.60.6×0.422死

生0.6×0.6×0.40.62×0.4死

死0.6×0.4×0.60.62×0.4生

死0.4×0.6×0.60.62×0.43死

死0.6×0.6×0.60.633只小鼠存亡分析二项分布(binomialdistribution)n重Bernoulli试验中,X为事件A在n次试验中发生的次数,P(A)=

,若:则称X服从参数为n,的二项分布,记作X~B(n,)两点分布是二项分布n=1时的特殊形式在n重Bernoulli试验中,发生某种结果A(如死亡)次数的一种概率分布分布律本例X~B(3,0.6)X0123P(X)0.0640.2880.4320.216二项分布的概率计算在n重试验中发生的次数X服从参数为n,的二项分布X~B(3,0.6)X~B(3,0.5)X~B(10,0.6)X~B(30,0.6)二项分布的图形分布形式当=0.5时,二项分布图形是对称的当0.5时,图形是偏态的随着n的增大,图形趋于对称当n+时,只要不太靠近0或1,近似于正态分布当n和n(1-)都大于5分布特征集中趋势离散趋势二项分布中发生次数的均数反映随机变量的平均取值大小,又称数学期望,即均数是以相应概率作为“权重”的加权平均二项分布中发生次数的方差度量随机变量偏离(背离)数学期望(即均数)程度的指标实际值与期望值之差平方的期望值偏离平均值的平均偏离程度二项分布和两点分布的分布特征分布形式表示方法均数E(X)方差V(X)两点分布X~B(1,)二项分布X~B(n,)二项分布和两点分布及其分布特征描述指标正态近似

(德莫佛—拉普拉斯中心极限定理)n和n(1-)均大于5AbrahamdeMoivre(1667-1754)14005815.560.64A药治疗90例缺血性贫血患者效果差值(D)是否有效(E)110181151311110……241定量变量定性变量二项分布及其近似正态分布在n次实际观测中,发生概率为的某事件发生次数X及其发生频率p的分布形式考察二分类(发生/未发生)定性变量的分布特征抽样研究一般发生概率未知有关样本统计量(发生次数X及其发生频率p)的分布形式说明样本统计量与其相对应的总体参数间的关系现实中的二项分布二项分布的基本特征:只有两种结局、恒定、独立实验:考察施加干预措施后,出现某种结果的发生数及其发生频率观察:结果已经存在,从阳性率(如死亡率、患病率等)为的总体中,随机抽取大小为n的样本有返还抽样无返还抽样无限总体有限总体n/N<0.1二项分布及其近似正态

分布的应用统计推断抽样研究中利用样本信息推断未知的总体特征抽样误差客观存在参数估计:p假设检验:利用样本信息完成总体率的比较单样本率与已知率的比较独立样本率的比较配对样本率的比较总体率的估计点估计:p区间估计在给定的置信水平(1-)条件下,利用特定的分布形式,估计总体参数所在的区间,该区间为可信区间或置信区间区间估计精确估计利用分布形式:二项分布一般适用条件:n50估计方法:查附表7:百分率的置信区间(P447)据GB/T4088-2008数据的统计处理和解释—二项分布参数的估计与检验当n<10时,置信区间一般太宽,无应用价值例题例10.4某医院肿瘤科收治某种罕见肿瘤患者40例,1年内死亡5例。试估计该病年病死率。点估计:该病年病死率为12.5%区间估计:n=40<50,根据n=40,x=5,1-=0.95查附表7:百分率的置信区间(P447),得:95%置信区间为:(4%~27%)区间估计正态近似法利用分布形式:近似正态分布条件:n+时,只要不太靠近0或1当np和n(1-p)都大于5时估计方法:1--z/2z/2例题例10.3某医院用注射用阿奇霉素对110名儿童肺炎患者进行治疗,其中痊愈50例,试估计注射用阿奇霉素治疗儿童肺炎痊愈率的95%置信区间。痊愈人数:np=50,未痊愈人数n(1-p)=60,均大于5,故p~N(,n(1-))例10.4判断A市的地中海贫血基因携带率是否低于该省平均水平10%在A市进行抽样调查共调查30人1人阳性,携带该基因分析研究目的:判断A市的地中海贫血基因携带率是否低于该省平均水平10%研究假设:<0=10%设计类型:调查研究,单样本设计变量类型:是否携带有地中海贫血基因(是/否)—二分类定性变量已知条件:观察了30人,1人阳性阳性率为p=1/30=3.33%假设检验过程1.建立检验假设,确立检验水准H0:=0.1,即A市的地中海贫血基因携带率与该省平均水平相等H1:<0.1,即A市的地中海贫血基因携带率低于该省平均水平单侧=0.05H0:=0.1X~B(30,0.1)概率分布P值为当H0成立的条件下,所得到的样本观察结果及比其更极端结果的发生概率,更极端:比所得到的样本观察结果发生概率更小X012345678P(X)0.04240.14130.22770.23610.17710.10230.04740.01800.0058X91011121314151617P(X)0.00160.00040.0001<0.0001<0.0001<0.0001<0.0001<0.0001<0.0001X181920212223242526P(X)<0.0001<0.0001<0.0001<0.0001<0.0001<0.0001<0.0001<0.0001<0.0001X27282930P(X)<0.0001<0.0001<0.0001<0.00012.确定P值,作出统计推断在H0成立条件下,P=0.1837>0.05,故按=0.05水准,不拒绝

H0,差异无统计学意义,尚不能认为A市的地中海贫血基因携带率低于该省平均水平。例10.5大量文献显示,某罕见非传染性疾病的病死率为60%。某医院收治的该病患者15人,死亡10例。问该医院该非传染性疾病的病死率是否与文献结果不同?X~B(15,0.6)概率分布X01234567P(X)0.00000.00000.00030.00160.00740.02450.06120.1181X89101112131415P(X)0.17710.20660.18590.12680.06340.02190.00470.0005例10.6吸毒人群的艾滋病知识知晓率是否高于一般人群的艾滋病知识知晓率为65%对该市150名吸毒人员进行调查调查指标:艾滋病知识是否正确调查结果:130人回答正确分析研究目的:吸毒人群的艾滋病知识知晓率是否高于一般人群研究假设:>0=65%设计类型:调查研究变量类型:艾滋病知识是否正确(是/否)—二分类定性变量已知条件:抽样观察了150名吸毒人员,130人正确,正确率p=130/150=86.7%正态近似n和n(1-)均大于5H0:=0.65=0.051.65P(z1.65)=0.05完整步骤1.建立检验假设,确定检验水准H0:=0.65,即该市吸毒人群的艾滋病知识知晓率等于该市一般人群H1:>0.65,即该市吸毒人群的艾滋病知识知晓率高于该市一般人群单侧=0.052.计算检验统计量本例知晓数为150,不知晓数为20,均大于5,符合正态近似条件,因此在正态分布下确定是否发生了小概率事件。3.确定P值,作出统计推断查附表3:t界值表(=),得P<0.0005,按=0.05水准,拒绝H0,接受H1,差异有统计学意义,可以认为该市吸毒人群的艾滋病知识知晓率高于该市一般人群。例10.7为了解某校本科生体测合格率的性别差异随机抽查了本科男生110人和女生130人观察体测是否合格男生有100人合格,女生有70人合格性别合格不合格合计合格率(%)男1001011090.91女706013053.85合计1707024070.83某校240名本科生体测合格率分析分析目的:性别对本科生体测合格率的影响研究假设:男女合格率有差异,即男

女设计类型:调查研究——两独立样本变量类型:体测是否合格,二分类定性变量已知条件:样本观测数据,并根据性别不同组织形成列联表两独立样本率的比较1.建立检验假设,确定检验水准H0:1=2=c=70.83%,即不同性别体测合格率相等H1:22,即不同性别体侧合格率不等=0.05性别合格不合格合计合格率(%)男1001011090.91女706013053.85合计1707024070.83某校240名本科生体测合格率两独立样本率的比较2.计算检验统计量n1p1和n1(1-p1)及n2p2和n2(1-p2)均大于5,则样本率服从正态分布。两独立样本率的比较3.确定P值,作出统计推断查P439附表3:t界值表(=),得P<0.0005,按=0.05水准,拒绝H0,接受H1,差异有统计学意义,可以认为该校不同性别体侧合格率不等,男性较高。两独立样本率的比较z检验2检验Fisher确切概率法logistic回归Poisson分布Poisson定理1838年由法国数学家泊松引入若X~B(n,

),当n

较大,较小(稀有事件),设n=>0且大小适中,则对固定k的发生概率有:Poisson分布(Poissondistribution)由二项分布的近似计算产生的一种随机变量的概率分布若其中>0,为一常数,则称X服从参数为的Poisson分布,记为:X~P()二项分布中稀有事件发生次数的分布=3=5=10=20Poisson分布的图形分布形式当较小时,Poisson分布呈偏态分布随着增大,迅速接近对称分布当20时,可以认为近似正态分布分布特征集中趋势离散趋势Poisson分布的均数反映随机变量的平均取值大小,又称数学期望是以相应概率作为权的加权平均Poisson分布的方差度量随机变量偏离(背离)数学期望(即均数)程度的指标实际值与期望值之差平方的期望值偏离平均值的平均偏离程度正态近似20时,可以认为近似正态分布Poisson分布的性质当n很大,很小,且n大小适中,Poisson分布是二项分布的极限分布总体均数E(X)与总体方差V(X)相等,都是20时,Poisson分布可作为正态分布处理Poisson分布具备可加性服从Poisson分布的m个相互独立的随机变量X1,X2,…,Xm,它们之和也服从Poisson分布,且其均数为这m个随机变量的均数之和Poisson分布的应用条件与二项分布相同只有某事件发生或不发生两种可能结果该事件发生的概率恒定n次重复观察相互独立特殊要求重复观察次数n足够大事件的发生概率足够小Poisson分布的应用稀有事件发生次数的分布:

n

较大,较小研究大人群中不具传染性、无遗传性、无永久免疫,且发病率很低的疾病发生数的分布研究特定时间、空间或容积内某罕见事件发生数的分布某时段内医院急诊病人数或发生的交通事故次数单位体积内粉尘的计数血细胞或微生物在显微镜下的计数单位面积内细菌计数Poisson分布的应用Poisson分布的应用Poisson分布的应用把时间、空间分成n(n)个极小的时间片或部分由于被分的足够小,每个时间片/部分内最多只可能发生1次由于被分的足够小,出现某事件是稀有事件,即很小在每个时间片/部分内事件随机、等概率()发生Poisson分布的应用

—统计推断的区间估计查表法样本计数X50时,查附表8:Poisson分布的置信区间表(P450)例10.8对一实施了技术改造的洁净厂房进行环境监测,测得空气中粉尘的浓度为每1L空气中含10颗粉尘。假定粉尘在空气中分布均匀,估计该洁净厂房平均每升空气中所含粉尘颗粒数的95%置信区间。根据x=1050,查附表8:Poisson分布的置信区间表(P450)该洁净厂房平均每升空气中所含粉尘颗粒数的95%置信区间为(4.7,18.4)的区间估计正态近似法当X20时,可采用正态近似法估计总体均数的(1-)置信区间1--z/2z/2例10.9某市2002年抽样调查了10万男性,其中因恶性肿瘤死亡132人,试据此估计2002年该市男性人群恶性肿瘤死亡率的95%置信区间。x=132>20,根据Poisson分布的正态近似法每10万人死亡数的95%置信区间为:男性人群恶性肿瘤死亡率的95%置信区间为:Poisson分布在假设检验中的应用直接法利用Poisson分布计算相应概率,确定是否发生了小概率事件,进而作出结论正态近似法当20(两独立样本120且220)时,Poisson分布近似到正态分布,利用正态分布确定是否发生了小概率事件,进而作出结论例10.10某病在我国男性中的患病率约为4/10万,在某地区调查了1000名男性,其中阳性者1人。问该地区男性的该病患病率是否高于全国平均水平。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论