抽样分布与参数估计.ppt_第1页
抽样分布与参数估计.ppt_第2页
抽样分布与参数估计.ppt_第3页
抽样分布与参数估计.ppt_第4页
抽样分布与参数估计.ppt_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章 抽样分布与参数估计 山东大学公共卫生学院 王淑康,第三章 抽样分布与参数估计,抽样误差 t分布和总体均数的估计 二项分布和总体率的估计 Poisson分布和总体平均数的估计,第三章 抽样分布与参数估计,资料分析:统计描述 统计推断:参数估计 假设检验 进行统计推断即利用样本信息推断总体特 征(抽样研究),第一节 抽样误差,一、均数的抽样误差和标准误 (一)抽样研究的意义:实际工作中,由于存在无限总体,即使是有限总体,由于受到人力、物力、财力及其他因素的限制,只能通过对样本的研究和分析,推断该样本所在总体的特征。,(二)抽样误差的概念:由于生物界变异普遍存在,进行随机抽样时,不可避免地造

2、成样本统计量与总体参数之间或各样本统计量之间的差别,称为抽样误差。 抽样误差存在的根本原因:个体差异 由于个体差异的普遍存在,所以抽样误差是不可避免的(但其存在是有规律的),为更加准确地通过样本统计量估计其总体参数,就应该寻找抽样误差的规律,估计抽样误差的大小。,(三)模拟试验: 中心极限定理:从正态总体N( 2)中以固定的样本含量n随机抽取k个样本,该k个样本均数也是以原总体均数位中心的正态分布;即使原总体是偏态分布总体,当n足够大时(n50),抽取的k个样本均数也是以原总体均数位中心的正态分布。 (四)我们所要估计的抽样误差,正是这些服从正态分布的均数间的差别,均数之间的差别(变异程度)也

3、可以用均数的标准差表示,但为了区别前面的s,表示均数之间差别的指标称为均数的标准误。,(五)均数的抽样误差:,二、率的抽样误差: 同理,从总体率为的总体中以固定的样本含量n进行k次抽样,所得的这些样本率p往往各不相等,样本率p和总体率也不相等,这种由抽样造成的样本率和总体率的差异称为率的抽样误差。,第二节 t分布和总体均数的估计 一、t分布,(一)t分布的概念 1、应用方便,常将正态变量进行变换,即, 可将一般的正态分布变换为标准正态分布。,2、又根据中心极限定理,即本章第1节又讲了在正态分布总体 中以固定n随机抽样时,样本均数 的分布仍服从正态分布。同理,对正态变量 进行u变换( )后,也可

4、将正态分布 变换为标准正态分布 。,3、由于实际工作中, 往往是未知的,常用s作为 的估计值,此时不再是统计量u,而是统计量t,统计量t的分布为t分布。,(二)t分布的图形和特征为: 1、以0为中心,左右对称的单峰分布。 2、t分布曲线是一簇曲线,其形态变化与自由度的大小有关。自由度越小,t值越分散,曲线越低平;自由度逐渐增大时,则t分布逐渐逼近正态分布(标准正态分布)。当 时,t分布即为u分布。,(三)t分布曲线下面积的分布规律 同样,我们最关心的是t分布曲线下面积的分布规律。但由于t分布曲线是一组曲线故t分布曲线下面积为95%和99%界值不是一个常量,随着自由度的变化,95%或99%面积的

5、界值发生变化,当 时,95%和99%面积对应的界值趋近于u值。,1、t界值表:横标目为自由度,纵标目为概率,一侧尾部面积称为单尾概率,两侧尾部面积之和称双尾概率。其中与单尾概率相对应的t界值用 表示,与双尾概率相对应的t界值用 表示。,2、举例 例如,单侧 ,表示 时, 的概率或 的概率为0.05, 记作: 或 。,其通式: 单侧: 或 双侧: 图中非阴影部分面积的概率为:,3、从t值表及t分布曲线可得 (1)在相同自由度时,概率P越小,t绝对值越大。 (2)在相同t值时,双尾概率是单尾概率的两倍。 (3)相同概率时的t界值,自由度越小,t的绝对值 越大。,二、总体均数的估计 统计推断:总体均

6、数估计和假设检验 总体均数的估计:点值估计和区间估计 1、 未知,且n较小,总体均数的 可信区间:,2、 未知, n足够大(n100) 总体均数的可信区间为 ,,3、 已知,按正态分布原理 :,总体均数的可信区间为 ,,三、可信区间与可信限的区别 标准差和标准误的区别 均数的可信区间和医学参考值范围的区别,第三节 二项分布和总体率的估计 一、二项分布 例 设小白鼠接受一定剂量的某种毒物时的死亡率为80%。若每组各用甲乙丙3只小白鼠逐个做实验,观察每组小白鼠的存亡情况。如果考虑生、死的顺序时,则有8种排列方式;如果不考虑生、死的顺序只考虑生死的数目时,则有4种组合方式,如表3-4第(3)、(4)

7、栏所示。,3只小白鼠存亡的排列和组合方式及其概率的计算,该例题中各种组合的概率恰好等于该二项式展开式的各项,所以将n次这种只具有两种互相对立结果中一种的随机实验成功次数的概率分布称为二项分布。,该例题中各种组合的概率恰好等于该二项式展开式的各项,所以将n次这种只具有两种互相对立结果中一种的随机实验成功次数的概率分布称为二项分布。,一、二项分布 (一)二项分布的概念 只具有两种互相排斥的可能结果的随机试验,当成功的概率是恒定的,且各次试验互不影响,相互独立,这种试验在统计学上称为贝努里试验。如果进行n次贝努里试验,取得成功次数为x(x=0,1,2.n)的概率服从的分布为二项分布,可用下面公式来计

8、算:,:表示在n次试验中出现x次成功的组合数,称之为二项系数,(二)应用条件 1、每次试验只具有两种互相排斥的结果之一; 2、已知发生某一结果的概率恒定,均为 ; 3、n次试验在相同条件下进行,各次试验结果互不影响,相互独立。 (三)二项分布的性质 1、均数和标准差,2、二项分布的累计概率 从阳性率为 的总体中随机抽取n个观察单位,则 (1)最多有k例阳性的概率为 (2)最少有k例阳性的概率为,3、二项分布的图形,n, 为二项分布的两个参数 (1)当 时,图形呈对称分布。 (2)当 且n小时,图形呈偏态分布; 越远离0.5,其分布越偏;随着n的增大,其分布逐渐趋于对称。,二、总体率的估计 点值

9、估计 区间估计 (一)查表法 (二)正态近似法 当样本含量n足够大,且样本率p或(1-p)均不太小,如np与n(1-p)均大于5时,样本率p的抽样分布近似正态分布 ,总体率的可信区间为: ,,(一)查表法:n小于等于50,p接近于0或1时 例:某医院皮肤科医师用某种药物治疗20名系统性红斑狼疮患者,其中8人近期有效,求该法近期有效率的95%可信区间。 用n=20和x=8查百分率的可信区间表得该法近期有效率的95%可信区间为19%-64%。,总体率的可信区间为 ,,(二)正态近似法 例:在某镇按人口的1/20随机抽取520人,作汉坦病毒IgG抗体滴度实验,得肾综合征出血热隐性感染率为5.17%,

10、求该镇人群中肾综合征出血热隐性感染率的95%可信区间。,第四节 Poisson分布和总体平均数的估计 一、Poisson分布 (一) Poisson分布的概念 Poisson分布是一种重要的离散型分布,由法国数学家S.D.Poisson(1837)提出。在医学研究中,常用于研究单位时间、人群、空间内,某罕见事件发生次数的分布。,1、模拟试验 设有一箱黄豆,每1000个黄豆中有5个染成红色豆子,红豆的发生率 =5/1000(用一个缸子,大约可盛500个豆子),每盛一缸子,看一缸子豆子中红豆的个数。 在上述模拟试验中 较小, =5/1000( ) 样本含量n较大(n=500),每个缸子中红豆子个数

11、的概 率P(0),P(1),P(2),P(n)服从Poisson分布。 在实际工作中,Poisson分布较多地用于研究单位时间、单位空间、单位人群,某罕见事件的发生数。例如某细菌在单位空气和单位水中出现的情况,一定人群中某患病率很低的非传染性疾病患病数或死亡数的分布等。,所以,当样本含量n较大, 较小时,如果某事件发生是完全随机的,则单位时间、单位空间内,某罕见事件的发生数x可用上述公式求得。 2、 Poisson分布的概率 为Poisson分布的总体均数,x为单位时间(面积、容积、人群)某事件的发生数。,实际运算递推公式:,3、Poisson分布最初是作为二项分布的一个特例提出来的,在n较大

12、, 较小时,Poisson分布是二项分布的极限形式。 举例:据以往经验,新生儿染色体异常率为1%,试分别用二项分布和Poisson分布原理,求100名新生儿中发生x例染色体异常的概率。,举例:对于 (n=10,20,40,100)的四种情况,(二)Poisson分布的应用条件 1、每次试验只具有两种互相排斥的结果之一; 2、已知发生某一结果的概率恒定,均为 ; 3、n次试验在相同条件下进行,各次试验结果互不影响,相互独立。 4、n很大, 较小( ),注意: 1、传染病的发病不符合Poisson分布 2、平稳性:x的取值与观察单位的位置无关, 只与观察单位的大小有关。对于单位时间、单位容积内,所

13、观察事物因某原因分布不均匀时,如细菌在牛奶中呈集落存在,钉螺在繁殖期呈窝状散布时,均不呈Poisson分布,(三)Poisson分布的性质 1、Poisson分布是一种单参数的离散型分布,其参数为 ,它表示单位时间、人群、空间内某事件平均发生的次数。 2、Poisson分布的方差 与均数 相等。 3、对于服从Poisson分布的资料,在抽样研究中,样本阳性数(Poisson计数)与总体平均阳性数(简称总体平均数)的差异称为Poisson计数的抽样误差。衡量Poisson计数抽样误差大小的指标为标准误 (理论值),实际工作中,由于 往往是未知的,可用样本阳性数x作为的估计值,计算标准误( )的估

14、计值 。,4、Poisson分布的图形,5、Poisson分布的累计概率 (1)最多有k例阳性的概率 (2)最少有k例阳性的概率 6、Poisson分布具有可加性 例如:某放射性物质每分钟放射脉冲数呈Poisson分布,5次测量结果分别为35、34、36、38、34,那么50分钟总计脉冲数为177次,亦呈Poisson分布,二、总体平均数的估计 点(值)估计和区间估计 ,区间估计的方法如下: (一)查表法 当样本阳性数 时 (二)正态近似法 当样本阳性数 时,可应用正态近似原理计算 ( , ),1、某省抽查10万人,作某一年的死亡回顾调查,得肝癌死亡数为9人,求该省这一年的肝癌死亡率的95%可信区间。 因患肝癌对于一个人群来说是稀有事件,X=950,故可查附表8,样本计数为9这一行,得的95%下限为4.0,上

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论