第五章参数估计基础_第1页
第五章参数估计基础_第2页
第五章参数估计基础_第3页
第五章参数估计基础_第4页
第五章参数估计基础_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

卫生统计学邹延峰流行病与卫生统计学系第五章

参数估计参数估计:

就是用样本指标(统计量)来估计总体指标(参数)Question某市2000年随机测量了90名19岁健康男大学生的身高,其均数为172.2cm,标准差为4.5cm,,试估计该地19岁健康男大学生的身高可能的范围。用某种仪器检查已确诊的乳腺癌患者94例,检出率为78.3%。估计该仪器乳腺癌总体检出率的可能范围。讲课提纲抽样分布和抽样误差t分布总体均数和概率的估计

第一节抽样分布与抽样误差用样本信息来推断相应总体的特征,这一过程称为统计推断。统计推断包括两方面的内容:参数估计和假设检验抽样误差:由个体变异产生的、由于抽样而造成的样本统计量与样本统计量及样本统计量与总体参数之间的差异称为抽样误差。无倾向性,不可避免。一、样本均数的抽样分布与抽样误差

均数的抽样误差:用于表示均数抽样误差的指标称样本均数的标准误。抽样实验一:假定从13岁女学生身高总体均数标准差的正态总体中进行随机抽样。

样本均数的抽样分布特点:

1

各样本均数未必等于总体均数

2

样本均数之间存在差异

3

样本均数的分布很有规律,围绕着总体均数,中间多,两边少,左右基本对称,也服从正态分布

4

样本均数的变异较之原变量大大缩小抽样实验二:非正态总体样本均数的抽样实验(实验5-2)

图5-1(a)是一个正偏峰的分布,用电脑从中随机抽取样本含量分别为5,10,30和50的样本各1000次,计算样本均数并绘制4个直方图N=5N=10N=30N=50

1)从正态总体N(µ,σ2)中,随机抽取例数为n的多个样本,样本均数服从正态分布;即使是从偏态总体中随机抽样,当n足够大时(如n>50),也近似正态分布。2)从均数为µ,标准差为σ的正态或偏态总体中抽取例数为n的样本,样本均数的标准差即标准误为。

标准误的大小与σ的大小成正比,与n成反比,而σ为定值,说明可以通过增加样本例数来减少标准误,以降低抽样误差。σ未知,用样本标准差S来估计总体标准差σ。用来表示均数抽样误差的大小。(标准误的理论值)(标准误的估计值)

例5-12000年某研究所随机调查某地健康成年男子27人,得到血红蛋白的均数为125g/L,标准差为15g/L。试估计该样本均数的抽样误差。二、样本频率的抽样分布与抽样误差

表示频率的抽样误差大小的指标叫频率的标准误。π:总体率,n:样本例数。

当π未知时,公式为:

:率的标准误的估计值,p:样本率。

据数理统计的原理,率的标准误用表示

例5-2某市随机调查了50岁以上的中老年妇女776人,其中患有骨质疏松症者322人,患病率为41.5%,试计算该样本频率的抽样误差。

一、t分布的概念在统计应用中,可以把任何一个均数为µ,标准差为σ的正态分布N(µ,σ2)转变为µ=0,σ=1的标准正态分布,即将正态变量值X用来代替。第二节t分布也服从正态分布,服从标准正态分布N(0,1)服从ν=n-1的t分布t分布曲线特点:

1)t分布曲线是单峰分布,它以0为中心,左右对称。

2)t分布的形状与样本例数n有关。自由度越小,则越大,t值越分散,曲线的峰部越矮,尾部翘的越高。

3)当n→∞时,则S逼近σ,t分布逼近标准正态分布。t分布不是一条曲线,而是一簇曲线。二、t分布的图形和t分布表υ=∞(标准正态分布)υ=5υ=1012345-1-2-3-4-5f(t)0.10.20.3图5-3不同自由度下的t分布图正确使用t界值表!t分布

统计学家将t分布曲线下的尾部面积(即概率P)与横轴t值间的关系编制了不同自由度下的t界值表(附表2)。

t界值表:横标目为自由度,纵标目为概率P。

t临界值:表中数字表示当和P确定时,对应的值。

单侧概率(one-tailedprobability):用t,υ表示双侧概率(two-tailedprobability):用t/2,υ表示t分布例如,当=16,单侧概率P=0.05时,由表中查得单侧t0.05,16=1.746;而当=16,双侧概率P=0.05时,由表中查得双侧t0.05/2,16=2.120。按t分布的规律,理论上有 单侧:P(t

t0.05,16)=0.05和P(t

t0.05,16)=0.05双侧:P(t

t0.05/2,16)+P(t

t0.05/2,16)=0.05t分布更一般的表示方法如图5-4(a)和(b)中阴影部分所示为:单侧:P(t

t,

)=和P(t

t,

)=双侧:P(t

t/2,

)+P(t

t/2,

)=t分布从t界值表中或表的右上角图列亦可看出:①在相同自由度时,│t│值越大,概率P越小;②而在相同t值时,双侧概率P为单侧概率P的两倍,即t0.10/2,16=t0.05,16=1.746。

一、参数估计的方法第三节总体均数及总体概率的估计参数估计点估计(pointestimation)区间估计(intervalestimation)1.点估计:

用样本统计量直接作为总体参数的估计值。

例如于2000年测得某地27例健康成年男性血红蛋白量的样本均数为125g/L,试估计其总体均数。2.区间估计:按预先给定的概率(1-α)估计总体参数的可能范围,该范围就称为总体参数的1-α置信区间(confidenceinterval,CI)。预先给定的概率(1-α)称为置信度,常取95%或99%。如无特别说明,一般取双侧95%。

可信区间由两个数值即置信限构成,其中最小值称为下限,最大值称为上限。严格讲,可信区间不包括上下限两个端点值。二、置信区间的计算方法通式:(双侧)(一)总体均数置信区间的计算

(1)σ已知,按标准正态分布原理计算由z分布,标准正态曲线下有95%的z值在±1.96之间。95%的双侧置信区间:99%的双侧置信区间:

Zа/2为标准正态变量,Zа/2相当于按ν=∞时及P取α,由附表2查的的t界值。通式:(双侧)(2)σ未知但样本例数n足够大(n>50)时

由t分布可知,自由度越大,t分布越逼近标准正态分布,此时t曲线下有95%的t值约在±1.96之间,即95%的双侧置信区间:99%的双侧置信区间:例5-4某市2000年随机测量了90名19岁健康男大学生的身高,其均数为172.2cm,标准差为4.5cm,,试估计该地19岁健康男大学生的身高的95%置信区间。该市19岁健康男大学生的身高的95%置信区间(171.3,173.1)cm(3)σ未知且样本例数n较小时,按t分布原理,此时某自由度的t曲线下有95%的t值约在±t0.05(ν)之间,

通式:95%的双侧置信区间:99%的双侧置信区间:tа/2,ν是按自由度ν=n-1,由附表2查得的t值。例5-3已知某地27例健康成年男性血红蛋白量的均数为,标准差S=15g/L,试问该地健康成年男性血红蛋白量的95%和99%置信区间。

本例n=27,S=1595%CI:99%CI:

置信区间的两个要素:

准确度:反映置信度1-α的大小,即区间包含总体均数的概率大小。精度:反映区间的长度。在置信区间确定的情况下,增加样本例数,会减小tа,ν

和,可减少区间长度,提高精度。1.正态近似法当样本含量足够大,且p和1-p不太小,则样本率的分布近似正态分布。公式为:

P为样本率,为率的标准误的估计值,

(二)总体概率的置信区间

例5-7用某种仪器检查已确诊的乳腺癌患者94例,检出率为78.3%。估计该仪器乳腺癌总体检出率的95%置信区间。分析:本例样本例数较大,且样本率p不太小,可用正态近似法:2.查表法

当n较小,如n≤50,特别是p和1-p接近0或1时。

例5-5某医院对39名前列腺癌患者实施开放手术治疗,术后有合并症者2人,试估计该手术合并症发生概率的95%置信区间。

例5-6某医生用某药物治疗31例脑血管梗塞患者,其中25例患者治疗有效,试求该药物治疗脑血管梗塞有效概率的95%置信区间。注意:附表6仅列出X≤n/2的95%置信区间。小结掌握:参数估计的概念,均数标准误的计算方法,总体均数可信区间计算方法,标准误的意义及应用。熟悉:t分布的特征,t界值。了解:样本统计量的分布规律,率的标准误的计算方法,总体率可信区间计算方法。均数置信区间与参考值范围的区别意义:

前者为绝大多数人某项指标的数值范围,后者为按一定的概率估计总体参数所在的范围

计算:

置信区间用标准误,参考值范围用标准差应用:前者供判断观察对象某项指标是否正常时参考,后者估计未知总体均数所在范围思考!标准差与均数的标准误的区别

1)概念(意义)不同:标准差是描述样本中个体值间的变异程度;标准误是描述样本均数抽样误差大小的指标

2)

记法和计算不同:略3)

用途不同:标准差常用于估计正常值范围,计算变异系数等;标准误常用于估计参数的可信区间,进行假设检验4)控制方法不同:标准差趋向稳定,不能用统计方法控制。而标准误随例数的增大而减小思考!

1)二者均为变异指标,如果把总体中各样本均数看成一个变量,则标准误可称为样本均数的标准差

2)当样本含量不变时,均数的标准误与标准差成正比

3)两者均可与均数结合运用,但描述的内容各不相同

标准差与均数的标准误的联系:

1.某地1992年随机抽取100名健康女性,算得其血清总蛋白含量的均数为74g/L,标准差为4g/L,则其95%的参考值范围为()。A.7444 B.741.964 C.742.584D.742.58410E.741.964102.关于以0为中心的t分布,错误的是()。A.t分布图是一簇曲线 B.t分布图是单峰分布C.当时,tuD.t分布图以0为中心,左右对称

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论