第五章参数估计基础(7版1)_第1页
第五章参数估计基础(7版1)_第2页
第五章参数估计基础(7版1)_第3页
第五章参数估计基础(7版1)_第4页
第五章参数估计基础(7版1)_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章参数估计基础宁夏医科大学公共卫生学院流行病与卫生统计学系郭忠琴2014.31学习要点一、抽样分布与抽样误差

掌握标准误的概念和计算二、t分布

掌握t分布的图形特征及t值表的使用三、总体均数及总体概率的估计

掌握置信区间的计算方法、决定置信区间优劣的两个要素。2第一节抽样分布与抽样误差统计分析:统计描述和统计推断统计推断(statisticalinference)——从总体中随机抽取一个样本,通过样本信息了解总体特征或参数,这种方法叫统计推断。统计推断:参数估计和假设检验参数估计(estimationofparameter)

——样本指标值(统计量)估计总体指标值(参数)的过程。3第一节抽样分布与抽样误差

参数估计:点值估计和区间估计点值估计(Pointestimation

):就是用相应样本统计量直接作为其总体参数的估计值。区间估计(ConfidenceintervalCI):按预先给定的概率(1-α)估计总体参数的可能范围,该范围就称为总体参数的1-α置信区间。

4第一节抽样分布与抽样误差熟悉总体与样本、统计量与参数、误差与抽样误差误差:泛指测得值与真值之差,样本指标与总体指标之差。误差按其产生的原因与性质分为两大类(系统误差和偶然误差)。抽样误差:由个体变异产生的、由于抽样而造成的样本统计量与样本统计量及样本统计量与总体参数之间的差异称为抽样误差。无倾向性,不可避免。5第一节抽样分布与抽样误差均数的抽样误差:由个体变异产生的、由于抽样而造成的样本均数与样本均数及样本均数与总体均数之间的差异称为均数的抽样误差。用于表示均数抽样误差的指标叫样本均数的标准差,也称样本均数的标准误。一、样本均数的抽样分布与抽样误差6抽样实验:假定从13岁女学生身高总体均数,总体标准差的正态总体中进行随机抽样。

7抽样实验:假定从13岁女学生身高总体均数,总体标准差的正态总体中进行随机抽样。

8样本均数的分布特点:

1.各样本均数未必等于总体均数;

2.样本均数之间存在差异;

3.样本均数的分布很有规律,围绕着总体均数,中间多,两边少,左右基本对称,也服从正态分布。

4.样本均数的变异较之原变量的变异大大缩小。第一节抽样分布与抽样误差910第一节抽样分布与抽样误差11121)从正态总体N(µ,σ2)中,随机抽取例数为n的多个样本,样本均数服从正态分布;即使是从偏态总体中随机抽样,当n足够大时(如n>50),也近似正态分布。数理统计推理和中心极限定理表明:2)从均数为µ,标准差为σ的正态或偏态总体中抽取例数为n的样本,样本均数的标准差即标准误。第一节抽样分布与抽样误差13身高组段频数组中值fxfx2

152.6~1152.9153.2~4153.5153.8~4154.1154.4~22154.7155.0~25155.3155.6~21155.9156.2~17156.5156.8~3157.1157.4~2157.7158.0~1158.3合计100表8-2100个样本均数的频数表与标准误的计算表第一节抽样分布与抽样误差14标准误的大小与σ的大小成正比,与n的平方根成反比,而σ为定值,说明可以通过增加样本例数来减少标准误,以降低抽样误差。σ未知,用样本标准差S来估计总体标准差σ。用来表示均数抽样误差的大小。(标准误的理论值)(标准误的估计值)15

例5-12000年某研究所随机调查某地健康成年男子27人,得到血红蛋白的均数为125g/L,标准差为15g/L。试估计该样本均数的抽样误差。第一节抽样分布与抽样误差16二、样本频率的抽样分布与抽样误差从同一总体中随机抽出观察单位相等的多个样本,样本率与总体率及各样本率之间都存在差异,这种差异是由于抽样引起的,称为频率的抽样误差。表示频率的抽样误差大小的指标叫频率的标准误。第一节抽样分布与抽样误差17π:总体率,n:样本例数。当π未知时,pπ(当样本含量足够大,且p和1-p不太小)公式为:

:率的标准误的估计值,p:样本率。据数理统计的原理,率的标准误用表示第一节抽样分布与抽样误差18

例5-2某市随机调查了50岁以上的中老年妇女776人,其中患有骨质疏松症者322人,患病率为41.5%,试计算该样本频率的抽样误差。第一节抽样分布与抽样误差19一、t分布的概念在统计应用中,可以把任何一个均数为µ,标准差为σ的正态分布N(µ,σ2)转变为µ=0,σ=1的标准正态分布,即将正态变量值X用来代替。第二节t分布也服从正态分布,服从标准正态分布N(0,1)服从ν=n-1的t分布20第二节t分布21t分布曲线特点:

1)t分布曲线是单峰分布,它以0为中心,左右对称。

2)t分布的形状与样本例数n有关。自由度越小,则越大,t值越分散,曲线的峰部越矮,尾部翘的越高。

3)当n→∞时,则S逼近σ,t分布逼近标准正态分布。t分布不是一条曲线,而是一簇曲线。二、t分布的图形和t分布表第二节t分布2223与单侧概率相对应的t值用表示,与双侧概率相对应的t值用表示。由于t分布是以0为中心的对称分布,表中只列出了正值,故查表时,不管t值正负只用绝对值表示。正确使用t界值表!第二节t分布24

一、参数估计的概念统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。第三节总体均数及总体概率的估计参数估计点估计(pointestimation)区间估计(intervalestimation)二、置信区间的计算(一)总体均数的置信区间25,即认为2000年该地所有健康成年男性血红蛋白量的总体均数为125g/L。1.点估计:

用样本统计量直接作为总体参数的估计值。

例如于2000年测得某地27例健康成年男性血红蛋白量的样本均数为125g/L,试估计其总体均数。同理,例5-2中776名50岁以上的中老年妇女骨质疏松症的样本患病率作为总体患病率的点值估计值,即认为该市所有50岁以上的中老年妇女骨质疏松症的总体患病率约为41.5%。

第三节总体均数及总体概率的估计262.区间估计:按预先给定的概率(1-α)估计总体参数的可能范围,该范围就称为总体参数的1-α置信区间(confidenceintervalCI)。预先给定的概率(1-α)称为置信度,常取95%或99%。如无特别说明,一般取双侧95%。可信区间由两个数值即置信限构成,其中最小值称为下限,最大值称为上限。严格讲,可信区间不包括上下限两个端点值。第三节总体均数及总体概率的估计27通式:(双侧)(二)、置信区间的计算

(1)σ已知,按标准正态分布原理计算由z分布,标准正态曲线下有95%的z值在±1.96之间。95%的双侧置信区间:99%的双侧置信区间:Zа/2为标准正态变量,Zа/2相当于按ν=∞时及P取α,由附表2查的的t界值。

28通式:(双侧)(2)σ未知但样本例数n足够大(n>50)时

由t分布可知,自由度越大,t分布越逼近标准正态分布,此时t曲线下有95%的t值约在±1.96之间,即95%的双侧置信区间:99%的双侧置信区间:第三节总体均数及总体概率的估计29例5-4某市2000年随机测量了90名19岁健康男大学生的身高,其均数为172.2cm,标准差为4.5cm,,试估计该地19岁健康男大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论