华中科技大学第06章 参数估计基础(检验)_第1页
华中科技大学第06章 参数估计基础(检验)_第2页
华中科技大学第06章 参数估计基础(检验)_第3页
华中科技大学第06章 参数估计基础(检验)_第4页
华中科技大学第06章 参数估计基础(检验)_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章参数估计基础公共卫生学院·流行病与卫生统计学系蒋红卫Email:JHWCCC@21CN.COM本章内容一、抽样分布与抽样误差二、t分布三、总体均数及总体概率的估计统计推断研究总体样本抽样(随机)统计量样本均数样本标准差样本率…参数总体均数总体标准差总体率…统计推断(statisticalinference)1.参数估计(estimationofparameters)2.假设检验(testofhypothesis)统计描述1.统计量2.统计图表第一节抽样分布与抽样误差重复抽样总体样本抽样误差抽样误差(samplingerror)是指因生物固有的个体变异的存在,从某一总体中随机抽取一个样本,所得样本统计量与其对应的总体参数存在的差异。基本特点:随机不可避免在大量重复抽样的情况下,有规律可循样本均数的抽样分布与抽样误差1000份样本的均数和标准差将这1000份样本的均数看成新变量值,按第二章的频数分布方法,得到这1000份样本均数的直方图。图5-1随机抽样所得1000份样本均数的分布(n=5)将这1000份样本的均数看成新变量值,按第二章的频数分布方法,得到这1000份样本均数的直方图。图5-1随机抽样所得1000份样本均数的分布(n=10)将这1000份样本的均数看成新变量值,按第二章的频数分布方法,得到这1000份样本均数的直方图。图5-1随机抽样所得1000份样本均数的分布(n=20)将这1000份样本的均数看成新变量值,按第二章的频数分布方法,得到这1000份样本均数的直方图。图5-1随机抽样所得1000份样本均数的分布(n=30)

1000份样本均数的抽样分布特点

样本含量均数均数标准差最大值中位数最小值nmeansdmaxmedianmin

54.1530.3665.3714.1592.794104.1510.2584.9754.1573.278204.1360.1834.6614.1393.655304.1340.1494.6124.1413.701

总体均数m=4.136总体标准差s=0.8171000份样本均数的抽样分布特点1000份样本均数中,各样本均数间存在差异,但各样本均数在总体均数周围波动。样本均数的分布曲线为中间高,两边低,左右对称,近似服从正态分布。样本均数的变异较之原变量的变异大大缩小。样本均数的抽样分布特点样本均数恰好等于总体均数是极其罕见的样本均数之间存在差异样本均数围绕总体均数,中间多,两边少,左右基本对称,呈近似正态分布样本均数之间的变异明显小于原始变量值之间的变异样本均数之间的变异随着样本量的增加,而减小4个抽样实验结果比较

1000份样本均数的抽样分布描述

样本含量均数均数标准差最大值中位数最小值nmeansdmaxmedianmin

54.1530.3665.3714.1592.794104.1510.2584.9754.1573.278204.1360.1834.6614.1393.655304.1340.1494.6124.1413.701

总体均数m=4.136总体标准差s=0.817即样本均数的标准差,可用于衡量抽样误差的大小。因通常σ未知,计算标准误采用下式:标准误(standarderror,SE)

通过增加样本含量n来降低抽样误差。某一个样本的标准差该样本的个体例数标准误(standarderror,SE)意义:反映样本均数之间的离散程度,也反映抽样误差的大小。标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性越大。与样本量的关系:S一定,n↑,标准误↓标准误与标准差的区别与联系中心极限定理(centrallimittheorem)来自正态总体的样本均数,其分布仍服从正态分布即使从非正态总体中抽样,只要样本含量足够大,样本均数的分布仍近似于正态分布。随着样本量的增大,样本均数的变异范围也逐渐变窄。非正态总体样本均数的抽样实验图6-1(a)是一个正偏峰分布,用电脑从中随机抽取样本含量分别为5,10,30和50的样本各1000次,计算样本均数并绘制4个直方图。图6-1(b)~(e)显示,样本均数的总体均数仍等于原来的总体均数

,样本均数的标准误仍满足(5-1)式。当样本量n较小时,样本均数的分布呈正非正态分布;样本量足够大时(例如,n

30),样本均数的分布近似于正态分布。非正态总体样本均数的抽样实验非正态总体样本均数的抽样实验非正态总体样本均数的抽样实验非正态总体样本均数的抽样实验非正态总体样本均数的抽样实验样本频率的抽样分布与抽样误差样本频率实质上是样本均数的另一种表达形式若将发生某事件定为1,未发生该某件定为0,则,样本频率即为样本均数因而,样本频率的抽样分布与抽样误差,同样本均数是一样的。样本均数的抽样分布与抽样误差例6-1某市50岁以上的中老年妇女776人,其中患有骨质疏松症者322人,患病率41.5%。试估计该样本频率的抽样误差。

===0.0177=1.77%

第二节t分布t

分布(t-distribution)随机变量XN(m,s2)标准正态分布N(0,12)Z变换均数标准正态分布N(0,12)Student’st分布自由度:n-1t分布实验从13岁女学生身高这个正态总体中分别作样本量为3和50的随机抽样,各抽取1000份样本,并分别得到1000个样本均数及其标准误。对它们分别作t变换,并将t值绘制相应的直方图。这两个t值分布图并不完全一样,样本量为3的图(a)较之样本量为50的图(b)峰度较低,两侧尾部稍高。t分布实验t分布实验图5-3不同自由度下的t分布图t分布的图形特征单峰分布,以0为中心,左右对称,类似于标准正态分布自由度ν越小,则越大,t值越分散,曲线的峰部越矮,尾部越高随着自由度ν逐渐增大,t分布逐渐逼近标准正态分布;当ν

时,t分布完全成为标准正态分布。标准正态分布是t分布的特例。为研究t分布曲线下的尾部面积(即概率P)与横轴t值间的关系,统计学家编制了不同自由度

下的t界值表(附表2)。t界值表:横标目为自由度

,纵标目为概率P。t临界值:表中数字表示当

和P确定时,对应的值。

单侧概率(one-tailedprobability):用t

,υ表示双侧概率(two-tailedprobability):用t

/2,υ表示t分布表-tt0t分布表1.746-2.1202.120ν=16的t分布图f(t)当

=16,单侧概率P=0.05时,由表中查得单侧t0.05,16=1.746;而当

=16,双侧概率P=0.05时,由表中查得双侧t0.05/2,16=2.120。按t分布的规律,理论上有单侧:P(t

t0.05,16)=0.05和P(t

t0.05,16)=0.05双侧:P(t

t0.05/2,16)+P(t

t0.05/2,16)=0.05更一般的表示方法如图中阴影部分所示为:

单侧:P(t

t

,

)=

和P(t

t

,

)=

双侧:P(t

t

/2,

)+P(t

t

/2,

)=

相同t值时,t2

/2,

=t

,

t分布表t分布表在相同自由度时,P与t

成反比,│t│值越大,概率P越小在相同概率时,

υ

t成反比在相同t值时,双侧概率P为单侧概率P的两倍第三节总体均数及总体概率

的估计

参数估计:指用样本指标(统计量)估计总体指标(参数)。

参数估计点估计(pointestimation)

:由样本统计量直接估计总体参数区间估计(intervalestimation)

:获得一个置信区间(confidenceinterval,CI)——由样本数据估计得到的、100(1

)%可能包含未知总体参数的一个范围值。一、参数估计的概念

1.点估计

用样本统计量直接作为总体参数的点估计值,即直接用随机样本的样本均数作为总体均数

的点估计值,用样本频率p作为总体概率

的点估计值。未考虑抽样误差,无法评价其可信度,即估计值与真值之间的差距。(高精度,低把握度)2.区间估计区间估计:结合样本统计量和标准误,按一定的置信度计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论