抽样分布与参数估计11 课件_第1页
抽样分布与参数估计11 课件_第2页
抽样分布与参数估计11 课件_第3页
抽样分布与参数估计11 课件_第4页
抽样分布与参数估计11 课件_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 抽样分布与参数估计山东大学公共卫生学院23主要内容4.1 均数的抽样误差与标准误4.2 t 分布和总体均数的估计4在医学研究中,因受人、财、物、时等条件的限制,研究者不可能对总体(无论是有限总体还是无限总体)中的所有个体进行研究,只能对总体中的部分个体(样本)进行研究,然后用样本信息来推断总体特征。这种用样本信息推断总体特征的研究方法为抽样研究。抽样研究的目的是用样本信息推断总体特征,即统计推断(statistical inference),包括总体参数估计和假设检验两个重要内容。 5由于变异的存在,抽样研究所造成的样本均数与总体均数的差异,以及各样本均数间的差异称为均数的抽样误差。抽样误差

2、在抽样研究中是不可避免的,但只要严格遵循随机化原则进行抽样,抽样误差的大小是可以估计的。如何估计?可通过下面的模拟试验加以理解。4.1 均数的抽样误差与标准误61. 模拟试验已知某市16岁女中学生的身高分布服从均数 为155.4cm、标准差 为5.3 cm的正态分布。现以固定n =10从该总体中随机抽取100个样本,求得100个样本均数,如表3-1。7表3-1 100个样本均数8由表3-1可看出,这100个样本均数大小不等,且绝大部分不等于总体均数155.4,此为抽样误差造成的。如何估计其抽样误差的大小?把该100个均数看作为X,即100个观察值,并编制成频数表,如表3-2。9表3-2 模拟实

3、验的100个样本均数的频数分布由频数表可看出这100个样本均数的分布仍服从正态分布;对该资料计算均数和标准差,记为 cm, cm。102. 中心极限定理中心极限定理: 从正态分布总体 中以固定 n 抽样时,样本均数 的分布仍服从正态分布 。 当样本含量 n 足够大时,即使从偏态分布总体中以固定 n 抽样,其样本均数的分布也服从正态分布。 11X以固定 n 随机抽样Xn足够大轻度偏态12均数的抽样分布正态分布图2 从正态总体N(155.4,5.32)中 以n=10抽 样时样本均数的分布图3 从正态总体N(155.4,5.32)中 以n=20 抽样时样本均数的分布图4 从正态总体N(155.4,5

4、.32)中 以n=30 抽样时样本均数的分布图1 从正态总体N(155.4,5.32)中 以n=5抽样时样本均数的分布n=5n=10n=20n=30133. 标准误在原正态分布中, 为标准差,反映的是各观察值 X 间变异的大小,即反映了个体间的离散度。在样本均数的正态分布中, 为样本均数的标准差(简称标准误),反映的是各样本均数间变异的大小,即反映了均数(群体)间的离散度。故可用标准误来估计抽样误差的大小;也就是说,反映抽样误差大小的指标为标准误。14标准误 样本均数的标准差 :简称标准误,是衡量均数抽样误差大小的指标。计算公式: (估计值)如上例, cm, ,则 cm ,计算结果与模拟试验中

5、样本均数的标准差1.71cm相近。(理论值)15由公式可见,当 n 固定时,标准误与标准差成正比,即个体离散度越大,标准误越大;当标准差不变时,标准误与样本含量的平方根成反比,即样本含量越大,标准误越小,当 ,即总体时,标准误 0 (对总体而言,无抽样误差)。标准误的意义:标准误小,表示抽样误差小,样本均数的代表性好;反之,标准误大,表示抽样误差大,样本均数的代表性差。因此,在实际工作中,可通过适当增加样本含量和减少观察值的离散程度来减少抽样误差。 标准误的意义164.2 t 分布和总体均数的估计t 分布的概念总体均数的估计: 点值估计 区间估计N(,2/n)正态分布170t 分布0标准正态分

6、布N(0,1)以固定样本含量n抽样一、t 分布正态分布N(,2)X18t 分布的概念 ,t 值的分布称为 t 分布。由于s 随 n 的增大渐稳定于,故 越大,t 分布越逼近 u 分布。19t分布的概率密度函数t 分布曲线图3.1 自由度分别为1,5,的 t 分布曲线20以0为中心,左右对称的单峰分布。t分布曲线的形态变化与自由度 的大小有关,t曲线为一簇曲线。自由度 越小,t曲线的中间部分越低平,两端越伸展;随自由度的增大,t曲线逐渐逼近u曲线;当 时,t 曲线为u曲线。 t 分布的特征21t 界值表由于t分布曲线是一簇曲线,对应于每一个自由度,就有一条t分布曲线,每条曲线都有其曲线下统计量t

7、的分布规律,故其5界不像u曲线那样,并非一个固定值,记为 或 ;须根据 查 t界值表。单侧: ,或双侧: 注:双侧概率为单侧概率的2倍。 如,双侧 单侧22t 分布的分位数( t 界值)/2/21-t/2,-t/2,阴影部分表示 的概率231-t,t 分布的分位数( t 界值)阴影部分表示 的概率24点值估计(point estimation) : 用样本均数 作为总体均数 的点值估计。由于抽样误差的存在, 往往不等于 。 区间估计(interval estimation) : 按一定的概率100(1)%估计总体均数所在的范围,亦称可信区间(confidence interval, CI)。 常取95%和99%的可信度,即95%CI和99%CI。 二、总体均数的估计 可信区间估计的效果评价: 可信度:1-,即计算出的区间包括总体均数的概率大小,其值越接近1表明准确度越好。 精密度:由区间的宽度反映,区间越窄说明估计越精确。2526总体均数的区间估计未知且n 小时,按 t 分布原理计算 由于 即 故总体均数(1-)100%的可信区间为27总体均数的区间估计未知,但n足够大时( n 100),t分布近似u分布,按正态分布的原理估计可信区间。已知时,按正态分布的原理估计可信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论