抽样分布和抽样误差ppt课件_第1页
抽样分布和抽样误差ppt课件_第2页
抽样分布和抽样误差ppt课件_第3页
抽样分布和抽样误差ppt课件_第4页
抽样分布和抽样误差ppt课件_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1Chapter 6参参 数数 估估 计计山东大学公共卫生学院黄 宗 媛2问题:如何通过样本的指标得到总体指标?这种推断是否正确?如何判断?所选样本是否真的来自于该总体?2sX ,3义务:分析误差产生的原因,确定差异性质,排除干 扰,从而对整体特征进行正确判断。途径:以统计量的抽样分布为基础,经两条途径 参数估计:通过统计量估计总体参数; 假设检验:对预设的关于统计量的假设进行验证。346.1 样本均数的抽样分布与抽样误差6.2 总体均数的参数估计主主 要要 内内 容容45 56.1 均数的抽样分布与抽样误差 由于变异的普遍存在,医学研究的总体中同质研究对象的观察单位间也会存在着个体差异。在抽

2、样研究时,由样本计算的样本统计量往往不等于总体参数。 抽样误差 由于抽样造成的样本统计量与总体参数之间的差异称为 抽样误差(sampling error). 我们重点考虑均数的抽样误差。6 6例:已知某市16岁女中学生的身高分布服从均数 =155.4cm, 标准差 =5.3 cm的正态分布。现以固定n =10从该总体中 随机抽取100个样本,求得100个样本均数,如表6-1。6.1 均数的抽样分布与抽样误差 抽样误差在抽样研究中是不可避免的,但只要严格遵循 随机化原则进行抽样,抽样误差的大小是可以估计的。7 7表 6-1 100个样本均数值6.1 均数的抽样分布与抽样误差8 8表 6-2 10

3、0个样本均数值的频数分布6.1 均数的抽样分布与抽样误差 把这100个均数看作为X,即100个观察值,并编制成频数表,如表6-2。cmcmX4 .15538.155cmSX71. 1X9 9抽样试验n=10)6.1 均数的抽样分布与抽样误差1010抽样试验n=30)6.1 均数的抽样分布与抽样误差1111n=5n=10n=20n=306.1 均数的抽样分布与抽样误差图6-1 从总体N(155.4,5.32)中以不同样本量抽样时样本均数的分布1212方法二:中心极限定理。方法二:中心极限定理。 从正态分布总体从正态分布总体 中以固定中以固定n n随机抽取样本,样本均随机抽取样本,样本均 数的分布

4、仍服从正态分布数的分布仍服从正态分布 。 即使从非正态总体中抽取样本,当样本量很大时,所得均即使从非正态总体中抽取样本,当样本量很大时,所得均 数分布仍近似呈正态。数分布仍近似呈正态。 随着样本量的增大随着样本量的增大, , 样本均数的变异范围也逐渐变窄。样本均数的变异范围也逐渐变窄。问题一:如何通过个体参数推断总体参数?问题一:如何通过个体参数推断总体参数?),(2N)/,(2nN6.1 均数的抽样分布与抽样误差方法一:通过模拟实验多次抽样得到。方法一:通过模拟实验多次抽样得到。13136.1 均数的抽样分布与抽样误差N(,2/n)正态分布正态分布正态分布正态分布N(,2)以固定样本含量以固

5、定样本含量n抽样抽样1414 标准误标准差:样本标准差,反映个体观察值之间的变异。标准差:样本标准差,反映个体观察值之间的变异。标准误:样本统计量的标准差。标准误:样本统计量的标准差。例如:例如:“均数的标准误,反映样本均数之间的变异。均数的标准误,反映样本均数之间的变异。样本均数的标准误:样本均数的标准误:样本均数标准误的估计值:样本均数标准误的估计值:nX nsSX6.1 均数的抽样分布与抽样误差1515 在样本含量一定的情况下,标准误与标准差成正比。 当总体中观测值的变异较小时,估计的可靠程度高, 反之可靠程度低。 标准误与样本含量的平方根成反比。 样本含量越大,标准误越小。 标准误反映

6、了抽样误差的大小。 标准误反映了样本均数间的离散程度,也反映了样本 均数与总体均数的差异。6.1 均数的抽样分布与抽样误差1616例:某地随机抽取20名健康男性测量其血液中葡萄糖含量。 测得:均数为39.5mg/100ml,标准差为0.69mg/100ml。 问其抽样误差有多大?6.1 均数的抽样分布与抽样误差解:本例中总体均数和方差均未知,故用估计式求:mlmgnsSX100/15. 02069. 0即该研究的抽样误差为0.15mg/100ml。17176.1 均数的抽样分布与抽样误差 标准差与标准误的区别与联系 二者描述的内容不同。 s 描述各观察值之间,即个体间离散度的大小; 描述样本均

7、数间离散度的大小,即群体间离散程度 的大小。 二者与样本含量n的关系不同。 s 随n的增大,趋向稳定,当n足够大时, ; 而 随n 的增大变小,当 时, 。 XssXs n0Xs18186.1 均数的抽样分布与抽样误差 二者用途不同。 标准差:反映一组同质观察值的离散程度; 计算变异系数; 估计医学参考值范围; 计算标准误。 标准误:反映均数抽样误差的大小; 估计总体均数可信区间; 进行假设检验。 二者有联系。当n固定时,标准误与标准差呈正比。 19196.1 均数的抽样分布与抽样误差20206.2 总体均数的估计用单一数值样本统计量的值作为总体参数的估计值。特别的,总体均数的点估计是直接用随

8、机样本的样本均数 作为点估计值。 点估计 (point estimation)X 不同的样本所得到的估计值可以不同。 总体参数均数未知,但它是固定的值,不是随机 变量;而样本统计量样本均值 )是随机的,不同的 样本结果不同,进而得到的点估计值也不同。X2121例:在前例中,测得20名健康男性血液中葡萄糖含量均数为 39.5mg/100ml,标准差为0.69mg/100ml。由此可以估计 健康男性血液中葡萄糖平均含量为39.5mg/100ml,规范 差为0.69mg/100ml。若另有研究者也随机抽取20名健康男性,测得均数为 39.8mg/100ml,标准差为0.66mg/100ml。并用此估

9、计 总体值,也是可以的。6.2 总体均数的估计22226.2 总体均数的估计 区间估计 (interval estimation)按一定的概率(1)估计总体均数所在的范围,亦称可信区间(confidence interval, CI)或置信区间。1 称为可信度或置信度(confidence level),通常选取 95% 或 99% 的可信度。 可信下限 L 可信上限 U23236.2 总体均数的估计可信区间估计的效果,一方面由可信度反映,其值越接近于1越好;另一方面由区间的宽度反映,区间越窄,说明估计越精确。 在样本含量一定的情况下,二者是矛盾的。 在可信度确定的情况下,增加样本含量可以缩小

10、 区间宽度。24246.2 总体均数的估计 总体均数的区间估计 总体均数的可信区间可以利用 的抽样分布获得。X 总体方差 知2 如果变量X ,那么 ,即:),(2 N),(2nNX ) 1 , 0(/NnXu XXuXuX2/2/,故1 可信区间为:25256.2 总体均数的估计 总体方差 未知2 通常情况下,总体方差是未知的,可以用样本方差代替。此时,统计量 服从t分布。nSX/ 此时,1 可信区间为:XXstXstX, 2/, 2/,26266.2 总体均数的估计 总体方差 未知,但样本量n足够大2 当n比较大如 n 100时,t 分布近似于正态分布, 可以按正态分布原理估计可信区间。)

11、1 , 0(/NnsXuXXsuXsuX2/2/,故1 可信区间为:27276.2 总体均数的估计cmS31. 3,25.172cmX 解:解:n = 20较小,双侧较小,双侧 ,故可信区间为,故可信区间为 即该地即该地18岁男大学生身高总体均数的岁男大学生身高总体均数的95%可信区间可信区间 为为 170.70173.80cm 。093. 219, 205. 0t)80.173,70.170()2031.3093.225.172,2031.3093.225.172(例:由例:由2020名名1818岁男大学生身高均数资料得,岁男大学生身高均数资料得, ,试估计该地,试估计该地1818岁男岁男大

12、学生身高总体均大学生身高总体均 数的数的95%95%可信区间。可信区间。28286.2 总体均数的估计例:随机抽得某地例:随机抽得某地9090名正常成年女性,计算其红细胞数名正常成年女性,计算其红细胞数 的均值为的均值为 标准差为标准差为 试估计该试估计该 地正常成年女性红细胞计数的地正常成年女性红细胞计数的95%95%可信区间。可信区间。,/1018. 412L。L/1029. 012解:总体标准差未知,但解:总体标准差未知,但n = 90较大,可以用正态分布较大,可以用正态分布 近似处理。可信区间为近似处理。可信区间为 即该地正常成年女性红细胞数总体均数的即该地正常成年女性红细胞数总体均数

13、的95%可信可信 区间为区间为 )24.4 ,12.4()9029.096.118.4,9029.096.118.4(。L/10)24. 4 ,12. 4(1229296.2 总体均数的估计 单侧可信区间 很多情况下,我们涉及的都是双侧可信区间。有时我 们还会关心单侧可信区间。 单侧可信区间与双侧的计算公式基本相同,只需注意 其中的界值即可。3030 医学参考值与总体均数可信区间的区别 二者的意义不同。 参考值范围:“正常人的某些指标的波动范围。95%的 医学参考值范围的含义为同质总体中包括95%个体值的估 计范围。 总体均数的可信区间:按一定的概率,估计未知总体均数 的可能范围。95%可信区

14、间的含义为该可信区间有95的 可能性包含了总体均数。6.2 总体均数的估计3131 二者的计算公式不同。 参考值范围:以正态分布为基础计算; 可信区间:依照t分布及其极限分布计算。 二者受样本量的影响不同。 参考值范围:样本量越大越稳定; 可信区间:样本量越大可信区间越小。 二者的用途不同。 参考值范围:判断观察对象的某项指标正常与否; 可信区间:估计总体参数。6.2 总体均数的估计323333 t 分 布 自由度分别为自由度分别为1,5,的的 t 分布曲线分布曲线tttf212)1()2()21(1)(3434 t 分 布t 分布的特征分布的特征 以以0为中心,左右对称的单峰分布。为中心,左右对称的单峰分布。 曲线的形态变化与自由度曲线的形态变化与自由度 的大小有关。的大小有关。 自由度自由度越小,中间部分越低平,两端越伸展越小,中间部分越低平,两端越伸展; 随自由度随自由度的增大,的增大,t曲线逐渐逼近正态曲线。曲线逐渐逼近正态曲线。 3535 t 分 布 由于t分布曲线是一簇曲线,对应于每个自由度都有 一条曲线,因而其界值不像u曲线那样是固定值,而 是一个与自由度有关的值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论