抽样误差与参数估计_第1页
抽样误差与参数估计_第2页
抽样误差与参数估计_第3页
抽样误差与参数估计_第4页
抽样误差与参数估计_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

抽样误差与参数估计SamplingerrorParameterestimation资料分析:统计描述

统计推断:进行统计推断即利用样本信息推断总体特征参数估计

假设检验

一、均数的抽样误差和标准误(一)抽样研究的意义:实际工作中,由于存在无限总体,即使是有限总体,由于受到人力、物力、财力及其他因素的限制,只能通过对样本的研究和分析,推断该样本所在总体的特征。(二)抽样误差的概念:由于生物界变异普遍存在,进行随机抽样时,不可避免地造成样本统计量与总体参数之间或各样本统计量之间的差别,称为抽样误差。抽样误差存在的根本原因:个体差异

由于个体差异的普遍存在,所以抽样误差是不可避免的(但其存在是有规律的),为更加准确地通过样本统计量估计其总体参数,就应该寻找抽样误差的规律,估计抽样误差的大小。样本均数的抽样分布样本均数恰巧等于总体均数是极为罕见的样本均数之间存在差异样本均数围绕总体均数,中间多,两边少,左右基本对称,成近似正态分布样本均数之间的变异明显小于原始变量值之间的差异98.47.15611==sx20.57.115811==sx35.66.15411==sx88.36.15611==sx……(三)中心极限定理:从正态总体N(

2)中以固定的样本含量n随机抽取k个样本,该k个样本均数也是以原总体均数位中心的正态分布;抽样误差—服从正态分布的均数间的差别,均数之间的差别(变异程度)也可以用均数的标准差表示,但为了区别前面的s,表示均数之间差别的指标称为均数的标准误。(三)中心极限定理:即使原总体是偏态分布总体,当n足够大时(n>50),抽取的k个样本均数也是以原总体均数位中心的正态分布。

(三)中心极限定理:即使原总体是偏态分布总体,当n足够大时(n>50),抽取的k个样本均数也是以原总体均数位中心的正态分布。

(三)中心极限定理:即使原总体是偏态分布总体,当n足够大时(n>50),抽取的k个样本均数也是以原总体均数位中心的正态分布。

(三)中心极限定理:即使原总体是偏态分布总体,当n足够大时(n>50),抽取的k个样本均数也是以原总体均数位中心的正态分布。

(三)中心极限定理:从正态总体N(

2)中以固定的样本含量n随机抽取k个样本,该k个样本均数也是以原总体均数位中心的正态分布;即使原总体是偏态分布总体,当n足够大时(n>50),抽取的k个样本均数也是以原总体均数位中心的正态分布。

抽样误差—服从正态分布的均数间的差别,均数之间的差别(变异程度)也可以用均数的标准差表示,但为了区别前面的s,表示均数之间差别的指标称为均数的标准误。(四)标准误(StandardError)

样本均数的标准差称为标准误。样本均数的变异越小说明估计越精确,因此可以用标准误表示抽样误差的大小:

实际中总体标准差往往未知,故只能求得样本均数标准误的估计值:

例1在某地随机抽查成年男子140人,计算得红细胞均数4.77×1012/L,标准差0.38×1012/L,试计算均数的标准误。

标准误是抽样分布的重要特征之一,可用于衡量抽样误差的大小,更重要的是可以用于参数的区间估计和对不同组之间的参数进行比较。样本频率

p=X/n则P的总体均数和标准差可以X的均数和标准差除以n其总体均数μp=π频率p的标准差,又称频率的标准误,反映阳性频率的抽样误差二、t分布(一)t分布的概念1、应用方便,常将正态变量进行变换,即,可将一般的正态分布变换为标准正态分布。2、对正态变量进行u变换()后,也可将正态分布变换为标准正态分布。

3、由于实际工作中,往往是未知的,常用s作为的估计值,此时不再是统计量u,而是统计量t,统计量t的分布为t分布。

(二)t分布的图形和特征为:1、以0为中心,左右对称的单峰分布。2、t分布曲线是一簇曲线,其形态变化与自由度的大小有关。自由度越小,t值越分散,曲线越低平;自由度逐渐增大时,则t分布逐渐逼近正态分布(标准正态分布)。当时,t分布即为u分布。

(3)t分布曲线下面积的分布规律由于t分布曲线是一组曲线故t分布曲线下面积为95%和99%界值不是一个常量,随着自由度的变化,95%或99%面积的界值发生变化,当时,95%和99%面积对应的界值趋近于u值。t界值表:横标目为自由度,纵标目为概率,一侧尾部面积称为单尾概率,两侧尾部面积之和称双尾概率。其中与单尾概率相对应的t界值用表示,与双尾概率相对应的t界值用表示。2、举例例如,单侧,表示时,的概率或的概率为0.05,记作:或。其通式:单侧:或双侧:图中阴影部分面积的概率为:

303、从t值表及t分布曲线可得(1)在相同自由度时,概率P越小,t绝对值越大。(2)在相同t值时,双尾概率是单尾概率的两倍。(3)相同概率时的t界值,自由度越小,t的绝对值越大。

第二节总体均数的估计一、可信区间的概念(ConfidenceInterval)

区间估计:指按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。事先给定的概率称为可信度,通常取。

参数估计点估计:不考虑抽样误差,如区间估计:考虑抽样误差二、可信区间的计算

(一)已知一般情况其中为标准正态分布的双侧界值。

可信区间:标准正态分布(二)未知通常未知,这时可以用其估计量S代替,但

已不再服从标准正态分布,而是服从著名的t分布。

图4-2不同自由度的t

分布图

可信区间的计算:计算可信区间的原理与前完全相同,仅仅是两侧概率的界值有些差别。即可信区间:需要注意:在小样本情况下,应用这一公式的条件是原始变量服从正态分布。在大样本情况下(如n>100),也可以用替换近似计算。

例2某医生测得25名动脉粥样硬化患者血浆纤维蛋白原含量的均数为3.32g/L,标准差为0.57g/L,试计算该种病人血浆纤维蛋白原含量总体均数的95%可信区间。下限:上限:例3试计算例1中该地成年男子红细胞总体均数的95%可信区间。本例属于大样本,可采用正态近似的方法计算可信区间。因为,则95%可信区间为:下限:上限:模拟实验模拟抽样成年男子红细胞数。设定:产生100个随机样本,分别计算其95%的可信区间,结果用图示的方法表示。从图可以看出:绝大多数可信区间包含总体参数,只有6个可信区间没有包含总体参数(用星号标记)。

图4-2模拟抽样成年男子红细胞数100次的95%可信区间示意图

******(三)未知,n足够大(n>100)总体均数的可信区间为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论