均数抽样误差与参数估计_第1页
均数抽样误差与参数估计_第2页
均数抽样误差与参数估计_第3页
均数抽样误差与参数估计_第4页
均数抽样误差与参数估计_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

均数抽样误差与参数估计基本概念(复习)概率:描述随机事件发生可能性大小得一个度量。正态分布;标准正态分布抽样研究(samplingstudy):用样本信息推断总体特征得研究方法。统计推断(statisticalinference):即如何抽样以及如何用样本信息推断总体特征。包括总体参数估计和假设检验。2抽样研究:样本信息总体特征统计推断:总体参数得估计假设检验3抽样误差(samplingerror):由于个体变异得存在,抽样研究所造成得样本统计量与总体参数之间得差异或各样本统计量之间得差异,称为抽样误差。抽样误差产生得两个前提条件:①个体变异;②抽样研究抽样误差得大小与两个因素有关:①总体中个体变异得程度;②抽样时得样本含量大小抽样误差在抽样研究中就是不可避免得,但只要严格遵循随机化抽样得原则,就能估计抽样误差得大小。4由于变异得存在,抽样研究所造成得样本均数与总体均数得差异,以及各样本均数间得差异称为均数得抽样误差。抽样误差在抽样研究中就是不可避免得,但只要严格遵循随机化抽样得原则,就能估计抽样误差得大小。第一节均数得抽样误差和总体均数得估计5抽样实验假设某市16岁女中学生得身高值分布服从均数

=155、4cm,标准差

=5、3cm得正态分布,即x~N(155、4,5、32)。从该总体中以样本含量n反复进行抽样(如抽10000个样本),分别计算样本均数,编制频数表,绘制直方图,观察样本均数得分布。6从正态总体N(155、4,5、32)中以样本量n=10抽样10000次

7从正态总体N(155、4,5、32)中以样本量n=20抽样10000次8从正态总体N(155、4,5、32)中以样本量n=30抽样10000次9大家有疑问的,可以询问和交流可以互相讨论下,但要小声点从正态总体N(155、4,5、32)中以样本量n=50抽样10000次11从正态总体N(155、4,5、32)中以样本量n=100抽样10000次12抽样实验结果——样本量不同时,样本均数得分布13抽样实验结果——样本量不同时,样本均数得标准差14抽样实验结果——

总体标准差不同时,样本均数得分布15抽样实验结果——总体标准差不同时,样本均数得标准差16样本均数得抽样分布(samplingdistribution)具有如下特点::17①各样本均数未必等于总体均数;②各样本均数间存在差异;③样本均数得分布围绕着总体均数,中间多两边少,左右基本对称,近似服从正态分布;④样本均数得变异范围较之原变量得变异范围小;⑤随着样本含量得增大,样本均数得变异范围逐渐缩小。理论上可以证明,从正态分布总体中以固定n抽样时,样本均数得分布仍服从正态分布。

当样本含量n足够大时,即使从偏态分布总体中以固定n抽样,其样本均数得分布也近似服从正态分布。18非正态总体(正偏态)抽样样本均数得分布19非正态总体(正偏态)抽样样本均数得分布20均数得标准误样本均数得标准差(记为),反映得就是样本均数与其总体均数之间得离散程度,即得大小,所以可将其作为描述均数抽样误差大小得指标。计算如下:(理论值)(估计值)21通常,将样本统计量得标准差称为标准误(standarderror,SE)。样本均数得标准差也称均数得标准误(standarderrorofmean,SEM)

。标准误小,表示抽样误差小,样本均数得代表性好;反之,标准误大,表示抽样误差大,样本均数得代表性差。在实际工作中,可通过适当增加样本含量和减少观察值得离散程度(选择同质性较好得样本)来减少抽样误差。标准误得意义:22230t分布一簇曲线0N(0,1)n足够大时,(1)(2)(3)以固定n随机抽样24英国统计学家Gosset均数得抽样分布——t分布25t分布就是一种连续性分布,主要用于t检验和总体均数估计等问题。26=3t分布曲线27t-distributionstandardnormaldistributiont分布得特征为:1、以0为中心,左右对称得单峰分布。2、t分布曲线形态变化与自由度得大小有关。自由度越小,t值越分散,曲线越低平;自由度逐渐增大时,则分布逐渐逼近正态分布(标准正态分布)。当自由度趋于无穷大时,t分布即为u分布。28t分布与标准正态分布29t分布与标准正态分布30t分布与标准正态分布31t分布与标准正态分布32t分布与标准正态分布33t分布与标准正态分布34t分布与标准正态分布3536t分布得分位数(双侧t界值)/2/21-

t/2,-t/2,37

1-

t,t分布得分位数(单侧t界值)38-tt039三、总体均数得估计(一)点估计(pointestimation)(二)区间估计(intervalestimation)

按照一定得概率估计总体参数可能所在得一个范围,称为区间估计。概率——可信度,通常取95%或99%。所估计得总体参数得范围——可信区间(confidenceinterval)40总体均数得区间估计1、当未知且n较小时,由于服从t分布,可按t分布原理估计总体均数得可信区间。由于即故总体均数(1-)100%得可信区间为41总体均数得区间估计2、当未知但n足够大时(n>100),t分布近似u分布,可以u界值代替t界值,估计总体均数得可信区间。3、当已知时,可按正态分布得原理,估计总体均数得可信区间。42例3某地抽取正常成年人200名,测得其血清胆固醇得均数为3、64mmol/L,标准差为1、20mmol/L,估计该地正常成年人血清胆固醇均数得95%可信区间。

故该地正常成年人血清胆固醇均数得95%可信区间为(3、47,3、81)mmol

L。43四、可信区间得确切涵义44

1、95%得可信区间得理解:(1)我们所估计得可信区间有95%得可能包含所要估计得总体参数。(2)从正态总体中随机抽取100个样本,可算得100个样本均数和标准差,也可算得100个均数得可信区间,平均约有95个可信区间包含了总体均数。(3)但在实际工作中,只能根据一次试验结果估计可信区间,我们就认为该区间包含了总体均数

45

2、可信区间得两个要素(1)准确度:用可信度(1

)表示:即区间包含总体均数

得理论概率大小。当然她愈接近1愈好,如99%得可信区间比95%得可信区间要好。(2)精确度:反映在区间得宽度上。区间愈窄愈好,如95%得可信区间比99%得可信区间要好。46

当n确定时,上述两者互相矛盾。提高准确度(可信度),则精确度降低(可信区间会变宽),势必降低可信区间得实际应用价值,故不能笼统认为99%可信区间比95%可信区间要好。相反,在实际应用中,95%可信区间更为常用。在可信度确定得情况下,增加样本含量可减小区间宽度,提高精确度。47从正态总体N(155、4,5、32)中抽样n=10,=0、0548从正态总体N(155、4,5、32)中抽样n=10,=0、0549从正态总体N(155、4,5、32)中抽样n=10,=0、1050从正态总体N(155、4,5、32)中抽样n=10,=0、1051从正态总体N(155、4,5、32)中抽样n=10,=0、0152从正态总体N(155、4,5、32)中抽样n=10,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论