均数抽样误差与参数估计_第1页
均数抽样误差与参数估计_第2页
均数抽样误差与参数估计_第3页
均数抽样误差与参数估计_第4页
均数抽样误差与参数估计_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、抽样分布与参数估计抽样分布与参数估计1基本概念(复习)基本概念(复习)n总体:总体:根据研究目的所定的同质研究对象中所有观根据研究目的所定的同质研究对象中所有观察单位的某变量值的集合。分无限总体和有限总体。察单位的某变量值的集合。分无限总体和有限总体。n样本:样本:按随机化原则从同质总体中随机抽取的部分按随机化原则从同质总体中随机抽取的部分观察单位的某变量值的集合。观察单位的某变量值的集合。 n变量类型:变量类型:数值变量资料和分类变量资料。数值变量资料和分类变量资料。n统计量:统计量:描述样本特征的指标描述样本特征的指标 。n参数:参数:描述总体特征的指标描述总体特征的指标 。2基本概念(复

2、习)基本概念(复习)n概率:概率:描述随机事件发生可能性大小的一个度量。描述随机事件发生可能性大小的一个度量。n正态分布正态分布 ;标准正态分布;标准正态分布n抽样研究抽样研究(sampling study):用样本信息推断总体:用样本信息推断总体特征的研究方法。特征的研究方法。n统计推断统计推断(statistical inference):即如何抽样以及:即如何抽样以及如何用样本信息推断总体特征。包括总体参数估如何用样本信息推断总体特征。包括总体参数估计和假设检验。计和假设检验。2( ,)N (0,1)N3n抽样研究:样本信息 总体特征n统计推断: 总体参数的估计 假设检验4n抽样误差(抽

3、样误差(sampling error):):由于个体变异的存在,由于个体变异的存在,抽样研究所造成的样本统计量与总体参数之间的差异或抽样研究所造成的样本统计量与总体参数之间的差异或各样本统计量之间的差异,称为抽样误差。各样本统计量之间的差异,称为抽样误差。n抽样误差在抽样研究中是不可避免的,但只要严格遵循随机化抽样的原则,就能估计抽样误差的大小。5由于变异的存在,抽样研究所造成的样本均数与总体均数的差异,以及各样本均数间的差异称为均数的抽样误差均数的抽样误差。抽样误差在抽样研究中是不可避免的,但只要严格遵循随机化抽样的原则,就能估计抽样误差的大小。第一节 均数的抽样误差和总体均数的估计6抽样实

4、验n假设某市16岁女中学生的身高值分布服从均数=155.4cm,标准差=5.3cm的正态分布,即xN(155.4,5.32)。 n从该总体中以样本含量n反复进行抽样(如抽10000个样本),分别计算样本均数 ,编制频数表,绘制直方图,观察样本均数的分布。 X7从正态总体从正态总体N(155.4,5.32)中以样本量中以样本量n=10抽样抽样1000010000次次 8从正态总体从正态总体N(155.4,5.32)中以样本量中以样本量n=20抽样抽样1000010000次次9从正态总体从正态总体N(155.4,5.32)中以样本量中以样本量n=30抽样抽样1000010000次次10从正态总体从

5、正态总体N(155.4,5.32)中以样本量中以样本量n=50抽样抽样1000010000次次11从正态总体从正态总体N(155.4,5.32)中以样本量中以样本量n=100抽样抽样1000010000次次12抽样实验结果样本量不同时,样本均数的分布13抽样实验结果样本量不同时,样本均数的标准差14抽样实验结果总体标准差不同时,样本均数的分布15抽样实验结果总体标准差不同时,样本均数的标准差16样本均数的样本均数的抽样分布抽样分布(sampling distribution)具有如下具有如下特点:特点:17各样本均数未必等于总体均数;各样本均数未必等于总体均数;各样本均数间存在差异;各样本均数

6、间存在差异;样本均数的分布围绕着总体均数,中间多两边少,左右基样本均数的分布围绕着总体均数,中间多两边少,左右基本对称,近似服从正态分布;本对称,近似服从正态分布;样本均数的变异范围较之原变量的变异范围小;样本均数的变异范围较之原变量的变异范围小;随着样本含量的增大,样本均数的变异范围逐渐缩小。随着样本含量的增大,样本均数的变异范围逐渐缩小。理论上可以证明,理论上可以证明,从正态分布总体从正态分布总体 中以固定中以固定 n 抽样时,样本均抽样时,样本均数数 的分布仍服从正态分布的分布仍服从正态分布 。 当样本含量当样本含量 n 足够大时,即使从偏态分布总体中以固定足够大时,即使从偏态分布总体中

7、以固定 n 抽样,其样本均数的分布也近似服从正态分布。抽样,其样本均数的分布也近似服从正态分布。 ),(2NX),(2XNnNX2,18非正态非正态总体总体(正偏态)抽样(正偏态)抽样样本样本均数均数的的分布分布19非正态非正态总体总体(正偏态)抽样(正偏态)抽样样本样本均数均数的的分布分布20均数的标准误均数的标准误n样本均数的标准差(记为 ),反映的是样本均数与其总体均数之间的离散程度,即 的大小,所以可将其作为描述均数抽样误差大小的指标。计算如下:n (理论值) (估计值)nssx21通常,将样本统计量的标准差称为标准误标准误(standard error, SE)。样本均数的标准差也称

8、均数的标准误均数的标准误(standard error of mean, SEM) 。n标准误小,表示抽样误差小,样本均数的代表性好;反之,标准误大,表示抽样误差大,样本均数的代表性差。n在实际工作中,可通过适当增加样本含量和减少观察值的离散程度(选择同质性较好的样本)来减少抽样误差。 标准误的意义:标准误的意义:22230t 分布分布一簇曲线),(2 NX),(2XN X0N(0,1)XXu XsXt Xun足够大时,分布分布分布分布ut(1)(2)(3)以固定以固定 n 随机抽样随机抽样24英国统计学家英国统计学家Gosset均数的抽样分布 t 分布25tttf212)1 ()2()21(

9、1)(t 分布是一种连续性分布,主要用于分布是一种连续性分布,主要用于t 检验和总体均数估计等问题。检验和总体均数估计等问题。26 =3t 分布曲线27t - distributionstandard normal distributiont分布的特征为:分布的特征为:1以0为中心,左右对称的单峰分布。2t 分布曲线形态变化与自由度的大小有关。自由度越小, t 值越分散,曲线越低平;自由度逐渐增大时,则分布逐渐逼近正态分布(标准正态分布)。当自由度趋于无穷大时, t 分布即为u分布。28t 分布与标准正态分布分布与标准正态分布29t 分布与标准正态分布分布与标准正态分布30t 分布与标准正态分

10、布分布与标准正态分布31t 分布与标准正态分布分布与标准正态分布32t 分布与标准正态分布分布与标准正态分布33t 分布与标准正态分布分布与标准正态分布34t 分布与标准正态分布分布与标准正态分布3536t分布的分位数(双侧t界值) /2 /21- t /2, -t /2, 37,ttP,ttP 1- t , t分布的分位数(单侧t界值)38-tt039三、总体均数的估计三、总体均数的估计(一)点估计(point estimation)(二)区间估计(interval estimation) 按照一定的按照一定的概率概率估计总体参数可能所在的一个估计总体参数可能所在的一个范围范围,称为区间,称

11、为区间估计。估计。 概率概率可信度,通常取可信度,通常取 95% 95% 或或 99% 99% 。 所估计的总体参数的范围所估计的总体参数的范围可信区间可信区间(confidence interval)40总体均数的区间估计n1 1、当、当 未知且未知且n 较小时,由于较小时,由于 服从服从 t分布,可按分布,可按 t 分布原理估计总体均数的可信区间。分布原理估计总体均数的可信区间。 由于由于 即即 故总体均数(故总体均数(1-1- ) 100%100%的可信区间为的可信区间为1,2/,2/tttPXXstXstX,2,2,41总体均数的区间估计总体均数的区间估计n2、当、当 未知但未知但n足

12、够大时(足够大时( n 100),),t分布近似分布近似u分布,可分布,可以以 u 界值代替界值代替 t 界值,估计总体均数的可信区间。界值,估计总体均数的可信区间。n3、当当 已知时,可按正态分布的原理,估计总体均数的可已知时,可按正态分布的原理,估计总体均数的可信区间。信区间。XXsuXsuX22,XXuXuX22,42例例3 某地抽取正常成年人某地抽取正常成年人200名,测得其血清胆固醇的均数名,测得其血清胆固醇的均数为为3.64 mmol/L,标准差为,标准差为1.20mmol/L,估计该地正常成年,估计该地正常成年人血清胆固醇均数的人血清胆固醇均数的95%可信区间。可信区间。 本例本

13、例 n=200100,故可采用正态近似的方法按公式,故可采用正态近似的方法按公式(3-8) 计算可信区间。今计算可信区间。今 X=3.64、S=1.20、n=200、XS=0.0849, 取双尾取双尾 0.05 得得0.05/21.96u。 3.641.960.0849(3.47, 3.81)(mmol/L) 故该地正常成年人血清胆固醇均数的95%可信区间为(3.47, 3.81)mmolL。43四、可信区间的确切涵义四、可信区间的确切涵义44 1. 95%的可信区间的理解:的可信区间的理解:(1)我们所估计的可信区间有95%的可能包含所要估计的总体参数。(2)从正态总体中随机抽取100个样本

14、,可算得100个样本均数和标准差,也可算得100个均数的可信区间,平均约有95个可信区间包含了总体均数 。(3)但在实际工作中,只能根据一次试验结果估计可信区间,我们就认为该区间包含了总体均数。 45 2.可信区间的两个要素可信区间的两个要素(1)准确度:用可信度(1)表示:即区间包含总体均数 的理论概率大小 。 当然它愈接近1愈好,如99%的可信区间比95%的可信区间要好 。(2)精确度:反映在区间的宽度上。 区间愈窄愈好,如95%的可信区间比99%的可信区间要好 。46 n当n确定时,上述两者互相矛盾。n提高准确度(可信度),则精确度降低(可信区间会变宽),势必降低可信区间的实际应用价值,

15、故不能笼统认为99%可信区间比95%可信区间要好。n相反,在实际应用中,95%可信区间更为常用。n在可信度确定的情况下,增加样本含量可减小区间宽度,提高精确度。47从正态总体N(155.4,5.32)中抽样n=10 , =0.0548从正态总体N(155.4,5.32)中抽样n=10 , =0.0549从正态总体N(155.4,5.32)中抽样n=10 , =0.1050从正态总体N(155.4,5.32)中抽样n=10 , =0.1051从正态总体N(155.4,5.32)中抽样n=10 , =0.0152从正态总体从正态总体N(155.4,5.32)中抽样中抽样n=10 , =0.0153

16、n=10=0.05=0.10=0.0154准确度(可信度)逐渐降低,精确度逐渐升高;准确度(可信度)逐渐降低,精确度逐渐升高;从正态总体从正态总体N(155.4,5.32)中抽样中抽样n=30 , =0.0555从正态总体从正态总体N(155.4,5.32)中抽样中抽样n=30 , =0.0156从正态总体从正态总体N(155.4,5.32)中抽样中抽样n=30 , =0.1057n=30=0.01=0.05=0.1058准确度(可信度)逐渐降低,精确度逐渐升高;准确度(可信度)逐渐降低,精确度逐渐升高;=0.05n=10n=3059准确度(可信度)不变,精确度逐渐升高;准确度(可信度)不变,

17、精确度逐渐升高;单侧可信区间单侧可信区间n在一些实际问题中,往往关心某些未知参数的上限或下限。例如对某种药物的有效性,人们总希望其越大越好,这时可以主要考虑有效性的“下限”;而对其毒性来说,人们总希望毒性越小越好,这时应考虑毒性的“上限”-单侧可信区间单侧可信区间n为研究某种轮胎的磨损特性,随机取16只轮胎试验。其行驶里程的均数为41116公里,标准差为6346公里,如果该样本来自正态分布总体,试求该种轮胎平均行驶里程的95%可信区间下限。) 1(/ntnsxt1)/(1,1ntnsxP383341,1nLtnsx6061问题:问题: (1 1)该地区全部)该地区全部2020岁男青年的平均身高是多少(岁男青年的平均身高是多少(P P0.950.95)? ?(2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论